(相关资料图)
图片来源:中国工业互联网研究院
近日,中国工业互联网研究院(以下简称“工联院”)针对人工智能大模型在中文工业领域的应用性能、技术架构、标准体系进行系统性评测,并发布系列报告。评测对象涵盖GPT-4、GPT-3.5、文心一言、ChatGLM等国内外具有代表性的头部大模型。
本次工业知识问答测试主要分为客观题与主观题两大类,总计超过1100个问题。主观题主要考察四大维度:基础能力、语句能力、概括能力和逻辑能力。评测结果显示,GPT-4表现最佳。国内头部大模型表现亮眼,整体与GPT-3.5相当。其中百度文心一言在国内大模型中排名第一。
在客观题方面,GPT-4与文心一言表现优于其他大模型。但评测结果也同时指出,大模型在准确率方面有较大的提升空间。在主观题方面,国内大模型的基础能力、语句能力与GPT-4接近,概括能力、逻辑能力与GPT-4存在一定差距。
评测数据集由工业领域八大行业的相关数据构成。包括电子设备制造业、装备制造业、钢铁行业、采矿行业、电力行业、石化化工行业、建材行业和纺织行业。工联院根据工业经验,结合外部数据源,按行业构建行业知识测试集。
从行业维度看,大模型在八个行业知识问答能力上差异明显,个别行业需进一步优化提升。其中,电子、装备行业评价指数较高,纺织、采矿行业综合评价指数相对较低。
分析大模型落地垂直行业痛点,丰富特定行业专业知识。虽然国内大模型在本次评测中表现较好,甚至在部分行业评分优于GPT-3.5,但工联院评测报告指出,国内外通用大模型在工业知识问答领域探索仍处于初级阶段,国内大模型与GPT-4有差距,行业间的泛化能力有待加强。对此,工联院评测报告给出的建议是进一步丰富相关专业领域的数据训练集,进行专业化的微调。
最近更新
- 大模型在工业领域探索仍处于初级阶段_观热点2023-07-06
- 【环球时快讯】内蒙古、黑龙江联合举办森林防灭火应急通信实战演练(附图片)2023-07-06
- 制造业高质量发展(汽车产业)调研行正式启动 焦点播报2023-07-06
- 飞得顺畅、飞得便捷、飞得安全无人机应用越来越广_世界时快讯2023-07-06
- 工业重点领域节能降碳改造升级范围进一步扩大 全球报资讯2023-07-06
- 世界快播:结合现代加密技术与量子光特性,科学家首次演示“量子数字支付”2023-07-06
- “特洛伊木马”细菌诱导癌细胞自毁 环球热头条2023-07-06
- 地球刚经历有记录以来最热的一天-头条2023-07-06
- 高导电金属凝胶可实现室温3D打印-天天快资讯2023-07-06
- 精彩看点:人造蛛丝完胜天然蛛丝2023-07-06
- 8岁企鹅FM说再见2023-07-06
- 柳州:立足本地特色 打好文旅产业“柳州牌” 每日视讯2023-07-06
- cpu排行榜(中国cpu排名)2023-07-06
- AI大模型落地产品迭出 互联网巨头上演“速度与激情” 世界简讯2023-07-06
- 我国人工智能创新生态展现活力 业界建议多措并举助产业发展脱虚向实2023-07-06
- 全球快看点丨AI全面参与影视制作,人类还能做什么2023-07-06
- 重点聚焦!挖出废旧手机里的真金白银2023-07-06
- 数字化拓展电影产业新空间2023-07-06
- 德马科技:融资净偿还1.66万元,融资余额6677.4万元(07-05)2023-07-06
- 博时中债5-10年农发行债券指数证券投资基金暂停大额申购、转换转入、定期定额投资业务的公告2023-07-06
- 章子怡演过啥(章子怡演过那些电影)2023-07-06
- 【全球独家】濮阳惠成(300481):7月5日北向资金减持18.24万股2023-07-06
- 精选!李玟为世界奉献好心情到最后一刻 基本情况讲解2023-07-06
- 三查八对(三查八对一注意) 天天播报2023-07-06
- 毁掉一个人最快的方式:让他活得太舒服2023-07-06
- 全球报道:侠盗一号 星球大战外传(关于侠盗一号 星球大战外传的基本详情介绍)2023-07-06
- 7月5日基金净值:华安成长先锋混合A最新净值1.0434,跌0.7%2023-07-06
- 中国网络经纪人登录(vip 58ganji com中国网络经纪人)|焦点2023-07-06
- 7月5日晚间利好消息一览(名单)2023-07-06
- 天天热头条丨多名演艺界人士悼念李玟2023-07-05