AI前哨 | 中文通用大模型评测基准SuperCLUE发布：讯飞星火大模型国内第一-世界头条 - 业界

时间：2023-05-09 17:39:17 / 来源：凤凰网 / 点击数：()

(资料图)

凤凰网科技讯《AI前哨》 5月9日消息，今日，中文通用大模型综合性评测基准SuperCLUE正式发布。中文通用大模型基准（SuperCLUE），是针对中文可用的通用大模型的一个测评基准。

据介绍，SuperCLUE主要回答的问题是：在当前通用大模型大力发展的情况下，中文大模型的效果情况。包括但不限于：这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、这些模型与人类的效果对比如何？它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE是中文语言理解测评基准（CLUE）在通用人工智能时代的进一步发展。

与此同时，SuperCLUE评测榜单也同步公开。该榜单测试了国内外9个模型，分别为GPT4、GPT3.5-turbo、讯飞星火认知大模型、MiniMax、BELLE-138、ChatGML-68、M0SS-168、Vicuna-138、文心一言，九大模型还与人类进行了对比。

榜单显示，从人类测评角度看，基础能力（98%）+中文特性（95%），都达到了非常高的水平。除GPT-4外，人类准确率大幅超过了其他的大模型（如在基础能力上超过其他模型20多个百分点）。AI虽然进展很快，但人类还是有相对优势的，比如在计算方面，人类比最强模型GPT-4高出了30个百分点。

目前，国际先进模型效果具有较大的领先性，而同时国产GPT模型也有不俗的表现。

榜单中，表现最好的国内大模为讯飞星火认知大模型，总分53.58分，与GPT-4相比有23个百分点的差距，与gpt-3.5-turbo在总分上有13个百分点的差距。在语义理解方面，讯飞星火认知大模型得分100分，超过GPT-4。百度文心一言在榜单中排名最后一名，得分32.61分。

据悉，SuperCLUE从基础能力、专业能力和中文特性能力三个不同的维度评价大模型。其中，基础能力包括了常见的有代表性的模型能力，如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力；专业能力包括了中学、大学与专业考试，涵盖了从数学、物理、地理到社会科学等50多项能力；中文特性能力针对有中文特点的任务，包括了中文成语、诗歌、文学、字形等10项多种能力。

值得注意的是，SuperCLUE标明了评测基准的不足和局限，包括中文特性能力总数据量比较少，以及选取的模型较少。

标签:

AI前哨 | 中文通用大模型评测基准SuperCLUE发布：讯飞星火大模型国内第一-世界头条

最近更新

最新文章

AI前哨 | 中文通用大模型评测基准SuperCLUE发布：讯飞星火大模型国内第一-世界头条

工信部通报56款侵害用户权益APP 涉英雄互娱创梦天地|全球播资讯

天天快资讯：程一笑：快手电商GMV进入万亿规模拿600亿流量激励达人

AI浪潮涌动，普通人的冲浪板在何处？-全球快看点

天天快播：OpenAI发布Shap-E模型支持让文本或图像转换成3D对象

京东新版APP即将上线减少营销标签和弹窗焦点热门

5G标准必要专利全球排名再传捷报：中国企业已占半壁江山，华为第一、小米高增速晋级

研究人员认为剧烈太阳活动可能是地球生命诞生“重要推手”

【天天热闻】搜索引擎、智能镜头大进化？传谷歌有一系列AI新功能后天发布

AI哨所｜揭开元宇宙惨死之谜：扎克伯格、AI都是“凶手”！天天消息

一周热门

AI前哨 | 中文通用大模型评测基准SuperCLUE发布：讯飞星火大模型国内第一-世界头条

京东苏宁“隔空喊话” 京东坚称末位淘汰不动摇

一不小心微信转错账如何挽回损失呢？

网络监管成难题：隐私泄露安全漏洞太多

外媒报道：作为纸币的发明国中国或将首先停用现金

爱钱帮宣布完成5亿元B轮融资 A股公司董事长入局

手机地下“解锁”调查：费用达千元，黑客及“内鬼”提供

丰田欲在华量产电动车型最早2019年落地

手机充电两分钟 “偷偷”被装软件四五个

欧盟27亿美元罚款将重创谷歌二季度业绩利润或腰斩