(资料图)
凤凰网科技讯 《AI前哨》 5月9日消息,今日,中文通用大模型综合性评测基准SuperCLUE正式发布。中文通用大模型基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。
据介绍,SuperCLUE主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。
与此同时,SuperCLUE评测榜单也同步公开。该榜单测试了国内外9个模型,分别为GPT4、GPT3.5-turbo、讯飞星火认知大模型、MiniMax、BELLE-138、ChatGML-68、M0SS-168、Vicuna-138、文心一言,九大模型还与人类进行了对比。
榜单显示,从人类测评角度看,基础能力(98%)+中文特性(95%),都达到了非常高的水平。除GPT-4外,人类准确率大幅超过了其他的大模型(如在基础能力上超过其他模型20多个百分点)。AI虽然进展很快,但人类还是有相对优势的, 比如在计算方面,人类比最强模型GPT-4高出了30个百分点。
目前,国际先进模型效果具有较大的领先性,而同时国产GPT模型也有不俗的表现。
榜单中,表现最好的国内大模为讯飞星火认知大模型,总分53.58分,与GPT-4相比有23个百分点的差距,与gpt-3.5-turbo在总分上有13个百分点的差距。在语义理解方面,讯飞星火认知大模型得分100分,超过GPT-4。百度文心一言在榜单中排名最后一名,得分32.61分。
据悉,SuperCLUE从基础能力、专业能力和中文特性能力三个不同的维度评价大模型。其中,基础能力包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力;专业能力包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力;中文特性能力针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。
值得注意的是,SuperCLUE标明了评测基准的不足和局限,包括中文特性能力总数据量比较少,以及选取的模型较少。
标签:最近更新
- AI前哨 | 中文通用大模型评测基准SuperCLUE发布:讯飞星火大模型国内第一-世界头条2023-05-09
- 工信部通报56款侵害用户权益APP 涉英雄互娱创梦天地|全球播资讯2023-05-09
- 天天快资讯:程一笑:快手电商GMV进入万亿规模 拿600亿流量激励达人2023-05-09
- 当前观察:中国联通荣获“2022年度SDN、NFV、网络AI优秀案例征集活动”创新实践案例2023-05-09
- 如何给圆锯片上油_情人生日送什么礼物比较好男士2023-05-09
- 世界百事通!小升初,你需要的都在这里!2023-05-09
- 乘联会:4月乘用车出口30万辆同比增长227% 新能源车占比31%2023-05-09
- 脑血管造影检查多少钱_脑血管造影要多少钱 世界热消息2023-05-09
- AI浪潮涌动,普通人的冲浪板在何处?-全球快看点2023-05-09
- 天天快播:OpenAI发布Shap-E模型 支持让文本或图像转换成3D对象2023-05-09
- 京东新版APP即将上线 减少营销标签和弹窗 焦点热门2023-05-09
- 5G标准必要专利全球排名再传捷报:中国企业已占半壁江山,华为第一、小米高增速晋级2023-05-09
- 研究人员认为剧烈太阳活动可能是地球生命诞生“重要推手”2023-05-09
- 店巢网络拼多多代运营_高效代运营提升拼多多店铺销量2023-05-09
- 长春净月区人民法院:异国婚姻云分手,线上庭审化纠纷2023-05-09
- 环球观察:马卡:华金退役慈善赛将在6月7日凌晨3点举行,他邀请哈维参赛2023-05-09
- 全球观天下!天奥电子(002935)5月9日主力资金净买入558.26万元2023-05-09
- 【天天热闻】搜索引擎、智能镜头大进化?传谷歌有一系列AI新功能后天发布2023-05-09
- 全球观焦点:南京联通助力南京海事局成功实现基于5G+固定翼无人机的全辖区98公里长江空中连续巡航2023-05-09
- 商丘市民主路第二小学开展“防灾减灾 安全你我”主题升旗仪式2023-05-09
- 2022年12月中国品牌房企官方视频号影响力TOP502023-05-09
- 【新视野】广西下达今年1.4万公顷补充耕地任务2023-05-09
- imessage激活出错请再试一次_imessage激活不2023-05-09
- 天天要闻:浙江率先启动工业互联网标识贯通行动计划2023-05-09
- 今年山西5G基站将达到9.21万个-热头条2023-05-09
- 江苏通信业推进行风建设和纠风工作-全球信息2023-05-09
- 天天百事通!瘦了二十斤后手部会有哪些变化?2023-05-09
- 沦为境外情报机构帮凶,知名公司被查!大量细节披露→2023-05-09
- 推动消费加快复苏2023-05-09
- 【环球速看料】650泰铢是多少人民币(2023年5月9日)2023-05-09