(资料图片仅供参考)
5月9日,中文通用大模型综合性评测基准 SuperCLUE 正式发布。该基准测试主要关注以下问题:中文大模型在不同任务上的表现如何?与国际代表性模型相比,中文大模型的表现达到了何种程度?中文大模型与人类表现相比如何?
该模型可通过多个层面,考验市面上主流的中文 GPT 大模型的能力:
基础能力: 包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等 10 项能力。
专业能力: 包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等 50 多项能力。
中文特性能力: 针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等 10 项多种能力。
该机构利用 SuperCLUE 测试基准,对市面上主流的支持中文的通用大模型进行了评测与排名。从排名中我们可以看出,GPT-4 一骑绝尘,已经非常接近人类的能力。国产大模型中讯飞科技研发的星火认知大模型总排名第三,国内排名第一。
以下为该机构公布的各个子项目的具体得分。排行榜会定期更新,并于CLUEbenchmarks 官方网站进行公示。
标签:最近更新
- 世界要闻:中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一2023-05-10
- 淘宝天猫集团架构调整完成 戴姗宣布三个变革方向|天天讯息2023-05-10
- 海通证券环保行业22年报及23Q1总结:经营质量显著改善 多板块复苏明显2023-05-10
- 天天百事通!选前稳住13邦交国没问题?吴钊燮:会尽全力2023-05-10
- 每日短讯:2023第5届武汉国际水科技博览会开幕2023-05-10
- 哈登季后赛生涯总得分超越张伯伦,NBA历史第20_讯息2023-05-10
- 世界热消息:阿里巴巴戴珊:今年会在用户规模上进行历史性的巨大投入2023-05-10
- 世界播报:这场比赛掘金进攻端的发挥确实可以2023-05-10
- Failed to connect to zw.gozuowen.com port 80: Timed out2023-05-10
- 天天微资讯!马斯克:推特很快将支持通话、加密私信等功能2023-05-10
- AI前哨|出门问问将赴港上市:最高融资3亿美元 已选择投行_天天亮点2023-05-10
- ChatGPT访问量4月再创新高 达到17.6亿次-天天头条2023-05-10
- 全球资讯:年轻人不买新手机,是因为质量越来越好吗?2023-05-10
- 又崩了?苹果回应2023-05-10
- 2023年“百场万企”大中小企业融通对接活动启动-今日快讯2023-05-10
- 战成都赛前泰山代理教练强调心态 “没落贵族”给对手戴高帽|每日报道2023-05-10
- 醴陵市成功举办劳动教育管理干部和骨干教师培训_全球简讯2023-05-10
- win7截图保存位置_win7截图保存在哪里_焦点播报2023-05-10
- 天天热讯:中国位于南半球吗?(中国位于南半球还是北半球呀)2023-05-10
- 宁国:全力打造绿色生态城市 新动态2023-05-10
- 中泰证券:给予奥翔药业买入评级-世界速看2023-05-10
- 成都市商务局:“成都全市餐饮外卖停业”消息不实2023-05-10
- 二向箔是什么打击表情包_二向箔是什么-世界热头条2023-05-10
- 腾讯校招生接替CEO!程武辞别阅文集团,曾出品《人世间》《庆余年》等爆款2023-05-10
- iPhone 16 Pro系列有望配备更大屏幕 预计分别为6.2英寸、6.8英寸2023-05-10
- 每日热门:中信证券:社服行业如期复苏 从预期面走向基本面2023-05-10
- 每日热文:日本石油协会(PAJ):截至5月6日当周 日本商业原油库存下降15万千升至1114万千升2023-05-10
- 【全球快播报】任城区古槐街道西门社区网格中心:“两癌”筛查惠民生,筑牢健康“保护屏”2023-05-10
- 人民法院报:单纯限制高消费不等于信用“破损”2023-05-10
- 300余家生态伙伴参与内测,“第一个吃螃蟹”的文心一言怎么样了?2023-05-10