模型“日日新”：商汤“商量SenseChat 2.0”多个评测基准综合表现超ChatGPT

发布日期：2023-06-21 21:20:12 来源：上海证券报·中国证券网

商汤科技近日公布了自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。根据评测结果，“商量SenseChat 2.0”在三个测试集中表现均领先ChatGPT，实现了我国语言大模型研究的重要突破。

(资料图)

截至目前，已有近千家企业客户通过申请，应用和体验“商量SenseChat 2.0”超强的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力，并且“商量SenseChat 2.0”还在服务客户过程中，持续实现着快速迭代和提升，以及知识的实时更新。

商汤科技公布的评测结果中，选取了全球三大权威语言模型测评基准MMLU、AGIEval、C-Eval，结果显示“商量SenseChat 2.0”在三个测试集中表现均领先ChatGPT，部分已十分接近GPT4的水平。

其中，MMLU是由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学及伊利诺伊大学厄巴纳-香槟分校联合打造的大规模多任务语言理解的评测基准，涵盖了科学、技术、工程、数据，人文、社会科学等领域的57个科目，难度从初级水平到高级专业水平，考验世界知识和解决问题的能力。

在该评测中，“商量SenseChat 2.0”综合得分为68.6，远超GLM-130B（45.7分）的得分，同时还超过了ChatGPT（67.3分）、LLaMA-65B（63.5分）仅落后GPT-4（86.4分），位居第二。

AGIEval是由微软研究院发布的，专门用于评估基础模型在人类认知和问题解决相关任务中表现出的一般能力，从而实现模型智能和人类智能的对比。

在该评测中，“商量SenseChat 2.0”测出49.91的分数，遥遥领先GLM-130B（34.2分）、LLaMMA-65B（34.0分），并再次超越ChatGPT（42.9分），仅次于GPT-4的56.4分。在其中的AGIEval（GK）评测子集中，“商量SenseChat 2.0”以58.5分全面领先，仅微弱差距落后GPT-4（58.8分）。

C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集，包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别。

面对C-Eval评测基准，“商量SenseChat 2.0”拿到了66.1的分数，在参评的18个大模型中，仅次于GPT-4（68.7分），全面领先ChatGPT等一众海内外大模型。其中，C-Eval（Hard）子评测集，是选择了8个具有挑战性的数据、物理和化学科目，进一步考核大语言模型的推理能力，“商量SenseChat 2.0”也表现居于前列。

据悉，今年4月，商汤正式发布“商汤日日新SenseNova”大模型体系，以及自研中文语言大模型“商量SenseChat”。截至6月，全球范围内正式发布的大语言模型已超过40款，其中由中国厂商、高校、科研院所等发布的大语言模型近20款。

标签：

上一篇:【报资讯】北方多地将现今年来最长连续高温 下一篇:最后一页

模型“日日新”：商汤“商量SenseChat 2.0”多个评测基准综合表现超ChatGPT

模型“日日新”：商汤“商量SenseChat 2.0”多个评测基准综合表现超ChatGPT

商汤科技近日公布了自研中文语言大模型“商量SenseChat2 0”在MMLU、AG

【报资讯】北方多地将现今年来最长连续高温

中国天气网讯今天(6月21日)开始至28日，华北、黄淮等地新一轮高温天气

600多万SY青年，拉不起楼市！

600多万SY青年，拉不起楼市！,楼市,买房,天津,二手房,二手住房,公积金

速递！贵州绿色生态优选农产品上海展销推介会在沪举办

6月21日，由上海市供销合作总社、贵州省供销合作社共同指导，上海

【全球新视野】2023年6月21日上海市正丁醇价格最新行情预测

中国报告大厅2023年6月21日上海市正丁醇价格最新走势监测显示：盼得（

东营市东营区2023年建筑施工生产安全事故应急预案演练活动举行-资讯

00:58齐鲁网·闪电新闻6月21日讯今天上午，东营市东营区2023年建筑施工

异形方向盘被禁止上牌？智己汽车回应来了！

伴随着新能源汽车的兴起，近几年车辆上各式各样“奇怪”的配件也变得愈

东诚药业：子公司蓝纳成获景林景盈等9位战投合计2亿元增资

东诚药业6月21日公告，董事会同意公司控股子公司蓝纳成以增资扩股方式

德谟克利特的原子论是为什么不是近代形而上学唯物主义（古代朴素唯物主义和近代形而上学唯物主义各自的合理性和局限性是）

谟克利特的原子论是为什么不是近代形而上学唯物主义，古代朴素唯物主义

一女子试穿ZARA裤子发现裆部有血渍，店长：已做瑕疵品处理 观点

大象新闻记者吴紫翼视频报道6月19日，广东深圳一女子在ZARA试穿牛仔裤

亚太股份：取得新能源汽车项目定点 生命周期销售总额近12亿元 最资讯

亚太股份6月21日晚间公告，公司近日收到国内某头部自主品牌主机厂的《

中国海警舰艇编队6月21日在我钓鱼岛领海内巡航_天天观热点

6月21日，中国海警2502舰艇编队在我钓鱼岛领海内巡航。这是中国海警依

【全球热闻】又一一线城市拟出台措施！“电驴”不能随意骑？

电动自行车因为方便快捷，成为不少人出行首选代步工具。不过，在一些一

世界微资讯！工信部：1-5月电信业务收入7125亿元，同比增长6.8%

工信部：1-5月电信业务收入7125亿元，同比增长6 8%,C114讯6月21日消息

中信银行动卡空间如何查询历史账单 具体操作方法介绍

中信银行动卡空间如何查询历史账单具体操作方法介绍,

焦点日报：OPPO Find X6线下发布会报名方法介绍

是最近手机行业中比较火爆的机型之一，这款手机在发布以来就深受用户们

赵丽颖和冯绍峰已是幸福的一家三口 他们的婚姻真相是？ 实时焦点

魁罡是制服众人之星,有领导威权,也有刚强不屈之个性，女人有此星,即使

世界观点：尼格买提：我30岁娶帕夏古丽，结婚9年没孩子，含泪放手给她自由

在阅读此文之前，麻烦您点击一下“关注”，既方便您进行讨论和分享，又

焦点热讯:剑网三身份证查询_剑网三花价查询

1、每次有累计消费领奖的时候登陆那个领奖界面会提示还差多少可以领取7

魔人布1.8亿欧！哈兰德身价再上涨，与姆巴佩并列最高

德国转会市场更新球员身价，哈兰德上涨1000万欧，来到了1 8亿欧，与姆

恒山在什么省什么市（恒山在什么省）

来为大家解答以上问题。恒山在什么省什么市，恒山在什么省这个很多人还

北方高层住宅可以选吗_高层住宅怎么选

关注户型格局：大多数高层住宅都是框架结构，一层对称规划两户或者是四

AI龙头利空突袭 大股东拟减持超22亿元 股价已涨超3倍！

6月20日晚间，昆仑万维发布公告称，持有公司11 06%股份的股东李琼计划

辽宁省博物馆2023年端午活动及展览 当前观察

辽宁省博物馆2023年端午活动及展览香飘端午粽情粽意活动时间第一场：20

医疗保险怎么查询 医疗保险怎么查询交了多少年|焦点精选

1、打开手机，找到支付宝，点击并进入。2、进入之后，选择“城市服务”

爱建集团：6月20日融券净卖出3.89万股，连续3日累计净卖出7.33万股|全球热点评

闪电气象吧｜最高温39℃！东营发布“端午节”假期天气预报-全球实时

环球微头条丨孔板流量计安装时应注意什么问题（孔板流量）

“一主二分”新模式，第十届上海荷花睡莲展明天开幕

深圳新星(603978.SH)董事、财务总监卢现友完成减持13.82万股

播报：优化管理 百洋医药(301015.SZ)子公司拟出让创新药公司普泰科51%股权

如何设置数据有效性的动态序列（如何设置数据有效性）

合金弹头1绿色版_新合金弹头无敌版相关内容简介介绍

2023全国智能驾驶测试赛（长三角赛区）鸣枪发车，谁能脱颖而出？

红米k30参数_关于红米k30参数 动态

天天微速讯：天天酷跑雷焰狮王图片_《天天酷跑》坐骑选择之雷焰狮王和闪电豹哪个好

大润发供应商网站系统（大润发供应商系统登陆）-世界微头条

2023端午进贤县民和镇划龙舟活动出行提示_全球焦点

我科研团队创制新型基因 攻克“水稻癌症” 全球百事通

北京：非住宅房屋征收补偿新规出台，7月1日起执行|世界独家

官宣！勇士离队第2人出现！为球队奉献8年，曾因伤险些断送生涯

做大规模放大会展“溢出效应”

游戏板块走高，多股涨超4%_全球快讯

热消息：严重缺电靠中国弥补，越南能成为世界工厂吗？

通信设备板块是算力核心

金沃股份：融资净买入55.5万元，融资余额2500.45万元（06-19）-全球今热点

天天快报!《贵安新区高质量发展三年攻坚实施方案》发布

黑色电脑桌面壁纸高清全屏_黑色电脑桌面壁纸

专业“上新”促人才“出新”

天天热点评！漫威漫画里面的星爵到底拥有着哪些能力呢？

快船，火箭和奇才！6年时间，实现闭环？ 天天热闻

萨拉米是什么_萨拉米介绍

治理项目如何确保高效完成？他们又一次走进社区-全球资讯

世界快报:多地强化政策引导、创新支撑和要素保障——推动制造业高质量发展

　　6月21日，由上海市供销合作总社、贵州省供销合作社共同指导，上海

一女子试穿ZARA裤子发现裆部有血渍，店长：已做瑕疵品处理观点

亚太股份：取得新能源汽车项目定点生命周期销售总额近12亿元最资讯

中信银行动卡空间如何查询历史账单具体操作方法介绍

赵丽颖和冯绍峰已是幸福的一家三口他们的婚姻真相是？实时焦点

AI龙头利空突袭大股东拟减持超22亿元股价已涨超3倍！

辽宁省博物馆2023年端午活动及展览当前观察

医疗保险怎么查询医疗保险怎么查询交了多少年|焦点精选

播报：优化管理百洋医药(301015.SZ)子公司拟出让创新药公司普泰科51%股权

红米k30参数_关于红米k30参数动态

我科研团队创制新型基因攻克“水稻癌症” 全球百事通

快船，火箭和奇才！6年时间，实现闭环？天天热闻

中国创意控股(08368)拟发行约4467.2万股认购股份及1017万港元的可换股债券世界微速讯

安印电子印章怎么使用安印

皇马官宣今夏第三签！50万租借33岁西班牙国脚中锋引援已结束

如何安装路由器（无线路由器应该怎么连接安装和设置）环球热头条

美报告：美国政府经常获取大量公民个人数据可用以威胁个人安全

热消息：湖北省宜都市枝城镇金银花二茬产新结束货源正常走动

康华生物发布公告泰格盈科股份减持时间较预披露的减持已过半

ST安信发布公告上海国之杰投资发展公司的1亿股股票已被抵债过户

安徽首个“绿建三星”航站楼通过标准审查将减少大量运营费用

深圳宝安成功挂牌出让一宗商业用地计划添增世界500强总部

深圳宝安成功挂牌出让一宗商业用地计划添增世界500强总部

天津：划定封控区全市开展全员核酸检测