复旦测评13家大模型高考数学成绩,字节豆包II卷超GPT-4o夺冠

来源: 红网
2024-06-16 18:41:48

  新民晚报讯(记者金志刚)近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新I卷评测排名中,字节豆包也排在前列。

  据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业 领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。

  评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新II卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。

  今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现,得分排在前三。

  梦想成真,2010年11月,武大靖正式进入国家队,但在国家队训练的第一天,武大靖就遭到了当头棒喝——他感到了自己和队友之间的巨大差距。

  北青报记者注意到,目前,在网络平台上,河南、辽宁、上海、北京等多地均有网友称可以帮忙照顾阳性感染者。多名自称提供患者收费照料的网友表示,他们于近期感染新冠后已经康复,觉得自身再次感染的风险较低,因此愿意帮助其他家庭照顾病人。一名康复者表示,她刚刚参加完研究生考试,去年12月19日感染,目前已经康复了。她表示,可以帮助患者家庭做饭、打扫卫生,也能帮助患者量体温、喂药,做一些力所能及的家务活。

  马奥尼则指出,美国近来关于重振本国制造业的设想,并未成为现实。接下来几年,美国制造业可能会有一些增长,但这整体上与其对本土产品的需求无法匹配。

  12月29日,2022年中国美人鱼公开赛年度收官之战在三亚亚特兰蒂斯落幕。一年前,中国国内第一场国家级美人鱼潜水运动赛事——中国美人鱼表演赛也是在这里登场。

<img src="//i2.chinanews.com/simg/hnhd/2023/01/02/92/16489766713870742004.jpg" alt="" />

  据介绍,31号和33号公路位于柬埔寨西南部,连接茶胶、贡布、白马等省市,是沿线地区联通首都金边及越南口岸的重要道路。两项目均由中国进出口银行提供贷款,中国路桥工程公司承建,预计2026年竣工。

张伶强

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

Copyright © 2023 Sohu All Rights Reserved

搜狐公司 版权所有