复旦测评13家大模型高考数学成绩,字节豆包II卷超GPT-4o夺冠

来源: 杭州网
2024-06-16 13:46:59

  新民晚报讯(记者金志刚)近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2 024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新I卷评测排名中,字节豆包也排在前列。

  据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。

  评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新II卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。

  今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现,得分排在前三。

  甘肃省烟草专卖局给出的说法更为详细,称烟草行业各级单位在职职工亲属参加本次公开招聘的,还应遵守以下规定:职工的配偶、子女及其配偶不得应聘同一机关岗位;烟草行业各级单位领导班子成员的配偶、子女及其配偶不得应聘同一机关岗位,不得应聘下一级单位的组织(人事)、纪检监察、审计、财务岗位,也不得应聘上一级单位的组织(人事)、纪检监察、审计、财务岗位。录用人员隐瞒关系的,一经发现取消录用资格。

  在杨平收受的10余笔贿赂中,其中数额最大的达28万元。2016年凤山县建筑工程公司工会主席姜某为了承包凤山县某道路建设工程,找到杨平请求帮忙,并承诺会给杨平一些好处费。杨平以“先给钱后办事”为由,让姜某把钱转存至指定的其亲属账户。作为“回报”,杨平利用职权便利为姜某取得项目工程出谋划策,最终姜某如愿通过挂靠某竞标公司的方式,中标该道路建设工程。

  马英九基金会执行长萧旭岑前往接机,与率队的北京大学党委书记郝平一同微笑着向媒体示意。萧旭岑在机场接受采访时表示,让两岸年轻人多一点认识、多一些交流、少一些误解,相对地就让两岸发生冲突的可能性减少,“这是蔡英文当局执政以来,两岸中断交流甚至已到兵凶战危的时刻,第一个这么重要的大陆大学的代表团来访台湾,所以我想这个对两岸和平以及舒缓情势紧张有重大的指标意义。所以我们马英九基金会会好好来接待跟安排,希望他们此行能够顺利圆满成功。”

  报道称,泰国政府此前推出名为“30/30”的政策,旨在到2030年实现电动汽车在全国汽车生产总量中占比30%的目标。拉差妲说,中国电动车制造商的到来,将提高电动汽车在泰国的普及程度。泰国具备成为东南亚地区电动汽车生产中心和投资中心的潜力和能力,因此政府将继续推动东部经济走廊地区各类产业发展,特别是在电动汽车领域。

  曾刚认为,LPR随着市场变动而变动,加点是之前定好不动的,但实际上也没有反映市场真实资金供求状况,所以可以适度的通过自主协商,即通过市场供求机制关系去调整。这样在降低按揭贷款人实际还款成本的同时,按揭贷款利率也顺应整个利率变化趋势进行优化调整。

  据第一财经,记者联系中国银行、建设银行、招商银行、杭州银行、宁波银行等多家银行客户和信贷经理,他们中的多数回应称,关于存量房贷降息,“没有接到相关政策,仍按照原有签订合同的利率来执行还贷政策”。

游郁涵

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

Copyright © 2023 Sohu All Rights Reserved

搜狐公司 版权所有