复旦测评13家大模型高考数学成绩,字节豆包II卷超GPT-4o夺冠

来源: 伊秀女性网
2024-06-15 00:13:21

  新民晚报讯(记者金志刚)近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新I卷评测排名中,字节豆包也排在前列。

  据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。

  评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千 问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新II卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。

  今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现,得分排在前三。

  北京市喜隆多购物中心有限公司董事长刘东晖介绍说,北京的商圈需要丰富的内容、丰厚的文化基底、创意的内核,现在商业变化很快,更需要超前的思路来设计,传统商圈同质化较多,要避免商圈没有特色而束缚发展,商圈的规划布局要科学精准、与市场融合并轨。对于商圈的运营,刘东晖特别提到要有“前置思维”,再好的商圈缺乏前置运营,后续很难经营好。此外,要让专业的人做专业的事,商圈业需要专业的运营管理团队。

  <strong>我国2022年汽车出口突破300万辆,产销连续14年稳居全球第一</strong>

  或横抱琵琶,或吹奏洞箫,或手持拍板,或弹拨三弦……一组德化白釉“忆南音”瓷塑生动表现了南音表演场景。南音是集唱、奏于一体的表演艺术,是中国现存最古老的乐种之一,2009年被列入人类非物质文化遗产代表作名录。汉、晋、唐、宋时期,中原移民把音乐文化带入以泉州为中心的闽南地区,并与当地民间音乐融合,形成了具有中原古乐遗韵的南音。南音用泉州方言演唱,音乐风格典雅细腻。它与闽南人的生活密切相关,闽南人聚居之地几乎都有民间南音社团。南音在台湾又称南管,深受民众喜爱。

  华住集团方面表示,募资净额将用于提升酒店组合及发展区域性经营模式资金、基础建设、供应链、个人及企业客户系统,以及一般营运用途。显然,作为酒店集团头部玩家的华住集团对于行业复苏带来的机会相当重视。2022年三季报显示,华住集团亏损达17亿元,此番通过融资解困不难理解。公司方面曾表示,近期重点仍为成本控制及谨慎资本支出,以确保公司的运营及现金流安全。

  今天(1月16日)下午,国务院联防联控机制召开新闻发布会,介绍重点人群健康保障有关情况。要点如下↓

  成某表示,经历了近10年的服刑,他并非利用刑满释放这一身份,而是因为这是他唯一的创作源泉、了解的内容。在作为刑满释放人员分享之外,成某也曾尝试运营过亲情有关的内容,但反馈平平。2023年1月12日,成某在自己的账号上发布新视频,表示尽管运营视频账号带来了一定的收入,成某还是希望年后去找一份别的工作,如果工作不顺,接下来就要专心做账号。

林哲茹

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

Copyright © 2023 Sohu All Rights Reserved

搜狐公司 版权所有