复旦测评13家大模型高考数学成绩,字节豆包II卷超GPT-4o夺冠

来源: 伊秀女性网
2024-06-15 00:50:43

  新民晚报讯(记者金志刚)近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新I卷评测排名中,字节豆包也排在前列。

  据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。

  评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新II卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。

  今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-p ro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现,得分排在前

  克勒希是今年访华的首位联合国系统高级官员。中国一贯支持多边主义,支持联合国工作,支持联合国大会发挥重要作用。此访取得圆满成功,我想可以用三个关键词总结此次访问的成果:

  星云大师找到母亲,跟母亲说要在这里出家,母亲即刻回答:“不可以!”星云并说:“我已经承诺人家,没有办法反悔了!”母亲立刻讲:“没有关系,我去替你跟当家师回绝!”星云大师就把母亲带到师父面前,当时师父跟母亲说,未来会如何栽培他、如何有前途……,最后让星云大师母亲动了心,同意让他出家,第2天星云大师就这样剃度出家了。

  翼友机车总经理查正月对记者说,今年,翼友机车还将布局人工智能设备开发生产,以期成为优秀的智能制造整体解决方案研发设计、生产制造、销售与服务提供商,带动国内减震系统产品进一步优化提升。目前该项目已完成部分建设进度。

  在自然条件下,竹节参的种子很难自然成苗,主要是因为种子成熟后处于休眠状态,只有在适宜的环境作用下完成“胚后熟”才能萌发成幼苗。因此,只有保护好其“家园”,竹节参才能“兴旺发达”。保护好濒危的竹节参,不仅有利于研究人参属植物的系统进化机制,也有利于该资源的可持续利用。(完)

  跳出这一怪圈,是业主和物业公司共同的愿望。一方花钱购买相应服务,一方收费履行承诺事项,物业服务领域的交易过程说起来容易、做起来难。对于新建商品房小区,不存在历史遗留等问题,通常矛盾较少,相对容易实现较现代的管理模式。对于很多老旧小区、回迁安置小区、单位出资建设或管理的小区、楼栋规模较小的小区等,物业管理模式多样,也往往困难重重。比如,有的业主多年拒不缴纳物业费,相当于由其他业主分担其物业成本,形成负面激励作用;有的小区不同业主享有不同收费政策或约定,因此对物业费用、服务内容等出现争议;有的小区规模太小,收费不足以支撑物业日常成本;有的物业公司与小区存在纠纷、烂账,难以全身而退,等等。

  <a target='_blank' href='/'>中新社</a>海南文昌2月6日电 (记者 符宇群)海南文昌国际航天城起步区一期工程6日正式开工建设,标志着海南文昌国际航天城建设全面启动。

杨雅雯

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

Copyright © 2023 Sohu All Rights Reserved

搜狐公司 版权所有