复旦测评13家大模型高考数学成绩,字节豆包II卷超GPT-4o夺冠

来源: 环京津网
2024-07-10 02:17:27

  新民晚报讯(记者金志刚)近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新II卷客观题正确率达到7 4.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新I卷评测排名中,字节豆包也排在前列。

  据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。

  评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新II卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。

  今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现,得分排在前三。

  在高质量建设共同富裕示范区的过程中,高水平实现老有所养、老有所医、老有所学、老有所为、老有所乐是关键的一环。记者了解到,为进一步打造“浙里康养”金名片,浙江提出将实施康养安全兜底提升工程、康养服务均衡共享工程、医养康养结合工程、银发经济促进工程、孝老美德培树工程,目标到2027年基本实现“机构跟着老人走、服务跟着需求走,补贴跟着服务走”。

  宋元话本是诉诸听觉为主的感官艺术形式,人物情节类型化和叙述套语等口头文学特色,使儿童妇女和不识字者也可以“闻而如见之”。所谓闻而如见之,首先是有鲜明的形象性和戏剧化情节。拟话本是由文人写作,供给个人阅读的文本,在脱离“听——说”艺术的过程中,小说作者掌握了更多自主权力,可以使作品在思想意蕴、个人风格的深刻与独立方面走得更远。但“读——写”模式的深度文人化,却限制了作品在普通读者中的普及性和号召力。像李渔这样靠卖文糊口的作家,关心的是市场和生计。在明清,戏曲是拥有最多受众,广受欢迎的艺术形式。在勾栏瓦舍之中,“说话”和戏曲都是现场表演的技艺,李渔将小说称为“无声戏”,标榜小说的大众性,在某种程度上使拟话本又回到大众化传播的层面。在以小说为消遣娱乐的本质上,李渔的小说更接近宋元说书,而非告诫连篇的文人拟话本。

  古朴的青沟老街上,弥漫着阜宁大糕特有的香气,随处可见售卖阜宁大糕的店铺。许多村民都从事着与阜宁大糕有关的产业,大糕已经成为村民发家致富、家庭增收的主要来源之一。青沟村村委会副主任祁夕中介绍,目前,全村人口5000人左右,生产大糕的企业和个体工商户有22家,从事大糕产业的人员达1500人。

  今年春晚,总台在技术创新应用上再次突破,实现多个“首次”:首次实现“8K超高清+三维菁彩声”春晚直播;首次使用我国自主研发的8K超高清摄像机参与春晚摄制;利用总台首创的智能伴随技术实现高清/4K/8K版春晚同步制作;首次采用三维菁彩声制作春晚音频信号,最大限度还原春晚现场的音效,打造身临其境的效果;总台牵头研发的VR三维影像绘制技术也将首次在春晚舞台上亮相,观众可实时欣赏到VR画师绘制三维影像的生成过程。

  “自双碳目标提出以来,近两年碳足迹管理服务市场的发展可以用‘突飞猛进’形容,市场规模几乎迎来成倍增长,且涉及衣食住行等几乎所有社会领域。” SGS中国知识与管理服务事业群华南区低碳领域产品经理贺晗表示,单个产品碳足迹的计算边界不仅限于其所处行业,还会涉及到原料、生产、物流、服务等上下游环节,降碳成为全行业共同的任务。

  此外,王青表示,近期监管层多次强调,“保持流动性合理充裕,引导金融机构按照市场化、法治化原则,合理把握信贷投放力度和节奏,适时靠前发力。”1月MLF加量操作叠加2022年12月全面降准落地,将直接补充银行体系中长期流动性,增强银行信贷投放能力,助力银行信贷在1月实现“开门红”。这会有助于提振市场信心,稳定宏观经济大盘。

陈文彬

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

Copyright © 2023 Sohu All Rights Reserved

搜狐公司 版权所有