智源研究院:国内头部模型已达国际一流水平,但能力发展不均衡

来源: 齐鲁晚报网
2024-05-18 17:58:46

  新浪科技讯 5月18日下午消息,在北京智源研究院(智源研究院)大模型评测发布会上,智源评测体系发布并公布了140余个国内外开/闭源语言及多模态大模型能力评测结果。评测结果显示,在中文语境下,国内头部语言模型的综合表现已接近国际一流水平,但存在能力发展不均衡情况;在多模态理解图文问答任务上,开闭源模型平分秋色,国产模型表现突出;在中文语境下的文生图能力上,国产多模态模型与国际一流水平差距较小。

  据评测结果,在中文语境下,字节跳动豆包Skylark2、OpenAI GPT-4位居第一、第二,国产大模型更懂中国用户。在语言模型客观评测中,OpenAI GPT-4、百川智能Baichuan3位列第一、第二。百度文心一言4.0、智谱华章GLM-4和月之暗面Kimi均进入语言模型主客观评测前五。

  多模态理解模型客观评测结果显示,图文问答方面,阿里巴巴通义Qwen-vl-max与上海人工智能实验室InternVL-Chat-V1.5先后领先于OpenAI GPT-4,LLaVA-Next-Yi-34B和上海人工智能实验室Intern-XComposer2-VL-7B紧随其后。

  在海淀区教委支持下,智源研究院联合与海淀区教师进修学校对齐学生测验方式,考察大模型与人类学生的学科水平差异。评测发现,模型在综合学科能力上与海淀学生平均水平仍有差距,普遍存在文强理弱的情况,并且对图表的理解能力不足,大模型未来有很大的提升空间。

  据介绍,2023年6月,智源研究院与多个高校团队共建FlagEval大模型评测平台上线,迄今为止已完成1000多次覆盖全球多个开源大模型的评测和报告发布。本次评测使用了20余个数据集、超8万道考题,包括与合作单位共建和智源自建的多个评测数据集。(文猛)

责任编辑 :张倩

先输为敬,亚洲6队都不妙?

孙兴慜自己显然是不愿意错过这次的世界杯赛程,所以为了能够让自己尽快恢复也能够有更多时间备战世界杯,因此他也决定提前一天接受手术以便于早日康复。而根据最新的消息来看如果一切恢复顺利的话,他也是可能赶上一到两场世界杯小组赛的征程,不过面对着拥有葡萄牙、乌拉圭以及加纳这样强队的小组环境,即便他能够顺利康复恐怕也很难随队闯入淘汰赛当中,不知道这位韩国一哥未来会如何选择世界杯征战的方式呢?还是让不少球迷期待不已了。

很多商人都如萨米尔一样,经过多次贸易之后开始赊账。因为现金交易一定程度上限制了订货数量,导致阿拉伯商人需要频繁来往于中国和阿拉伯国家之间。为了提高销量,中国供货商和阿拉伯买家之间达成协议,以赊账的方式先供货,销售完之后再结算余款。因为彼时中东市场对中国商品的需求量非常大,即使是赊账也会很短暂,中国卖家很快就能收回货款。在这一过程中,中国供货商一直都是扮演积极提供赊账的角色。

新闻发布会还以视频连线方式,由外景主持人深入体彩店“探店”,体验购彩乐趣。体彩实体店代销者代表还以宣誓倡议的形式,表达依法销售、抵制非法彩票。

“一场不落是不可能的,因为小组赛第三轮是同组比赛同时开踢,无论如何也不能兼顾的。”岳进用一个专业的提法跟我开起玩笑。

不少消费者表示,相比于需要大量涮煮食材的潮汕牛肉火锅、糟粕醋火锅,料更足、无需费神涮肉涮菜的胡椒猪肚鸡、韩式部队锅等有料火锅,是自己看球期间的选择。

蔡雅盛

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

Copyright © 2023 Sohu All Rights Reserved

搜狐公司 版权所有