智源研究院:国内头部模型已达国际一流水平,但能力发展不均衡

来源: 金台资讯
2024-05-18 15:12:14

  新浪科技讯 5月18日下午消息,在北京智源研究院(智源研究院)大模型评测发布会上,智源评测体系发布并公布了140余个国内外开/闭源语言及多模态大模型能力评测结果。评测结果显示,在中文语境下,国内头部语言模型的综合表现已接近国际 一流水平,但存在能力发展不均衡情况;在多模态理解图文问答任务上,开闭源模型平分秋色,国产模型表现突出;在中文语境下的文生图能力上,国产多模态模型与国际一流水平差距较小。

  据评测结果,在中文语境下,字节跳动豆包Skylark2、OpenAI GPT-4位居第一、第二,国产大模型更懂中国用户。在语言模型客观评测中,OpenAI GPT-4、百川智能Baichuan3位列第一、第二。百度文心一言4.0、智谱华章GLM-4和月之暗面Kimi均进入语言模型主客观评测前五。

  多模态理解模型客观评测结果显示,图文问答方面,阿里巴巴通义Qwen-vl-max与上海人工智能实验室InternVL-Chat-V1.5先后领先于OpenAI GPT-4,LLaVA-Next-Yi-34B和上海人工智能实验室Intern-XComposer2-VL-7B紧随其后。

  在海淀区教委支持下,智源研究院联合与海淀区教师进修学校对齐学生测验方式,考察大模型与人类学生的学科水平差异。评测发现,模型在综合学科能力上与海淀学生平均水平仍有差距,普遍存在文强理弱的情况,并且对图表的理解能力不足,大模型未来有很大的提升空间。

  据介绍,2023年6月,智源研究院与多个高校团队共建FlagEval大模型评测平台上线,迄今为止已完成1000多次覆盖全球多个开源大模型的评测和报告发布。本次评测使用了20余个数据集、超8万道考题,包括与合作单位共建和智源自建的多个评测数据集。(文猛)

责任编辑:张倩

  报道称,一张由美国“驾驶”网站下设的“战区”专栏公布、经五角大楼证实的美国海军简报幻灯片显示,中国造船厂的造舰产能是2325万吨,而美国的产能还不到10万吨。

  纵观全国演出市场,今年以来,音乐节正在各地掀起一股新的热潮。据统计,今年上半年,国内已经公布详细举办信息的音乐节超过150场,平均每个月都有超过30场音乐节开演。“狂飙突进”之下,音乐节“内卷”令音乐之都同步掀开一轮“抢人”比拼。

  2021年5月6日,深圳南山分局通报称,小牛在线被追缴资金1.4亿余元,被查封涉案房产1056套,其中包括深圳市住宅3套、商铺4套,广州市住宅108套、商铺858套,佛山市商铺76套,上海市商铺6套,哈尔滨市住宅1套。查封黑龙江省哈尔滨市、湖南省汉寿县辖内土地2处,合计24037.5平方米。冻结涉案公司股权9991万股。

  丁宁还说,很期待此行能跟台湾同学有更多体育交流,也期待吃到包括凤梨酥在内的台湾美食。新竹县政府为展现地主之谊,特地为全团师生准备新竹当地名产“东方美人茶”,大陆师生团也准备了印有“北京大学”字样的盘子作为回礼。

  《华尔街日报》称,这份“中国战略”提到,德国将与欧盟伙伴合作,加强对中国投资的审查,并考虑建立审查德企在华投资的机制,加大对德企在中国以外进行多元化投资的激励措施。“对于欧洲对华最友好的大型经济体来说,这是一种新做法,但不是掉头。该战略并不建议阻止中国获取特定技术(就像美国在半导体领域所做的那样),并坚持认为需要与中国保持良好的经济关系。”评论称,“官员和分析人士表示,这份经过精心调整的文件反映了执政联盟中相互冲突的观点之间的妥协,一些成员支持更强硬的对华立场,而总理朔尔茨等人则坚持使用更温和的语言”。

  长安街知事(微信ID:Capitalnews)注意到,就在4天前,美财政部部长耶伦刚刚结束访华行程,而3天后,美国总统气候问题特使约翰·克里又将来华,与中方就合作应对气候变化深入交换意见。

林慧齐

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

Copyright © 2023 Sohu All Rights Reserved

搜狐公司 版权所有