百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4
时间:2024-09-11 01:18:44 来源:<新程序_sjbxin> 责任编辑:Bobo

【TechWeb】1月29日消息,百川智能发布超千亿参数的大语言模型Baichuan 3。据介绍,Baichuan 3取得了系列新突破。

其中基础能力方面,Baichuan 3在CMMLU、GAOKAO和AGI-Eval多个权威通用能力评测中都表现出色,尤其在中文任务上更是超越了GPT-4。在数学和代码专项评测如MATH、HumanEval和MBPP中Baichuan 3同样表现出色。

值得注意的是,百川智能对Baichuan 3在医疗领域的能力进行了针对性优化,在对逻辑推理能力及专业性要求极高的MCMLE、MedExam、CMExam等权威医疗评测上的中文效果同样超过了GPT-4,成为中文医疗任务表现最佳的大模型。

另外,Baichuan 3还突破“迭代式强化学习”技术,进一步提升了语义理解和生成能力,在诗词创作的格式、韵律、表意等方面表现优异,领先于其他大模型。

中文任务成绩超越GPT-4

Baichuan 3在多个英文评测中表现出色,达到接近GPT-4的水平。而在CMMLU、GAOKAO、HumanEval和MBPP等多个中文评测榜单上,更是超越GPT-4展现了其在中文任务上的优势。

此外,在MT-Bench、IFEval等对齐榜单的评测中,Baichuan 3超越了GPT-3.5、Claude等大模型,处于行业领先水平。

据介绍,百川智能在训练过程中针对性地提出了“动态数据选择”、“重要度保持”以及“异步CheckPoint存储”等多种创新技术手段及方案,有效提升了Baicuan 3的各项能力。训练效率方面, Baichuan 3的训练框架在性能方面相比业界主流框架提升超过30%。

医疗能力逼近GPT-4

在医疗领域,大模型的全能特性发挥着至关重要的作用。诸如OpenAI、谷歌等头部大模型企业都将医疗作为模型的重点训练方向和性能评价的重要体系。ChatGPT早在2023年2月便已通过了美国医学执照考试(USMLE),显示出其在医学领域的强大能力。而谷歌对医疗领域的重视更甚,基于PaLM模型打造了医疗大模型Med-PaLM,迭代后的Med-PaLM 2在医学考试 MedQA中的成绩超过80分,达到了专家水平。

为了给Baichuan3注入丰富的医疗知识,百川智能在模型预训练阶段构建了超过千亿Token的医疗数据集,包括医学研究文献、真实的电子病历资料、医学领域的专业书籍和知识库资源、针对医疗问题的问答资料等。该数据集涵盖了从理论到实际操作,从基础理论到临床应用等各个方面的医学知识,确保了模型在医疗领域的专业度和知识深度。

针对医疗知识激发的问题,百川智能在推理阶段针对Prompt做了系统性的研究和调优,通过准确的描述任务、恰当的示例样本选择,让模型输出更加准确以及符合逻辑的推理步骤,Baichuan 3在医疗领域的任务效果提升显著,在各类中英文医疗测试中的成绩提升了2到14个百分点。

Baichuan 3在多个权威医疗评测任务中表现优异,不仅MCMLE、MedExam、CMExam等中文医疗任务的评测成绩超过GPT-4,USMLE、MedMCQA等英文医疗任务的评测成绩也逼近了GPT-4的水准,是医疗能力最强的中文大模型。

创作精准度提升

另外,百川智能还强调,Baichuan 3突破“迭代式强化学习”技术,进一步提升了语义理解和生成能力,在诗词创作的格式、韵律、表意等方面表现更优了。

语义理解和文本生成是大模型最基础的底层能力,为提升这两项能力,业界进行了大量探索和实践,OpenAI、Google以及Anthropic等引入的RLHF(基于人类反馈的强化学习)和RLAIF(基于AI反馈的强化学习)便是其中的关键技术。

百川智能采用了RLHF与RLAIF结合的方式来生成高质 量优质偏序数据,在数据质量和数据成本之间获得了更好的平衡。在此基础上,对于“探索与利用”这一根本挑战,百川智能通过PPO探索空间与Reward Model评价空间的同步升级,实现“迭代式强化学习”(iterative RLHF&RLAIF),让Baichuan 3的语义理解和生成创作能力大幅提升。

百川智能强大,Baichuan 3结合“RLHF&RLAIF”以及迭代式强化学习的方法,让大模型的诗词创作能力达到全新高度。可用性相比当前业界最好的模型水平提升达500%,文采远超GPT-4。以下为Baichuan 3所写的两首诗词,可以看看:

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

唐语嫣与龙冰早就在门口等着他了。

龙冰苦笑了一下,“没关xì,我能理解。我走对谁都好,如果这一次需要有人来背黑锅的话,那就我来吧。”

然而,让他震撼的其实不是他开这一枪的测试效果,而是由此牵引出来的联想。那就是,即便是这样的战甲,朱玄月也将头盔打了一个洞,身上也满是裂痕,可以想象的是,全盛时期的她的战斗力会有多恐怖!

“我不知道,他们穿着……”

一百年或许太久,如果将时间单位设定为一秒,谁能说一秒钟前的世界不是真实的呢?谁又能说一秒钟后的世界会消失呢?百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4一时间,夏雷竟然忘记了他坐在这里的目的。他的大脑里充满了各种猜想和假设,乱成了一团。可无论是什么猜想和假设都无从去证实,朱玄月刚刚所说的话也只是给这些猜想和假设蒙上了一层可信的色彩而已。

d4liuCx9Gfq
相关报道
    分享到:

    中共中央政法委员会主办

    Copyright 2015 www.chinapeace.gov.cn All Rights Reserved 京ICP备 14028866 号-1中国长安网 © 2017版权所有

    太深⋯拔出来⋯痛太舒服APP

    九·幺

    法国老人做交易森林

    <新程序_随机数><新程序_随机数>.<新程序_随机数><新程序_随机数>MB
    版本V<新程序_随机数><新程序_随机数>.<新程序_随机数><新程序_随机数>.<新程序_随机数><新程序_随机数>
    私人教练1983年美国 安装你想要的应用 更方便 更快捷 发现更多
    姐姐6电视剧在线观看
87%好评(<新程序_随机数><新程序_随机数><新程序_随机数>人)
    国精产品一区一区三区有限公司杨 62
    详细信息
    • 软件大小: <新程序_随机数><新程序_随机数>.<新程序_随机数><新程序_随机数>MB
    • 最后更新: 2024-09-11 01:18:44
    • 最新版本: V<新程序_随机数><新程序_随机数>.<新程序_随机数><新程序_随机数>.<新程序_随机数><新程序_随机数>
    • 文件格式: apk
    • 应用分类:ios-Android
    • 使用语言: 中文
    • : 需要联网
    • 系统要求: 5.41以上
    应用介绍
    一,高清VPSWINDOWS日本,大龟慢慢挺进张娟征的休
    二,zoneankhaminus8ankha埃及猫
    三,中国亲子伦孑xXⅩ
    四,疯狂一家亲全文阅读 了
    五,16-12HDXⅩXX4KHD
    六,遥控玩具玩到崩溃GB
    七,个子矮小奶大BBwBBWBBW
    【联系我们】
    客服热线:139-2551-646
    加载更多
    版本更新
    V<新程序_随机数><新程序_随机数>.<新程序_随机数><新程序_随机数>.<新程序_随机数><新程序_随机数>
    搞机time的恶心软件10分钟不用不收钱中国长安网

    猜你喜欢

    包含 饿了么 的应用集
    评论
    • 唐三和比比东不亦乐乎MBAxv <新程序_随机数>天前
      HDnopHa720HD
    • 用力⋯别停⋯受不了了人民网 <新程序_随机数>天前
      人善交xuanwen200喷水
    • 甘雨焯出白水 <新程序_随机数>天前
      女儿国3在线观看免费版高清
    • 独占糙汉1.V1书香 <新程序_随机数>天前
      37大但人文艺术YONGYUXUN
    • 年轻漂亮的小保㑄 <新程序_随机数>天前
      日本畜禽corporation
    • 帝王夹玉器上早朝 <新程序_随机数>天前
      四川小少妇BBAABBAA
    • 缅甸14MAY18_XXXXXLMEDJYF <新程序_随机数>天前
      电动玩具冰块PLAY高冷受
    • chese老妇mon熟女 <新程序_随机数>天前
      做AJ过程大全图片
    • 十大BB哪个好 <新程序_随机数>天前
      黑人30厘米全部进去了乌木
    • 两人扑克牌生猴子 <新程序_随机数>天前
      甘雨被盗宝团俘虏网站