直面大模型“大成本”挑战,如何提高算力效率?

来源: 房天下
2024-06-04 03:02:03

  有业界技术团队测算,若要对一个5000亿参数规模的单体大模型进行充分训练,所需算力基础设施约在10亿美元规模,每年消耗的电费在5.3亿元人民币。无论对于哪个机构、企业,这都是天文数字和巨大代价,中国也不例外。

  知名科学杂志《Nature》此前发表了一篇关于大模型未来发展之路的文章,《In Al, is bigger always better?》(人工智能,越大型越好?)。争议的出现,意味着AI发展方向出现了分歧。

  如今,“大”不再是模型的唯一追求,计算效率和算力开销两大问题成为新的行业焦点。

  对大模型推理成本的优化,可通过很多技术手段实现。首先是模型本身,模型结构、训练方法都可以持续改进,包括业界很关注的MoE(混合专家模型),就是优化推理成本很好的解决方案。其次是工程上的优化。大模型的调用量越大,优化推理成本的空间也越大。以前的模型都是单机推理,大模型用的是分布式推理。所以如果能把各种各样底层算力用得更好,推理成本就会大大降低。

  MoE大模型的盛行,实际上对应的正是模型能力和算力开销两大问题的解决。这也是为何众多大模型厂商如OpenAI、谷歌、Mistral AI、浪潮信息等陆续基于MoE架构升级自家大模型产品的原因。

  从浪潮信息发布的“源2.0-M32”开源大模型来看,其基于“源2.0”系列大模型已有工作基础,创新提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型。

  浪潮信息人工智能首席科学家吴韶华在接受中新网记者采访时说,我们一直在想如何以更低的算力消耗,提高整个大模型的应用效果,能让企业、机构以更小的算力代价去获得更高的模型能力。“这可能是中国发展自己的AI大模型比较行之有效的路径。”

  他直言,大模型推进速度越来越快,必须强调模型算力效率。“大家可以想象,效率越高就意味着在单位算力投入相等的情况下获得的精度回报越高,它对于训练和应用都非常有利。”

  “现实的算力是有限的,我们一再反复强调模算效率,试图针对当前算力情况闯出一条自己觉得比较好的路子。在固定每个Token算力不变的情况下,通过扩展专家数量可以获得更大参数量的模型,进而获得更高精度。”吴韶华说。

  他进一步称,整体来看,尽管当前模型的能力提升非常之快,但之前大家更多关注单个维度问题,即平均精度的提升。但大模型进入快速落地时代,就不得不考虑更多维度的问题,包括模算效率、精度、算力开销等。

  中国工程院院士郑纬民曾做过这样的计算,在大模型训练过程中,70%开销要花在算力上;推理过程中95%的花费也是在算力上。

  为解决大模型训练的算力不足问题,郑纬民建议,在推动智能计算中心建设同时也可以利用已有超算系统的空余算力。

  郑纬民表示,现有14个国家挂牌的超算系统,每台机器的建设成本都很高,成本在10亿元至20亿元,甚至更高。这些超算系统已经为中国的国民经济发展作出巨大贡献,但有些系统还有空余算力,这些空余算力也可被用来做大模型训练,且经过优化 甚至可降低大模型训练成本。

  中国外交部发言人汪文斌15日就此事进一步回应称,亚投行在职员招聘和管理当中,坚持公开、择优、透明原则,其雇主口碑得到普遍肯定。中方作为亚投行最大股东,将继续同各方一道,坚持多边主义,共同支持亚投行,办好亚投行,为亚洲及全球基础设施建设和可持续发展作出积极贡献。

  从去年5月26日的布林肯讲话,到10月份拜登政府发布的国家安全战略报告,可以看到美国政府对中国的定位就是头号战略竞争对手,认为该对抗的时候就对抗,需要合作的时候再合作,呈现出明显的霸权思维。甚至在气候治理这类需要合作的全球性议题上,美方也转变了话语,没有积极寻求合作空间,而是仅考虑自己的利益强势施压其他人。

  2009年,美国一项针对公众对带状疱疹认识的全球调查显示,在22个国家与地区的8000多名50岁以上的成年人中,所有人都知道带状疱疹,但71%的人认为,自己不太可能或非常不可能患带状疱疹。没有患病经验的人多数不知道,带状疱疹将带来难以忍受的疼痛。该调查认为,没有得过带状疱疹经历的人,对带状疱疹相关发病率充满误解,全球需要提高人们对带状疱疹及其潜在长期并发症严重性的认识。

  中日民间交往因疫情阻碍遭遇波折,在此背景下,此次新疆行对于疫情之后恢复两国民间交往发挥何种作用?薛剑表示,中日关系的根基在民间,真正能够把握两国关系前途命运的是两国人民。今年是《中日和平友好条约》缔结45周年,大阪总领馆会继续深耕基层,广泛做好民间工作,只有打好民间基础,中日关系才能真正实现改善与发展。此次活动以新疆为切入口,有利于带动日本民众对中国的整体认知,逐步改善日本社会对华感情。

  郑文隆致词时称,本船设计具有载运登陆战车、登陆艇、直升机、弹药、物资及执行医疗救援等功能,并具有匿踪型外观、电磁脉冲防护、智能型条水系统等特殊性功能,可为台海军提供离岛物资运补及人员输送。此外,如遇自然灾害,该舰还可以执行救灾、临时野战医院及国际人道救援,若是战时,因配置有完整的防空与对海面自卫作战能力,“玉山”舰能长时间在外海独立遂行两栖作战,执行增援、应援及归复离岛作战任务,并担任海上机动野战医院。

  <span>郭永航1989年从武汉大学历史系毕业,曾担任深圳市委常委、秘书长。2018年2月至2021年10月任珠海市委书记。2021年12月郭永航出任广州市委副书记、代理市长。</span><span>2022年1月当选广州市市长。</span>

叶胜群

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

Copyright © 2023 Sohu All Rights Reserved

搜狐公司 版权所有