“买个菜不用开坦克去”!全球AI浪潮开始聚焦“小而美”

来源: 金融界
2024-07-07 11:37:50

财联社7月5日讯(编辑 潇湘)在全球范围内,人工智能军备竞赛最初的起点是追求“大”: 巨型模型在海量的数据上进行训练,试图模仿具有人类智能水平的人工智能。

然而如今,大量科技巨头和初创企业正在开始考虑缩小AI软件的规模,使其更便宜、更快速、更专业……

这类AI软件被称为小型语言模型(SLM)或中型语言模型,使用较少的数据进行训练,通常专为特定任务而设计。

作为对比,那些知名的大型语言模型(LLM),如OpenAI的GPT-4,开发成本超过1亿美元,训练的参数达到了逾1万亿。而较小的语言模型则通常在较窄的数据集上进行训练——例如,可能仅仅聚焦于法律问题上,其训练成本往往可能不到1000万美元,参数不到100亿。较小的模型也将消耗较少的算力,因此响应每个查询的成本也较低。

近几个月来,微软就正在大力宣传其名为“Phi”轻量级AI模型系列。微软首席执行官Satya Nadella表示,这些模型的大小只有OpenAI的ChatGPT免费模型的1/100,而执行许多任务的效果却几乎一样好。

微软首席商务官Yusuf Mehdi表示,“我认为,我们越来越有理由相信,未来将是一个由不同(大小)模型组成的世界。”

Mehdi称,微软是全球首批在生成式人工智能上押注数十亿美元的大型科技公司之一。而我们也很快意识到,人工智能的运营成本比公司最初预计的要高。

微软最近还推出了新型的AI笔记本电脑,搭载数十个人工智能模型进行搜索和图像生成。这些模型需要用到的数据非常少,可以在终端设备上运行,而不需要像ChatGPT那样访问庞大的基于云端的数据中心。

谷歌以及人工智能初创公司Mistral、Anthropic和Cohere今年也发布了更小的模型。苹果在六月份公布该公司的AI路线图时,也计划使用小型模型,这样就可以完全在手机上运行软件,使其更为快捷方便、也更为安全。

就连一直处于大型模型模型浪潮前沿的OpenAI,也在5月发布了其旗舰模型的新版本GPT-4o,并称该模型运营成本更低。一位发言人OpenAI表示,该公司对未来发布更小的模型持开放态度。

AI模型浪潮开始聚焦“小而美”

对于许多任务来说——比如汇总文档或生成图像,大型语言模型如今显得可能会有些“奢侈”。一些行业人士将此形容为“相当于开着坦克去买菜”。

目前从事区块链技术研究的Illia Polosukhin是2017年谷歌一篇开创性论文的作者之一,该论文为当前的生成式人工智能热潮奠定了基础。Polosukhin近来就表示,单单计算“2+2”不应该需要进行无数次运算。

事实上,从财务成本的考量来看,在生成式人工智能技术的回报尚不明确的情况下,企业和消费者也一直在寻找以更低成本运行AI的方法。

位于以色列特拉维夫的人工智能公司AI21 Labs的联合创始人Yoav Shoham称,由于只需使用较少的算力,在许多情况下,小型模型回答问题的成本仅为大型语言模型的六分之一。如果你要进行数十万甚至数百万次回答,使用大模型在经济上其实行不通。

当前的关键在于,如何更有效地将这些较小的模型集中在一组数据上,如内部通信、法律文件或销售数字,以执行撰写电子邮件等特定任务——这一训练过程被称为微调(Fine-tuning)。通过微调,可以让小型模型在执行这些任务时与大型语言模型一样有效,而成本只是大型模型的一小部分。

初创公司Snorkel AI的联合创始人Alex Ratner表示,“让这些更小、更专业的模型在这些更枯燥但更重要的领域工作,是目前人工智能的前沿领域。”

Snorkel AI目前的业务范围包括帮助企业定制人工智能模型。

企业用户也正转向小模型?

益百利首席数据官Ali Khan表示,在公司内部数据上进行训练时,小型模型的表现与大型模型不相上下,而成本仅为大型模型的一小部分。他表示,这些小模型可以针对一个明确的问题领域和一系列任务进行特定训练。

Salesforce人工智能部门主管Clara Shih则表示,这些小模型的响应速度相比大模型也更快。

Shih称,“使用大型模型你会付出过高的成本并且有延迟问题。有时候也根本用不着。”

值得一提的是,在开始向小语言模型转变的同时,诸多AI巨头大型语言模型的迭代速度也在放缓。

自OpenAI去年发布GPT 4(与之前的模型GPT 3.5相比,功能有了显著提升)以来,还没有新的迭代模型(GPT 5)发布。研究人员 认为,造成这种情况的原因包括用于训练的高质量新数据稀缺。

这一趋势也让人们开始更为关注小模型。领导Phi模型项目的微软公司高管塞Sébastien Bubeck表示,“现在正是大家都在等待的一个小间歇期,这会让人们的注意力转向,他们会想,‘好吧,我们还能不能让这些东西更高效?’”

目前,还不清楚这种迭代停滞是暂时的,还是遭遇了一个更为棘手的技术瓶颈问题。但是,小型语言模型的大量涌现,仍说明了人工智能正在从科幻小说般的梦幻演示,演变成了不那么令人兴奋的商业现实。

当然,许多公司并没有完全放弃大型语言模型。苹果已宣布将在其Siri助手中加入ChatGPT,以执行撰写电子邮件等更复杂的任务。微软表示,其最新版的Windows也将集成OpenAI的最新模型。不过,两家公司都只是将OpenAI集成作为其整体人工智能方案的一部分,而显然并没有把所有的筹码都押注于此。

  证监会在答记者问中也明确表示,将“科学合理保持新股发行常态化,保持投融资动态平衡,促进一二级市场协调发展”。

  广发期货表示,今日凌晨时间美国加息25bp,符合市场预期,美元偏软格局未变。由于海内外均对今年中国经济复苏有较好的预期,人民币汇率或继续升值。

  2021年11月,某幼儿园校车驾驶人无证驾驶校车,且严重超载行驶导致车辆侧翻,造成20名幼儿及1名教师受伤的严重后果,涉事司机因危险驾驶罪被立案侦查。该起事故暴露出的校车安全问题引起河北省沧州市人民检察院关注,在全市部署开展校车安全监督专项行动,切实保障学生出行安全。沧县人民检察院落实专项行动部署,对本地校车安全运营情况展开调查。经过初步调查,检察机关发现行政审批部门、教育行政部门和公安交警部门分别在校车运营的审批许可、监督管理方面负有相应职责,各自掌握了大量校车运营的相关数据信息,但由于各部门掌握的信息不同步,容易造成监管盲区。由于当地教育行政部门登记的学校在用校车达140余辆,逐一踏访调查耗时耗力且难以保障调查效果,有必要通过对各部门相关校车信息开展大数据分析,更好明确校车安全问题所在,促推监管治理。

  张铭不太喜欢春节酒桌“礼仪”,但是又想着“一年见面次数不多”“饭局里都是自己人,就算喝多了也不会怎么样”,还是选择遵循。“我和朋友喝酒就没有这么多礼数和规矩,想喝就喝,不想喝就不喝。”张铭说。

  2021年11月,某幼儿园校车驾驶人无证驾驶校车,且严重超载行驶导致车辆侧翻,造成20名幼儿及1名教师受伤的严重后果,涉事司机因危险驾驶罪被立案侦查。该起事故暴露出的校车安全问题引起河北省沧州市人民检察院关注,在全市部署开展校车安全监督专项行动,切实保障学生出行安全。沧县人民检察院落实专项行动部署,对本地校车安全运营情况展开调查。经过初步调查,检察机关发现行政审批部门、教育行政部门和公安交警部门分别在校车运营的审批许可、监督管理方面负有相应职责,各自掌握了大量校车运营的相关数据信息,但由于各部门掌握的信息不同步,容易造成监管盲区。由于当地教育行政部门登记的学校在用校车达140余辆,逐一踏访调查耗时耗力且难以保障调查效果,有必要通过对各部门相关校车信息开展大数据分析,更好明确校车安全问题所在,促推监管治理。

  新冠疫情是百年来全球发生的最严重的传染病大流行,是整个人类共同面临的严峻挑战。三年来,中国尽己所能助力各国抗击疫情,以实际行动推动构建人类命运共同体。这是风雨同舟的中国行动:向120多个国家和国际组织供应超过22亿剂新冠疫苗,向153个国家和15个国际组织提供数千亿件抗疫物资,向34个国家派出抗疫医疗专家组。在全球抗疫最吃劲的阶段,中国成为全球抗疫物资供应的大后方,为世界各国抗击疫情提供了坚实保障。这是共克时艰的中国贡献:进博会、服贸会、消博会、广交会等“四大展会”年年举办,中国货物进出口总额持续增加,出口国际市场份额连续14年居全球首位,21个自贸试验区覆盖东西南北中,海南自贸港扬帆起航。三年来,中国坚持“团结抗疫和复苏经济,两手都要抓,两手都要硬”,在同国际社会团结抗疫的同时,以自身开放合作为维护全球产业链供应链稳定畅通作出了重要贡献,为世界经济复苏注入强劲动力。

何信希

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

Copyright © 2023 Sohu All Rights Reserved

搜狐公司 版权所有