如何在AI赋能中平衡创新与挑战?巢文涵:从训练和创造AI走向调用和激发AI潜力

来源: 新浪财经
2024-07-02 20:30:41

  每经记者 王郁彪    每经编辑 文多    

  AI大潮汹涌,真实与虚拟,正在被无限模糊。2024开年,OpenAI用它的首个视频生成模型Sora宣告了一个AI新阶段的到来——仅凭简单的文字描述,便可深度模拟真实物理世界,生成最长60秒的拟真视频。

  如果把AI比作刚出生的婴儿,大语言模型的诞生则意味着它开口讲话,Sora的面世相当于他/她睁开了双眼,并把自己观察到的一切转化为画面与声音。

  随着AI技术的不断发展与应用,在AI赋能的过程中,该如何平衡其中的创新与挑战?

  3月15日,由工业和信息化部工业文化发展中心牵头成立的AI应用工作组主办,每日经济新闻承办、数智未来场景实验室协办的“Sora的启示:AI应用再飞跃”主题沙龙活动在京成功举办。

  北京航空航天大学计算机学院副教授巢文涵在主旨演讲环节表示:生成式AI的迭代速度降低了用户端的再训练必要性,因此,想要在生成式AI的应用中寻求进一步突破,应该从训练和创造AI,逐渐走向调用和激发AI潜力。

  重新认识Sora——“世界模拟器”

  当其他AI视频工具还在突破几秒内的连贯性时,Sora已经可以快速制作最长1分钟、准确反映用户提示、可一镜到底的视频。

  对于 Sora在技术上的突破,巢文涵认为,Sora实际上是一个“Diffusion+Transformer模型”(Diffusion、Transformer分别为模型名称),是二者组合成的强大信息提取

  此外,他还表示,Sora继承了Dall-E3(OpenAI开发的最新文本到图像转换工具)的画质和遵循指令的能力,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。

  因其根据静态图像生成视频的能力,Sora在动图制作、广告设计等领域具有不小的应用前景。不过,巢文涵还补充说,Sora能够获取现有视频并对其进行扩展或填充缺失的帧,这一功能在视频编辑、电影特效等领域也将有不俗的应用表现。

  值得一提的是,用户还可以使用Sora连接两个输入视频,在完全不同的主题和场景组成的视频间,实现无缝过渡。

  Sora在技术上的突破及其未来广阔的应用前景,使得AI又上升到了一个全新的维度。“Sora虽被定义为一款人工智能文生视频大模型,但其实,OpenAI并未将其单纯视为视频模型,而是作为‘世界模拟器’。”巢文涵如此表示。

  从训练和创造AI,走向调用和激发AI潜力

  从时尚展示到动漫制作,从心理治疗到建筑规划,Sora可以为多个相关领域进行全新的创造、再创造。不过,巢文涵认为,Sora同样拥有诸多局限性。

  比如,Sora在处理复杂场景时对物理规则的应用不一致,因此出现无法准确模拟出因果关系的特定情况。这也可以解释,为什么在Sora生成的视频里,时常能看到变形的椅子飞向天空的画面。

  巢文涵进一步补充说,在人机交互、充分理解空间和时间的复杂性以及使用限制上,Sora还有非常多的局限性。

  那么,如何在AI技术不断突破的过程中,继续逐点击破AI赋能和应用的难点,平衡创新与挑战?巢文涵表示,生成式AI应用,应该从训练和创造AI,走向调用和激发AI潜力。

  “生成式AI的迭代速度降低了用户端的再训练必要性,关键是用户怎么调用这些生成式AI。同时,大模型本身外部检索、多模态能力都非常强,本身是一个好的搜索入口。”他接着补充说,“应该进一步去App化,提供更多维度的综合应用交互方式。”

  在巢文涵看来,大模型本身具备生态插件及融合能力,其自身会调用服务接口,不需要打开App,而是需要设计合理的API(应用程序编程接口)接口。此外,还需打破传统AI应用中语音、文字、图片等不同格式内容的界限,提供更多维度的综合应用交互方式。

  从技术层面考量,Sora也面临着一系列挑战,包括可扩展性和计算资源、隐私和伦理问题以及就业和社会变革等。这些挑战中,巢文涵特别提到了深度伪造。他注意到,不法分子会利用机器的深度学习技术,进行图像、声音、视频的篡改、伪造和自动生成,产生高度逼真且难以甄别的内容。

  巢文涵认为,Sora对社会生产力和产业发展的促进作用毋庸置疑,但同时,Sora创造的大量虚拟视频会污染现存的图像数据,引发一系列问题。

  因此,他建议,应该建立法律和监管框架,同时提供政策支持,增强创新意识,加强数据保护与安全。

责任编辑:王旭

  “这是我最幸福的春节啦!”这位马祖同胞答道,“太久没和家里人一起过年了,你看我的包,里头全是我们那的年货,下次回去也不知道是什么时候,我多带点回来。”

  术语外译可为中国话语体系奠定基本的知识框架和语义基础。思想文化术语外译则向世界充分展示了中国人的价值观念、思维方式、哲学和人文精神,促进文化间的交流互鉴。思想文化术语外译的传播效果不会立竿见影,但相关研究者和译者的每一分努力,都为增进国际社会对中国的理解作出了贡献。“在这个过程中,我们当然需要加倍努力,但也需要有耐心,想让外国人一下接受我们五千年的文化是不现实的。‘润物无声’式的潜移默化,对文化走出去的效果可能会更好。”郑述谱说。

  清华大学新闻与传播学院教授尹鸿认为,春节档市场的繁荣和复苏为2023年的中国电影开了一个好头。更期待在今年,不仅是节假日档期,而且在常规的时间当中都会有更多的优质电影能够供给市场。

  第一财经记者在多家求职网站上看到,目前一线城市招聘服务员的月薪收入大多在5000元到6000元,而送餐员、骑手等收入大多标明为7000元到1万元,有的甚至更高。记者看到某平台骑手的招聘广告中明确表示,目前站点单量暴涨,新人入职不但有奖金,正常骑手工作月收入在7000元到1.1万元,而努力的骑手可以做到9000到1.6万元。

  因为是值班状态,整个工区见不着一滴酒。饮料一碰,热闹开吃。热气腾腾的饺子馄饨出锅,不管卖相怎样,趁热一吃,就是过年。

  陕西德尊律师事务所主任陈灏律师对记者表示,各地不夜城这种不收取门票,通过演出、宣传、文化等因素引流获得客流量,然后收取入驻商户租金盈利的模式实际是一种商业模式,对大唐不夜城这种商业模式的复制或模仿,陈灏认为并不属于侵权。

廖婉宏

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

Copyright © 2023 Sohu All Rights Reserved

搜狐公司 版权所有