古典武侠都市激情壁仞科技丁云帆：做好三类工作，国产AI芯片也可用于大模型训练

2024-07-09 16:33:58　来源：古典武侠都市激情

　　新浪科技讯 7月9日下午消息，在刚结束的2024世界人工智能大会上，壁仞科技副总裁兼AI软件首席架构师丁云帆在谈及计算瓶颈时表示，解决算力瓶颈问题需要从三个维度考虑：硬件集群算力、软件有效算力、异构聚合算力。“从这三个维度把相应的工作做好了，即使国产AI芯片单个算力看起来不够强，也能通过综合手段提升算力，满足国内大模型训练的需求。”

　　丁云帆指出，大模型训练是一个系统工程，需要软件和硬件结合起来，同时也需要算法和工程协同，在这样一个复杂系统里面，存在计算、存储、通信等基础设施的挑战，还有集群规模扩张过程中计算效率的挑战，所以，应对算力难题可以从三个维度来看。

　　第一，硬件集群算力维度。单卡的算力乘以卡的个数等于集群算力，这样的集群算力计算方式是非常简单的。单卡算力因为各方面的限制，能做的上限是有限的，但单芯片本身在微架构层面还是有创新的空间的：一方面，保证比较好的兼容性，支持多种work load；另一方面，提供比较高的计算效率，在类似于tensor core上去做优化。此外，单卡单机还是不够，需要千卡集群、万卡集群进一步提升算力，这个时候对于网络和基础设施的要求其实也非常高了。

　　丁云帆指出，总结起来硬件集群算力三个维度，包括单芯片的算力以及通过chiplet提升单卡算力，单机到集群的算力。“我们2020年设计的第一代产品里就做了chiplet架构，国外巨头在今年发布的产品如英伟达B100和英特尔Gaudi 3也采用了同样的思路，他们用最先进的制程，但也需要chiplet来突破摩尔定律限制来提升单卡算力。”

　　第二，软件有效算力维度。有超大规模集群后，最终软件是不是能够把算力发挥出来呢？这个很重要，这个效率我总结为三个点：首先，软硬结合的计算效率；其次，集群调度效率怎么样；最后，出现故障时的处理效率怎么样。“你本身的集群调度效率怎么样？给你用了之后是不是能把它用好？卡分配给你了，你也在用，但千卡集群、万卡集群都有一个稳定性的问题，无论是国产卡还是英伟达GPU，这个是大家逃避不过去的，故障率是相对比较高的。”丁云帆表示。

　　据他介绍，壁仞科技用三级的异步checkpoint技术，结合GPU的显存和CPU内存，甚至是多节点内存的备份系统去达到一个平衡，目前已能够大幅降低故障

　　第三，异构聚合算力维度。单一的集群在集群建设过程中，有各种各样的历史原因，包括刚建千卡集群时，集群的基础设施扩容做不上去，后面就算是同一种英伟达的卡也是多个小的池子，现在可能随着国产GPU的落地，这个问题可能会更严峻一点。（文猛）

责任编辑：刘万里 SF014

【编辑:王凤以】

更多精彩内容请进入文化频道

文化新闻精选：

亲戚为啥不“香”了？

2024-07-09 16:33:58
内部人士恶作剧？美国情报局网站标识惊现“UFO”

2024-07-09 16:33:58
北京9月28日无新增本土感染者新增境外输入“5+6”

2024-07-09 16:33:58
意大利中右翼胜选带来政坛地震，美媒：白宫也有震感

2024-07-09 16:33:58
逃亡9年，入籍俄罗斯，斯诺登都是为了儿子？

2024-07-09 16:33:58
日媒：民众在“安倍国葬”会场附近举行抗议集会

2024-07-09 16:33:58
王毅会晤11位欧洲国家领导人和外长外交部回应

2024-07-09 16:33:58
天津划定部分区域为静态管理区

2024-07-09 16:33:58
王一博这个官司一审赢了，法院：书面致歉、赔偿2万

2024-07-09 16:33:58
港珠澳大桥月增500个香港跨境私家车配额试行一年

2024-07-09 16:33:58

好色先生免费版	120秒试看
jizzcn	姬小满全皮肤去除布料后的样子

狠狠操天天操	甘雨自慰
淦人不盖被子	东京加勒比2021一区

古典武侠都市激情壁仞科技丁云帆：做好三类工作，国产AI芯片也可用于大模型训练

古典武侠都市激情壁仞科技丁云帆：做好三类工作，国产AI芯片也可用于大模型训练

相关新闻：

文化新闻精选：