对话天数智芯董事长兼CEO盖鲁江：国产通用GPU性能提升的四大抓手，天数智芯

2024-03-05 08:50:09 0 0

描述

网报道（文/吴子鹏）要问2023世界人工智能大会（WAIC）上什么应用最火，想来答案就是生成式AI和AI大模型，无论是专业会议还是展品，基本都是围绕这两项展开。对于生成式AI和AI大模型而言，核心三要素是算法、数据和算力，其中算力是底座。

对于算力而言，目前行业基本的共识是基于通用GPU来构建AI大模型的算力集群，上海天数智芯半导体有限公司（以下简称：天数智芯）是目前国内第一家实现通用GPU量产并落地的公司。在WAIC上，天数智芯展示了通用GPU训练产品“天垓100”和推理产品“智铠100”，以及基于两款芯片落地的超过20+行业方案，其中当然也包括AI大模型的训练和推理案例。

天数智芯董事长兼CEO盖鲁江在接受网等媒体采访时表示：“目前，天数智芯的‘天垓100’产品已经跑通近500个模型，包括清华大学的GLM模型、Meta的LLamA模型、北京智源人工智能研究院Aquila模型等。智源研究院当前已经跑通的大模型是70亿参数规模，650亿参数规模的大模型也正在基于天数智芯天垓‘100’进行训练，预计将会于今年的10月份完成。”

盖鲁江指出：“这些案例充分地证明了，天数智芯的国产通用GPU能够适配国内公司推出的大模型产品，也能够满足垂直行业方案在推理方面的需求。我们也在更新迭代自己的产品，预计在今年第四季度或者明年初将会有新品推出，针对大模型算法做硬件级的优化，实现算力通用性和芯片性能的全面提升。”

从行业发展现状来看，目前在国产通用GPU方面，天数智芯处于领先的位置。那么，要做好国产通用GPU需要具备哪些要素呢？而后续国产通用GPU优化的方向是什么呢？

打造国产通用GPU，团队很重要

产业界真正提出通用GPU这个概念是在2003年，此后不断强化其通用性，逐渐和图形GPU有了明显的差别。由于具有高并发性、高吞吐量以及可编程的能力，目前通用GPU成为产业界提供算力的主要手段。

盖鲁江在受访时谈到，要做好国产通用GPU，团队是非常重要的，且需要一支完整的有做过大芯片经验的团队。

他对此说到：“通用GPU设计需要研发团队具备工程设计的经验和能力，才能够将其设计出来。举例来说，天数智芯通用GPU产品其中一个卖点是全自主IP，也就是说IP是由我们团队自己设计的，保证了产品的稳定供应，其中涉及了IP的设计和验证，一个有多年合作经验的团队能够在流片前杜绝IP带来的风险。”

“其二是要倾听客户，通用GPU算力、精度和性能的提升都是基于经验，而经验的来源就是客户应用的反馈。只有客户将产品用起来了，才能够知道哪些方面做得好，可以在下一代产品中继续沿用，哪些方面是需要在下一代产品中着重优化。”盖鲁江称。

谈到通用GPU产品的升级迭代，盖鲁江提到了四大方向：

·计算单元的优化，这是通用GPU一切性能提升的核心。通用GPU多核并行计算的特性决定了，如果单核性能得到提升，系统性能将会有明显的改进。
·集群化管理能力的提升，未来的通用GPU一定是以千卡、万卡集群的方式来提供算力，卡与卡之间的互联技术需要重点优化。
·借助先进封装的创新力量，包括Chiplet、3D封装这样的技术，未来的算力需求需要从系统层面去解决。
·针对具体应用去做突破，通用GPU的“通用性”使其不能单纯只讲芯片，需要结合具体的应用优化芯片。

走兼容国际主流的生态路线

2022年8月30日，天数智芯正式发布国内首个通用计算应用开发及评测平台——DeepSpark，通过分享与落地应用深度耦合的百大算法，并针对行业需求构建多维度测评体系，广泛支持各类落地场景，让算力选择不再困难，更好赋能通用计算应用开发。

DeepSpark平台是天数智芯构建国产通用GPU生态的重要一步。确实，如盖鲁江所言，通用GPU产品是不能脱离应用谈芯片的。他表示：“国际领先厂商多年来一直在构建自己的软件生态，并取得显著的效果，在人工智能、元宇宙和大模型浪潮中，这家厂商的软件生态都能对硬件应用起到很好的带动效果。”

“对于天数智芯而言，生态建设的第一步就是兼容国际主流生态。基于天数智芯的通用GPU做软件栈的开发，然后在API接口层面兼容国际主流生态，让客户能够很快地将天数智芯的通用GPU用起来，实现更低的迁移成本。”盖鲁江对此说。

据介绍，目前天数智芯的团队规模在500多人，其中硬件和软件工程师的比例大概是1：2。

后记

在国产通用GPU这个领域，天数智芯起步较早，并且是目前国内第一家实现产品量产落地的公司。凭借先发的优势，以及AI大模型带来的指数级增长的算力需求，相信天数智芯在国产通用GPU上已经滚起来的雪球将会越滚越大。