对话天数智芯董事长兼CEO盖鲁江:国产通用GPU性能提升的四大抓手,天数智芯

描述

网报道(文/吴子鹏)要问2023世界人工智能大会(WAIC)上什么应用最火,想来答案就是生成式AI和AI大模型,无论是专业会议还是展品,基本都是围绕这两项展开。对于生成式AI和AI大模型而言,核心三要素是算法、数据和算力,其中算力是底座。

 对于算力而言,目前行业基本的共识是基于通用GPU来构建AI大模型的算力集群,上海天数智芯半导体有限公司(以下简称:天数智芯)是目前国内第一家实现通用GPU量产并落地的公司。在WAIC上,天数智芯展示了通用GPU训练产品“天垓100”和推理产品“智铠100”,以及基于两款芯片落地的超过20+行业方案,其中当然也包括AI大模型的训练和推理案例。
 
天数智芯董事长兼CEO盖鲁江在接受网等媒体采访时表示:“目前,天数智芯的‘天垓100’产品已经跑通近500个模型,包括清华大学的GLM模型、Meta的LLamA模型、北京智源人工智能研究院Aquila模型等。智源研究院当前已经跑通的大模型是70亿参数规模,650亿参数规模的大模型也正在基于天数智芯天垓‘100’进行训练,预计将会于今年的10月份完成。”
 

 
盖鲁江指出:“这些案例充分地证明了,天数智芯的国产通用GPU能够适配国内公司推出的大模型产品,也能够满足垂直行业方案在推理方面的需求。我们也在更新迭代自己的产品,预计在今年第四季度或者明年初将会有新品推出,针对大模型算法做硬件级的优化,实现算力通用性和芯片性能的全面提升。”
 
从行业发展现状来看,目前在国产通用GPU方面,天数智芯处于领先的位置。那么,要做好国产通用GPU需要具备哪些要素呢?而后续国产通用GPU优化的方向是什么呢?
 

打造国产通用GPU,团队很重要

产业界真正提出通用GPU这个概念是在2003年,此后不断强化其通用性,逐渐和图形GPU有了明显的差别。由于具有高并发性、高吞吐量以及可编程的能力,目前通用GPU成为产业界提供算力的主要手段。
 
盖鲁江在受访时谈到,要做好国产通用GPU,团队是非常重要的,且需要一支完整的有做过大芯片经验的团队。
 
他对此说到:“通用GPU设计需要研发团队具备工程设计的经验和能力,才能够将其设计出来。举例来说,天数智芯通用GPU产品其中一个卖点是全自主IP,也就是说IP是由我们团队自己设计的,保证了产品的稳定供应,其中涉及了IP的设计和验证,一个有多年合作经验的团队能够在流片前杜绝IP带来的风险。”
 
“其二是要倾听客户,通用GPU算力、精度和性能的提升都是基于经验,而经验的来源就是客户应用的反馈。只有客户将产品用起来了,才能够知道哪些方面做得好,可以在下一代产品中继续沿用,哪些方面是需要在下一代产品中着重优化。”盖鲁江称。
 
谈到通用GPU产品的升级迭代,盖鲁江提到了四大方向:

·计算单元的优化,这是通用GPU一切性能提升的核心。通用GPU多核并行计算的特性决定了,如果单核性能得到提升,系统性能将会有明显的改进。
·集群化管理能力的提升,未来的通用GPU一定是以千卡、万卡集群的方式来提供算力,卡与卡之间的互联技术需要重点优化。
·借助先进封装的创新力量,包括Chiplet、3D封装这样的技术,未来的算力需求需要从系统层面去解决。
·针对具体应用去做突破,通用GPU的“通用性”使其不能单纯只讲芯片,需要结合具体的应用优化芯片。
 

走兼容国际主流的生态路线

2022年8月30日,天数智芯正式发布国内首个通用计算应用开发及评测平台——DeepSpark,通过分享与落地应用深度耦合的百大算法,并针对行业需求构建多维度测评体系,广泛支持各类落地场景,让算力选择不再困难,更好赋能通用计算应用开发。
 
DeepSpark平台是天数智芯构建国产通用GPU生态的重要一步。确实,如盖鲁江所言,通用GPU产品是不能脱离应用谈芯片的。他表示:“国际领先厂商多年来一直在构建自己的软件生态,并取得显著的效果,在人工智能、元宇宙和大模型浪潮中,这家厂商的软件生态都能对硬件应用起到很好的带动效果。”
 
“对于天数智芯而言,生态建设的第一步就是兼容国际主流生态。基于天数智芯的通用GPU做软件栈的开发,然后在API接口层面兼容国际主流生态,让客户能够很快地将天数智芯的通用GPU用起来,实现更低的迁移成本。”盖鲁江对此说。
 
据介绍,目前天数智芯的团队规模在500多人,其中硬件和软件工程师的比例大概是1:2。
 

后记

在国产通用GPU这个领域,天数智芯起步较早,并且是目前国内第一家实现产品量产落地的公司。凭借先发的优势,以及AI大模型带来的指数级增长的算力需求,相信天数智芯在国产通用GPU上已经滚起来的雪球将会越滚越大。
 

相关推荐

相关文章