电路板AI芯片公司都宣传起“大模型” ｜直击WAIC2亚新体育023

2023-07-11 22:03:31

电路板AI芯片公司都宣传起“大模型” ｜直击WAIC2亚新体育023

分享到：

　　亚新体育亚新体育半导体公司参展世界人工智能大会（WAIC）已成惯例，然而今年，大多数观众奔向一家半导体公司展台后的第一件事，是寻找“大模型”三个字。

　　大模型在国内爆火已半年有余，算力一直是让各公司们头疼的问题。大模型训练，需要高质量的数据和庞大的算力作支撑，由于种种原因，国内厂商想买到英伟达A100、H100芯片十分艰难；而较容易买到的A800芯片价格又相对高昂。

　　据36氪了解，国内有万卡储备规模的大模型公司不到10家，多为百度、字节、阿里、幻方量化这样的巨头。

　　本次WAIC上，除后摩智能知存科技等存算一体公司以外，几乎所有AI芯片公司都在展台上布设了“大模型”展页，介绍自家产品对大模型和AIGC应用的支撑能力。

　　从时间点看，一款芯片从研发立项到设计、流片到送测、量产，需要3～5年时间。此前，芯片厂商在做芯片设计上并未朝着大模型训练功能方面设计，目前展出的多为过往推出的产品。

　　在多数国内芯片厂商看来，行业模型类公司是他们更好的机会，能同时满足训练和推理一体化能力的芯片产品具有市场未来。

　　在WAIC大会展览馆内，大模型厂商占据半场，半导体公司占据另外半场。走到世博H2展馆，昆仑芯、登临、瀚博、天数智芯、燧原、墨芯、沐曦等AI芯片厂商的展台，密集地簇拥在一起。

　　芯片制程和算力不再是AI芯片最被关注的话题，能否支撑大模型，可以做训练还是推理，适配了什么模型，速度如何，精度如何，功耗如何，显存采用什么芯片，达多大内存，一系列围绕大模型展开的问题成为参展嘉宾的关注重点。

　　推理是比训练更容易实现的事情。大模型的训练，是将百亿、千亿的数据喂给算法，最终训练出一个模型的过程，它对芯片计算速度和稳定性要求非常高；推理则是借助大模型，给他喂一个数据、问题后，生成答案的过程，需要的单个问题计算量大幅降低。

　　在展会上，昆仑芯、天数智芯、燧原等少数几家公司表示具有支持大模型训练的能力。

　　昆仑芯AI加速卡RG800的峰值为256 TOPS@ INT8和128 TFLOPS@FP16，展台相关产品介绍表示，“可用于常规模型训练，也可用于多业务并发的高性能推理”。

　　天数智芯的产品可以支持大模型训练、推理，据展台人员介绍：“我们在上半年搭建了搭建40P算力320张天垓100加速卡算力集群，完成了智源研究院70亿参数大模型训练。当前天数智芯正在搭建 200P 算力 1600 张卡的算力集群，支持 650 亿参数的大模型训练。”

　　燧原科技展示的第二代训练产品“云燧T20/T21”已经量产并落地在重点实验室和成都智算中心。据展台人员介绍，目前已可以支持多个大模型，并在现场演示了基于LLaMA的聊天机器人、文生PPT和多媒体生成的demo。

　　对于大模型训练而言，需要数据精度达FP16、FP32级别。根据各家官宣数据，天数智芯的智铠100、燧原邃思2.0、昆仑芯二代AI芯片、登临科技新一代Goldwasser™最高能支持FP32级别的数据。

　　大多数AI公司主要介绍的是AI芯片对大模型的推理能力。沐曦、登临、算能、墨芯等都带来了自己的AI推理芯片及产品。

　　对芯片的判断指标主要有算力、功耗、精度、显存等维度。算力越高，计算速度越快；功耗越低，耗电和运营成本越低；可支持数据精度越高，能训练和识别的颗粒度就越高；显存容量越大，则能处理的数据量越大，能较好支撑大模型所需的大量数据计算过程。

　　算力维度上，墨芯采用稀疏化的技术路线)的稀疏等效算力，功耗仅250W，不过相对而言，其产品在通用性上还有提升的空间。

　　显卡角度，海飞科的Compass C10通用GPU和登临新一代Goldwasser™（高凛™）都拥有128GB的显存。海飞科官方资料表示，能支持单卡部署百亿级参数大模型进行推理。瀚博也表示，基于VA1L的大模型一体机整机拥有512GB显存，可以支持部署1750亿参数的大模型。

　　AI芯片硬件性能只是一个方面，想要让国产芯片能用起来，软件能力会是更重要的壁垒之一。算力的释放需要复杂的软硬件配合，才能将芯片的理论算力变为有效算力。

　　英伟达曾用3000多名工程师构建出一个强大的Cuda电路板，它已成为英伟达强大的生态壁垒。这套框架里集成了很多调用GPU算力所需的代码，工程师可以直接使用这些代码，无须一一编写。

　　一位关注基础软件的投资人曾告诉36氪：“没有CUDA，调用GPU的代码会写到地老天荒，不可能所有的东西都自己写。”

　　国内公司在软件生态上有两个流派，如寒武纪、昆仑芯就选择自建软件生态，再造一个Cuda软件能力和工具栈；更多公司则选择和Cuda对接，如天数智芯、摩尔线程、燧原、登临等亚新体育，让自己的产品与Cuda作兼容。

　　多家公司向36氪表示，未来将推出能同时做训练和推理芯片的产品，产品分别预计于2023年第四季度到2024年间推出。

　　大模型厂商正处于百模大战的阶段，有做L0级别技术大模型的大厂，做L1级别行业大模型的应用企业，还有部分微调的场景大模型。

　　部分垂直行业客户市场化部署时，希望基于最小算力成本来实现模型的落地。相较于从0开始训练大模型，“微调”对客户而言，是一个经济性更高的方法。

　　多位采访对象向36氪表示，目前，相比于千亿、数千亿参数的大模型，国内垂直行业较大模型更容易落地，也是国内芯片公司最容易落地的场景。

　　行业垂直客户通常存在精调训练和推理的需求，低成本且快速地采用大模型的能力。他们不想购买两种不同的芯片，训推一体化芯片能很好满足客户需求。

　　推出兼具训练、推理功能的芯片成为趋势，训推一体化芯片也是大多国内AI芯片公司在大模型算力需求浪潮下的抓手。

　　二是因为，L0级别的技术大模型厂商，更倾向于选择头部供应商。在目前争分夺秒的大模型训练阶段，国产AI芯片公司很难成为其供应商。

　　对阿里、百度、腾讯、面壁选择L0级别大模型的公司而言，成本不是第一要考虑的问题。为更好实现大模型效果，他们会优先选择英伟达的产品，保证从算力层面不加大与国际同行间的差距。

　　有行业人士曾告诉36氪，目前大模型公司的算法和数据也存在难题，大模型训练需要数月不间断，国产芯片的稳定性尚未得到充足验证。一旦训练发生中断，是算法的问题还是芯片的问题，这很难界定。大模型公司也不愿冒这个风险。

　　国内公司也可以满足千亿级别模型的训练需求，在单卡训练算力不足情况下，堆量是一个方法。

　　针对这一类需求，需要昇腾AI、昆仑芯等，通过RDMA互联等形式，构建出上百台服务器、数百张卡的集群，通过集群的方式堆叠算力，增加计算能力，再通过软件能力对算力统一调度。

　　算力资源常需要以池化的形式呈现，由于不同芯片在底层硬件和上层软件调度方式、接口上存在差异亚新体育，为更好调度算力，基建通常不会采用多家公司的芯片硬件芯片。数据中心通常更愿意采用同一种芯片，或者同一公司的不同芯片，来降低算力池化难度。这就意味着，一个数字基建工程需要选择单独一家公司的产品。

　　国内AI芯片公司大多成立时间不足5年，芯片需要硬件和软件层面的积累，产品需要一步一步迭代和设计。抓住需求，推出能力范围内从成本、性能角度可替代的产品，在如今这个资本相对冷却的环境下，先活下去，才能探索未来。

　　7月6日，为期三天的2023世界人工智能大会（WAIC）在上海正式举办。据悉，本届WAIC 展览共吸引了400多家企业参展，预计将有30多款产品在大会上首发。

上一篇：芯片半导体第一龙头底部已现年报大幅增长51457%7电亚新体育路板月成妖王？
下一篇：国产芯片：卖一颗亏23万！亚新体育

亚信新闻

电路板AI芯片公司都宣传起“大模型” ｜直击WAIC2亚新体育023