1xbet体育

1xbet体育

2023-07-11 22:03:31

电路板AI芯片公司都宣传起“大模型” |直击WAIC2亚新体育023

分享到:

  亚新体育亚新体育半导体公司参展世界人工智能大会(WAIC)已成惯例,然而今年,大多数观众奔向一家半导体公司展台后的第一件事,是寻找“大模型”三个字。

  大模型在国内爆火已半年有余,算力一直是让各公司们头疼的问题。大模型训练,需要高质量的数据和庞大的算力作支撑,由于种种原因,国内厂商想买到英伟达A100、H100芯片十分艰难;而较容易买到的A800芯片价格又相对高昂。

  据36氪了解,国内有万卡储备规模的大模型公司不到10家,多为百度、字节、阿里、幻方量化这样的巨头。

  本次WAIC上,除后摩智能知存科技等存算一体公司以外,几乎所有AI芯片公司都在展台上布设了“大模型”展页,介绍自家产品对大模型和AIGC应用的支撑能力。

  从时间点看,一款芯片从研发立项到设计、流片到送测、量产,需要3~5年时间。此前,芯片厂商在做芯片设计上并未朝着大模型训练功能方面设计,目前展出的多为过往推出的产品。

  在多数国内芯片厂商看来,行业模型类公司是他们更好的机会,能同时满足训练和推理一体化能力的芯片产品具有市场未来。

  在WAIC大会展览馆内,大模型厂商占据半场,半导体公司占据另外半场。走到世博H2展馆,昆仑芯、登临、瀚博、天数智芯、燧原、墨芯、沐曦等AI芯片厂商的展台,密集地簇拥在一起。

  芯片制程和算力不再是AI芯片最被关注的话题,能否支撑大模型,可以做训练还是推理,适配了什么模型,速度如何,精度如何,功耗如何,显存采用什么芯片,达多大内存,一系列围绕大模型展开的问题成为参展嘉宾的关注重点。

  推理是比训练更容易实现的事情。大模型的训练,是将百亿、千亿的数据喂给算法,最终训练出一个模型的过程,它对芯片计算速度和稳定性要求非常高;推理则是借助大模型,给他喂一个数据、问题后,生成答案的过程,需要的单个问题计算量大幅降低。

  在展会上,昆仑芯、天数智芯、燧原等少数几家公司表示具有支持大模型训练的能力。

  昆仑芯AI加速卡RG800的峰值为256 TOPS@ INT8和128 TFLOPS@FP16,展台相关产品介绍表示,“可用于常规模型训练,也可用于多业务并发的高性能推理”。

  天数智芯的产品可以支持大模型训练、推理,据展台人员介绍:“我们在上半年搭建了搭建40P算力320张天垓100加速卡算力集群,完成了智源研究院70亿参数大模型训练。当前天数智芯正在搭建 200P 算力 1600 张卡的算力集群,支持 650 亿参数的大模型训练。”

  燧原科技展示的第二代训练产品“云燧T20/T21”已经量产并落地在重点实验室和成都智算中心。据展台人员介绍,目前已可以支持多个大模型,并在现场演示了基于LLaMA的聊天机器人、文生PPT和多媒体生成的demo。

  对于大模型训练而言,需要数据精度达FP16、FP32级别。根据各家官宣数据,天数智芯的智铠100、燧原邃思2.0、昆仑芯二代AI芯片、登临科技新一代Goldwasser™最高能支持FP32级别的数据。

  大多数AI公司主要介绍的是AI芯片对大模型的推理能力。沐曦、登临、算能、墨芯等都带来了自己的AI推理芯片及产品。

  对芯片的判断指标主要有算力、功耗、精度、显存等维度。算力越高,计算速度越快;功耗越低,耗电和运营成本越低;可支持数据精度越高,能训练和识别的颗粒度就越高;显存容量越大,则能处理的数据量越大,能较好支撑大模型所需的大量数据计算过程。

  算力维度上,墨芯采用稀疏化的技术路线)的稀疏等效算力,功耗仅250W,不过相对而言,其产品在通用性上还有提升的空间。

  显卡角度,海飞科的Compass C10通用GPU和登临新一代Goldwasser™(高凛™)都拥有128GB的显存。海飞科官方资料表示,能支持单卡部署百亿级参数大模型进行推理。瀚博也表示,基于VA1L的大模型一体机整机拥有512GB显存,可以支持部署1750亿参数的大模型。

  AI芯片硬件性能只是一个方面,想要让国产芯片能用起来,软件能力会是更重要的壁垒之一。算力的释放需要复杂的软硬件配合,才能将芯片的理论算力变为有效算力。

  英伟达曾用3000多名工程师构建出一个强大的Cuda电路板,它已成为英伟达强大的生态壁垒。这套框架里集成了很多调用GPU算力所需的代码,工程师可以直接使用这些代码,无须一一编写。

  一位关注基础软件的投资人曾告诉36氪:“没有CUDA,调用GPU的代码会写到地老天荒,不可能所有的东西都自己写。”

  国内公司在软件生态上有两个流派,如寒武纪、昆仑芯就选择自建软件生态,再造一个Cuda软件能力和工具栈;更多公司则选择和Cuda对接,如天数智芯、摩尔线程、燧原、登临等亚新体育,让自己的产品与Cuda作兼容。

  多家公司向36氪表示,未来将推出能同时做训练和推理芯片的产品,产品分别预计于2023年第四季度到2024年间推出。

  大模型厂商正处于百模大战的阶段,有做L0级别技术大模型的大厂,做L1级别行业大模型的应用企业,还有部分微调的场景大模型。

  部分垂直行业客户市场化部署时,希望基于最小算力成本来实现模型的落地。相较于从0开始训练大模型,“微调”对客户而言,是一个经济性更高的方法。

  多位采访对象向36氪表示,目前,相比于千亿、数千亿参数的大模型,国内垂直行业较大模型更容易落地,也是国内芯片公司最容易落地的场景。

  行业垂直客户通常存在精调训练和推理的需求,低成本且快速地采用大模型的能力。他们不想购买两种不同的芯片,训推一体化芯片能很好满足客户需求。

  推出兼具训练、推理功能的芯片成为趋势,训推一体化芯片也是大多国内AI芯片公司在大模型算力需求浪潮下的抓手。

  二是因为,L0级别的技术大模型厂商,更倾向于选择头部供应商。在目前争分夺秒的大模型训练阶段,国产AI芯片公司很难成为其供应商。

  对阿里、百度、腾讯、面壁选择L0级别大模型的公司而言,成本不是第一要考虑的问题。为更好实现大模型效果,他们会优先选择英伟达的产品,保证从算力层面不加大与国际同行间的差距。

  有行业人士曾告诉36氪,目前大模型公司的算法和数据也存在难题,大模型训练需要数月不间断,国产芯片的稳定性尚未得到充足验证。一旦训练发生中断,是算法的问题还是芯片的问题,这很难界定。大模型公司也不愿冒这个风险。

  国内公司也可以满足千亿级别模型的训练需求,在单卡训练算力不足情况下,堆量是一个方法。

  针对这一类需求,需要昇腾AI、昆仑芯等,通过RDMA互联等形式,构建出上百台服务器、数百张卡的集群,通过集群的方式堆叠算力,增加计算能力,再通过软件能力对算力统一调度。

  算力资源常需要以池化的形式呈现,由于不同芯片在底层硬件和上层软件调度方式、接口上存在差异亚新体育,为更好调度算力,基建通常不会采用多家公司的芯片硬件芯片。数据中心通常更愿意采用同一种芯片,或者同一公司的不同芯片,来降低算力池化难度。这就意味着,一个数字基建工程需要选择单独一家公司的产品。

  国内AI芯片公司大多成立时间不足5年,芯片需要硬件和软件层面的积累,产品需要一步一步迭代和设计。抓住需求,推出能力范围内从成本、性能角度可替代的产品,在如今这个资本相对冷却的环境下,先活下去,才能探索未来。

  7月6日,为期三天的2023世界人工智能大会(WAIC)在上海正式举办。据悉,本届WAIC 展览共吸引了400多家企业参展,预计将有30多款产品在大会上首发。

上一篇:芯片半导体第一龙头底部已现年报大幅增长51457%7电亚新体育路板月成妖王?
下一篇:国产芯片:卖一颗亏23万!亚新体育