AI 芯片行业深度解析:现状、政策、产业链及公司梳理
AI芯片行业深度:行业现状、政策分析、产业链及相关企业深度回顾AI芯片是专门为加速人工智能算法而设计的芯片。计算能力是人工智能发展的关键因素之一。随着深度学习算法的普及和应用,人工智能对计算能力提出了更高的要求。传统的CPU架构无法满足人工智能算法的算力需求。因此,具有海量数据并行计算能力、加速计算处理能力的AI芯片应运而生。在全球数字化、智能化浪潮下,智能手机、自动驾驶、数据中心、图像识别等应用带动了AI芯片市场的快速增长。
下面我们将以AI芯片为研究对象,首先讲解AI芯片的重要性及其发展历史,并详细阐述AI芯片的分类。随后,我们将分析AI芯片产业现状并探讨其重点发展方向。此外,我们还将介绍主要AI芯片厂商的研发现状。最后,我们将梳理AI芯片的产业链,分析关键环节,并指出可能从中受益的企业。我们希望通过这些内容,能够增进大家对AI芯片的了解。
目录
一、行业概况1
2.AI芯片分类解读3
3.行业现状9
4.政策环境分析11
5. AI芯片研发12
6.产业链分析26
7、境内关联企业31家
8. 未来展望 33
9. 参考研究报告34
一、行业概况 1、AI芯片:人工智能的基石
自2018年首次发布GPT-1.0模型以来,模型不断迭代。 GPT-4.0模型参数数量更多、迭代时间更长、精度更高。随着数据不断增长、算法复杂度增加,人工智能对计算能力提出了更高的要求。因此,AI芯片人工智能的基石、算力是实现人工智能产业化的核心力量,其发展对人工智能技术和行业应用的进步起着决定性作用。
释放算力价值,将对国家整体经济发展起到促进作用。算力指数每提高1个点,数字经济和GDP将分别增长3.5‰和1.8‰。可见,国家算力指数越高,对经济的拉动作用越强。 2021年至2026年,我国智能算力年复合增长率预计将达到52.3%,同期通用算力年复合增长率为18.5%。
2、AI芯片发展的三个阶段
广义上讲,凡是能够运行人工智能算法的芯片都称为AI芯片。但通常意义上的AI芯片是指专门为加速人工智能算法而设计的芯片。
AI芯片也称为AI加速器或计算卡,是专门为处理人工智能应用中大量计算任务而设计的模块(其他非计算任务仍由CPU处理)。
第一阶段:由于芯片算力不足,神经网络没有受到重视。第二阶段:通用芯片CPU的计算能力有了很大的提高,但仍然不能满足神经网络的需求。第三阶段:GPU和新架构AI芯片推动人工智能落地。
3、AI芯片分类
所谓AI芯片,实际上是在CPU等传统芯片的基础上,专门为加速AI算法(以深度学习为代表的机器学习算法)而设计的芯片。也就是说,牺牲了一定程度的通用性来换取芯片。海量数据并行计算效率提升。
AI芯片按照技术架构可分为GPU、FPGA、ASIC和类脑芯片。同时CPU可以进行通用的AI计算。与传统中央处理器(CPU)相比,GPU具有并行计算、高性能、高并发等优势,因此被广泛应用于人工智能、机器学习、数据挖掘等领域。
AI芯片按照在网络中的位置可以分为云端AI芯片、边缘和终端AI芯片;根据其在实践中的目标,可以分为训练芯片和推理芯片。
云端主要部署训练芯片和推理芯片,承担训练和推理任务,具体指智能数据分析、模型训练任务和一些需要高传输带宽的推理任务;边缘和终端主要部署推理芯片,承担推理任务,需要独立完成数据采集、环境感知、人机交互以及一些推理和决策控制任务。其中,云端和边缘计算服务器所使用的AI芯片是以GPU为代表的高度通用性芯片,而终端AI芯片则将AI功能模块与CPU、GPU、ISP等模块组合集成到SoC中,针对语音针对识别、人脸识别等不同应用场景进行完整的定制设计,需要在性能和功耗之间取得平衡。
二、AI芯片分类解读 1、从技术层面分类
https://pic2.zhimg.com/v2-d6cfec470958bf1fd507cd094300fd1d_r.jpg
AI芯片分为GPU、FPGA、ASIC和NPU。 GPU是通用芯片,ASIC是专用芯片,FPGA介于两者之间,具有半定制的特点。
(1)GPU:AI高性能计算之王
GPU最初是为了渲染图形而设计的,需要并行处理海量数据,涉及大量的矩阵运算。深度学习依赖于数学和统计计算,因此图形渲染与深度学习有相似之处。这两种场景都需要每秒处理大量的矩阵乘法运算。 GPU 是具有数千个内核的处理器,能够并行执行数百万个数学运算。因此,GPU 与深度学习技术完美契合。使用GPU进行辅助计算可以更快地提升AI性能。
GPU形成两个分支。传统GPU:用于图形图像处理,因此内置了一系列专用计算模块,如视频编解码加速引擎、2D加速引擎、图像渲染等; GPGPU:通用计算图形处理器(-GPU)。为了更好地支持通用计算,GPGPU削弱了GPU的图形显示能力,剩下的部分专门用于通用计算。它还添加了专用的向量、张量和矩阵运算指令,以提高浮点运算的精度和性能。 ,实现人工智能、专业计算等加速应用。
大型模型的基础设施趋向于结构。结构在图形、文本、音频等诸多领域表现良好,出现了大量基于结构的大型模型。模型预训练由多个堆叠的自注意力层和前馈神经网络层组成。这种设计使其在构建大规模深度神经网络时具有巨大的优势。 BERT和GPT是基于BERT的两个最著名的自然语言处理模型。
大模型的发展使得算法技术路线逐渐与模型统一,算力芯片技术路线也向适合并行计算的GPU收敛。该架构具有并行计算能力,可以同时处理输入序列的不同部分。使用分布式计算和 GPU 并行计算可以更快地训练和推断大型深度神经网络。大模型需要大算力、大互联,这对底层GPU支持规模提出了前所未有的要求,达到万卡级别。因此,由于训练大型模型的需求,市场选择了GPU作为主流计算芯片。据IDC统计,在中国人工智能芯片市场,GPU占据80%以上的市场份额。
异构计算仍然是芯片的发展趋势之一,CPU+GPU是人工智能异构计算的主要组合。异构计算利用不同类型的处理器(如CPU、GPU、ASIC、FPGA、NPU等)在单个系统中协同工作来执行特定任务,以优化性能和效率,更有效地利用不同类型的计算资源。满足不同的计算需求。
得益于硬件支持和软件编程设计的优势,CPU+GPU已经成为应用最广泛的平台。截至2023年10月,中国市场普遍认为“CPU+GPU”异构方式是人工智能异构计算的主要组合形式。
引领 GPU 计算潮流。 的GPU在AI计算市场占据主导地位。 1999年,英伟达首次提出了能够真正替代CPU渲染的GPU概念,将显卡带入全硬件处理时代,并从此持续研发GPU产品。 2006年后,推出通用并行计算平台CUDA,解决GPU编程的复杂性问题,大大降低了使用GPU进行通用计算的难度,为后续支持AI算力奠定了基础。
(2)FPGA:灵活可编程,持续创新满足AI计算需求
FPGA是一种半定制的、可编程的集成电路,具有模块化、规则的架构。它主要由三部分组成,即CLB(可编程逻辑块)、I/O(输入输出单元)和内部连接线。 ,用户可以通过更新FPGA配置文件来定义这些门电路和存储器之间的连接,以达到重构的目的。与CPU和GPU相比,FPGA在灵活性、功耗和延迟方面具有优势。它们可以以更低的功耗实现更高数量级的计算能力。随着人工智能算法的不断迭代,FPGA的特性能够更好地满足AI的计算需求。
(3)ASIC:针对特定需求而设计,具有性能优势
ASIC是指为特定用户要求和特定电子系统的需要而设计的集成电路。与通用芯片相比,它在性能和功耗方面具有优势。与FPGA相比,ASIC具有更高的专用性和更好的计算效率。在开发过程中,ASIC具有较高的非重复成本。但随着大规模量产的实现,单颗芯片的成本将随着产量的增加而增加。降低,具有批量生产的成本优势。因此,在技术和算法尚未成熟时,FPGA架构可以灵活改变芯片功能,有利于降低成本和风险;并且随着技术和算法的日益普及,ASIC将具有更多的竞争优势。
2、应用层面
根据用途,AI芯片分为“训练()”芯片和“推理()”芯片。 “训练芯片”主要用于人工智能算法训练,即将一系列标记数据输入到云端的算法模型中进行计算,不断调整优化算法参数,直至算法识别准确率达到较高水平。 “推理芯片”主要用于人工智能算法推理。他们利用经过训练的模型,利用新的数据推理出各种结论,即利用现有的神经网络模型进行运算,利用新的输入数据一次性得到正确结论的过程。 。
根据AI芯片的应用场景,可以分为云端(cloud)、边缘(side)和终端(side)三种类型。云、边缘、终端三个场景对芯片的算力和功耗有着不同的要求。 ,单芯片很难满足实际应用的需要。
不同的用途(训练/推理)、不同的应用场景(端-边-云)对AI芯片有不同的要求。首先,训练芯片追求高计算性能(高吞吐量)和低功耗,而推理芯片主要追求低延迟(完成推理过程所需的时间尽可能短)和低功耗。 “端-边-云”三个环节对AI芯片有着不同的要求。
(1)云:追求高性能、高算力芯片
目前,大多数人工智能训练和推理工作负载都在云端执行,这仍然是人工智能的中心。 AI服务器具有超高计算性能,是AI应用的核心基础设施。数据显示,2023年全球AI服务器出货量将接近120万台,同比增长约38%,预计2024年将达到150万台。由于云端需要处理海量复杂数据数据,对AI芯片的性能和算力提出了很高的要求。目前,AI服务器主要采用GPU方案。与此同时,ASIC、FPGA、NPU等非GPU芯片也在不断迭代。以满足需求。
(2)终端:产品多元化产生大量需求
终端AI芯片追求低功耗的推理任务,面向实际实现场景的需求。在能耗/算力/延迟/成本等方面存在差异。终端AI芯片主要应用于消费电子、智能驾驶、智能家居、智能安防等领域。随着终端产品种类增多、出货量增加,产生了大量的芯片需求。同时,终端AI芯片直接面向下游产品,往往以实际需求为导向,对芯片性能和成本有更高要求。
https://gbres.dfcfw.com/Files/picture/20240614/B0F095246CA257B59F5CD23BE8F682DE_w1080h1404.png
(3)边缘端:边缘数据积累逐渐增多
边缘AI芯片位于终端和云端之间,承担低时延/高隐私要求/高网络带宽使用的推理或训练任务。边缘AI芯片的算力比终端更强。他们通常独立解决问题,外围设备丰富,强调信息的可用性。在AI算法的驱动下,边缘AI芯片不仅可以独立进行逻辑分析和计算,还可以实时动态优化和调整策略。建立在边缘的数据分析和处理可以分担云端的压力,大大提高效率并降低成本。随着全球智能化、数字化的快速发展,数据呈指数级增长,大量数据在边缘积累。预计随着数据量进一步增加,对边缘AI芯片的需求将进一步增加,对芯片性能也将提出更高的要求。
三、行业现状 1、国外芯片巨头占据大部分市场份额,我国正在努力实现国产替代。
在AI芯片领域,国外芯片巨头占据了大部分市场份额。全球布局人工智能芯片的主要厂商有英特尔、英特尔、英特尔等,美国巨头公司凭借多年来在芯片领域的领先地位,迅速进入AI领域并积极布局,现已成为行业的领导者。
我国AI芯片产业起步较晚,与世界先进水平仍存在较大技术差距。国内AI芯片市场也比较分散,集中度较低。随着数字经济的兴起,人工智能深入渗透到各个行业,尤其是互联网等科技公司。这些公司对计算机软件技术和存储设备有着极高的要求,因此更加注重底层技术的布局和完善,尤其是在人工智能芯片领域。
从竞争格局来看,不同应用场景下形成了不同的AI芯片竞争格局。
在云和数据中心AI芯片市场, GPU在“训练”和“推理”领域占据主导地位。在设备端和边缘计算“推理”市场,各类芯片各行其道,目前还没有绝对主导的芯片厂商:手机市场由高通、华为、苹果原主控芯片厂商主导,而自动驾驶和安全IPC领域暂时领先。近年来,国内也出现了寒武纪、百度、地平线等优质本土厂商,开发相关产品。
目前,华为、海光信息、寒武纪等巨头坚持迭代升级,产品性能日益提升。有望在AI训练算力领域获得更多市场份额,实现国产替代。此外,与AI训练芯片相比,推理芯片的性能要求和精度要求较低。一些国产AI芯片凭借良好的性能和性价比能够满足推理端的需求。我国国产AI芯片比例有望提升。
2、市场需求旺盛,国产云AI算力芯片潜力巨大
在全球生成式人工智能浪潮的推动下,国内大型模型也不断取得技术进步,部分企业已能与海外主流模型对标能力。国内大模型技术的迭代和接入调用量的增加,对应着训练侧对更大计算硬件集群的采购需求和推理侧的逐步扩展。受贸易摩擦影响,海外核心云AI芯片进入内地市场受到限制,国产替代刻不容缓。虽然目前国产云AI芯片在硬件性能、系统生态等方面与全球领先水平存在一定差距,但国产化窗口期已经到来,行业有望迎来重要的商业化拐点。年。
3、边缘AI芯片规模稳步增长
与同时需要训练和推理性能的云端AI芯片相比,边缘AI芯片更负责推理任务。它们主要作为嵌入终端设备的AI SoC存在,因此其性能更侧重于计算能力、功耗和成本。综合性能。目前,边缘AI芯片越来越多地应用于非消费类设备和场合,如智能安防、ADAS/自动驾驶、智能家居、可穿戴智能设备以及商业和工业环境中的AI应用(智能交通、智慧城市、工厂机器)视觉、机器人和AGV等)。边缘AI芯片也将迎来蓬勃发展。
据德芯半导体统计,2022年中国边缘AI芯片市场规模约为49.9亿美元。预计到2025年,中国边缘AI芯片市场规模将增长至110.3亿美元,较2022年增长121% 。
4、硬件性能方面,单卡和互联能力需要协同发展(1)单GPU:工艺和微架构迭代是核心要素
芯片制造工艺通过改变单位面积的晶体管密度来影响芯片的计算能力和性能。工艺原本是指单个晶体管的栅极长度,但随着技术逐渐接近物理极限,工艺和栅极长度不再一一对应,而成为代表技术迭代的常规术语。一般来说,工艺节点越小,晶体管尺寸就越小。芯片工艺的迭代意味着单位面积晶体管密度的增加,而后者对于提升芯片性能、降低能耗至关重要。从Volta架构对应的单一Die 12nm工艺和211亿个晶体管,到新发布的架构Die台积电4NP工艺和1040亿个晶体管,英伟达GPU工艺的不断优化有助于其保持产品竞争力。
芯片微架构决定了数据的计算方式、存储方式和流向。不同的微架构设计会对GPU的最终性能产生较大的影响。例如:不断的架构升级带来了单芯片性能领先:从最初的Fermi,到架构,再到架构,通过引入CUDA统一编程计算平台、GPU Boost动态加速技术、RT核心以及核心等技术,使得公司GPU产品的存储计算性能、能效比逐级提升,在图形渲染、科学计算、深度学习等领域构筑了产品护城河。 能够持续快速迭代产品的关键在于其长期积累的产品开发经验以及对AI计算需求的理解在服务客户时带来的先发优势。
(2)卡间互联:在分布式计算环境中,通信带宽不断升级。
目前,随着人工智能应用中计算量的增加,单芯片逐渐转向分布式计算,PCle在多个GPU之间通信时可能会出现带宽瓶颈。 AI算力的不断增强不仅依赖于单张GPU卡的性能提升,往往还需要多张GPU卡的组合。在多GPU系统中,GPU之间的通信带宽通常超过数百GB/s。 PCIe总线的带宽有限,很容易形成传输瓶颈;另外,PCIe无法实现GPU的直接互连,需要通过PCIe进行连接。 PCIe内部由CPU进行数据处理和数据分发调度,会增加额外的网络延迟,影响系统运行效率。迫切需要性能更强的专用互连技术。
5、软件生态系统也将成为制约AI芯片算力的瓶颈。
如今,每个人都知道计算能力对于人工智能的重要性。 GPU从众多芯片中脱颖而出,成为大型模型训练和推理的首选。人们自然会根据性能数据直观地感受到一款芯片的强大与否,而所有的注意力都集中在新产品的算力有多大。但计算框架和配套软件生态才是真正释放芯片性能的驱动力,也是芯片企业的强大护城河。
4、政策环境分析
美国继续升级对中国先进芯片的进口限制。 2023年10月,美国颁布新的半导体出口限制,对芯片算力和性能密度做出更严格的规定。 A100/A800、H100/H200/H800、L4、L40s不符合出口条件。 2022年8月,美国首次对中国实施大规模芯片出口制裁,停止由A100和H100两种芯片组成的系统及相应产品的出口。此次制裁主要限制总计算性能(算力*位宽)≥4800、互联带宽≥600GB/s的高端AI芯片出口。制裁之后,英伟达为中国重新设计了两款“阉割版”的A800和H800芯片。 ,主要制约互连速率和双精度计算性能。 2023年10月芯片禁令升级版,打击力度加大。所有性能满足以下条件的芯片均受到出口管制: (一)总算力TPP(算力*位宽)超过4800的芯片; (2) TPP超过1600且PD(TPP/芯片面积)超过5.92的芯片; (3) 2400≤TPP<4800且1.6≤PD<5.92的芯片; (4)1600≤TPP且3.2≤PD<5.92的芯片。在此要求下,A100/A800、H100/H200/H800、L4和L40s不符合出口条件。 只能全方位削弱芯片算力,向中国提供H20、L20、L2芯片。近期,美国政府再次升级对华半导体出口管制。据钛媒体资讯,北京时间2024年3月30日凌晨,美国商务部工业与安全局(BIS)发布“实施额外出口管制”新规和措施,对制定的规定进行了修改BIS分别于2022年10月和2023年颁布了两项新的出口限制措施,全面限制了英伟达、AMD以及更先进的AI芯片和半导体设备向中国的销售。在此次新规中,BIS删除并修改了一些关于美国、澳门、中国等地向中国销售半导体的规定。产品限制措施,包括中国澳门和D:5国家集团将采取“推定拒绝政策”、美国将对出口到中国的AI半导体产品采取“逐案审查”政策和规则,包括技术水平、客户身份、合规性计划等信息的全面检查。
近年来,我国AI芯片产业受到前所未有的关注和支持。为推动AI芯片产业蓬勃发展和技术创新,国家相继出台多项政策,不仅为AI芯片产业描绘了清晰广阔的市场前景,例如“国家能源局关于加快能源数字化、智能化发展的若干政策《意见》、《国家综合政务大数据系统建设指南》和《“十四五”国民健康规划》也为企业提供了优质的生产经营环境,保障了行业平稳发展。
本文未完,请参阅:【AI芯片行业深度:行业现状、政策分析、产业链及相关企业深度回顾(二)(汇博出品)】或关注“汇博资讯微信”顺利阅读!
页:
[1]