世上无难事,只要肯登攀,很多人喜好登山,追求的是登顶和翻越高山之后的造诣感。
自芯片荒以来,本土车企这几年韶光也爱上了登山,他们登的那座山叫芯片。
01
在东邪西毒里,借着欧阳锋的口,王家卫说,年轻的时候看着大山,就想知道山后面是什么,年纪大了,就不想知道了。
芯片是中国的老大难,也是一座很难翻越的关山,在这座大山的背后,是一个又一个异构打算单元。
我们以黑芝麻A1000的异构打算架构图为例,展开先容一下以智能驾驶和智能座舱为紧张运用处景的汽车大算力芯片内部的各种异构打算单元。
这类大算力芯片一样平常会包含CPU、GPU、NPU、DSP、ISP、安全MCU、视频输入输出、打算机视觉引擎、各种通信接口。
CPU可以针对不同运用的实时性和安全哀求选择运行不同的操作系统,管理内存、存储、文件系统、系统外设等各种资源,进行逻辑打算,供应安全支持。
GPU主打图像处理,卖力管理多个高分辨率显示器的图形渲染和纹理处理,支持优先处理仪表屏之类的实时运用。
DSP进行滤波、降噪等数字旗子暗记处理,既可以供应定点打算能力,也可以进行繁芜的浮点打算;ISP既可以用于图像的感知,也可以用于图像的合成。
NPU是大家目前最看重的神经网络处理器,有时也被称为BPU或AI引擎,紧张用于神经网络的推理事情。
当然了,鉴于AI已经发展了六七十年,CPU和GPU也具备一定的AI能力,CPU可以进行轻量级单次推理的低延迟AI任务,GPU的并行特性和大吞吐量使其可用于处理媒体、3D和渲染中的AI任务。
芯片设计的紧张事情是对各种各样的打算单元进行灵巧的组合,选择合理且有效的算力类型和算力规格,知足运用处景的多样性需求,并达到算力、功耗、本钱的最佳平衡。
不过,在目前这个时期,大算力芯片设计最紧张的任务是聚焦最新的神经网络架构,使其NPU或AI引擎的设计可以做到与当代神经网络协同优化。
02
早起的鸟儿有虫吃,早起的虫子被鸟吃。
有的领域存在先发上风,有的行业存在后发上风。对付算法不断变革的智驾来说,自动驾驶芯片做得越晚,就越是能够适应技能路线的不断演化。
在2021年的GTC大会上,英伟达推出了Orin X的下一代芯片Atlan,到了2022年的GTC大会上,豪横的黄教主砍掉了已经花了好几亿美金的Atlan,直接推出了新的芯片-雷神Thor。
这次改变的核心缘故原由并不在于Atlan的芯片算力有点低,要知道,虽然Atlan的芯片算力为1000T,Thor的芯片算力曾经一度提高到2000T。
但是,到了2024年的GTC大会上,出于一些不可言说、难以琢磨的缘故原由,这颗芯片的算力又被阉割成了1000T。
事实上,跟Atlan比较,Thor最核心的转变在于加入了Transformer引擎。
之以是几亿美金说打水漂就打水漂了,黄教主连眼睛都不眨一下,是由于在2021年的AI Day上,特斯拉推出基于Transformer的BEV,一下子打开了全体自动驾驶行业的视野:CNN的时期结束了,Transformer的时期到来了。
华为曾经在2022年推算过,到2027年,自动驾驶系统中的CNN和Transformer的打算比例将从2022的七三开进化成届时的三七开。
为了支持霸占更大比例的Transformer打算,芯片层面必须引入原生的Transformer引擎,做好底层支持,才能担保上层自动驾驶算法的精度、时延。
这个几亿美金的教训揭示了一个深刻的道理,要做出一颗成功的自动驾驶芯片,必须非常理解自动驾驶算法。
在NOA市场屈居英伟达之下、在一体机市场独占鳌头的地平线将自己标榜为披着芯片厂商外衣的算法厂商的核心缘故原由就在这里。
自动驾驶系统内部有成千上万个小模型,这些模型会用到哪些详细的算法,须要芯片在硬件层面供应什么样的支持,特殊磨练自动驾驶芯片厂商在算法上的实力。
03
男女搭配,干活不累,软硬协同,才能得到力大砖飞的系统。
对智能系统而言,芯片只是根本,如何与软件深度协同并将协同效应最大化才是制胜的关键。
厂商若不供应可以开释硬件性能的底层软件,对开拓者而言,芯片便是一块板砖。
接下来,先摆事实再讲道理,谈一谈为何芯片厂商须要实现软硬协同。
摆事实,自2016年起,特斯拉采取英伟达的Drive PX 2开启了自动驾驶的自研之路,版本号为HW 2.0,物理算力是24TOPS,后来升级为HW 2.5,物理算力提高到80TOPS。
2019年,特斯拉推出第一颗自研的自动驾驶芯片,算力为72TOPS。
算力低落了,但在以FPS为度量指标的真实性能上,HW3.0相较于HW2.5提升了足足21倍!
这个比较不但解释了特斯拉的超级刁悍,还见告了我们一个铁一样平常的事实:只有深谙自家芯片的硬件特性和技能秘密,才有可能设计得当的算法压榨硬件算力,将软件性能发挥到极致。
再讲道理,系统的性能=打算算力x打算带宽x打算算法。
这里的打算算力是硬件处理器可以开释的峰值打算效能,大家津津乐道的芯片算力多少个TOPS指的便是这个指标。打算带宽指的是对峰值打算能力的有效利用率,取决于芯片架构、编译器的优化程度。
打算算法指的是算法效率,可以理解为软件在硬件上的驻留韶光或者资源占用情形,勾留韶光越长,对硬件潜力或者说性能的挖掘就越大,这个指标取决于芯片厂商供应的算子的效率和上层算法开拓商的算法实力。
看到了吧,芯片从来不但是芯片,而是芯片+底软的整体办理方案,如果做芯片只是拿着各种IP核搭积木那么大略,国家何至于每年要入口四五千亿美金的芯片?
做芯片到底有多难,三天三夜也讲不完,隔壁的手机厂商最理解这一点。
君不见,已经由去了10年的韶光,小米至今还没有拿出第1颗真正自研的手机芯片?