撰文/ 牛跟尚
(资料图片)
编辑/ 张 南
设计/ 琚 佳
当前,汽车领域科技革命和产业变革蓬勃兴起,中国汽车行业站在了转型升级的十字路口。
在后摩智能创始人兼CEO吴强看来,这几年,中国电动智能化的发展已经走到了世界前列,这是一个难得的历史机遇,中国企业应该乘势而上,抓住机遇,联合产业链上下游,推动智能驾驶继续向前发展。
6月16日,这家高科技新创公司负责人在2023第十五届中国汽车蓝皮书论坛上说,发表题为“存算一体创新引擎,力破智能驾驶僵局”的演讲。
他认为,长期来看,智能驾驶的渐进式发展,会从L2+逐渐向L3、L4迭代、演进,L2+是智能驾驶必经之路,但一定不是终点,高阶智能驾驶一定会来。
怎么才能打破目前的智能驾驶僵局?吴强认为,第一,需要技术和算法上的突破;第二,需要数据的大量积累;第三,需要用芯片实现计算效率的阶跃。只有这三个方面同时满足,才有可能打破目前看到的僵局。
后摩智能要做的就是用创新的存算一体底层架构,打造高能效比的智驾芯片,实现计算效率数量级地提升。
自2020年成立以来,作为国内率先采用存算一体技术打造智能驾驶计算芯片的硬科技企业,后摩智能致力于突破芯片算力和功耗瓶颈。
2023年5月10日,后摩智能在上海发布首颗高性能、低功耗的存算一体智驾芯片——后摩鸿途H30。该芯片提供高达256TOPS的物理算力,为智能驾驶、泛机器人等边缘场景提供强大的计算核心。
在算力需求蓬勃爆发的时代下,存算一体技术走过概念、走出实验室,开始走向量产及市场。它颠覆性地将芯片的计算单元与存储单元融合,能够从根本上解决54年前冯·诺伊曼架构计算与存储分离带来的能效瓶颈。
吴强介绍,存算一体跟传统的方式相比,它的计算效率可以实现一个数量级的提升。这种计算效率体现在算力、功耗、能效比、延时和成本等等方面。
作为创新力量的另一个方面,它对技术底线有保障。在当下的国际环境中,基于存算一体自身的架构特点,它可以用相对落后的工艺制程,依然能做出媲美基于常规架构用先进制程做出来的芯片产品。
吴强打比方说,可用28nm的工艺做出一款算力和功耗媲美7nm常规架构的芯片,这就是后摩尔时代底层架构创新能够带来的价值。在今天的国际环境下,它能够为国产供应链自主可控带来一些特殊意义。
以下是后摩智能创始人兼CEO吴强的演讲实录,此处有删节。
各位嘉宾、各位新老朋友:
大家好!我是后摩智能的吴强。
当组委会找我选演讲课题的时候,他们给了我一个清单,列了一些选择的话题,我最后选了“智能驾驶僵局”这个话题。因为我觉得在过去几年里边对智能驾驶来说,我们经历了一个特别乐观又到特别悲观的这么一个过程。
今天。我想谈谈如何用存算一体这样一个创新的技术,从芯片的角度来分析如何去打破智能驾驶这样一个僵局。
智能驾驶的僵局
僵局主要体现在两个方面。
一方面是,L4、L3这种高级智能驾驶落地没有大家想象那么快。前几年大家特别乐观,觉得很快就可以落地,并且可以形成商业闭环。
但是大家后来发现其实没有想象得那么快,这两年突然间业内出现很多声音,说L3、L4也许十年二十年都不可能到来,我们一直L2+++,无限+下去。
另外一个方面体现在,用户对L2+或者L2的价值认同不强。大家觉得L2智能化是好,但是这个东西到底是不是一个噱头,我有就可以了。至于我有了以后用不用,用得好不好可能我不在乎。所以大家觉得这个东西也许没有那么多的价值,我也不愿意为它付很多的价钱,所以就开始了所谓的“价格战”。
我最近一直思考的一个问题,智能驾驶真的没有价值的吗?L3、L4真的十年二十年都不可能到来吗?我们用户真的觉得L2+这个东西是一个鸡肋,只是便宜就行了吗?
这个问题我一直思考了很多。当然业内对这种观点有人乐观,有人悲观,刚才唐锐总说的觉得十年二十年都不可能到来L3、L4,但也有人说2025年、2030年就可以到来。所以大家各有各的乐观或者悲观的预计。
我的想法是,如果拿不准的时候会退一步从更深层、更底层的逻辑去做判断,去看底层的逻辑和趋势。
首先,智能化它本身是一个刚需,比如说我作为一个用户来说,L2+最终对客户产生价值并不是L2+,真正能把客户解放出来的是L3、L4。所以从客户的需求上来说,其实我们需要有这个刚需,大家需要从每天的驾驶中解放出来。
第二,从历史的发展趋势看,其实很多的这种智能化已经成为了一个不可逆的浪潮,就像我们从蒸汽机到内燃机,从燃油车到电动车,这个趋势已经在发生。
这几年中国从电动车智能化已经走到了前列,这本身是一个难得历史机遇,所以我们不应该被暂时的这种困境、挫折困住,我们应该乘势而为,抓住这个历史机遇,去推动智能驾驶的发展。
这是我思考的一个过程。我的观点是更乐观的,从未来来看,L2+智能驾驶一定是一个渐进的过程,它会从L2+逐渐向L3、L4去迭代、去演进,并且L2+是智能驾驶一个必经之路,但是L2+一定不是终点。
怎么才能打破
需要几个方面。第一,我们需要在技术和算法上突破。第二,我们需要在数据上的积累和突破。第三,我们需要从芯片、从算法有一些更深层的效率上的阶跃。只有这三个方面同时满足才有可能打破目前我们看到的僵局。
短期来看,我们要做的事情是尽快地让L2量产普及。
这里面有两个方面。第一方面,我们要让更便宜的车都能用到L2+,有更多的车跑在路上收集更多的数据。第二方面,我们要用真正的能给客户带来价值的L2+,而不是让大家觉得这就是一个噱头,只是有而已。
我希望它能够给客户带来实实在在的价值,尽管不能是完全替代,但是希望能带来价值。
我们不单单需要高速NOA,我们需要环线,需要绕城,甚至最后能不能到城市NOA,这个我觉得是未来几年里面我们希望各个同行们咱们一起去努力的事情。
因为我们是做智能驾驶芯片的,对我们来说:第一,我们希望能够提供更便宜、性价比更高的芯片。这里面包括一方面是说让更多的车能够付得起这个费用;同时,这不单单是价格问题,还有功耗能不能降到最低,我可以不用液冷,我用自然风冷,我可以让很便宜的车都能够安装得起这种不太复杂的智能驾驶系统。
我们的效率、算力要进一步大幅度提升,真正能做到给客户带来真正价值的智能驾驶体验,让客户感受到它是有实实在在的价值,提高这样的认同感,这可能是我们所有同行们可以在短期共同努力的方向,让L2+真正量产普及。
随着L2+的量产普及,我们会收集大量的数据,积累大量的数据,实现数据的积累和突破。
如果说我们有些算法上的突破,比如说现在的大模型,它也给我们的算法突破提供了一个非常有前途的方向。
其实就是我们算力、芯片。算力芯片如果到L4这个级别,长期来说我们的目标是向L4,这才是真正的终极的目标,真正把人类从繁重的驾驶中解脱出来。这种情况下,我们需要的算力和效率提升不是一个简单的提升,其实是希望一个数量级的阶跃,才能真正达到L4这样一个级别。
对我们来说,这是一个非常挑战的目标,我相信这个事情不是遥不可及。
如何才能实现数量级的计算效率提升
它不是一个简单的改良就能做到,我们需要更多的一些在底层架构上的创新。
特别是随着摩尔定律逼近极限,其实我们需要一些更契合后摩尔时代的这种底层架构创新,才能实现我们说的数量级的效率提升。
存算一体式后摩尔时代的新技术之一,它的基本原理是说,我们在AI的计算当中,打破传统的冯·诺依曼架构,不再用计算和存储分开的方式,而是把计算和存储完全融合的方式,去实现计算效率数量级地提升,这是一种计算底层架构的重构。
存算一体的创新力量,它体现在两个方面。
一方面是说它的技术上限特别高。存算一体跟传统的方式相比,它的计算效率可以实现一个数量级的提升。这种计算效率体现在算力、功耗、能效比、延时和成本等等方面。
作为创新力量的另外一个方面,是技术底线有保障。在当下的国际环境中,基于存算一体自身的架构特点,它可以用相对落后的工艺制程,依然能做出媲美基于常规架构用先进制程做出来的芯片产品。
打个比方说,我们曾经用28nm的工艺做出了一款算力和功耗可以媲美7nm常规架构的芯片,这个本身就是后摩尔时代底层架构创新能够带来的价值。在今天的国际环境下,它能够为国产供应链自主可控带来一些特殊的作用。
后摩是一家成立时间不长的公司,但是我们是国内最早用存算一体做大算力AI芯片的公司,今年5月份我们发布了首款量产的存算一体智驾芯片——鸿途H30。
简单说一下它的规格, 鸿途H30 AI算力最高可以达到256TOPS,这是物理算力,不是虚拟算力,但它的典型功耗只有在35瓦左右。这样的效率,跟市场上面国际巨头254TOPS虚拟算力的芯片比,我们的性能大概是它的2倍。所以我们AI性能是它的2倍,但我们功耗只有它的1/2,这里面大概有几倍效率的提升。
这个效率提升来源于两个方面,一方面是我们底层核心IP完全自研,后摩创新自研了量产级的存算一体IP,只有这种存算一体的技术,才能达到几倍的AI计算效率的提升,常规架构其实很难做到。我们应该是国内存算一体大算力IP方面走得最前面的。
另外就是我们自研的IPU,基于存算一体的底层架构,为AI计算设计的IPU。
鸿途H30芯片是基于我们第一代的天枢架构,我们也正在研发第二代的天璇架构,天璇架构增加了对Transformer等大模型更好的支持,为后续大模型的应用迁移打基础。
当然我们后面还有第三代天玑架构。我们完全自研的IPU架构是我们能够有如此高计算效率的另外一个原因。
天枢架构采用多核、多硬件线程的方式扩展算力,实现了计算效率与算力灵活扩展的完美均衡,AI 计算可以在核内完成端到端处理,保证通用性。
这是我们第一代芯片鸿途H30性能的测试,这是实测的结果,对一些比较典型的网络,我们和一个国际巨头的数据做了比较,鸿途H30基于Resnet 50 模型的 Benchmark,在Batch Size等于1和8的条件下分别达到了8700 帧/秒和 10300 帧/秒的性能。
从能效比的角度,我们的芯片实现了性能2倍提升的同时,还降低了50% 功耗,所以我们在效率方面大概是有4倍以上的提升。这些都是得益于存算一体这个创新架构带来的一些价值。
鸿途H30是针对智能驾驶而设计的芯片,我们基于最新的智能驾驶的一些算法和网络做了适配,包括BEV模型、PointPillar网络模型 ,用鸿途H30 打造的智能驾驶解决方案已经在合作伙伴的无人小车上完成部署。
芯片之外,我们还做了一个叫力驭的智能驾驶计算平台,它只有一个单颗的AI芯片,我们的鸿途H30。整个这个平台上面大概有200KDMIPS的CPU算力、高达256TOPS的AI算力,包括还有一些其他的接口。这个我们可以提供给合作伙伴作为参考设计,也可以直接作为产品提供给我们的合作伙伴。
我们还做了智能驾驶计算使能平台——Sailing平台,来帮助我们的客户,不管是Tier1还是OEM,来帮助他们把芯片更好地应用起来。
这里面有三个部分,最底层是我们作为产品提供的,包括了我们的芯片、系统软件、软件工具链。这是我们提供给客户的产品。
同时,我们还有一系列的参考设计,包括刚才说的域控、一些参考算法,例如 Model Zoo这些东西是作为参考设计提供给客户。最上面是客户自己的软件或者他们应用层的软件。
我重点说一下后摩大道这个软件工具链。芯片既要性能强,又要好用,这是业内的一个共识。
我们希望提供一个具有差异化的、性能好的芯片,还有一个好用的编译器工具链帮助客户尽快地落地。这个工具链叫“大道”,大道至简、大道至臻,我们希望为客户提供一个开放易用的软件工具链。
一个年轻的公司
很多朋友之前问我,说你们存算一体,是不是软件不好用?但事实上存算一体是一种底层的架构创新,它其实解决的是底层计算单元的效率问题,它对上层的用户是无感知的。
而上层的软件开发或者使用,其实更多的是在IPU这一层,所以我们在IPU这一层做了很多的设计,可以让用户体验更好。相对于早年那种黑盒式的或者封闭的模式,我们选择走向一个更开放的、更通用的编程模式,这是我们软件工具链最初的设计理念。
后摩大道首先是说我们提供了一套Model Zoo,可以让大家用我们的参考模型去快速落地。
我们提供了一个模型开发的SDK、提供了一系列的算子库,客户可以根据我们的算子库去开发自己的模型。
对更高级的用户,我们提供了一套算子开发的工具,就是我们开发了一层类似主流的编程语言,我们叫HDPL,你可以用这套语言访问我们最底层的接口,可以开发出自己的这种算子,这个也是我们工具链的一部分。
总的目标是,希望打造一个开放易用的软件工具链,帮助我们的客户把我们芯片尽快落地。
我们5月份刚刚发布的是第一代的量产产品鸿途H30,这个是为智能驾驶而设计,包括商用车和乘用车。
我们正在研发的还有第二代的鸿途H50,这个是基于第二代的天璇架构,对大模型、对存算支持更好。
它还有一个特点,可以在自然散热条件下提供更大的有效算力。我们希望将存算一体能效比高的技术优势,尽可能发挥到我们产品中去。这是我们正在自研的明年提供给客户的第二代产品H50。
总结一下,后摩是一个年轻的公司,我们希望在长久的发展过程中一直坚持两个原则。
第一个原则,我们坚持底层技术创新的原则。就是用底层的架构创新去给我们的客户提供一个差异化的、互补的、优质的产品,让大家多一个更好的国产替代的选择。
第二个原则,我们一直是坚守Tier2的定位和边界,我们希望和Tier1或者OEM的客户更多地合作,我们整个供应链上下游的伙伴们一起去努力打破僵局,共同奔赴智能驾驶的美好终局。