雷石投资:人工智能遭遇“存储墙”,存算一体必将破墙而出

  人工智能(AI)是吞噬算力的“怪兽”。根据Open AI于2018年的统计,自2012年以来,AI训练任务所运用的算力每3.43个月就会翻倍,算力需求每年长10倍,而近几年,随着百亿参数起步的AI大模型的流行,AI应用对算力需求又迈上了一个新台阶。

  算法模型规模指数级增长,对运算和延迟的要求就越来越高。AI算法普遍要求高并发、高耦合、低延迟,在算法运行的过程中,数据之间的耦合性会非常紧密,数据从存储单元到计算单元的时间便不能太长,而现在计算机系统中主流的冯诺依曼结构,其特点正是计算与存储分开设计,因而在应对AI应用等大算力需求的时候,便出现了数据传输带宽和系统功耗的限制问题,这便是所谓的 “存储墙”和“功耗墙”。

  从硬件性能发展历史来看,算力性能提升的速度快于存储器传输能力提升,反映到具体数据上,大规模AI算法模型在计算时对于数据传输的要求是PB/s级别,而缓存SRAM和内存DRAM只能提供TB/s的传输。数据搬运耗时是计算耗时的成百上千倍,计算单元很多时候在“空转”等数据,用于搬运数据的能耗占整个计算过程能耗的比例高达60%至90%,这是造成当前AI应用性能瓶颈的主要原因。

雷石投资:人工智能遭遇“存储墙”,存算一体必将破墙而出

    算力发展远超存储性能,图源:amirgholami@github

  但在当前技术水平下,提升DRAM等主流存储器性能的成本很高,性能提升空间也有限。所以业界也在探索另一个路径去突破计算与存储性能不协调的困境,即采用非冯诺依曼结构,存算一体就是一种典型的非冯结构,也被视为最有前景的方向之一,无论是在产业界,还是在学术界,存算一体的研究都非常热。

  存算一体是什么?

  在冯诺依曼结构中,计算单元与存储单元分离,在计算时将数据从存储单元搬运至计算单元,计算完成后再将数据写回存储单元,这样做的初衷,是为了实现硬件设计与程序设计的分离,因为早期计算机程序都固化在硬件电路上,因而不利于程序开发,成为当时计算机发展的一大障碍。冯诺依曼结构的出现,解除了“程序固化”封印,大大推动了计算机产业发展。过去的几十年,冯诺依曼结构对信息产业的贡献多于限制,全球多数计算系统都采用冯诺依曼结构。

  当然,计算与存储分离的弊端,在大计算量场景越来越多的今天,愈发明显。虽然冯诺依曼结构也采用了高速缓存(Cache)、预取指令、流水线等多种技术来降低算力与存储器性能之间差距导致的性能瓶颈,但“存储墙”是这种存算分离的结构本身特点所致,难以靠技术修补来克服。

  存算一体则解决了计算时数据搬运的问题。存算一体将运算从计算单元转入存储单元中进行,也就是在存储资源中嵌入计算能力,因而不需要在计算前后往复搬运数据,避免了数据在频繁传输过程中带来的延迟和功耗问题。从架构的本质来看,传统冯诺依曼结构是以计算为中心,而存算一体则是以数据为中心。

  存算一体并不是一个新概念,早在上世纪七十年代便由斯坦福研究所的Kautz等人提出,不过当时受限于需求和实现方式,并没有引起人们的重视。到了2010年之后,大数据爆发让AI芯片急需要一种全新的计算架构,加之3D堆叠等芯片制造技术也让存算一体的实现成为可能,而后产业界进入爆发前夜。

  存算一体的实现方式大致分为两种,一个是存内计算,一种是近存计算。以存内计算的方式实现存算一体,是指将计算单元、逻辑单元和存储单元放在一颗芯片内;以近存计算的方式实现存算一体,是指通过3D堆叠的封装技术,将计算单元和存储单元紧密地贴合在一起,放进一个封装里。严格来说,近存计算不是非冯结构,只是将数据搬运路径缩短了。

  存算一体的关键技术

  通过产业发展现状能够看到,当前存算一体的“短板”主要是在存储单元,因此研发的重点除了芯片实现的方式,基本上是落在存储器选择上。

  从产品成熟度来看,目前相对比较成熟的存储产品选择是SRAM、DRAM和Flash,三者的性能介绍如下图所示,其中SRAM、DRAM的主要优势体现在读写速度快,耐用性高,但缺点是存储密度比较低。    为了实现更好的存算一体,目前产业界也在寻找基于新式存储打造解决方案,包括MRAM、PCM和RRAM,这三种类型的存储特性如下图所示。在参数方面,MRAM已经做到了很好的产品耐用性,RRAM在容量方面已经超越了DRAM,不过它们的读写速度还比不上传统存储器。    综合而言,目前各个类型的存储器做存算一体都还存在自己的问题。传统存储产品SRAM和DRAM属于易失性存储器件,刷新的频率越高,功耗的问题会越明显,抖客网,Flash 虽然是非易失性的,但其浮栅氧化层随着读写次数的增加有失效的问题,数据可靠性和寿命有待提高;新型存储产品方面,PCM、RRAM和MRAM都是非易失性存储,功耗不会再是挑战,不过PCM写入速度极慢,RRAM在容量方面最具优势,但写入速度同样是短板,MRAM虽然存储密度高,但容量提升还是个大问题,且写入速度也很慢。同时,几乎所有存储产品都要面临一个共同的问题——越是先进的工艺,存储产品良率提升越困难,但存内计算需要更出色的存储产品。

  存内计算单元的实现,有模拟方式与数字方式两种。一般而言,当应用于边缘计算时,比如声音识别、图像识别和其他近传感类应用,比较推荐使用模拟电路来实现,因为在与传感器融合方面,模拟电路有天然的优势,模拟存内计算适用于对能效比要求高但对精度有一定容忍的场景。而面向任务复杂、算力需求更大的云计算,数字电路在算法契合和效率方面的优势就会更明显。

  存算一体的主要玩家

  随着人工智能应用的进一步普及,数据的重要性会更加凸显,传统以计算为核心的发展方式在计算效率方面已经触碰天花板,存算一体这种以数据为中心的思路将逐渐成为主流,也吸引了一大批传统产业巨头和初创企业参与其中。

  在行业巨头方面,三星、SK海力士、美光、东芝四大存储器厂商,英特尔、AMD、英伟达等算力巨头,以及阿里巴巴等互联网公司都在布局存算一体技术。初创企业则包括知存科技、后摩智能、苹芯科技、亿铸科技、智芯科、千芯科技、九天睿芯、闪易半导体、恒烁半导体等,国外也有Everspin、Avalanche、Crocus等知名初创公司。

  总体上来看,巨头由于人才众多、资源雄厚,所以押注路线相对较多,特别是几大存储器巨头,希望用多方布局的方式来实现对存储技术发展方向的全面覆盖。例如,三星电子在近存计算和存内计算两条路线都有布局:一方面,三星通过将存算一体化 (PIM)功能集成到高带宽内存 (HBM)中,增加DRAM产品带宽,缩短连接距离,减少搬运数据的任务开销,从而在现有生态上改善存储性能;另一方面,三星也积极布局MRAM等新型存储技术,以新型存储技术为基础发展存内计算,希望从本质上消除不必要的数据搬运延迟和功耗,以彻底打破AI运算的“存储墙”瓶颈。

  由于DRAM等传统存储产品技术成熟度高,市场垄断程度高,因而较少初创企业涉足近存计算领域。初创企业一般选择围绕存内计算布局,一般只聚焦于一点,而且应用场景主要集中在边缘小算力场景。也有部分初创企业在技术上多线布局,或面向云端应用市场。下表总结了国内布局存算一体的初创企业情况:

雷石投资:人工智能遭遇“存储墙”,存算一体必将破墙而出

    存算一体谁执牛耳?

  到目前为止,除了近存计算有成功商业化应用案例,多数存算一体技术还处于商业化导入的早期阶段。一项技术从实验室走向大众,要跨越的最大困难往往不是技术问题。规模化量产能力、质量管理、应用生态建设等,难度都不比技术突破低。

  半导体存储市场规模巨大,用量极多,历来是行业巨头必争之地,即便在边缘小算力场景,新型存储产品规模化量产能力也将是一众初创公司技术落地要解决的第一个拦路虎。

  对行业巨头来讲,只要认准了技术方向,在产品规模化落地的能力上,一般比初创公司要强很多,但行业巨头的烦恼在于需要在不同技术收益曲线上进行权衡。以三星为例,既布局了MRAM,又是全球DRAM市场老大,现在每年仅DRAM贡献的营收就有数百亿美元,如果MRAM取得了突破,而开始侵消DRAM市场,三星有没有决心坚持向MRAM转型?如果转型决心不够大,很可能由于内部利益的原因导致颠覆性新技术发展被自己人擎肘,无论是柯达在数字影像时代的衰落,还是诺基亚错失智能机转型机遇,都是这样的典型案例。

  应用生态建设是巨头与初创公司都要面临的问题。在冯诺依曼结构下,传统存储器是一个标准件,不涉及到计算所以可以任意搭配不同的计算芯片,但存内计算将存储器本身视作计算的一部分,既会产生不同的硬件形态,又必将影响包括固件和操作系统在内的靠近硬件的整体软件生态,而软件生态的构建绝非一朝一夕之功。x86生态虽然屡屡被人诟病臃肿繁杂,但其无所不包的兼容性与庞大的用户基础让它仍有旺盛的生命力。

  存算一体在技术参数上无疑已经体现出优势,但是否能够真正取代传统存储技术,颠覆冯诺依曼结构,最终要看是否能建立起兼容性好、易用性高的应用生态,就这一点来说,初创公司与行业巨头面临的难度接近,初创公司虽然人才少资源缺,在建设新生态上没有历史包袱。

  而在向新技术投入的决心上,初创公司无疑更胜一筹,毕竟新技术是否能落地对初创公司而言意味着生与死的区别,对行业巨头来说,则可能只是早点还是晚点进入一个技术方向的区别。新技术的商业化落地需要向死而生的勇气,或许这就是投资人看好存算一体技术,纷纷布局这个领域初创公司的原因之一。

原标题:【雷石投资:人工智能遭遇“存储墙”,存算一体必将破墙而出
内容摘要:人工智能(AI)是吞噬算力的“怪兽”。根据Open AI于2018年的统计,自2012年以来,AI训练任务所运用的算力每3.43个月就会翻倍,算力需求每年长10倍,而近几年,随着百亿参数起步的AI大模型的流 ...
文章网址:https://www.doukela.com/jc/115226.html;
免责声明:抖客网转载此文目的在于传递更多信息,不代表本网的观点和立场。文章内容仅供参考,不构成投资建议。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
上一篇:为什么说现在是入手FRC,最好的时机
下一篇:没有了