存内模拟计算将如何打破AI算力的瓶颈
4035
不过,拥抱AI芯片的设计者们很快发现,使用经典冯诺依曼计算架构的AI芯片即使在运算单元算力大幅提升,但 存储器 性能提升速度较慢的情况下,两者的性能差距越来越明显,而深度学习算法带来的数据搬运消耗的能量是计算消耗能量的几十倍甚至几百倍,“内存墙”的问题越来越显著。
因此,依靠软件算法以及云端强大计算能力的人工智能虽然取得了较大的成功,可以胜任多种特定的智能处理任务,但是面临功耗、速度、成本等诸多挑战,离智能万物互联时代还有巨大差距。
AI芯片的核心技术之一就是解决“内存墙”挑战,可以在 存储 器内直接做计算的存内计算(In-Memory Compu ti ng)技术在沉寂了近30年后,AI热潮下近年来成为焦点。无论是顶级学术会议,还是巨头公司都在寻找能够用存内计算打破AI芯片“内存墙”的最佳技术方案。
2018年,国际顶级学术会议-IEEE国际固态 电路 会议(ISSCC)有一个专门的议程讨论存内计算。2019年和2020年关于存内运算的论文更是大爆发,ISSCC2020与存内计算相关的论文数量上升到了7篇。同时,2019年电子器件领域顶级会议IEDM有三个专门的议程共二十余篇存内计算相关的论文。
除了学术界,产业界也越来越多的玩家布局该技术。IBM基于其独特的相变存内计算已经有了数年的技术积累;台积电正大力推进基于Re RAM 的存内计算方案; 英特尔 、 博世 、美光、Lam Research、应用材料、微软、 亚马逊 、软银则投资了基于NOR Flash的存内计算芯片。
其实,利用存储器做计算在很早以前就有人研究,上世纪90年代就有学者发表过相关论文。但没有人真正实现产业落地,究其原因,一方面是设计挑战比较大,更为关键的是没有杀手级应用。随着深度学习的大规模爆发,存内计算技术才开始产业化落地。
2011年,郭昕婕本科毕业于北大信息科学技术学院微电子专业,本科毕业之后郭昕婕开始了美国加州大学圣塔芭芭拉分校(UCSB)的博士学业,她的导师D mi tri B.Strukov教授是存内计算领域的学术大牛,2008年在惠普完成了忆阻器的首次制备,2010年加入了美国加州大学圣塔芭芭拉分校。郭昕婕也成为了Dmitri B.Strukov教授的第一批博士生,开始了基于NOR FLASH存内计算芯片的研究。
Dmitri B. Strukov告诉她,FLASH已经商用几十年,技术成熟,成本很低,是最接近产业化的方向,但缺点同样是因为FLASH研究起步较早,学术界对FLASH存内计算的研究期望较高,发表文章不易。2013年,随着深度学习的研究热潮席卷学术界,在导师的支持下,郭昕婕开始尝试基于NOR FLASH存内计算的芯片研发。
耗时4年,历经6次流片,郭昕婕终于在2016年研发出全球第一个3层 神经网络 的浮栅存内计算深度学习芯片,首次验证了基于浮栅 晶体管 的存内计算在深度学习应用中的效用。仅一年后,她就进一步攻下7层神经网络的浮栅存内计算深度学习芯片。
也是在2016年,郭昕婕的大学同学,也是她丈夫的王绍迪,同样看到了存内计算芯片在AI中的应用价值,选择和郭昕婕继续在博士后阶段从事存内计算的研究工作。2017年,美国开始大力资助存内计算技术的研发,王绍迪和其导师的项目也获得了600万美金的资助。郭昕婕夫妇认为时机成熟,毅然选择回国创业,并获得了启迪之星、 兆易创新 等关联人的投资支持。
2017年10月,知存科技在北京成立,由于积累了丰富的经验,知存科技在成立后的10个月内就首次流片。同时加上存内计算技术逐渐获得认可,知存科技的发展也在逐步加快,并于2018年12月获得获讯飞领投的天使+轮融资,2019年8月又获得中芯聚源领投的近亿元A轮融资。
王绍迪对存内计算技术在AI中的应用充满信心,他接受雷锋网采访时表示:“AI算法的参数越多,存内计算的优势越大。因为存内计算是在存储器中储存了一个操作数,输入另一个操作数后就可以得到运算结果。所以参数越多,节省的数据搬运就越多,优势也就越明显。存内计算可以看作是一个大的锤子,AI算法是钉子,早期落地的算法是小钉子,随着时间推演,钉子会越来越大越来越多。”
知存科技的方案是从底层重新设计存储器,利用NOR FLASH存储单元的物理特性,对存储阵列进行改造,重新设计外围电路使其能够容纳更多的数据,同时将算子也存储到存储器当中,使得每个单元都能进行模拟运算并且能直接输出运算结果,以达到存内计算的目的。
(责任编辑:fqj)