导体是数字时代的基础技术。它给硅谷取了个名字。它处于计算革命的核心,在过去的半个世纪里,计算革命已经改变了社会的方方面面。自从1971年英特尔推出了世界上第一个微处理器以来,计算机能力的提升速度一直是惊人的,也是无情的。根据摩尔定律,今天的计算机芯片比50年前强大数百万倍。
然而,尽管处理能力在过去几十年里突飞猛进,计算机芯片的基本结构直到最近还基本保持不变。在很大程度上,硅的创新已经使晶体管进一步小型化,以便将更多的晶体管压缩到集成电路中。英特尔(Intel)和AMD等公司通过可靠地提高CPU能力而兴旺了几十年,克莱顿克里斯坦森(Clayton Christensen)将这一过程称为“持续创新”。
今天,这种情况正在发生戏剧性的变化。人工智能迎来了半导体创新的新黄金时代。数十年来,机器学习的独特需求和无限机遇首次促使企业家重新审视和思考芯片架构的最基本原则。
他们的目标是设计一种新型芯片,专门为人工智能设计,为下一代计算提供动力。它是当今所有硬件中最大的市场机会之一。
湾区初创公司Cerebras Systems最近推出了历史上最大的计算机芯片, 专为AI而打造。 纽约时报的杰西卡·周
一个新的计算模式
在计算的大部分历史中,主流的芯片架构一直是CPU或中央处理器。如今,cpu无处不在:它们为您的笔记本电脑、移动设备和大多数数据中心提供动力。
CPU的基本架构是在1945年由传奇人物约翰·冯·诺伊曼构思的。值得注意的是,从那以后,它的设计基本上没有改变:今天生产的大多数计算机仍然是冯·诺依曼计算机。
CPU在用例中的优势是其灵活性的结果:CPU是通用机器,能够有效地执行软件所需的任何计算。然而,尽管cpu的关键优势是通用性,但当今领先的人工智能技术要求非常具体和密集的计算集。
深度学习需要迭代执行数百万或数十亿个相对简单的乘法和加法步骤。基于线性代数,深度学习基本上是基于试错的:随着模型自身的逐渐优化,参数被调整,矩阵被乘起来,数字被一遍又一遍地加在神经网络上。
这种重复的、计算密集型的工作流对硬件体系结构有一些重要的影响。并行化——处理器在同一时间执行许多计算而不是逐个执行计算的能力——变得至关重要。与此相关的是,由于深度学习涉及到海量数据的持续转换,因此尽可能将芯片的内存和计算核心放在一起,可以通过减少数据移动来获得巨大的速度和效率。
cpu无法满足机器学习的特殊需求。cpu按顺序而不是并行地处理计算。它们的计算核心和内存通常位于单独的模块上,并通过带宽有限的通信系统(总线)进行连接。这在数据移动中产生了一个瓶颈,称为“冯诺依曼瓶颈”。结果是:在CPU上训练神经网络的效率非常低。
考虑到机器学习应用在整个社会的普及程度,传统芯片无法处理现代人工智能算法就显得尤为重要。正如AI大师扬勒存(Yann LeCun)最近所说:“如果你放眼未来5年或10年,看看电脑花时间在做什么,我认为,它们主要会做像深度学习这样的事情。”
在这一点上,驱动人工智能繁荣的芯片是GPU(图形处理单元)。GPU架构是Nvidia在20世纪90年代末为游戏应用而发明的。为了在高帧率下渲染电脑游戏的详细图形,特意设计了gpu来连续处理大量数据。与cpu不同,gpu可以并行完成成千上万的计算。
2010年代初,人工智能社区开始意识到,英伟达的游戏芯片实际上非常适合处理机器学习算法所需的各种工作负载。由于运气好,GPU发现了一个巨大的新市场。英伟达抓住了这个机会,将自己定位为人工智能硬件的市场领先供应商。结果,英伟达获得了令人难以置信的收益:从2013年到2018年,英伟达的市值增长了20倍。
然而,正如Gartner的分析师Mark Hung所说,“每个人都同意gpu没有为AI工作负载进行优化。GPU已经被AI社区所接受,但它并不是为AI而生的。
近年来,一批新的企业家和技术专家开始重新构想计算机芯片,从头开始对其进行优化,以释放人工智能的无限潜力。用Alan Kay令人难忘的话来说:“真正认真对待软件的人应该制作自己的硬件。”
过去24个月里,出现了5家人工智能芯片独角兽企业。还有几家暴发户以令人瞠目的估值被抢购一空。作为寻求避免颠覆的传统CPU厂商,英特尔独自在这一领域进行了两笔重大收购:Nervana Systems(在2016年4月以4.08亿美元收购)和Habana Labs(在2019年12月以20亿美元收购)。随着这场竞争在未来几年的展开,数千亿美元的企业价值将会被争夺。
下一个英特尔?
一个巨大的市场机会和一个蓝天技术挑战的结合激发了寒武纪的创意爆炸——有时是惊人的——设计理想的人工智能芯片的方法。
也许最引人注目的新一批人工智能芯片初创公司是大脑系统。简单地说,Cerebras大胆的方法是构建有史以来最大的芯片。该公司最近估值17亿美元,已从基准资本(Benchmark)和红杉资本(Sequoia)等顶级投资者那里融资2亿美元。
大脑芯片的规格令人难以置信。它比一般的微处理器大60倍。它是历史上第一个容纳超过一万亿晶体管(准确地说,是1.2万亿)的芯片。它的芯片上有18 GB的内存,这也是有史以来最多的。
将所有的计算能力打包到一个单一的硅基板上提供了诱人的好处:显著提高了数据移动的效率、存储与处理协同定位、大规模并行化。但工程上的挑战,轻描淡写地说,是可笑的。几十年来,制造晶片规模的芯片一直是半导体行业的圣杯,人们梦寐以求,但从未实现过。
Cerebras公司首席执行官安德鲁·费尔德曼说:“所有的规则、工具和制造设备都是为正常大小的巧克力曲奇设计的,我们提供了整个曲奇饼大小的东西。”“每一步都要创新。”
大脑的人工智能芯片已经投入商业用途:就在上周,阿贡国家实验室宣布它正在使用大脑的芯片来帮助对抗冠状病毒。
另一家采用全新芯片设计方法的初创公司是总部位于湾区的Groq。与大脑不同的是,Groq的芯片专注于推理而不是模型训练。创始团队拥有世界级的领域专业知识:Groq的团队包括了谷歌的TPU项目的10名原始成员中的8名,这是迄今为止最成功的人工智能芯片项目之一。
Groq颠覆了业界的传统观念,正在制造批量为1的芯片,这意味着它一次处理一个数据样本。这种架构可以实现几乎瞬时的推理(对于时间敏感的应用程序如自动驾驶汽车至关重要),同时根据公司的说法,不需要牺牲性能。Groq的芯片主要是软件定义的,这使得它具有独特的灵活性和未来的安全性。
该公司最近宣布,其芯片的运算速度达到了每秒1千万亿次。如果这是真的,这将使它成为历史上最快的单模芯片。
也许没有哪家公司比Lightmatter拥有更令人费解的技术愿景。总部位于波士顿的Lightmatter是由光子学专家创建的,该公司正寻求制造一种人工智能微处理器,这种微处理器的动力不是电信号,而是光束。该公司已从GV、星火资本(Spark Capital)和Matrix Partners筹集了3300万美元,以实现这一愿景。据该公司称,光的独特属性将使其芯片的性能比现有的解决方案高出10倍。
在这个类别中还有很多其他的玩家值得关注。地平线机器人(Horizon Robotics)和Cambricon Technologies这两家中国公司的融资规模都超过了其他任何竞争对手。帕洛阿尔托的SambaNova系统资金充足,血统纯正。尽管关于SambaNova计划的细节仍然很少,但它的技术似乎特别适合自然语言处理。其他值得关注的初创公司包括Graphcore、Wave Computing、Blaize、Mythic和Kneron。
此外,数家科技巨头也在内部展开努力,开发专用的人工智能芯片。这些程序中最成熟的是上面提到的谷歌张量处理单元(TPU)。和往常一样,谷歌在技术曲线之前于2015年开始在TPU上工作。最近,亚马逊在2019年12月高调宣布推出智能推论芯片。特斯拉(Tesla)、Facebook和阿里巴巴(Alibaba)等科技巨头都有自己的人工智能芯片程序
结论
现在的竞争是开发硬件,为即将到来的人工智能时代提供动力。如今,半导体行业的创新之多,是自硅谷创立之初以来从未有过的。有数不清的数十亿美元在起作用。
下一代芯片将在未来几年里塑造人工智能领域的轮廓和轨迹。用Yann LeCun的话来说:“硬件能力……激励和限制人工智能研究人员将想象和允许自己追求的想法的类型。我们手中的工具塑造了我们的思想,其程度超出了我们愿意承认的程度。”
|