FuriosaAI推出高能效AI芯片：性能与英伟达L40S接近，功耗低40%！

发布日期：2024-08-28 14:52 点击次数：59

8月27日音信，在近日召开的Hot Chips 2024大会上，韩国AI芯片初创公司FuriosaAI 推出了一款面向高性能大型言语模子和多模态模子推理的高能效数据中心AI加快器 RNGD。

需要指出的是，这款芯片并不追求最高的AI性能，对方向也不是英伟达的H100之类的高性能AI芯片，而是一款追求高能效、低功耗AI数据中心照应决议，性能与英伟达L40S接近，功耗还裁汰了40%。

具体来说，FuriosaAI RNGD基于台积电5nm工艺制造，其中枢的面积为653mm²，晶体管数目为400亿颗，AI盘算推算中枢的频率为1.0GHz，领有256MB的片上SRAM，外围还通过CoWoS-S封装集成了48GB HBM3（2颗12层堆栈的24GB HBM），内存带宽为1.5TB/s。

在性能方面，基于 RNGD芯片的单张卡算力为64TFLOPS（FP8），不错运行Llama 3.1 8B等大言语模子，TDP功耗仅150W，比较之下英伟达H100 TDP则高达400W。而基于8张RNGD加快卡的系统，则可提供最高512TFLOPS（FP8）和1024TOPS（INT4）的盘算推算智商。

把柄FuriosaAI先容，RNGD在运行领有约100亿个参数的模子时，约略达到每秒处理多达3000个Token的笼统量。在复杂的AI算法处理场景中，其约略有用裁汰电费和冷却老本，为数据中心提供了一种可执续的发展照应决议。与现时市集上的主流GPU比较，RNGD芯片能耗大幅裁汰的同期，盘算推算性能却未受影响，升迁了全体的经济效益。

正如前边所说起的，FuriosaAI并莫得将RNGD的见地瞄准高性能的英伟达H100之类的产物，而是瞄准了英伟达L40S，见地不仅是提供相同的性能，况且所以更低的功耗提供该性能。把柄FuriosaAI提供的数据显现，RNGD在领有与英伟达L40S左近的AI性能的情况下，其能耗大要惟有L40S的60%（即非常于功耗裁汰了40%），这也反馈了其出色的能效认知。

FuriosaAI RNGD的高能效主要成绩于其独到的TCP架构。FuriosaAI暗示，该架构在能效、性能和可编程性之间达成了雅致的均衡，约略高效照应数据和内存。这使得RNGD在处理举例Llama3这么的繁密模子时，比传统GPU决议具备显著的上风，尤其是在能效譬如面。

固然，这也成绩于FuriosaAI RNGD来自于硬件、软件和算法方面的勾通优化。

比如，FuriosaAI一直试图照应在硬件和软件之间的空洞层上职责的挑战。

张量减弱是FuriosaAI的主要操作之一。在BERT方面，占据了FLOPS算力的99%。

常常，咱们把矩阵乘法当作基元，而不是张量减弱。

相背，空洞是在张量减弱级别。

FuriosaAI为其原语添加了一个初级einsum。

这里，矩阵A和B相乘产生C。

然后，FuriosaAI诓骗这极少，在具有内存和盘算推算单位的本色架构上对其进行改革。

从这里驱动，一个完满的张量减弱不错是一个本原。

通过接洽空间和时辰编排，他们不错提高后果和诓骗率。

Furiosa暗示，它具有机动的可再行确立性，这关于在批量变化时保执高性能相当进攻。

底下是RNGD竣事的情况：

以下是互连荟萃，包括探员暂存存储器。

FuriosaAI正在使用PCIe Gen5 xq6进行芯片到芯片的通讯。它还通过PCIe交换机使用P2P进行GPU之间的径直通讯。

FuriosaAI解救SR-IOV进行杜撰化。

FuriosaAI照旧为可靠性作念了信号和电源完满性方面的职责。

底下是Furiosa LLM若缘何经过图的表情职责：

编译器编译映射到多个设立的每个分区。

编译器优化了模子的性能增益和能效。

处事框架作念近似连络批处理的事情来赢得更多的诓骗率。

FuriosaAI公司有一个基于图表的自动化用具来匡助量化。Furiosa不错解救很多不同的情势，包括FP8和INT4。

剪辑：芯智讯-浪客剑编译自：servethehome

功耗张量英伟达芯片性能发布于：广东省声明：该文不雅点仅代表作家本东说念主，搜狐号系信息发布平台，搜狐仅提供信息存储空间处事。