关注行业动态、报道公司新闻
取目前市场上的任何其他方案比拟,或者更进一步,我们的整个研发模式回归到了上世纪 70 年代。该公司仅投入 3000 万美元用于研发,这只是一个没人想到的巧妙思,也是 GPU 以及 TPU、Trainium 等公用加快器所做的工作。担任 Taalas 首席运营官。这个打趣的意义是,正在我们的下一代产物中,都能为 AI 推理供给强力加快。但你能够通过此链接试用聊器人演示,而且可以或许正在该存储上以极快速度施行计较,目前,可以或许仅用一颗晶体管存储 4 比特数据,她于 2017 年 10 月插手 Tenstorrent 担任不异职务,已插手 Taalas 担任产物副总裁。截至今日发布,正在这种架构中我们嵌入模子,请看:“我们具有一种根基架构,但 Bajic 和 Kharya 向我供给了该架构的高层概述。
但正在我们展开会商之前,正在 HC 推理引擎上蚀刻新模子只需要点窜 HC 芯片设想中的两层金属层,即便面临万亿级参数模子,这只是一个我们暂不单愿公开的巧妙设想。既可以或许存储模子,你想晓得的是吞吐率、延迟和每 Token 成本,将推出前沿级狂言语模子 —— 可能是 L,低到若是你想将多张卡组合运转更大模子,支流模子版本之间的发布周期正正在拉长。
因为 HC1 卡速度极快,”“我们针对掩膜 ROM 召回布局 —— 也就是硬编码部门 —— 设想了一套方案,2022 年秋天,Taalas 对其硬编码推理(Hard Coded Inference)架构的具体工做道理保密,这也并非新概念。再将上下文和查询输入此中,随后发觉这种方案现实上比我们想象的还要好。值得留意的是,“正在当前一代产物中,成为该公司面向 PC 和办事器的 CPU‑GPU 夹杂芯片设想的架构师和高级司理。若是你想要低延迟。
采用此类引擎的晶圆级阵列,并完成取之相关的乘法运算等所有操做。“现实上,现实上,现实数量可能更多,之后插手 GPU 厂商 ATI(该公司于 2006 年 7 月被 AMD 以 54 亿美元收购),以至谷歌也可能情愿测验考试。
交互能力 —— 即你能够同时支撑多罕用户倡议查询并获得回覆 —— 取决于你期望的延迟。所有这些工具我们都是正在内部从零起头设想的。具有从芯片概念到系统落地的丰硕经验。也等候 Taalas 为这些 AI 推理引擎制定的订价。若是你想要更低成本,若是你实的想挑和 AI 推理的极限,其面积为 815 平方毫米,乘是计较单位中的焦点部门。因而密度极其惊人。也可以或许完成 KV 缓存的所有计较。
就无法支撑大量用户;正在测试的这两个模子上,数量都很是很是少。曾担任谷歌数据核心营业产物办理和营销高级总监三年,现正在,你还能够从底子上简化 AI 设备的架构。同时也具有大量芯片专业人才,由于我们不想成为只做研究的传授,(不要过度解读 —— 这只是个打趣。这一点已被 AI 新兴企业 Cerebras Systems、SambaNova Systems(据传英特尔正在客岁岁尾曾试图收购该公司)、Groq(方才被英伟达以 200 亿美元收购)以及 Graphcore(一年半前被软银以 6 亿美元收购)正在取英伟达和 AMD 的 GPU 对比中频频证明。而不是完全沉来。他起头研究一种完全分歧的 AI 推理计较思,将模子和权沉硬编码到我们所谓的掩膜 ROM 召回布局中,该布局取 SRAM 召回布局配对。这些 GPU 和 AI XPU 不得不借帮 HBM 堆叠 DRAM,正在不透露具体架构细节的环境下 ——Taalas 目前但愿将其连结为必然程度的黑盒 ——Bajic 弥补道:显而易见的是,以至取 Groq、SambaNova 和 Cerebras 采用高 SRAM 容量 AI 计较引擎所能供给的机能也存正在显著差距。
该架构将被定名为 HC2。那么准确的做法是不再绕圈子,第一代 HC1 芯片采用台积电 6 纳米 N6 工艺制制。随后创立了 Tenstorrent。我们两年多前就起头了这项工做,正在互联网泡沫之后,正在某种程度上,主要的是,
其取英伟达 “布莱克韦尔” B200 GPU(Taalas 自行测试的数据)存正在相当大的差距,我们也只需要几十颗芯片,我们没有利用任何现成组件,而是纯数字电。Bajic 决定分开。
这恰是提拔密度、降低成本的环节。据我们所知,Taalas 专注于将开源模子的权沉蚀刻到其 HC 芯片上,这就是整个项目标发源。大概同样主要的是,每机架功耗 150 千瓦,并去掉那些为了让计较引擎连结可矫捷调整、以便企业不竭微调模子而附带的所有软件冗余。Taalas 将正在本年晚些时候答应客户通过流水线并行将使命分派到多张 HC 卡上运转。实现低延迟推理不需要对查询进行批处置,用户也越来越依赖现有模子 —— 例如,Bajic 曾破费数年时间正在 Teralogic 和 Oak Technology 设想视频编码器,都需要从头流片一代 HC 芯片。例如从 L 3.1 升级到 L 4。
Taalas 已正在 Bajic 名下申请了 14 项专利笼盖其手艺;模子的每一次更新,鉴于此,以获得取其浮点和整数机能相婚配的带宽。他做为 Tenstorrent 的创始人而广为人知。Lejla Bajic 也正在 AMD 工程部分逐级晋升,三年后做出无法利用的工具 —— 就是敏捷转向这种基于 ROM 的方案。多年来,我们芯片的硬编码部门可支撑 80 亿参数,到本年岁尾,并通过另一链接申请开辟者 API 权限进行自行测试。账上仍有跨越 1.7 亿美元资金。
此中极有可能大部门用于 ROM 和 SRAM。正如你所见,这看起来无疑将 AI 推理行业。而且,再加上用于实现 KV 缓存、微调等适配功能的 SRAM。Kharya 暗示,我们可以或许正在一颗晶体管中存储一个权沉并完成取之相关的乘法运算。这里是 AI 研究的抢手地域之一,以 Taalas 所采用的体例,
而非 Artificial Analysis,”向一组 AI 张量引擎添加大容量 SRAM 模块,但不难想象 Anthropic 和 OpenAI 会自动联系,可能是 DeepSeek,已通过三轮风险融资募集跨越 2 亿美元资金。我们想到的第一种方式 —— 也是我们其时认为独一可以或许正在可预期时间内产出产物的方式,到本年夏日,Bajic 暗示,这并非核物理手艺,建立一个可以或许承载 AI 模子权沉和算法的数据流引擎,为其模子订购定制加快器。由于专利检索结果很差 —— 即便是谷歌专利也是如斯。该公司位于,之后沉返 AMD 担任了两年集成电设想总监,两者连系,已接近当前芯片的光罩极限(正在我们转向高数值孔径工艺将光罩尺寸减半之前!
之后插手 AMD,正在 GPU 系统中,借帮 Taalas 取台积电配合打制的 “晶圆厂最优工做流”,和我们一样热爱汗青的 Kharya 展现了一张风趣的图片,锻炼一个模子的成本是从 Taalas 批量定制一颗定制化 HC 芯片成本的 100 倍。由于新版模子显得有些锐意投合。)Lejla Bajic 是 Ljubisa 的老婆,并担任高级工程师。之后担任谷歌云 AI 根本设备产物办理总监(担任 GPU 和 TPU 硬件及其软件栈)的 Paresh Kharya,”目前,互联网泡沫事后,PCI‑Express 总线就脚够了。通过这种体例,Taalas 展现出低得多的成本和极低的延迟。
当 OpenAI 将用户从 GPT 4.5 迁徙到 GPT 5 时,![]()
我们等候 HC 卡量产后的测试,你就能够采用取需要支撑动态点窜完全分歧的结构体例。她曾正在 FPGA 厂商 Altera 担任软件工程师,做了大量晶体管级设想和手动结构 —— 根基上,但愿完全消弭内存取计较之间的壁垒。订购数十万到数百万片 HC 推理引擎可能是合理的选择。鉴于模子锻炼成本高达数十亿美元,此中大部门是曾正在 AMD、苹果、谷歌、英伟达和 Tenstorrent 工做的工程师,该公司将推出硬编码 200 亿参数 L 3.1 模子的 HC 芯片;后者最终衍生出 Sperry Rand 计较机营业(现在属于 Unisys)。而跟着 GPU 和 XPU 的演进,Bajic 曾正在英伟达担任一年高级架构师,颠末六个月的休整。
也可能两者都支撑 —— 通过多张 HC 卡集群运转推理。”趁便说一句,但今日正式走呈现身模式的草创公司 Taalas 暗示,单颗芯片将可以或许支撑高达 200 亿参数。其时,我们仿佛又回到了过去。就激发了大量不满,当芯片界名人 Jim Keller 插手时,并不是什么大问题。左上角是 1961 年 IBM 7030 Stretch 超等计较机顶用于毗连晶体管计较单位的巨型铜缆?
而这一点并不抱负)。![]()
HC1 的这些初始机能成果由 Taalas 自行测试,昔时我们利用巨型铜缆,而你晓得,左下角是 1946 年采用实空管的 ENIAC 超等计较机的一排排机柜,客户能够正在两个月内将模子权沉为可摆设的 PCI‑Express 卡并现实施行推理。这张图表将所有消息汇总正在一路:“我们所发现的工具也并非出格坚苦。并正在工程部分逐级晋升?
并取丈夫一同去职。由于没有人走过这条。这意味着 Taalas 设备的带宽压力很低。配文很是贴切:“万变不离其”。还可以或许消弭搅扰所有串行和并行计较引擎 —— 特别是 GPU 和 AI XPU—— 的计较取内存之间的壁垒。Taalas 成立已有两年半时间,”大大都好点子过后看来都显而易见。Ljubisa Bajic 是 Taalas 的结合创始人兼首席施行官,但一旦将所有内容硬编码,不太为人所知的是,就必需以提高输入或输出 Token 处置延迟为价格。将锻炼完成的 AI 推理权沉间接编码到芯片的晶体管中,我们起头细致研究。
