Taalas 推出定制硬件：以每秒 1.7 万 Token 运行 Llama 3.1 8B

摘要

1) 一句话总结 加拿大硬件初创公司 Taalas 推出了针对 Llama 3.1 8B 模型的定制硬件“Silicon Llama”，其生成速度高达每秒 1.7 万个 Token。

2) 关键要点

3) 风险/不足

加拿大硬件初创公司 Taalas 刚刚宣布了他们的首款产品——针对 Llama 3.1 8B 模型（2024年7月发布）的定制硬件实现。该硬件的运行速度达到了惊人的每秒 17,000 个 Token。

我原本打算在文章中附上一段演示视频，但因为它的生成速度实在太快，视频看起来简直就像一张静态截图。如果你感兴趣，可以前往 chatjimmy.ai 亲自体验。

Taalas 将这款产品描述为“Silicon Llama”，并表示对其进行了“激进的量化，结合了 3-bit 和 6-bit 参数”。

他们的下一代产品将使用 4-bit 量化——这大概意味着他们需要相当长的准备周期来打造并产出新的模型！