摘要
1) 一句话总结 加拿大硬件初创公司 Taalas 推出了针对 Llama 3.1 8B 模型的定制硬件“Silicon Llama”,其生成速度高达每秒 1.7 万个 Token。
2) 关键要点
- 开发商:加拿大硬件初创公司 Taalas。
- 首款产品:针对 Llama 3.1 8B 模型(2024年7月发布)的定制硬件实现,官方称之为“Silicon Llama”。
- 性能指标:运行速度达到每秒 17,000 个 Token,生成速度极快。
- 技术细节:采用了激进的量化技术,结合了 3-bit 和 6-bit 参数。
- 体验渠道:用户可通过 chatjimmy.ai 亲自体验其实际运行效果。
- 未来规划:下一代产品计划采用 4-bit 量化技术。
3) 风险/不足
- 研发周期长:为了打造并产出采用 4-bit 量化的下一代新模型,预计需要相当长的准备周期。
正文
加拿大硬件初创公司 Taalas 刚刚宣布了他们的首款产品——针对 Llama 3.1 8B 模型(2024年7月发布)的定制硬件实现。该硬件的运行速度达到了惊人的每秒 17,000 个 Token。
极速的生成体验
我原本打算在文章中附上一段演示视频,但因为它的生成速度实在太快,视频看起来简直就像一张静态截图。如果你感兴趣,可以前往 chatjimmy.ai 亲自体验。
技术细节与未来规划
Taalas 将这款产品描述为“Silicon Llama”,并表示对其进行了“激进的量化,结合了 3-bit 和 6-bit 参数”。
他们的下一代产品将使用 4-bit 量化——这大概意味着他们需要相当长的准备周期来打造并产出新的模型!