摘要
1) 一句话总结 太初元碁宣布完成对40余款主流AI大模型的“即发即适配”,并推出阶梯式开发工具链以打破CUDA生态迁移壁垒,加速国产算力的高效落地。
2) 关键要点
- 适配成果: 截至2月18日,已完成对智谱GLM-5.0、阿里千问Qwen3.5-397B-A17B等40余款AI大模型的深度适配,实现上线即可用。
- 模型覆盖: 适配范围全面涵盖大语言及向量模型(DeepSeek、Qwen等)、多模态理解与生成模型(LLaVA、FLUX等)、主流OCR模型及科学多模态大模型。
- 软件栈升级: 在SDAA软件栈中推出阶梯式开发工具链,全面覆盖从入门到高阶的算子开发需求,降低CUDA生态迁移成本。
- AI辅助编程: 推出SDAA Copilot大模型,可在小时级别内智能生成3000个SDAA算子代码并通过单测。
- 算子开发工具: 提供Teco-Triton(支持Triton Python语法)、SDAA C(支持C/C++标准语法)以及PCX虚拟指令集,满足不同层级的精细化开发与优化需求。
- 零成本迁移: 推出Teco-vLLM插件,使基于GPU开发的vLLM原生应用无需修改模型代码和启动方式,即可无缝迁移至太初元碁硬件。
- 未来三大主攻方向: 首席产品官洪源指出,国产AI芯片企业未来需聚焦突破集群性能、追求极致推理性价比(降低每Token成本)、加速生态和软件工具建设。
3) 风险与缺口
- 时间窗口收窄: 大模型行业已进入“周更”时代,高频迭代导致留给国产AI芯片响应与发展的时间窗口正在快速收窄。
- 集群互联挑战: 前沿大模型训练要求数万张算力卡互联并行,国产厂商不能仅关注单卡性能,在构建真正的大规模集群互联性能方面存在考验。
- 生态迁移壁垒: 国产AI芯片在最终客户侧落地时,仍需彻底解决如何帮助用户(甚至无感地)从CUDA生态迁移过来的实际难题。
正文
2月18日,国产AI芯片企业太初(无锡)电子科技有限公司(简称“太初元碁”)宣布完成对智谱GLM-5.0、阿里千问Qwen3.5-397B-A17B等大模型的深度适配。截至目前,太初元碁已完成40余款AI大模型的“即发即适配”,实现上线即可用。
此次适配全面涵盖了当前主流的各类模型:
- 大语言模型及向量模型: DeepSeek、Qwen、GLM、Seed-OSS、文心一言系列,以及BAAI Embedding / Reranker系列。
- 多模态理解模型: Qwen-VL、LLaVA系列。
- 多模态生成类模型: Stable-Diffusion、FLUX、Wan系列。
- 主流OCR模型: MinerU、DeepSeek-OCR、Paddle-OCR。
- 科学多模态大模型: Intern-S1。
大模型迈入“周更”时代,软硬件协同成关键
自2026年元旦以来,多家知名企业纷纷更新国产大模型,行业正式进入“周更”时代。在这种高频迭代的背景下,算力底座的响应速度直接决定了生态话语权,留给国产AI芯片的时间窗口正在收窄。
业内人士指出,“软件定义硬件”的趋势正日益明显。过去,芯片设计往往是先集中精力打造硬件,再由软件团队投入大量人力建设软件栈以发挥硬件性能。但随着DeepSeek、智谱、千问等大模型的大规模成功应用,软硬件协同的模式正在发生深刻变化。
太初元碁不仅在极短时间内完成了各大模型的快速适配,更在软硬件协同方面持续发力,以应对这一行业趋势。
阶梯式开发工具链:打破CUDA生态迁移壁垒
在主流大模型适配过程中,针对不同开发者的技术能力差异,太初元碁在SDAA软件栈中推出了阶梯式开发工具链。该工具链全面覆盖从入门到高阶的多元化需求,帮助开发者快速构建高性能算子,实现与主流AI生态的无缝兼容,从而显著降低CUDA生态迁移的技术门槛与成本。
面向不同开发者,太初元碁提供了多种高性能算子开发工具:
- SDAA Copilot: 专注于加速卡算子智能生成的AI编程大模型,能够在小时级别内生成3000个SDAA算子代码并通过单测。
- Teco-Triton: 允许开发者使用熟悉的Triton Python抽象语法树快速、灵活地编写高性能算子,其后端可无缝运行在太初元碁加速卡上。
- SDAA C: 编程模型支持C/C++标准语法,开发者可直接使用其进行内核开发。
- PCX 虚拟指令集: 深度匹配太初元碁的硬件特性,支持用户在SDAA C程序中嵌入PCX指令,实现对关键计算路径的精细优化。
- Teco-vLLM: 通过插件机制将太初AI加速卡接入vLLM框架,实现与原生vLLM完全一致的推理接口和方法。基于GPU开发的vLLM原生应用无需修改模型代码和启动方式,即可零成本无缝迁移至太初元碁硬件运行。
国产AI芯片的三大主攻方向
太初元碁首席产品官洪源表示,突破集群性能、追求极致推理性价比、加速生态和软件工具建设,将成为国产AI芯片企业未来的三大主攻方向。
- 突破集群性能: 大模型训练本质上是大数据量的“分布式并行计算”,互联能力就是数据传输的“高速公路”。前沿大模型的训练要求数万张算力卡互联并行,国产厂商不能仅关注单卡性能,必须构建真正的集群性能。
- 追求极致推理性价比: 对于大模型厂商和云服务厂商而言,每Token对应的成本可能直接决定产品的“生死”,因此性价比将成为推理任务的极致追求。
- 加速生态与软件建设: 国产AI芯片在最终客户侧落地时,必须彻底解决一个实际问题:如何帮助用户(甚至让用户无感地)从CUDA生态迁移过来。
在大模型尚未进入“周更”时代前,国产AI芯片企业或许还能放慢脚步观察。但如今时间紧迫,国产算力企业真正的大考已经来临。只有那些能真正拓展生态、让产品在具体场景下高效落地的企业,才能在未来的竞争中继续生存与发展。