摘要

1) 一句话总结 太初元碁通过推出阶梯式开发工具链深化软硬协同,已完成40余款主流AI大模型的快速适配,致力于降低CUDA生态迁移门槛并破局国产算力生态。

2) 关键要点

  • 适配成果:截至2月18日,太初元碁已完成智谱GLM-5.0、阿里千问Qwen3.5-397B-A17B等40余款AI大模型的即发即适配,实现“上线即可用”。
  • 模型覆盖广:适配范围包含大语言模型(DeepSeek、Qwen等)、向量模型、多模态理解与生成模型、主流OCR模型及科学多模态大模型。
  • 行业趋势:自2026年元旦起,大模型进入“周更”时代,算力底座响应速度决定生态话语权,软件定义硬件成为必然趋势。
  • 阶梯式工具链:依托SDAA软件栈推出阶梯式开发工具链,全面覆盖多元化开发需求,显著降低CUDA生态迁移成本。
  • 核心软件工具
    • SDAA Copilot:小时级生成3000个算子代码并通过单测。
    • Teco-Triton & SDAA C:支持Triton Python语法及C/C++标准语法开发高性能算子。
    • PCX虚拟指令集:支持嵌入PCX指令实现关键计算路径精细优化。
    • Teco-vLLM:通过插件机制接入vLLM框架,实现GPU原生应用零成本无缝迁移。
  • 三大主攻方向:太初元碁明确未来国产AI芯片需聚焦:突破集群性能(数万张算力卡互联)、追求极致推理性价比(降低每Token成本)、加速生态和软件工具建设(实现CUDA用户无感迁移)。

3) 风险与缺口

  • 时间窗口缩紧:大模型更新频率加快,对算力底座响应速度提出极高要求,留给国产AI芯片的时间窗口正在快速缩紧。
  • 集群互联缺口:前沿大模型训练需要数万张算力卡互联并行,国产厂商若仅停留在关注单卡性能,将无法满足真实的集群计算需求。
  • 生存竞争风险:国产算力企业已迎来真正的大考,若不能彻底解决CUDA生态迁移问题并让产品在具体场景下高效落地,将面临无法在未来竞争中生存的风险。

正文

2月18日,国产AI芯片企业太初(无锡)电子科技有限公司(简称“太初元碁”)宣布完成智谱GLM-5.0、阿里千问Qwen3.5-397B-A17B等大模型的深度适配。截至目前,太初元碁已完成40余款AI大模型的即发即适配,实现“上线即可用”。

其适配范围广泛覆盖了当前主流的AI模型生态:

  • 大语言模型:DeepSeek、Qwen、GLM、Seed-OSS、文心一言系列
  • 向量模型:BAAI Embedding / Reranker系列
  • 多模态理解模型:Qwen-VL、LLaVA系列
  • 多模态生成模型:Stable-Diffusion、FLUX、Wan系列
  • 主流OCR模型:MinerU、DeepSeek-OCR、Paddle-OCR
  • 科学多模态大模型:Intern-S1

大模型进入“周更”时代,软件定义硬件成为趋势

自2026年元旦以来,多家知名企业纷纷宣布更新国产大模型,行业正式进入“周更”时代。在这一背景下,算力底座的响应速度直接决定了生态话语权,留给国产AI芯片的时间窗口正在缩紧。

业内人士指出,软件定义硬件的趋势日益明显。过去“先集中全力设计硬件,再由软件团队投入大量人力建设软件栈以发挥性能”的传统软硬件协同流程,正随着DeepSeek、智谱、千问等大模型的大规模成功应用而发生根本性转变。

阶梯式开发工具链,降低CUDA生态迁移门槛

太初元碁能够在极短时间内完成各大模型的快速适配,得益于其在软硬件协同问题上的持续发力。针对不同开发者的技术能力差异,太初元碁在SDAA软件栈中推出了阶梯式开发工具链,全面覆盖从入门到高阶的多元化开发需求。

该工具链帮助开发者快速构建高性能算子,实现与主流AI生态的无缝兼容,显著降低了CUDA生态迁移的技术门槛与成本:

  • SDAA Copilot:专注于加速卡算子智能生成的AI编程大模型,可在小时级别生成3000个SDAA算子代码并通过单测。
  • Teco-Triton:支持开发者使用熟悉的Triton Python抽象语法树快速、灵活地编写高性能算子,后端无缝运行在太初元碁加速卡上。
  • SDAA C:编程模型支持C/C++标准语法,让开发者可以直接进行内核开发。
  • PCX虚拟指令集:深度匹配太初元碁的硬件特性,支持用户在SDAA C程序中嵌入PCX指令,实现对关键计算路径的精细优化。
  • Teco-vLLM:通过插件机制将太初AI加速卡接入vLLM框架,实现与原生vLLM完全一致的推理接口和方法。基于GPU开发的vLLM原生应用无需修改模型代码和启动方式,即可无缝迁移至太初元碁硬件运行,实现零成本兼容。

国产AI芯片的三大主攻方向

太初元碁首席产品官洪源表示,未来国产AI芯片企业必须聚焦三大主攻方向:

  1. 突破集群性能:大模型训练本质上是大数据量的“分布式并行计算”,互联能力就是数据传输的“高速公路”。前沿大模型的训练要求数万张算力卡互联并行工作,国产厂商不能只关注单卡性能,必须充分考虑如何构建真正的集群性能。
  2. 追求极致推理性价比:现阶段对于大模型厂商和云服务厂商而言,每Token对应的成本将有可能决定产品的“生死”,因此性价比将成为推理任务的极致追求。
  3. 加速生态和软件工具建设:国产AI芯片在最终客户侧落地时,必须回答并彻底解决一个实际问题——如何帮助用户,甚至让用户“无感”地从CUDA生态迁移过来。

在大模型尚未进入“周更”时代前,国产AI芯片企业或许还能放慢脚步观察。然而现在时间紧迫,国产算力企业真正的大考已经来临。只有真正拓展生态,让产品在具体场景下高效落地,才能在未来的竞争中继续生存下去。

相关文档

关联主题