摘要

1) 一句话总结

Tongyi DeepResearch 是由通义实验室开源的 Agentic 大语言模型,专为长周期、深度的信息检索与研究任务设计,具备高效的稀疏激活架构与强大的多工具集成能力。

2) 核心要点

  • 开源与项目数据:基于 Apache-2.0 协议开源,主要使用 Python 开发,GitHub 仓库目前拥有超 1.8 万 Stars。
  • 高效参数架构:模型(30B-A3B)总参数量为 305 亿,采用稀疏激活机制,每个 token 仅激活 33 亿参数。
  • 长上下文支持:模型支持高达 128K 的上下文长度,适合处理复杂的长周期探索任务。
  • 双推理范式:支持用于评估核心能力的 ReAct 模式,以及利用测试时扩展(test-time scaling)解锁性能上限的 Heavy 模式(基于 IterResearch)。
  • 多工具集成:推理脚本支持配置并调用外部 API,包括网页搜索(Serper)、网页阅读(Jina)、文件解析(Dashscope)及代码沙盒执行。
  • 先进训练机制:采用全自动合成数据管道,结合大规模持续预训练,并使用定制的 GRPO 框架进行端到端的 on-policy 强化学习。
  • 典型应用场景:适用于深度信息检索、自动化文档与网页处理,以及在 Humanity’s Last Exam、SimpleQA 等主流 Agentic 基准上进行测试。
  • 多样化部署方式:支持通过 ModelScope/HuggingFace/阿里云百炼进行在线体验,通过 OpenRouter 进行 API 调用,或下载权重进行本地部署。

3) 风险与不足

  • 在线 Demo 稳定性限制:官方提供的在线 Demo 受限于模型延迟和工具 QPS 限制,响应时间可能存在波动或出现间歇性失败,不建议用于生产环境。
  • 环境依赖冲突风险:本地部署强烈建议使用 Python 3.10.0 版本,使用其他 Python 版本可能会导致依赖冲突问题。

功能与定位

Tongyi DeepResearch 是由 Tongyi Lab 开发的一款开源 Agentic 大语言模型(基于早期的 WebAgent 项目构建)。该模型专为**长周期、深度的信息检索(long-horizon, deep information-seeking)**任务而设计,旨在提供强大的自主搜索与研究能力。

典型使用场景

  • 深度信息检索与研究:处理需要长时间跨度、多步骤探索的复杂查询任务。
  • Agent 能力基准测试:可用于评估模型在 Humanity’s Last Exam、BrowseComp、WebWalkerQA、SimpleQA 等主流 Agentic 搜索基准上的表现。
  • 自动化文档与网页处理:结合外部工具进行网页搜索、页面阅读、文件解析及代码沙盒执行。

核心功能

  • 双推理范式支持
    • ReAct 模式:用于严格评估模型的核心内在能力。
    • Heavy 模式(基于 IterResearch):采用测试时扩展(test-time scaling)策略,以解锁模型的最大性能上限。
  • 长上下文处理:模型(Tongyi-DeepResearch-30B-A3B)支持高达 128K 的上下文长度。
  • 多工具集成推理:推理脚本支持配置并调用多种外部 API(如 Serper 进行网页搜索、Jina 进行网页阅读、Dashscope 进行文件解析等)。

特色与差异点

  • 高效的参数架构:模型总参数量为 305 亿,但采用稀疏激活机制,每个 token 仅激活 33 亿参数(30B-A3B)。
  • 全自动合成数据管道:设计了高可扩展的数据合成管道,全面赋能 Agentic 预训练、监督微调(SFT)和强化学习(RL)。
  • 大规模持续预训练:利用多样化、高质量的 Agentic 交互数据扩展模型能力,保持信息新鲜度并强化推理性能。
  • 端到端强化学习:采用严格的 on-policy 强化学习方法,基于定制的 GRPO(Group Relative Policy Optimization)框架,结合 token 级策略梯度和负样本过滤,以稳定非平稳环境下的训练。

使用方式概览

  • 在线体验:可通过 ModelScope、HuggingFace 的在线 Demo 或阿里云百炼(Bailian)服务进行快速探索。
  • 第三方 API 调用:模型已上线 OpenRouter,用户可通过配置 API 密钥实现无 GPU 环境下的云端推理。
  • 本地部署与推理
    1. 从 HuggingFace 或 ModelScope 下载模型权重。
    2. 配置 Python 独立环境并安装依赖。
    3. 配置 .env 文件,填入所需的第三方工具 API 密钥(如搜索、网页读取、大模型总结等)。
    4. 准备 JSON 或 JSONL 格式的评估数据集(支持本地文件引用)。
    5. 运行提供的 Bash 推理脚本。

限制与注意事项

  • Demo 稳定性限制:官方提供的在线 Demo 仅供快速探索,受限于模型延迟和工具 QPS 限制,响应时间可能会有波动或出现间歇性失败。
  • 生产环境建议:为了获得稳定的体验,官方建议进行本地部署;若需生产级服务,推荐使用阿里云百炼并遵循其引导设置。
  • 环境依赖要求:本地部署强烈建议使用 Python 3.10.0,使用其他版本可能会导致依赖冲突问题。

链接

关联主题