Mistral 发布 Voxtral Transcribe 2：新一代极速语音转录模型

摘要

1) 一句话总结 Mistral 发布了新一代语音转文本模型系列 Voxtral Transcribe 2，包含主打高性价比批量转录的 Mini Transcribe V2 和主打超低延迟且开源权重的 Realtime 模型，并同步推出了音频游乐场供开发者测试。

2) 核心要点

模型阵容：包含用于批量转录的 Voxtral Mini Transcribe V2 和用于实时应用的 Voxtral Realtime。
Voxtral Realtime：采用流式架构，延迟可配置至低于 200 毫秒；拥有 40 亿参数，模型权重基于 Apache 2.0 协议开源，支持边缘设备部署。
Voxtral Mini Transcribe V2：API 价格仅为 0.003 美元/分钟，FLEURS 测试词错率约 4%，单次请求最多支持处理长达 3 小时的录音。
多语言支持：两款模型均原生支持包括中文、英文在内的 13 种语言。
核心功能：支持说话人分离、词级时间戳以及上下文偏置（允许提供最多 100 个词或短语以引导专有名词或术语的正确拼写）。
音频游乐场：在 Mistral Studio 中推出，支持单次上传最多 10 个文件（单文件最大 1GB，支持 mp3、wav 等主流格式）进行即时测试。
定价与部署：Mini V2 API 定价 0.003 美元/分钟；Realtime API 定价 0.006 美元/分钟。两款模型均支持符合 GDPR 和 HIPAA 标准的安全本地或私有云部署。

3) 风险与不足

语音重叠限制：在多方语音重叠的情况下，模型通常只能转录其中一位说话人的内容。
上下文偏置语言限制：上下文偏置功能目前仅针对英语进行了优化，对其他语言的支持仍处于实验阶段。

正文

精准的说话人分离（Diarization）、实时转录，以及全新的音频游乐场（Audio Playground）。

今天，我们正式发布 Voxtral Transcribe 2——包含两款具备顶尖转录质量、说话人分离功能和超低延迟的新一代语音转文本模型。该系列包括用于批量转录的 Voxtral Mini Transcribe V2 和用于实时应用的 Voxtral Realtime。其中，Voxtral Realtime 采用 Apache 2.0 协议开源模型权重。

我们还在 Mistral Studio 中推出了由 Voxtral Transcribe 2 驱动的音频游乐场，支持说话人分离和时间戳功能，方便开发者即时测试转录效果。

核心亮点

Voxtral Mini Transcribe V2：提供业界领先的转录服务，支持 13 种语言的说话人分离、上下文偏置（Context biasing）和词级时间戳。
Voxtral Realtime：专为实时转录打造，延迟可配置至低于 200 毫秒，全面赋能语音智能体和实时应用。
同类最佳的效率：以极低的成本提供行业领先的准确率。Voxtral Mini Transcribe V2 以最低的价格实现了最低的词错率（WER）。
开源权重：Voxtral Realtime 采用 Apache 2.0 协议发布，可部署在边缘设备上，完美适配隐私优先的应用场景。

Voxtral Realtime：为实时应用而生

Voxtral Realtime 专为对延迟敏感的应用而设计。与将音频分块处理的传统离线模型不同，Realtime 采用了一种新颖的流式架构，能够在音频到达时即刻进行转录。该模型的转录延迟可配置至低于 200 毫秒，解锁了全新一代的“语音优先”应用。

在 FLEURS 转录基准测试中：

在 2.4 秒延迟（非常适合生成字幕）下，Realtime 的表现与我们最新的批量处理模型 Voxtral Mini Transcribe V2 相当。
在 480 毫秒延迟下，其词错率差距保持在 1-2% 以内，为语音智能体提供了接近离线模型的准确度。

该模型原生支持多语言，在 13 种语言（包括英语、中文、印地语、西班牙语、阿拉伯语、法语、葡萄牙语、俄语、德语、日语、韩语、意大利语和荷兰语）中均表现出色。它拥有 40 亿（4B）参数，可在边缘设备上高效运行，确保敏感部署的隐私和安全。我们已在 Hugging Face Hub 上基于 Apache 2.0 协议开源了该模型的权重。

Voxtral Mini Transcribe V2：极致性价比的批量转录

Voxtral Mini Transcribe V2 在跨语言和跨领域的转录及说话人分离质量上实现了显著提升。在 FLEURS 测试中，其词错率约为 4%，且 API 价格仅为 0.003 美元/分钟，提供了当前市场上最佳的性价比。

在准确率上，它超越了 GPT-4o mini Transcribe、Gemini 2.5 Flash、Assembly Universal 和 Deepgram Nova；其处理速度约为 ElevenLabs Scribe v2 的 3 倍，在保持同等质量的同时，成本仅为其五分之一。

核心功能特性：

说话人分离与精准时间戳：生成带有说话人标签和精确起止时间的转录内容。非常适合会议记录、面试分析和多方通话处理。（注：在语音重叠的情况下，模型通常只转录一位说话人的内容）。
上下文偏置（Context Biasing）：允许提供最多 100 个词或短语，引导模型正确拼写人名、技术术语或特定领域的词汇。这对标准模型容易遗漏的专有名词或行业术语特别有用（目前针对英语进行了优化，其他语言支持处于实验阶段）。
词级时间戳：为每个词生成精确的起止时间戳，适用于字幕生成、音频搜索和内容对齐。
多语言支持：与 Realtime 一样，支持包含中文在内的 13 种语言。非英语表现显著优于竞争对手。
强大的抗噪能力：在工厂车间、繁忙的呼叫中心和现场录音等具有挑战性的声学环境中，依然能保持转录准确性。
长音频处理：单次请求最多可处理长达 3 小时的录音。

音频游乐场 (Audio Playground)

您可以在 Mistral Studio 中直接测试 Voxtral Transcribe 2。支持一次性上传最多 10 个音频文件，可自由切换说话人分离功能、选择时间戳粒度，并添加特定领域词汇的上下文偏置词。支持 .mp3、.wav、.m4a、.flac、.ogg 格式，单个文件最大支持 1GB。

重塑语音应用场景

Voxtral 正在为各行各业的语音工作流提供强大动力：

会议智能分析：转录多语言录音并进行说话人分离，清晰记录“谁在何时说了什么”。以极具性价比的成本，高效标注海量会议内容。
语音智能体与虚拟助手：构建转录延迟低于 200 毫秒的对话式 AI。将 Voxtral Realtime 连接到您的 LLM（大语言模型）和 TTS（文本转语音）管道，打造自然流畅的语音交互界面。
呼叫中心自动化：实时转录通话，使 AI 系统能够在对话进行时分析情绪、建议回复并填充 CRM 字段。说话人分离功能可确保清晰区分座席与客户。
媒体与广播：以极低延迟生成实时多语言字幕。上下文偏置功能可轻松处理让传统转录服务出错的专有名词和技术术语。
合规与文档记录：监控并转录交互过程以满足监管合规要求，说话人分离和时间戳功能可提供精确的审计追踪。

注：两款模型均支持通过安全的本地部署或私有云设置，实现符合 GDPR 和 HIPAA 标准的部署。

立即体验

Voxtral Mini Transcribe V2：现已通过 API 提供，价格为 0.003 美元/分钟。您可以在全新的 Mistral Studio 音频游乐场或 Le Chat 中立即体验。
Voxtral Realtime：现已通过 API 提供，价格为 0.006 美元/分钟，并在 Hugging Face 上开源了模型权重。

欢迎查阅 Mistral 的音频和转录功能官方文档以获取更多信息。

加入我们

如果您对构建世界级的语音 AI 并将前沿模型交到全球开发者手中充满热情，我们非常期待您的加入。欢迎申请加入我们的团队！

wsl-docs

探索