Uber 和 OpenAI 重组了限流系统

摘要

1) 一句话总结 Uber 和 OpenAI 均将其限流系统从基于计数器的单服务硬拦截，重组为基础设施层的自适应软控制平台，以提升系统弹性与用户体验。

2) 关键点

架构转变：两家公司均放弃了传统的硬停止（hard stop）限流，转向在基础设施层实施专有的、基于策略的软控制系统（通过概率性丢弃或信用瀑布流管理流量）。
Uber 的旧系统痛点：过去基于 Redis 令牌桶的单服务限流导致了额外延迟、配置不一致以及需要手动调整阈值等运维低效问题。
Uber 的新架构 (GRL)：部署了全局限流器（GRL），采用三层反馈循环（数据平面本地客户端、区域聚合器、区域控制器）。
Uber 的软限制策略：GRL 使用按比例降低流量（例如 10%）的机制取代硬停止，向调用服务施加背压而不直接关闭。
OpenAI 的核心驱动力：重组主要为了改善 Codex 和 Sora 的用户体验，避免硬性限流打断用户的高价值探索流程。
OpenAI 的瀑布模型：构建了实时访问引擎，将限流、免费层、信用积分等整合为单一的同步评估路径；超出限额后无缝从信用余额中扣除。
OpenAI 的异步结算：通过流处理器异步结算信用扣款，并使用稳定的幂等键防止重复收费，确保交易可审计且维持低延迟。
Uber 实施成果：GRL 现覆盖 1100 个服务，每秒处理超 8000 万个请求，消除了外部 Redis 依赖，并成功吸收了 15 倍的流量激增及缓解了 DDoS 攻击。
OpenAI 实施成果：成功将信用系统集成到访问路径中，实现了实时、准确的计费，同时保持了交互式 AI 所需的低延迟性能。

3) 风险/不足

Uber 旧系统的维护与安全风险：旧系统配置不一致增加了维护风险，导致保护不均衡（部分较小的服务没有任何限制）；此外，分散的可观测性使得难以准确定位由限流引发的问题。
传统计费系统的延迟缺陷：OpenAI 明确指出，传统的异步计费系统容易因延迟问题而受到影响，无法满足实时同步决策的需求。

正文

在最近的博客文章中，优步（ Uber的限流系统）和 OpenAI（超越限流：扩展对Codex和Sora的访问）都讨论了他们对限流方法的转变：从基于计数器的、每个服务的限流转向适应性、基于策略的系统。两家公司都开发了专有的限流平台，并在基础设施层实施。这些系统具有软控制功能，通过向客户端施加压力而不是使用硬停止来管理流量——无论是通过概率性丢弃还是基于信用的瀑布流——确保系统弹性而不牺牲用户动力。

以前，优步工程师为每个服务实施限流，通常使用由 Redis 支持的令牌桶。这导致了操作效率低下，例如额外的延迟，以及部署时需要调整阈值。不一致的配置增加了维护风险，并导致保护不均衡，一些较小的服务没有任何限制。此外，可观测性是分散的，使得很难准确指出由限流引起的问题。

优步用新的全球限流器（GRL）替换了这些遗留限流器。GRL 架构由一个三层反馈循环组成：优步服务网格数据平面中的限流客户端在本地执行决策，区域聚合器收集指标，区域控制器计算全局限制并将其推送回客户端。

GRL 还用一个降低可配置流量百分比（例如 10%）的系统取代了硬停止桶。这个策略作为一个软限制，对调用者服务施加压力，允许它们继续运行，而不会因配额耗尽而关闭。

OpenAI 以类似的架构实施了其新的限流器；然而，主要驱动力是 Codex 和 Sora 应用程序的用户体验，而不是运维弹性。随着越来越多的采用，OpenAI 看到了一个一致的模式：用户发现这些工具具有很大的价值，但被限流中断。虽然这些界限确保了公平的访问和系统的稳定性，但它们经常让参与的用户感到沮丧。OpenAI 寻求一种方法，通过即时基于使用量的计费，在不阻碍探索的情况下保持动力。

工程团队设计了一种综合方法，允许用户在一定限额内访问系统，超过限额后系统将从信用余额中扣除。团队将这个决策过程描述为“瀑布式”：

这个模型反映了用户对产品的实际体验。限流、免费层、信用、促销和企业权益都只是同一个决策堆栈中的层。从用户的角度来看，他们不会“切换系统”——他们只是继续使用 Codex 和 Sora。这就是为什么信用感觉不可见：它们只是瀑布中的另一个元素。

为确保这种过渡是无缝的，OpenAI 构建了一个专用的实时访问引擎，将使用跟踪、限流窗口和信用余额整合到单一评估路径中。与传统的异步计费系统不同，这些系统因延迟而受到影响，这个引擎同步地做出可证明正确的决策：每个请求在立即检查信用余额之前，都会识别出限流层的可用容量。

为保持低延迟，系统通过一个流处理器异步结算信用借记，使用稳定的幂等键防止双重收费。这种架构依赖于三个紧密耦合的数据流——产品使用事件、货币化事件和余额更新——确保每笔交易都是可审计和可对账的，而不会中断用户的创作流程。

优步和 OpenAI 都报告说，这些架构转变成功地实现了他们各自的操作和产品目标。在优步，全球限流器的实施已经扩展到每秒处理超过 8000 万个请求，覆盖 1100 个服务，显著降低了尾部延迟，消除了外部 Redis 依赖。该系统在生产中证明了其有效性，吸收了 15 倍的流量激增而没有退化，并在 DDoS 攻击到达内部系统之前减轻了它们。

同样，OpenAI 已经将信用系统集成到 Codex 和 Sora 的访问路径中，用连续的瀑布模型替换了硬停止。平台提供实时、准确的计费，同时保持交互式 AI 应用程序所需的低延迟性能。对于这两家公司来说，转向内部、基础设施级别的平台已经用自动化、适应性控制取代了手动配置，允许他们各自的集群在最小的人为干预下处理大规模问题。

原文链接：

https://www.infoq.com/news/2026/02/uber-openai-rate-limiting/

wsl-docs

探索

Uber 和 OpenAI 重组了限流系统

摘要

正文

关联主题

关系图谱

目录

反向链接