定义

stream-processing 指对持续到达的数据流进行实时计算与增量处理的方式。

核心内涵

与传统的批处理不同,流处理强调数据的低延迟和实时性。系统在数据产生时立即进行摄取、转换、聚合或分析,无需等待数据集收集完毕。这种模式适用于需要快速响应的场景,如实时监控、欺诈检测、动态定价和实时推荐系统。

实践要点

保证数据处理的精确一次(Exactly-once)或至少一次(At-least-once)语义;在处理乱序数据和迟到数据时,合理设置时间窗口与水位线(Watermark);确保系统具备高吞吐量和容错恢复能力,以应对突发的数据洪峰和节点故障。

相关文档

  • data-pipeline;关联理由:上下游;说明:流处理常作为数据管道中的实时处理层,直接承接上游数据并输出到下游消费系统。
  • ETL;关联理由:版本演进;说明:ETL 从离线批处理延伸到实时 ETL 后,流处理成为核心执行范式之一。
  • observability;关联理由:解说;说明:流处理链路需要依赖可观测性来定位延迟抖动、乱序与积压等运行问题。

关联主题