定义
stream-processing 指对持续到达的数据流进行实时计算与增量处理的方式。
核心内涵
与传统的批处理不同,流处理强调数据的低延迟和实时性。系统在数据产生时立即进行摄取、转换、聚合或分析,无需等待数据集收集完毕。这种模式适用于需要快速响应的场景,如实时监控、欺诈检测、动态定价和实时推荐系统。
实践要点
保证数据处理的精确一次(Exactly-once)或至少一次(At-least-once)语义;在处理乱序数据和迟到数据时,合理设置时间窗口与水位线(Watermark);确保系统具备高吞吐量和容错恢复能力,以应对突发的数据洪峰和节点故障。
相关文档
- data-pipeline;关联理由:上下游;说明:流处理常作为数据管道中的实时处理层,直接承接上游数据并输出到下游消费系统。
- ETL;关联理由:版本演进;说明:ETL 从离线批处理延伸到实时 ETL 后,流处理成为核心执行范式之一。
- observability;关联理由:解说;说明:流处理链路需要依赖可观测性来定位延迟抖动、乱序与积压等运行问题。