定义
ETL 指 Extract、Transform、Load 的数据处理流程,用于把多源数据转换并载入目标系统。
核心内涵
ETL 是数据工程的基石,负责从异构数据源中提取原始数据,经过清洗、过滤、聚合、格式化等转换操作,最终加载到数据仓库、数据湖或向量数据库中。在 AI 语境下,ETL 也是构建高质量训练数据和检索增强生成知识库的必经之路。与 ELT 相比,ETL 强调在数据落库前完成主要转换,常用于对数据质量与一致性要求更高的场景。
实践要点
- 设计 ETL 管道时需关注数据的质量、一致性与处理效率。
- 在面向大模型的 ETL 实践中,文本分块、向量化以及元数据提取是关键步骤。
- 需建立完善的监控机制以应对数据源变更或处理异常,确保下游系统的数据鲜活度。
- 对频繁变更的数据源,应建立字段映射与版本兼容策略,减少 Schema 演进导致的管道中断。