任务流
在DataSpring中,任务流是用于自动化处理数据的处理器的集合。
处理模式
DataSpring 是一个流批一体式ETL平台。你可根据自己的数据处理需求来选择合适的处理模式。
批处理
适合需要做数据转换,实时性要求不高,周期性任务等场景。批处理是典型的ETL处理模式,方便扩展,可批量处理大量数据。当任务流开始运行时,将从抽取器开始执行,随后依序执行下游处理器,当所有处理器都被执行后,任务流执行结束。 若你的任务流具有明显的执行周期,可选用此模式。
流处理
易于与其他实时系统集成,实时性高。在任务流开始运行后,所有处理器将处于运行状态,即时进行数据处理,除非遇到异常导致任务流运行中断,“流处理”模式的任务流将始终处于此状态。
同步任务
适合同步过程中表结构表更、多表同步、整库同步等场景
数据验证
适用目标系统数据表的操作,导致跟源表不一致场景,可以用来做数据对比和订正。
任务流状态
状态 | 简述 |
---|---|
初始态 | 此状态为任务流的默认状态。新建任务流后,该任务流将处于此状态。 |
等待运行 | ETL 是时间和资源密集型任务,运行较耗资源。所以点击运行任务流后,该任务流将处于此状态,等待调度。 |
运行中 | 排队结束后,任务流进入“运行中”状态。 |
已取消 | 在任务流处于运行状态时,用户手动取消任务流。 |
失败 | 任务流运行过程中遇到异常, 导致任务流不能继续进行下去。 |
已完成 | 非“流处理” 模式的任务流,所有处理器都已正常运行完成后,任务流变为此状态。 |