Skip to content

任务流

在DataSpring中,任务流是用于自动化处理数据的处理器的集合。

处理模式

DataSpring 是一个流批一体式ETL平台。你可根据自己的数据处理需求来选择合适的处理模式。

批处理

适合需要做数据转换,实时性要求不高,周期性任务等场景。批处理是典型的ETL处理模式,方便扩展,可批量处理大量数据。当任务流开始运行时,将从抽取器开始执行,随后依序执行下游处理器,当所有处理器都被执行后,任务流执行结束。 若你的任务流具有明显的执行周期,可选用此模式。

流处理

易于与其他实时系统集成,实时性高。在任务流开始运行后,所有处理器将处于运行状态,即时进行数据处理,除非遇到异常导致任务流运行中断,“流处理”模式的任务流将始终处于此状态。

同步任务

适合同步过程中表结构表更、多表同步、整库同步等场景

数据验证

适用目标系统数据表的操作,导致跟源表不一致场景,可以用来做数据对比和订正。

任务流状态

状态简述
初始态此状态为任务流的默认状态。新建任务流后,该任务流将处于此状态。
等待运行ETL 是时间和资源密集型任务,运行较耗资源。所以点击运行任务流后,该任务流将处于此状态,等待调度。
运行中排队结束后,任务流进入“运行中”状态。
已取消在任务流处于运行状态时,用户手动取消任务流。
失败任务流运行过程中遇到异常, 导致任务流不能继续进行下去。
已完成非“流处理” 模式的任务流,所有处理器都已正常运行完成后,任务流变为此状态。