ETL数据获取工具有哪些?

如题所述

常用的内部数据获取工具有以下几种:


1.Kettle(传统的ETL工具)


特性:纯Java编写,通过建立资源库可多端访问,直接在windows上进行作业开发,同步资源库,在linux上执行定时任务


优点:可在Windows、linux、Unix上执行;数据抽取高效稳定;子组件spoon有丰富的Steps可以开发复杂业务逻辑场景,方便实现全量、增量同步;可视化界面


缺点:通过定时运行,实时性较差;


组成部分:Spoon:允许使用图形化界面实现ETL数据转换过程


Pan:批量运行Spoon数据转换过程


Chef:job(有状态,可以监控到是否执行、执行的速度等)


Kitchen:批量运行chef


2.Sqoop(传输效率高)


特点:主要用于HDFS和关系型数据库之间数据的转换;


优点:数据传输高效,比kettle传输效率高10倍以上,常用于关系型数据库和HDFS之间数据传输


3,Datax(阿里使用的离线数据统计工具,已开源):


特点:实现不同类型数据源(包含关系型数据库、分布式文件系统等)之间的数据同步;


优点:操作简单,只有2步,一是创建作业的配置文件;二是启动配置文件作业;


缺点:缺乏增量更新的支持,但可以自己写shell脚本等方式实现增量同步%26。

温馨提示:答案为网友推荐,仅供参考
相似回答
大家正在搜