|
kettle也叫PDI,在2006年Kettle参加了开源的BI组织Pentaho,正式命名为PDI,英文名全称为Pentaho Data Integeration。Kettle是“Kettle E.T.T.L. Envirnonment”只取首字母的缩写,这象征着它被设计用来帮忙你完成你的ETL需求:抽取、转换、装入和加载数据;翻译成中文称号应该叫水壶,名字的发源正如该名目的主顺序员MATT在一个论坛里说的那样:但愿把各种数据放到一个壶里而后以一种指定的格局流出。
Kettle允许办理来自不同数据库的数据,经过提供一个图形化的用户环境来形容你想做甚么。Kettle中有两种脚本文件,转换(transformation)和任务(job),transformation实现针对数据的根底转换,job则实现全部任务流的管制。
Kettle总体构造图:
Kettle的术语:
Transformation:转换步骤,能够了解为将一个或者多个不同的数据源组装成一条流水线。而后终究输入到某一个中央,文件或者数据库等。Job:功课,能够调度设计好的转换,也能够履行一些文件处置(对比、删除),还能够上传下载文件、发送邮件、履行Shell命令等。Job与Transformation的差异是:Transformation专一于数据的ETL,而Job的规模对比广,能够是Transformation,也能够是Mail、SQL、Shell、FTP等等,乃至能够是此外一个Job。Hop:衔接Transformation步骤或者衔接Job(实际上就是履行程序)的连线。Transformation hop :次要表现数据的流向。从输出、过滤等转行操作,到输入。
Job hop:可设置履行前提:无前提履行、当上一个Job履行后果为true时履行、当上一个Job履行后果为false时履行Kettle家族目前包罗4个产品:Spoon、Pan、CHEF、Kitchen。
SPOON允许你经过图形界面来设计ETTLE转换进程(Transformation)。PAN允许你批量运转由Spoon设计的ETL转换(例如使用一个时间调度器)。Pan是一个后盾履行的顺序,没有图形界面。CHEF允许你创立工作(Job)。工作经过允许每个转换,工作,脚本等等,更无利于自动化更新数据仓库的繁杂任务。工作经过允许每个转换,工作,脚本等等。工作将会被反省,看看是不是正确的运转了。KITCHEN允许你批量使用由Chef设计的工作(例如使用一个时间调度器)。KITCHEN也是一个后盾运转的顺序。Spoon.bat:在windows平台运转Spoon。Spoon.sh:在Linux、Apple OSQ、Solaris平台运转Spoon。资源库是用来保留转换工作的,用户经过图形界面创立的转换工作能够保留在资源库中。资源库能够使多用户同享转换工作,转换工作在资源库中是以文件夹方式分组办理的,用户能够自定义文件夹称号。资源库有两种方式:Kettle database repository; Kettle file repository。Kettle的运用场景:表视图模式、文件模式。
Kettle转化功用引见:kettle中有两种脚本文件,Transformation(.ktr)和Job(.kjb),Transformation实现针对数据的根底装换,job则实现全部任务流的管制。
Kettle的功用十分弱小,数据抽取效力也对比高,开源产品,能够进行第三方修正,工具中的控件可以完成数据抽取的大部份需要。一切功用反对控件化,使用简略。 |
|