admin 管理员组文章数量: 1184232
2023年12月18日发(作者:学编程哪个语言比较好)
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
Pentaho
Data Integration
完全自学手册
(孟菲斯著)
1文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
文档目录
文档目录 ............................................................................................................. 错误!未定义书签。
更新记录 ............................................................................................................. 错误!未定义书签。
第一章.
1.1.
1.2.
1.3.
KETTLE 基础介绍 ............................................................................ 错误!未定义书签。
核心组件 .................................................................................................. 错误!未定义书签。
组成部分 .................................................................................................. 错误!未定义书签。
概念模型 .................................................................................................. 错误!未定义书签。
Transformation(转换) .................................................................
错误!未定义书签。
Steps(步骤) ..................................................................................
错误!未定义书签。
Hops(节点连接) ..........................................................................
错误!未定义书签。
Jobs(工作) ...................................................................................
错误!未定义书签。
Variable(变量) ............................................................................
错误!未定义书签。
设置环境变量 ............................................................................................ 错误!未定义书签。
设置变量 .................................................................................................... 错误!未定义书签。
1.3.1.
1.3.2.
1.3.3.
1.3.4.
1.3.5.
1.3.5.1.
1.3.5.2.
1.4.
1.5.
第二章.
2.1.
查看版本 .................................................................................................. 错误!未定义书签。
选项设置 .................................................................................................. 错误!未定义书签。
KETTLE 环境搭建 ............................................................................ 错误!未定义书签。
单机部署 .................................................................................................. 错误!未定义书签。
下载kettle ........................................................................................
错误!未定义书签。
2.1.2.
安装kettle ........................................................................................
错误!未定义书签。
2.1.3.
运行Spoon .......................................................................................
错误!未定义书签。
2.2.
集群部署 .................................................................................................. 错误!未定义书签。
1. Carte简介 .....................................................................................................
错误!未定义书签。
2. Carte部署配置 .............................................................................................
错误!未定义书签。
2.1 启动方法 ............................................................................................................... 错误!未定义书签。
2.2 启动配置 ............................................................................................................... 错误!未定义书签。
2.3 Carte xml文件配置详解 ........................................................................................ 错误!未定义书签。
2.3.1 slaveserver节点 .............................................................................................. 错误!未定义书签。
2.3.2 masters节点 ................................................................................................... 错误!未定义书签。
2.3.3 report_to_masters节点 .................................................................................. 错误!未定义书签。
2.3.4 max_log_lines节点 ......................................................................................... 错误!未定义书签。
2.3.5 max_log_timeout_minutes节点 ..................................................................... 错误!未定义书签。
2.3.6 object_timeout_minutes节点 ........................................................................ 错误!未定义书签。
2.3.7 (*) repository节点 .......................................................................................... 错误!未定义书签。
3. Carte集群 .....................................................................................................
错误!未定义书签。
3.1 普通集群 ............................................................................................................... 错误!未定义书签。
3.2 动态集群 ............................................................................................................... 错误!未定义书签。
2.1.1.
2.3.
运行方式 .................................................................................................. 错误!未定义书签。
2.3.1.
转换执行器 Pan ..............................................................................
错误!未定义书签。
2.3.1.1.
Pan 参数介绍 ............................................................................................ 错误!未定义书签。
2文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
2.3.1.2.
2.3.1.3.
Pan 实例讲解:Windows ......................................................................... 错误!未定义书签。
Pan 实例讲解:Linux ................................................................................ 错误!未定义书签。
2.3.2.
任务执行器 Kitchen ........................................................................
错误!未定义书签。
2.3.2.1.
Kitchen 参数介绍 ...................................................................................... 错误!未定义书签。
2.3.2.2.
Kitchen 实例讲解:Windows ................................................................... 错误!未定义书签。
2.3.2.3.
Kitchen 实例讲解:Linux .......................................................................... 错误!未定义书签。
定时任务 .................................................................................................. 错误!未定义书签。
Windows ...........................................................................................
错误!未定义书签。
Linux .................................................................................................
错误!未定义书签。
KETTLE 基本功能 ............................................................................ 错误!未定义书签。
新建转换 .................................................................................................. 错误!未定义书签。
2.4.
2.4.1.
2.4.2.
第三章.
3.1.
方法1 ...............................................................................................
错误!未定义书签。
3.1.2.
方法2 ...............................................................................................
错误!未定义书签。
3.1.3.
方法3 ...............................................................................................
错误!未定义书签。
3.1.4.
主对象树 ..........................................................................................
错误!未定义书签。
3.1.5.
核心对象 ..........................................................................................
错误!未定义书签。
3.1.6.
新建数据库连接 ..............................................................................
错误!未定义书签。
3.2.
转换实例 .................................................................................................. 错误!未定义书签。
3.2.1.
转换实例1 .......................................................................................
错误!未定义书签。
3.2.2.
转换实例2 .......................................................................................
错误!未定义书签。
3.3.
新建作业 .................................................................................................. 错误!未定义书签。
3.3.1.
方法1 ...............................................................................................
错误!未定义书签。
3.3.2.
方法2 ...............................................................................................
错误!未定义书签。
3.3.3.
方法3 ...............................................................................................
错误!未定义书签。
3.3.4.
主对象树 ..........................................................................................
错误!未定义书签。
3.3.5.
核心对象 ..........................................................................................
错误!未定义书签。
3.4.
作业实例 .................................................................................................. 错误!未定义书签。
3.4.1.
作业实例1 .......................................................................................
错误!未定义书签。
3.4.2.
作业实例2 .......................................................................................
错误!未定义书签。
第四章.
4.1.
KETTLE 设计环境 ............................................................................ 错误!未定义书签。
TRANSFORMATION:转换步骤(24-228)........................................................ 错误!未定义书签。
Input:输入(38) ...............................................................................
错误!未定义书签。
Csv file input ............................................................................................... 错误!未定义书签。
4.1.1.1.
3.1.1.
4.1.1.
4.1.1.1.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.1.1.1.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.1.1.1.3.
实例讲解 .............................................................................................. 错误!未定义书签。
4.1.1.2.
4.1.1.3.
4.1.1.4.
4.1.1.5.
4.1.1.6.
4.1.1.7.
4.1.1.8.
DataGrid ..................................................................................................... 错误!未定义书签。
De-serialize from file:文件反序列化 ....................................................... 错误!未定义书签。
ESRI Shapefile Reader ................................................................................. 错误!未定义书签。
Email messages input ................................................................................. 错误!未定义书签。
Fixed file input ............................................................................................ 错误!未定义书签。
GZIP CSV Input ............................................................................................ 错误!未定义书签。
错误!未定义书签。
3文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
4.1.1.9.
4.1.1.10.
4.1.1.11.
4.1.1.12.
4.1.1.13.
4.1.1.14.
Generate random credit card numbers ...................................................... 错误!未定义书签。
Generate random value ......................................................................... 错误!未定义书签。
Get File Names ....................................................................................... 错误!未定义书签。
Get Files Rows Count .............................................................................. 错误!未定义书签。
Get SubFolder names ............................................................................. 错误!未定义书签。
Get System Info:获取系统信息 .......................................................... 错误!未定义书签。
4.1.1.14.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.1.14.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.1.1.14.3.
实例讲解 ............................................................................................ 错误!未定义书签。
4.1.1.15.
4.1.1.16.
4.1.1.17.
4.1.1.18.
4.1.1.19.
4.1.1.20.
4.1.1.21.
4.1.1.22.
4.1.1.23.
4.1.1.24.
4.1.1.25.
Get data from XML ................................................................................. 错误!未定义书签。
Get repository names ............................................................................. 错误!未定义书签。
Get table names ..................................................................................... 错误!未定义书签。
错误!未定义书签。
HL7 Input ................................................................................................ 错误!未定义书签。
错误!未定义书签。
LDAP Input ............................................................................................. 错误!未定义书签。
LDIF Input ............................................................................................... 错误!未定义书签。
Load file content in memory .................................................................. 错误!未定义书签。
Microsoft Access input ........................................................................... 错误!未定义书签。
Microsoft Excel Input ............................................................................. 错误!未定义书签。
4.1.1.25.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.1.25.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.1.1.25.2.1.
指定文件名 ................................................................................. 错误!未定义书签。
4.1.1.25.2.2.
指定内容 ..................................................................................... 错误!未定义书签。
4.1.1.25.2.3.
字段............................................................................................. 错误!未定义书签。
4.1.1.25.2.4.
错误处理 ..................................................................................... 错误!未定义书签。
4.1.1.25.2.5.
其他输出字段 ............................................................................. 错误!未定义书签。
4.1.1.25.3.
实例讲解 ............................................................................................ 错误!未定义书签。
4.1.1.26.
4.1.1.27.
4.1.1.28.
4.1.1.29.
4.1.1.30.
4.1.1.31.
4.1.1.32.
4.1.1.33.
Mondrian Input ...................................................................................... 错误!未定义书签。
OLAP Input ............................................................................................. 错误!未定义书签。
Property Input ........................................................................................ 错误!未定义书签。
RSS Input ................................................................................................ 错误!未定义书签。
S3 CSV Input ........................................................................................... 错误!未定义书签。
SAP Input ................................................................................................ 错误!未定义书签。
SAS Input ................................................................................................ 错误!未定义书签。
SalesForce Input ..................................................................................... 错误!未定义书签。
4.1.1.34.
Table input:表输入 .................................................................................. 错误!未定义书签。
4.1.1.34.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.1.34.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.1.1.34.3.
实例讲解 ............................................................................................ 错误!未定义书签。
4.1.1.35.
Text file input:文本文件输入 .................................................................. 错误!未定义书签。
4.1.1.35.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.1.35.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.1.1.35.2.1.
文件名称指定 ............................................................................. 错误!未定义书签。
4文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
4.1.1.35.2.2.
从先前的步骤中接受文件名 ..................................................... 错误!未定义书签。
4.1.1.35.2.3.
内容指定 ..................................................................................... 错误!未定义书签。
4.1.1.35.2.4.
错误处理 ..................................................................................... 错误!未定义书签。
4.1.1.35.2.5.
过滤............................................................................................. 错误!未定义书签。
4.1.1.35.2.6.
字段............................................................................................. 错误!未定义书签。
4.1.1.35.2.7.
其他输出字段 ............................................................................. 错误!未定义书签。
4.1.1.35.3.
格式化 ................................................................................................ 错误!未定义书签。
4.1.1.35.3.1.
Number格式化 .......................................................................... 错误!未定义书签。
4.1.1.35.3.2.
Date格式化 ................................................................................ 错误!未定义书签。
4.1.1.35.3.3.
其它............................................................................................. 错误!未定义书签。
4.1.1.35.4.
实例讲解 ............................................................................................ 错误!未定义书签。
4.1.1.36.
4.1.1.37.
XBase input:XBase输入 ...................................................................... 错误!未定义书签。
XML Input Stream(StAX) ........................................................................ 错误!未定义书签。
4.1.1.36.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.1.37.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.1.38.
Yaml Input ................................................................................................... 错误!未定义书签。
4.1.2.
4.1.2.1.
4.1.2.2.
Output:输出(22) ............................................................................
错误!未定义书签。
Automatic Documentation Output ............................................................. 错误!未定义书签。
Delete:删除 ............................................................................................. 错误!未定义书签。
4.1.2.2.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.1.2.2.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.1.2.3.
Insert / Update:插入/更新 ...................................................................... 错误!未定义书签。
4.1.2.3.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.1.2.3.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.1.2.4.
4.1.2.5.
4.1.2.6.
4.1.2.7.
JSON Output ............................................................................................... 错误!未定义书签。
LDAP Output ............................................................................................... 错误!未定义书签。
Mircosoft Access Output ............................................................................ 错误!未定义书签。
Mircosoft Excel Output:Excel输出 .......................................................... 错误!未定义书签。
4.1.2.7.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.1.2.7.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.1.2.8.
4.1.2.9.
4.1.2.10.
4.1.2.11.
4.1.2.12.
4.1.2.13.
4.1.2.14.
4.1.2.15.
4.1.2.16.
4.1.2.17.
4.1.2.18.
Pentaho 错误!未定义书签。
Properties Output ....................................................................................... 错误!未定义书签。
RSS Output ............................................................................................. 错误!未定义书签。
S3 错误!未定义书签。
SQL File Output ...................................................................................... 错误!未定义书签。
Saleforce Delete ..................................................................................... 错误!未定义书签。
Saleforce Insert ...................................................................................... 错误!未定义书签。
Saleforce Update .................................................................................... 错误!未定义书签。
Saleforce Upsert ..................................................................................... 错误!未定义书签。
Serialize to file ........................................................................................ 错误!未定义书签。
Synchronize after merge ........................................................................ 错误!未定义书签。
4.1.2.19.
Table output ............................................................................................... 错误!未定义书签。
4.1.2.19.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.2.19.2.
操作步骤 ............................................................................................ 错误!未定义书签。
5文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
4.1.2.20.
Text file output:文本文件输出 ................................................................ 错误!未定义书签。
4.1.2.20.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.2.20.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.1.2.21.
Update:更新 ........................................................................................ 错误!未定义书签。
4.1.2.21.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.2.21.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.1.2.22.
XML Output ............................................................................................ 错误!未定义书签。
Add XML ..................................................................................................... 错误!未定义书签。
Add a checksum .......................................................................................... 错误!未定义书签。
Add constants:增加常量 ......................................................................... 错误!未定义书签。
4.1.3.
4.1.3.1.
4.1.3.2.
4.1.3.3.
Transform:转换(26) .......................................................................
错误!未定义书签。
4.1.3.3.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.1.3.3.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.1.3.4.
Add sequence ............................................................................................. 错误!未定义书签。
4.1.3.4.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.1.3.4.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.1.3.5.
4.1.3.6.
Add value fields changing seqence ............................................................. 错误!未定义书签。
!Calculator:计算器 ................................................................................ 错误!未定义书签。
4.1.3.6.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.1.3.6.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.1.3.7.
4.1.3.8.
4.1.3.9.
4.1.3.10.
4.1.3.11.
错误!未定义书签。
Concat Fields ............................................................................................... 错误!未定义书签。
Get ID From slave server ............................................................................. 错误!未定义书签。
Number range ........................................................................................ 错误!未定义书签。
Replace in string:字符串替换 ............................................................. 错误!未定义书签。
4.1.3.11.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.3.11.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.1.3.12.
!Row Normaliser:行转列 .................................................................. 错误!未定义书签。
4.1.3.12.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.3.12.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.1.3.13.
Row denormaliser:列转行 .................................................................. 错误!未定义书签。
4.1.3.13.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.3.13.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.1.3.14.
!Row flattener:行扁平化 .................................................................. 错误!未定义书签。
4.1.3.14.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.3.14.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.1.3.15.
!Select values:字段选择 ................................................................... 错误!未定义书签。
4.1.3.15.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.3.15.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.1.3.16.
4.1.3.17.
4.1.3.18.
Set field value ......................................................................................... 错误!未定义书签。
Set field value to a constant ................................................................... 错误!未定义书签。
Sort rows ................................................................................................ 错误!未定义书签。
4.1.3.18.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.3.18.2.
操作步骤 ............................................................................................ 错误!未定义书签。
6文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
4.1.3.19.
Split Fields:拆分字段 ............................................................................. 错误!未定义书签。
4.1.3.19.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.3.19.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.1.3.20.
4.1.3.21.
4.1.3.22.
Split Fields to rows ................................................................................. 错误!未定义书签。
String operations .................................................................................... 错误!未定义书签。
String cut:裁剪字符串 ........................................................................ 错误!未定义书签。
4.1.3.22.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.3.22.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.1.3.23.
Unique rows:去除重复记录 ............................................................... 错误!未定义书签。
4.1.3.23.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.3.23.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.1.3.25.
!Value Mapper:值映射 ..................................................................... 错误!未定义书签。
4.1.3.25.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.3.25.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.1.3.26.
XSL Transformation ................................................................................ 错误!未定义书签。
Change file encoding .................................................................................. 错误!未定义书签。
Clone row .................................................................................................... 错误!未定义书签。
Delay row .................................................................................................... 错误!未定义书签。
Edit to xml ................................................................................................... 错误!未定义书签。
Execute a process ....................................................................................... 错误!未定义书签。
If field value is null ...................................................................................... 错误!未定义书签。
Mail ............................................................................................................. 错误!未定义书签。
Metadata structure of stream .................................................................... 错误!未定义书签。
Null if:设置为空值 ................................................................................... 错误!未定义书签。
Process files ............................................................................................ 错误!未定义书签。
Run SSH commands ............................................................................... 错误!未定义书签。
Send message to Syslog ......................................................................... 错误!未定义书签。
4.1.4.
4.1.4.1.
4.1.4.2.
4.1.4.3.
4.1.4.4.
4.1.4.5.
4.1.4.6.
4.1.4.7.
4.1.4.8.
4.1.4.9.
Utility(15) .........................................................................................
错误!未定义书签。
4.1.4.9.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.1.4.10.
4.1.4.11.
4.1.4.12.
4.1.4.13.
Table Compare ............................................................................................ 错误!未定义书签。
4.1.4.14.
Write to log ................................................................................................. 错误!未定义书签。
4.1.4.15.
错误!未定义书签。
4.1.4.15.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.4.15.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.1.5.
4.1.5.1.
4.1.5.2.
4.1.5.3.
Flow(16) ...........................................................................................
错误!未定义书签。
Abort:中止 ............................................................................................... 错误!未定义书签。
错误!未定义书签。
Append streams:追加流 .......................................................................... 错误!未定义书签。
4.1.5.1.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.1.5.3.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.1.5.3.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.1.5.4.
4.1.5.5.
Block this step unitil steps finish ................................................................. 错误!未定义书签。
Blocking Step:阻塞数据 ........................................................................... 错误!未定义书签。
4.1.5.5.1.
功能描述 .............................................................................................. 错误!未定义书签。
7文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
4.1.5.5.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.1.5.6.
4.1.5.7.
4.1.5.8.
4.1.5.9.
Detect empty stream .................................................................................. 错误!未定义书签。
Dummy (do nothing):空操作(什么也不做) ....................................... 错误!未定义书签。
ETL Metadata Injection ............................................................................... 错误!未定义书签。
!Filter rows: 过滤记录(过滤行) ........................................................ 错误!未定义书签。
4.1.5.7.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.1.5.9.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.1.5.9.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.1.5.10.
4.1.5.11.
4.1.5.12.
4.1.5.13.
4.1.5.14.
4.1.5.15.
Identify last row in a stream ................................................................... 错误!未定义书签。
Java fileter .............................................................................................. 错误!未定义书签。
Job Executor ........................................................................................... 错误!未定义书签。
Prioritize streams ................................................................................... 错误!未定义书签。
Single Threader ...................................................................................... 错误!未定义书签。
Switch / Case .......................................................................................... 错误!未定义书签。
4.1.5.15.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.5.15.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.1.5.16.
Transformation Executor ............................................................................ 错误!未定义书签。
4.1.6.
4.1.6.1.
Scripting(9) .......................................................................................
错误!未定义书签。
!Execute SQL script:执行SQL脚本 ....................................................... 错误!未定义书签。
4.1.6.1.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.1.6.1.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.1.6.1.3.
实例讲解 .............................................................................................. 错误!未定义书签。
4.1.6.2.
Execute row SQL script:执行SQL脚本(字段流替换) ........................ 错误!未定义书签。
4.1.6.2.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.1.6.2.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.1.6.3.
4.1.6.4.
1)
2)
3)
1)
2)
3)
4)
4.1.6.5.
4.1.6.6.
4.1.6.7.
4.1.6.8.
4.1.6.9.
错误!未定义书签。
!Modified Java Script Value ...................................................................... 错误!未定义书签。
Transformation scripts ..................................................................................... 错误!未定义书签。
Transformation constants ................................................................................ 错误!未定义书签。
Transformation functions ................................................................................ 错误!未定义书签。
过滤Null字段 ................................................................................................ 错误!未定义书签。
字符串截取 ..................................................................................................... 错误!未定义书签。
过滤记录行,控制转换流程 ......................................................................... 错误!未定义书签。
使用java类库 ................................................................................................ 错误!未定义书签。
Regex Evaluation ......................................................................................... 错误!未定义书签。
Rules Accumulator ...................................................................................... 错误!未定义书签。
Rules Executor ............................................................................................ 错误!未定义书签。
User Defined Java Class .............................................................................. 错误!未定义书签。
User Defined Java Expression ..................................................................... 错误!未定义书签。
4.1.6.4.1.
实例讲解 .............................................................................................. 错误!未定义书签。
4.1.7.
4.1.7.1.
4.1.7.2.
4.1.7.3.
BA Server(3) .....................................................................................
错误!未定义书签。
Call endpoint ............................................................................................... 错误!未定义书签。
Get session varables ................................................................................... 错误!未定义书签。
Set session varables .................................................................................... 错误!未定义书签。
8文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
4.1.8.
4.1.8.1.
Lookup(15) .......................................................................................
错误!未定义书签。
!Call DB Procedure:调用DB存储过程 ................................................. 错误!未定义书签。
4.1.8.1.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.1.8.1.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.1.8.2.
4.1.8.3.
4.1.8.4.
4.1.8.5.
Check if a column exists .............................................................................. 错误!未定义书签。
Check if file is locked ................................................................................... 错误!未定义书签。
Check if webservice is available .................................................................. 错误!未定义书签。
!Database join:数据库连接 .................................................................. 错误!未定义书签。
4.1.8.5.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.1.8.5.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.1.8.6.
!Database lookup:数据库查询 ............................................................. 错误!未定义书签。
4.1.8.6.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.1.8.6.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.1.8.7.
4.1.8.8.
4.1.8.9.
4.1.8.10.
Dynamic SQL row ........................................................................................ 错误!未定义书签。
File exists .................................................................................................... 错误!未定义书签。
Fuzzy match ................................................................................................ 错误!未定义书签。
HTTP client ............................................................................................. 错误!未定义书签。
4.1.8.10.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.8.10.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.1.8.11.
4.1.8.12.
4.1.8.13.
HTTP Post ............................................................................................... 错误!未定义书签。
REST Client ............................................................................................. 错误!未定义书签。
Stream lookup ........................................................................................ 错误!未定义书签。
4.1.8.14.
Table exists .................................................................................................. 错误!未定义书签。
4.1.8.15.
Web services lookup ................................................................................... 错误!未定义书签。
4.1.9.
4.1.9.1.
4.1.9.2.
4.1.9.3.
4.1.9.4.
4.1.9.5.
4.1.9.6.
Joins(6) .............................................................................................
错误!未定义书签。
!Join Rows(Cartesian product):记录关联(笛卡尔输出) .................. 错误!未定义书签。
!Merge join .............................................................................................. 错误!未定义书签。
!Merge Rows (diff) ................................................................................... 错误!未定义书签。
Multiway Merge Join .................................................................................. 错误!未定义书签。
Sorted Merge .............................................................................................. 错误!未定义书签。
XML Join ..................................................................................................... 错误!未定义书签。
4.1.9.1.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.1.9.2.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.1.10.
Data Warehouse(2) ...........................................................................
错误!未定义书签。
!Combination lookup/update .............................................................. 错误!未定义书签。
!Dimension lookup/update ................................................................. 错误!未定义书签。
Credit card validator ............................................................................... 错误!未定义书签。
Data Validator ........................................................................................ 错误!未定义书签。
Mail Validator ......................................................................................... 错误!未定义书签。
XSD Validator .......................................................................................... 错误!未定义书签。
4.1.10.1.
4.1.10.2.
4.1.11.
Validation(4) .....................................................................................
错误!未定义书签。
4.1.11.1.
4.1.11.2.
4.1.11.3.
4.1.11.4.
4.1.12.
!Statistics:统计(7) .......................................................................
错误!未定义书签。
4.1.12.1.
Analytic Query ........................................................................................ 错误!未定义书签。
4.1.12.2.
!Group by:分组 ................................................................................. 错误!未定义书签。
9文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
4.1.12.2.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.12.2.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.1.12.3.
4.1.12.4.
4.1.12.5.
4.1.12.6.
4.1.12.7.
Memory Group by .................................................................................. 错误!未定义书签。
Output steps metrics .............................................................................. 错误!未定义书签。
Reservoir Sampling ................................................................................. 错误!未定义书签。
Sample rows ........................................................................................... 错误!未定义书签。
Univariate Statistics ................................................................................ 错误!未定义书签。
Avro Input .............................................................................................. 错误!未定义书签。
Cassandra Input ..................................................................................... 错误!未定义书签。
Cassandra output ................................................................................... 错误!未定义书签。
CouchDb Input ....................................................................................... 错误!未定义书签。
HBase Input ............................................................................................ 错误!未定义书签。
HBase Row Decoder ............................................................................... 错误!未定义书签。
Hadoop File Input ................................................................................... 错误!未定义书签。
Hadoop File Output ................................................................................ 错误!未定义书签。
MapReduce Input ................................................................................... 错误!未定义书签。
MapReduce output ................................................................................ 错误!未定义书签。
MongoDB Input ...................................................................................... 错误!未定义书签。
MongoDB output ................................................................................... 错误!未定义书签。
SSTable Output ....................................................................................... 错误!未定义书签。
MonetDB Agile Mart .............................................................................. 错误!未定义书签。
4.1.13.
Big Data(13) .....................................................................................
错误!未定义书签。
4.1.13.1.
4.1.13.2.
4.1.13.3.
4.1.13.4.
4.1.13.5.
4.1.13.6.
4.1.13.7.
4.1.13.8.
4.1.13.9.
4.1.13.10.
4.1.13.11.
4.1.13.12.
4.1.13.13.
4.1.14.
Agile(2) .............................................................................................
错误!未定义书签。
4.1.14.1.
4.1.14.2.
Table Agile mart .......................................................................................... 错误!未定义书签。
4.1.15.
Cryptography(4) ...............................................................................
错误!未定义书签。
PGP Decrypt stream ............................................................................... 错误!未定义书签。
PGP Encrypt stream ............................................................................... 错误!未定义书签。
Secret key generator .............................................................................. 错误!未定义书签。
Symmetric Cryptography ........................................................................ 错误!未定义书签。
Palo Cell Input ........................................................................................ 错误!未定义书签。
Palo Cell Output ..................................................................................... 错误!未定义书签。
Palo Dim Input ........................................................................................ 错误!未定义书签。
Palo Dim Output ..................................................................................... 错误!未定义书签。
OpenERP 错误!未定义书签。
OpenERP Object Input ........................................................................... 错误!未定义书签。
OpenERP Object OUtput ........................................................................ 错误!未定义书签。
Copy rows to result:复制记录到结果 ................................................. 错误!未定义书签。
Get Variables:获取变量 ...................................................................... 错误!未定义书签。
4.1.15.1.
4.1.15.2.
4.1.15.3.
4.1.15.4.
4.1.16.
Palo(4) ..............................................................................................
错误!未定义书签。
4.1.16.1.
4.1.16.2.
4.1.16.3.
4.1.16.4.
4.1.17.
Open ERP(3) ....................................................................................
错误!未定义书签。
4.1.17.1.
4.1.17.2.
4.1.17.3.
4.1.18.
Job:作业(6)....................................................................................
错误!未定义书签。
4.1.18.1.
4.1.18.2.
4.1.18.1.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.18.2.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.18.2.2.
操作步骤 ............................................................................................ 错误!未定义书签。
10文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
4.1.18.3.
Get files from result:从结果获取文件 ................................................ 错误!未定义书签。
4.1.18.3.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.18.3.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.1.18.4.
4.1.18.5.
Get rows from result:从结果获取记录 ............................................... 错误!未定义书签。
Set Variables:设置变量 ....................................................................... 错误!未定义书签。
4.1.18.4.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.18.5.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.18.5.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.1.18.6.
Set files in result:复制文件到结果 ..................................................... 错误!未定义书签。
4.1.18.6.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.18.6.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.1.19.
!Mapping(4) ...................................................................................
错误!未定义书签。
4.1.19.1.
Mapping(sub-transformation) ................................................................ 错误!未定义书签。
4.1.19.2.
Mapping input specification ................................................................... 错误!未定义书签。
4.1.19.3.
Mapping output specitication ................................................................ 错误!未定义书签。
4.1.19.4.
Simple Mapping(sub-transformation) .................................................... 错误!未定义书签。
Bulk loading(11) ...............................................................................
错误!未定义书签。
ElasticSearch Bulk Insert ........................................................................ 错误!未定义书签。
Greenplum load ..................................................................................... 错误!未定义书签。
Infobright loader .................................................................................... 错误!未定义书签。
Ingres VectorWise Bulk Loader .............................................................. 错误!未定义书签。
MonetDB Bulk Loader ............................................................................ 错误!未定义书签。
MySQL Bulk loader ................................................................................. 错误!未定义书签。
!Oracle Bulk loader .............................................................................. 错误!未定义书签。
PostgresSQL 错误!未定义书签。
Teradata TPT Bulk loader ........................................................................ 错误!未定义书签。
Vertica Bulk loader ................................................................................. 错误!未定义书签。
Injector: 记录注射器 ............................................................................ 错误!未定义书签。
Socket reader: 套接字读入器............................................................... 错误!未定义书签。
Socket writer .......................................................................................... 错误!未定义书签。
SFTP Put ................................................................................................. 错误!未定义书签。
Script ...................................................................................................... 错误!未定义书签。
Example Step .......................................................................................... 错误!未定义书签。
Greenplum Bulk loader .......................................................................... 错误!未定义书签。
LicidDB Streaming Loader ...................................................................... 错误!未定义书签。
Old Text file input ................................................................................... 错误!未定义书签。
4.1.20.1.
4.1.20.2.
4.1.20.3.
4.1.20.4.
4.1.20.5.
4.1.20.6.
4.1.20.7.
4.1.20.8.
4.1.20.10.
4.1.20.11.
4.1.20.
4.1.20.7.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.20.9.
Teradata Fastload Bulk Loader .................................................................... 错误!未定义书签。
4.1.21.
Inline(3) ............................................................................................
错误!未定义书签。
4.1.21.1.
4.1.21.2.
4.1.21.3.
4.1.21.2.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.1.22.
Experimental(2) ................................................................................
错误!未定义书签。
4.1.22.1.
4.1.22.2.
4.1.23.
Deprecated(4) ...................................................................................
错误!未定义书签。
4.1.23.1.
4.1.23.2.
4.1.23.3.
4.1.23.4.
4.1.24.
History(9) .........................................................................................
错误!未定义书签。
4.1.24.1.
Text file input .............................................................................................. 错误!未定义书签。
11文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
4.1.24.2.
Table input .................................................................................................. 错误!未定义书签。
4.1.24.3.
Text file output ............................................................................................ 错误!未定义书签。
4.1.24.4.
Table output ............................................................................................... 错误!未定义书签。
4.1.24.5.
4.1.24.6.
4.1.24.7.
4.1.24.8.
4.1.24.9.
Moding java Script Value ........................................................................ 错误!未定义书签。
Add sequence ......................................................................................... 错误!未定义书签。
Generate Rows ....................................................................................... 错误!未定义书签。
Get System Info ...................................................................................... 错误!未定义书签。
Sort rows:行排序 ................................................................................ 错误!未定义书签。
4.1.24.9.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.2.
JOB:作业步骤(15-92) ....................................................................... 错误!未定义书签。
General:通用(6) .......................................................................
错误!未定义书签。
Start:开始 ................................................................................................ 错误!未定义书签。
4.2.1.1.
4.2.1.
4.2.1.1.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.2.1.1.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.2.1.2.
4.2.1.3.
4.2.1.4.
Dummy:空操作 ....................................................................................... 错误!未定义书签。
OK ............................................................................................................... 错误!未定义书签。
Job:作业................................................................................................... 错误!未定义书签。
4.2.1.2.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.2.1.4.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.2.1.4.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.2.1.5.
4.2.1.6.
Set variables:设置变量 ............................................................................ 错误!未定义书签。
Transformation ........................................................................................... 错误!未定义书签。
4.2.1.5.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.2.1.6.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.2.1.6.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.2.1.7.
错误!未定义书签。
4.2.2.
4.2.2.1.
4.2.2.2.
Mail:邮件(3) ............................................................................
错误!未定义书签。
Mail validator .............................................................................................. 错误!未定义书签。
Mail:发送邮件 ......................................................................................... 错误!未定义书签。
4.2.2.2.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.2.2.2.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.2.2.3.
Get mails from POP:接收邮件 ................................................................. 错误!未定义书签。
4.2.2.3.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.2.2.3.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.2.3.
4.2.3.1.
4.2.3.2.
File management(19) ..................................................................
错误!未定义书签。
Process result filenames ............................................................................. 错误!未定义书签。
File Compare:比较文件 ........................................................................... 错误!未定义书签。
4.2.3.2.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.2.3.2.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.2.3.3.
Create a folder:创建文件夹 .................................................................... 错误!未定义书签。
4.2.3.3.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.2.3.3.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.2.3.4.
Unzip file:解压ZIP文件 .......................................................................... 错误!未定义书签。
4.2.3.4.1.
功能描述 .............................................................................................. 错误!未定义书签。
12文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
4.2.3.4.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.2.3.5.
Delete file:删除文件 ................................................................................ 错误!未定义书签。
4.2.3.5.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.2.3.5.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.2.3.6.
4.2.3.7.
HTTP ........................................................................................................... 错误!未定义书签。
Write to file ................................................................................................. 错误!未定义书签。
4.2.3.7.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.2.3.7.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.2.3.8.
4.2.3.9.
Convert file between Windows and Unix ................................................... 错误!未定义书签。
Compare folders:比较文件夹 .................................................................. 错误!未定义书签。
4.2.3.9.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.2.3.9.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.2.3.10.
4.2.3.11.
Zip file:压缩文件 ................................................................................. 错误!未定义书签。
Copy Files ............................................................................................... 错误!未定义书签。
4.2.3.10.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.2.3.11.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.2.3.11.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.2.3.12.
Add filenames to result添加文件名到结果 ......................................... 错误!未定义书签。
4.2.3.12.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.2.3.12.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.2.3.13.
Delete folders:删除文件夹 ................................................................. 错误!未定义书签。
4.2.3.13.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.2.3.13.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.2.3.14.
Delete filenames from result:在结果中删除文件名 .......................... 错误!未定义书签。
4.2.3.14.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.2.3.14.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.2.3.15.
Delete files:删除多个文件 .................................................................. 错误!未定义书签。
4.2.3.15.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.2.3.15.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.2.3.16.
Wait for file:等待文件 ............................................................................. 错误!未定义书签。
4.2.3.16.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.2.3.16.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.2.3.17.
Move Files移动文件 ............................................................................. 错误!未定义书签。
4.2.3.17.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.2.3.17.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.2.3.18.
Create file:创建文件 ........................................................................... 错误!未定义书签。
4.2.3.18.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.2.3.18.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.2.3.19.
Copy or Move result filenames:根据结果复制或移动文件 ............... 错误!未定义书签。
4.2.3.19.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.2.3.19.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.2.4.
4.2.4.1.
Conditions(12) ............................................................................
错误!未定义书签。
Check webservice availability:检查WEB服务是否可用 ........................ 错误!未定义书签。
4.2.4.1.1.
功能描述 .............................................................................................. 错误!未定义书签。
13文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
4.2.4.1.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.2.4.2.
Check files locked:判断是否有文件被锁定 ............................................ 错误!未定义书签。
4.2.4.2.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.2.4.2.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.2.4.3.
Colums exist in a table:检查列在表中是否存在 ..................................... 错误!未定义书签。
4.2.4.3.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.2.4.3.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.2.4.4.
Wait for ....................................................................................................... 错误!未定义书签。
4.2.4.4.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.2.4.4.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.2.4.5.
4.2.4.6.
Evaluate files metrics .................................................................................. 错误!未定义书签。
Check Db connections ................................................................................ 错误!未定义书签。
4.2.4.6.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.2.4.6.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.2.4.7.
File Exists:文件存在 ................................................................................. 错误!未定义书签。
4.2.4.7.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.2.4.7.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.2.4.8.
Evaluate rows number in a table:判断标中行数 ..................................... 错误!未定义书签。
4.2.4.8.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.2.4.8.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.2.4.9.
Checks if files exist:检查文件是否存在 .................................................. 错误!未定义书签。
4.2.4.9.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.2.4.9.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.2.4.10.
Check if a folder is empty检查文件夹是否为空 .................................. 错误!未定义书签。
4.2.4.10.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.2.4.10.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.2.4.11.
Simple evaluation:简单评估 ............................................................... 错误!未定义书签。
4.2.4.11.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.2.4.11.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.2.4.12.
Table exists:表存在 .................................................................................. 错误!未定义书签。
4.2.4.12.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.2.4.12.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.2.5.
4.2.5.1.
Scripting(3) .................................................................................
错误!未定义书签。
Shell ............................................................................................................ 错误!未定义书签。
4.2.5.1.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.2.5.1.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.2.5.2.
SQL .............................................................................................................. 错误!未定义书签。
4.2.5.2.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.2.5.2.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.2.5.3.
JavaScript:Java脚本 ................................................................................ 错误!未定义书签。
4.2.5.3.1.
功能描述 .............................................................................................. 错误!未定义书签。
4.2.5.3.2.
操作步骤 .............................................................................................. 错误!未定义书签。
4.2.6.
4.2.6.1.
Bulk loading(3) ...........................................................................
错误!未定义书签。
BulkLoad form Mysql into file ..................................................................... 错误!未定义书签。
14文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
4.2.6.2.
4.2.6.3.
BulkLoad into MSSQL .................................................................................. 错误!未定义书签。
BulkLoad into Mysql ................................................................................... 错误!未定义书签。
4.2.7.
4.2.7.1.
4.2.7.2.
4.2.7.3.
4.2.7.4.
4.2.7.5.
4.2.7.6.
4.2.7.7.
4.2.7.8.
4.2.7.9.
Big Data(10) ...............................................................................
错误!未定义书签。
Oozie Job Execcutor .................................................................................... 错误!未定义书签。
Hadoop Job Executor .................................................................................. 错误!未定义书签。
Pig Script Executor ...................................................................................... 错误!未定义书签。
Amazon Hive Job Executor .......................................................................... 错误!未定义书签。
Spark Submit ............................................................................................... 错误!未定义书签。
Sqoop Export .............................................................................................. 错误!未定义书签。
Sqoop Import .............................................................................................. 错误!未定义书签。
Pentaho Mapreduce ................................................................................... 错误!未定义书签。
Hadoop Copy Files ...................................................................................... 错误!未定义书签。
Amazon EMR Job Executor ..................................................................... 错误!未定义书签。
Build Model ................................................................................................ 错误!未定义书签。
Publish Model ............................................................................................. 错误!未定义书签。
4.2.7.10.
4.2.8.
4.2.8.1.
4.2.8.2.
Modeling(2) .................................................................................
错误!未定义书签。
4.2.9.
4.2.9.1.
4.2.9.2.
4.2.9.3.
4.2.9.4.
XML(4) ........................................................................................
错误!未定义书签。
XSD Validator .............................................................................................. 错误!未定义书签。
Check if XML file is well formed .................................................................. 错误!未定义书签。
XSL Transformation ..................................................................................... 错误!未定义书签。
DTD Validator .............................................................................................. 错误!未定义书签。
4.2.10.
Utility(13) ....................................................................................
错误!未定义书签。
Display Msgbox Info ............................................................................... 错误!未定义书签。
Abort job ................................................................................................ 错误!未定义书签。
HL7 MLLP Acknowledge ......................................................................... 错误!未定义书签。
Send Nagios passive check ..................................................................... 错误!未定义书签。
Ping a host .............................................................................................. 错误!未定义书签。
Telnet a host ........................................................................................... 错误!未定义书签。
HL7 MLLP Input ...................................................................................... 错误!未定义书签。
Send information using Syslog ............................................................... 错误!未定义书签。
Send SNMP trap ..................................................................................... 错误!未定义书签。
Export repository to XML file ................................................................. 错误!未定义书签。
Check if connected to repository ........................................................... 错误!未定义书签。
Get a file with FTP .................................................................................. 错误!未定义书签。
4.2.10.1.
Truncate tables ........................................................................................... 错误!未定义书签。
4.2.10.2.
4.2.10.4.
4.2.10.6.
4.2.10.7.
4.2.10.8.
4.2.10.10.
4.2.10.11.
4.2.10.12.
4.2.10.13.
4.2.10.3.
Wait for SQL ................................................................................................ 错误!未定义书签。
4.2.10.5.
Talend Job Execution .................................................................................. 错误!未定义书签。
4.2.10.9.
Write To Log ................................................................................................ 错误!未定义书签。
4.2.11.
Reposotory(2) ..............................................................................
错误!未定义书签。
4.2.11.1.
4.2.11.2.
4.2.12.
File transfer(8) ............................................................................
错误!未定义书签。
4.2.12.1.
4.2.12.1.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.2.12.1.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.2.12.2.
Put a file with FTP .................................................................................. 错误!未定义书签。
4.2.12.2.1.
功能描述 ............................................................................................ 错误!未定义书签。
15文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
4.2.12.2.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.2.12.4.
FTP Delete:删除FTP文件 ................................................................... 错误!未定义书签。
4.2.12.4.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.2.12.4.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.2.12.5.
Get a file with SFTP ................................................................................ 错误!未定义书签。
4.2.12.5.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.2.12.5.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.2.12.6.
Put a file with SFTP ................................................................................. 错误!未定义书签。
4.2.12.6.1.
功能描述 ............................................................................................ 错误!未定义书签。
4.2.12.6.2.
操作步骤 ............................................................................................ 错误!未定义书签。
4.2.12.7.
Upload files to FTPS ............................................................................... 错误!未定义书签。
4.2.13.
File encryption(3)........................................................................
错误!未定义书签。
Decrypt files with PGP ............................................................................ 错误!未定义书签。
Encrypt files with PGP ............................................................................ 错误!未定义书签。
Palo Cube Delete .................................................................................... 错误!未定义书签。
Palo Cube Create .................................................................................... 错误!未定义书签。
MS Access Bulk Load .............................................................................. 错误!未定义书签。
Example Job ........................................................................................... 错误!未定义书签。
4.2.13.1.
Verify file signature with PGP ..................................................................... 错误!未定义书签。
4.2.13.2.
4.2.13.3.
4.2.14.
Palo(2) ........................................................................................
错误!未定义书签。
4.2.14.1.
4.2.14.2.
4.2.15.
Deprecated(2)..............................................................................
错误!未定义书签。
4.2.15.1.
4.2.15.2.
16文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
更新记录
序号
0001
0002
0003
0004
0005
0006
0007
0008
0009
时间
2016-04-11
2016-11-19
2016-11-20
2016-11-21
2016-12-01
2016-12-02
2016-12-03
2016-12-11
变更内容
创建本文档,只是有些简单的介绍
形成基本的文档架构涵盖安装、配置、开发
完成转换步骤的文档架构知识点24大类228小类
完成作业步骤的文档架构知识点15大类92小类
对39大类下的320个小类进行初步的补充
对320个小类中认为重点的内容通过感叹号予以区分
增加计划任务,性能调优
编者
孟菲斯
孟菲斯
孟菲斯
孟菲斯
孟菲斯
孟菲斯
孟菲斯
孟菲斯
对基础运行环境中命令行调用ETL做出补充仅限windows 孟菲斯
17文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
第一章. Kettle 基础介绍
1.1. 核心组件
Spoon是构建ETL Jobs和Transformations的工具。Spoon可以以拖拽的方式图形化设计,能够通过spoon调用专用的数据集成引擎或者集群。Data Integration Server是一个专用的ETL Server,它的主要功能有:
功能
执行
安全性
内容管理
时序安排
描述
通过Pentaho Data Integration引擎执行ETL的作业或转换
管理用户、角色或集成的安全性
提供一个集中的资源库,用来管理ETL的作业和转换。资源库包含所有内容和特征的历史版本。
在spoon设计者环境中提供管理Data Integration Server上的活动的时序和监控的服务
1.2. 组成部分
名称
Spoon
Pan
Kitchen
Carte
描述
通过图形接口,用于编辑作业和转换的桌面应用。
一个独立的命令行程序,用于执行由Spoon编辑的转换。
一个独立的命令行程序,用于执行由Spoon编辑的作业。
Carte是一个轻量级的Web容器,用于建立专用、远程的ETL Server。
1.3. 概念模型
要了解Kettle的执行分为两个层次:Job和Transformation。两个层次的最主要区别在于数据传递和运行方式。
1.3.1. Transformation(转换)
Transformation(转换)是由一系列被称之为step(步骤)的逻辑工作的网络。转换本质上是数据流。下图是一个转换的例子,这个转换从文本文件中读取数据,过滤,然后排序,最后将数据加载到数据库。本质上,转换是一组图形化的数据转换配置的逻辑结构。
18文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
转换的两个相关的主要组成部分是step(步骤)和hops(节点连接)。转换文件的扩展名是.ktr。
1.3.2. Steps(步骤)
Steps(步骤)是转换的建筑模块,比如一个文本文件输入或者一个表输出就是一个步骤。在PDI中有140多个步骤,它们按不同功能进行分类,比如输入类、输出类、脚本类等。每个步骤用于完成某种特定的功能,通过配置一系列的步骤就可以完成你所需要完成的任务。
1.3.3. Hops(节点连接)
Hops(节点连接)是数据的通道,用于连接两个步骤,使得元数据从一个步骤传递到另一个步骤。在上图所示的转换中,它像似顺序执行发生的,但事实并非如此。节点连接决定了贯穿在步骤之间的数据流,步骤之间的顺序不是转换执行的顺序。当执行一个转换时,每个步骤都以自己的线程启动,并不断的接受和推送数据。
注意:所以(有)的步骤是同步开启和运行的,所以步骤的初始化的顺序是不可知的。因为(此)我们不能在第一个步骤中设置一个变量,然后在接下来的步骤中使用它。
在一个转换中,一个步骤可以有多个连接,数据流可以从一个步骤流到多个步骤。在Spoon中,hops就想是箭,它不仅允许数据从一个步骤流向另一个步骤,也决定了数据流的方向和所经步骤。如果一个步骤的数据输出到了多个步骤,那么数据既可以是复制的,也可以是分发的。
1.3.4. Jobs(工作)
Jobs(工作)是基于工作流模型的,协调数据源、执行过程和相关依赖性的ETL活动。Jobs(工作)将功能性和实体过程聚合在了一起。下图是一个工作的例子。
19文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
一个工作中展示的任务有从FTP获取文件、核查一个必须存在的数据库表是否存在、执行一个转换、发送邮件通知一个转换中的错误等。最终工作的结果可能是数据仓库的更新等。工作由工作节点连接、工作实体和工作设置组成。工作文件的扩展名是.kjb。
1.3.5. Variable(变量)
根据变量的作用域,变量被分为两类:环境变量和kettle变量。
1.3.5.1. 设置环境变量
环境变量可以通过edit menu下面的set environment variables对话框进行设置。使用环境变量的唯一的问题是,它不能被动态的使用。如果在同一个应用服务器中执行两个或多个使用同一环境变量的转换,将可能发生冲突。环境变量在所以使用jvm的应用中可见。
1.3.5.2. 设置变量
Kettle变量用于在一个小的动态范围内存储少量的信息。Kettle变量是kettle本地的,作用范围可以是一个工作或转换,在工作或转换中可以设置或修改。Set variable步骤用来设置与此变量有关的工作从此设置其作用域,如:父工作、祖父工作或根工作。
1.4. 查看版本
1.5. 选项设置
20文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
第二章. Kettle 环境搭建
2.1. 单机部署
2.1.1. 下载kettle
/data-integration/
2.1.2. 安装kettle
Kettle是java开发的只要准备好java环境解压缩后即可运行,只是需要注意的是连接oracle需要ojdbc驱动,需要将放到。./data-integration/lib 然后再运行Spoon
setx JAVA_HOME "C:Javajdk1.7.0" -m
setx path "%path%;%%JAVA_HOME%%bin;" -m
yum -y install java-1.8.0-openjdk*
yum install epel-release
yum install webkitgtk
echo "JAVA_HOME=/etc/alternatives" >>/etc/profile
echo "PATH=$JAVA_HOME/bin:$PATH" >>/etc/profile
echo "CLASSPATH=.:$JAVA_HOME/lib/:$JAVA_HOME/lib/" >>/etc/profile
echo "KETTLE_HOME=/u01/app/kettle" >>/etc/profile
source /etc/profile
carte 127.0.0.1 5001 -s -u cluster -p cluster
2.1.3. 运行Spoon
下面是在不同的平台上运行Spoon所支持的脚本:
: 在windows平台运行Spoon。
: 在Linux、Apple OSX、Solaris平台运行Spoon。
2.2. 集群部署
1. Carte简介
Carte是Kettle内置的一个小型web服务端程序,使用Jetty作为web容器,提供http服务让客户端机器调用(Servlet方式实现),它可以被用来远程执行转换、作业以及组成Kettle集群。
21文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
2. Carte部署配置
2.1 启动方法
Windows操作系统使用来启动Carte服务,Linux操作系统则使用来启动Carte服务。启动文件均位于Kettle安装包目录下。
2.2 启动配置
当运行或者,默认不带参数会输出其正确的使用示例,如下所示:
....
Usage: Carte [Interface address] [Port]
Example: Carte 127.0.0.1 8080
Example: Carte 192.168.1.221 8081
Example: Carte /foo/bar/
Example: Carte -
Carte的启动配置有两种方式,以Windows操作系统为例,分别是:
[ip] [port]
or
[xml_cfg_file]
第一种方式使用两个配置参数 ip 和 port 来启动Carte,这种方式适用于测试环境。第二种方式通过指定配置文件 xml_cfg_file 来启动Carte,所有的配置项都存放在配置文件中,这种方式适用于生产环境。
【注意】
(1) 若要使用Carte部署集群必须采用第二种方式。
(2) 切记绑定的ip如果使用localhost,内网中其他机器也无法访问你的Carte服务,所以建议绑定Carte的ip不要设置为localhost。
(3) 配置文件路径可以采用绝对路径或者相对路径,相对路径eg:
./pwd/
例子中配置文件使用是相对于Kettle的安装目录的子目录pwd里面的。
22文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
2.3 Carte xml文件配置详解
Carte的xml配置文件内容示例:
可见所有的配置项都包含在
2.3.1 slaveserver节点
2.3.2 masters节点
masters 节点不是必选的,当配置Carte加入集群的时候才需要配置。集群的概念将在后面章节说明。每一个 master 节点对应一个Carte master
server。
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
2.3.3 report_to_masters节点
如果要配置成动态集群,必须指定
2.3.4 max_log_lines节点
指定Carte中每个已经运行的转换或者作业的日志在内存中能够保存的最大行数。
2.3.5 max_log_timeout_minutes节点
指定Carte中每个已经运行的转换或作业生成的日志在内存中保留的时间,单位为分钟。超过指定时间的日志记录将被清除掉,防止Carte占用过多的内存空间。
【注意】 建议生产环境适当地配置该值。对于使用频繁的Carte服务适当降低该值,防止Carte服务运行一段时间后占用的内存越来越多,避免出现OOM。
2.3.6 object_timeout_minutes节点
指定Carte中每个存在的转换或者作业对象在内存中保留的时间,单位为分钟。超过指定时间的这些对象将被清除,从而被Java GC回收,防止Carte占用过多的内存空间。
【注意】 建议生产环境适当地配置该值,以便Java GC能够回收多余的对象占用空间,减少系统内存使用。防止OOM。
2.3.7 (*) repository节点
示例:
24文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
这个配置在Kettle5+版本才支持,配置该选项以便Carte能够连接到资源库,执行资源库里面的转换或者作业。请求的Servlet为 runJob 和 runTrans,使用示例如下:
(1) runJob
hostname:port/kettle/runJob/?job=/path/to/jobname&level=DebugLevel&ParameterName=ParameterValue*
(2) runTrans
hostname:port/kettle/runTrans/?trans=/path/to/transname&level=DebugLevel&ParameterName=ParameterValue*
3. Carte集群
Kettle使用Carte来部署集群,Kettle集群概念有两个,普通集群和动态集群,集群的使用需要在Spoon界面中配置。集群中有两个角色,master和slave,不管是普通集群还是动态集群,master只能有一个。
3.1 普通集群
普通集群在使用前就要确定哪几台Carte服务来组成一个集群,并且通过指定其中一台Carte服务为master。
3.2 动态集群
而动态集群,只要指定一台Carte作为master,其他Carte slave server不需要指定,而是通过在Carte启动时的配置文件参数
【注意】 如果一个作业的某个转换步骤指定在一个动态集群里面运行,那么当运行过程中集群再增加一台Carte服务,运行中的转换步骤也不用使用其计算资源,而如果当运行过程中集群某台正在参与转换步骤计算的Carte服务被意外停止,将会造成这个作业运行失败。
25文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
2.3. 运行方式
2.3.1. 转换执行器 Pan
2.3.1.1. Pan 参数介绍
序号
1
2
3
4
5
6
7
参数名称
/rep
/user
/pass
/trans
/dir
/file
/level
中文解释
资源库名称
资源库用户名
资源库密码
要启动的转换名称
目录(不要忘了前缀 /)
要启动的文件名(转换所在的 XML 文件)
日志等级 (基本, 详细, 调试, 行级, 错误, 没有)
Error:只显示错误
Nothing:不显示任何输出
Minimal:只使用最少的记录
Basic:这是默认的基本日志记录级别
Detailed:详细的日志输出
Debug:以调试为目的,非常详细的输出
Rowlevel:使用行级记录,会产生大量的数据
设置日志文件,要写入的日志文件
列出资源库里的目录
列出指定目录下的转换
列出可用资源库
将资源库里的所有对象导出到 XML 文件中
不要将日志写到资源库中
安全模式下运行: 有额外的检查
显示版本,校订和构建日期
指定命名参数Set a named parameter
example -param:FOO=bar
List information concerning the defined named parameters in
the specified transformation.
Gather metrics during execution
The maximum number of log lines that are kept internally by Kettle.
Set to 0 to keep all rows (default)
The maximum age (in minutes) of a log line while being kept
internally by Kettle. Set to 0 to keep all rows indefinitely (default)
8
9
10
11
12
13
14
15
16
17
18
19
20
/logfile
/listdir
/listtrans
/listrep
/exprep
/norep
/safemode
/version
/param
/listparam
/metrics
/maxloglines
/maxlogtimeout
26文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
2.3.1.2. Pan 实例讲解:Windows
Pan:Pan是一个 数据转换引擎,负责从不同的数据源读写和转换数据。
@echo off
set KETTLE_PATH=C:Green_Softdata-integration
set JOB_PATH=C:
CALL %KETTLE_PATH%pan /file C: /level Detailed /logfile C:
2.3.1.3. Pan 实例讲解:Linux
/u01/soft/kettle/data-integration/ -file=/u01/soft/kettle/ktr/ -level=Basic
>> ./log/HLSETL$(date -d "today" +"%Y%m%d_%H%M%S").LOG
2.3.2. 任务执行器 Kitchen
2.3.2.1. Kitchen 参数介绍
序号 参数名称
1 -rep
2
3
4
5
6
7
8
9
10
11
12
13
14
-user
-pass
-job
-dir
-file
-level
-log
-listdir
-listjobs
-listrep
-norep
/version
/param
英文解释
Repository name
Repository username
Repository password
The name of the job to launch
中文解释
任务包所在存储名
执行人
执行人密码
任务包名称
The directory (don''t forget the
leading / or )
The filename (Job XML) to launch
The logging level (Basic, Detailed,
指定日志级别
Debug, Rowlevel, Error, Nothing)
The logging file to write to
指定日志文件
List the directories in the repository
列出指定存储中的目录结构
List the jobs in the specified
列出指定目录下的所有任务
directory
List the defined repositories
Don''t log into the repository
列出所有的存储
不写日志
show the version, revision and build
date
Set a named parameter
List information concerning the
defined parameters in the specified
27文档来源为:从网络收集整理.word版本可编辑.
15 /listparam
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
job
16 /export Exports all linked resources of the
specified job. The argument is the
name of a ZIPfile
The maximum number of log lines
that are kept internally by Kettle.
Set to 0 to keep all rows (default)
17 /maxloglines
18 /maxlogtimeout The maximum age (in minutes) of a
log line while being kept internally
by Kettle. Set to 0 to keep all rows
indefinitely (default)
options 后面可以是=也可以是:也可以是空格
/file d: 或者 -file=D: 或者/file:D:等等都可以。
2.3.2.2. Kitchen 实例讲解:Windows
/norep -file=D:/kettledata/ >>
kitchen_%date:~0,10%.log
上面的含义是,使用 命令来执行job文件,job文件的存放路径是D:/kettledata/,并且将执行的结果输出到 kitchen_%date:~0,10%.log文件中。
/norep -file=D:/kettledata/
/norep -file=c:/
示例: 1. Windows 中多个参数以 / 分隔,key 和value之间以:分隔
✓
作业存储在文件
/level:Basic>D: /file:F:
✓ 作业存储在数据库
/rep kettle /user admin /pass admin /job F_DEP_COMP
(Rep的值为数据库资源库ID)
使用 java web start 方式运行的配置方法
命令行方式
1) Windows下执行,多个参数之间以“/”分隔,Key和value以”:”分隔
例如:
/file: F: /level:Basic /log:
/file: 指定转换文件的路径
28文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
/level:执行日志执行级别
/log: 执行日志文件路径
2) Linux下执行,多个参数之间以“-”分隔,Key和value以”=”分隔
-file=/home/ -level=Minimal
如果设计的转换,Job是保存在数据库中,则命令如下:
/rep:资源库名称 /user:admin /pass:admin /job:job名
Kitchen:作业执行引擎,用来进行转换,校验,FTP上传。可以执行xml格式定义的任务以及保存在数据库上的。
/file:D: /level:Basic
-file=/PRD/ -level=Minimal
/rep:"Production Repository"
/job:"Update dimensions"
/dir:/Dimensions
/user:matt
/pass:somepassword123
/level:Basic
/file: F:javapdi-ce-3.2.0-st /level:Basic /log:
2.3.2.3. Kitchen 实例讲解:Linux
2. Linux 中参数以 –分隔
作业存储在文件
-file=/home/job/ >> /home/ log/
作业存储在数据库
./ -rep=kettle1 -user=admin -pass=admin -level=Basic -job=job
29文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
2.4. 定时任务
2.4.1. Windows
2.4.2. Linux
创建脚本
vi /u01/soft/kettle/runshell/
/u01/soft/kettle/data-integration/ -file=/u01/soft/kettle/ktr/ -level=Basic
>> ./log/HLSETL$(date -d "today" +"%Y%m%d_%H%M%S").LOG
crontab -e
crontab -l
每分钟执行一次
*/1 * * * * /u01/soft/kettle/runshell/
每两个小时
0 */2 * * * echo “Have a break now.” >> /tmp/
晚上11点到早上8点之间每两个小时,早上八点
0 23-7/2,8 * * * echo “Have a good dream:)” >> /tmp/
每个月的4号和每个礼拜的礼拜一到礼拜三的早上11点
0 11 4 * 1-3 command line
1月1日早上4点
0 4 1 1 * command line
2.5. 性能调优
vi
PENTAHO_DI_JAVA_OPTIONS="-Xms1024m -Xmx2048m -XX:MaxPermSize=256m"
-Xms512m:设置JVM初始内存为512m
-Xmx1024m:设置JVM最大可用内存为1024M
-XX:MaxPermSize=256M 设置JVM最大允许分配的非堆内存,按需分配(注意:这个参数在JDK1.8中已经失效,所以可以删除此参数,避免启动时候报错“Java HotSpot(TM) 64-Bit Server
VM warning: ignoring option PermSize=256M; support was removed in 8.0”)
PENTAHO_DI_JAVA_OPTIONS="-Xms2048m -Xmx8192m -XX:MaxPermSize=1024m"
以下是扩展阅读
Java8移除永久代
起因:
最近看深入理解Java虚拟机, 在实战OutOfMemoryError的运行时常量池溢出时, 我的Intellij提示如下:
Java HotSpot(TM) 64-Bit Server VM warning: ignoring option PermSize=10M; support was
removed in 8.0
Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=10M; support was
30文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
removed in 8.0
原书没有说会出现这个警告, 所以上网详细查下相关资料, 汇总如下
探究
在JDK1.7中, 已经把原本放在永久代的字符串常量池移出, 放在堆中. 为什么这样做呢? 因为使用永久代来实现方法区不是个好主意, 很容易遇到内存溢出的问题. 我们通常使用PermSize和MaxPermSize设置永久代的大小, 这个大小就决定了永久代的上限, 但是我们不是总是知道应该设置为多大的, 如果使用默认值容易遇到OOM错误.
找下jdk1.8的Milestones, 链接在这: /jdk8/milestones. 其中 “JEP 122: Remove the Permanent
Generation“说的就是移除永久代.
文中说实现目标:
类的元数据, 字符串池, 类的静态变量将会从永久代移除, 放入Java heap或者native
memory. 其中建议JVM的实现中将类的元数据放入 native memory, 将字符串池和类的静态变量放入java堆中. 这样可以加载多少类的元数据就不在由MaxPermSize控制, 而由系统的实际可用空间来控制.
为什么这么做呢? 减少OOM只是表因, 更深层的原因还是要合并HotSpot和JRockit的代码,
JRockit从来没有一个叫永久代的东西, 但是运行良好, 也不需要开发运维人员设置这么一个永久代的大小.
当然不用担心运行性能问题了, 在覆盖到的测试中, 程序启动和运行速度降低不超过1%,
但是这一点性能损失换来了更大的安全保障.
1)堆(Heap)和非堆(Non-heap)内存
按照官方的说法:“Java 虚拟机具有一个堆,堆是运行时数据区域,所有类实例和数组的内存均从此处分配。堆是在 Java 虚拟机启动时创建的。”“在JVM中堆之外的内存称为非堆内存(Non-heap memory)”。
可以看出JVM主要管理两种类型的内存:堆和非堆。简单来说堆就是Java代码可及的内存,是留给开发人员使用的;非堆就是JVM留给自己用的,
所以方法区、JVM内部处理或优化所需的内存(如JIT编译后的代码缓存)、每个类结构(如运行时常数池、字段和方法数据)以及方法和构造方法的代码都在非堆内存中。
堆内存分配
JVM初始分配的堆内存由-Xms指定,默认是物理内存的1/64;JVM最大分配的堆内存由-Xmx指定,默认是物理内存的1/4。默认空余堆内存小于40%时,JVM就会增大堆直到-Xmx的最大限制;
空余堆内存大于70%时,JVM会减少堆直到-Xms的最小限制。因此服务器一般设置-Xms、-Xmx 相等以避免在每次GC 后调整堆的大小。
说明:如果-Xmx 不指定或者指定偏小,应用可能会导致emory错误,此错误来自JVM,不是Throwable的,无法用atch捕捉。
非堆内存分配
JVM使用-XX:PermSize设置非堆内存初始值,默认是物理内存的1/64;由XX:MaxPermSize设置最大非堆内存的大小,默认是物理内存的1/4。(还有一说:MaxPermSize缺省值和-server
-client选项相关,
-server选项下默认MaxPermSize为64m,-client选项下默认MaxPermSize为32m。这个我没有实验。)
上面错误信息中的PermGen space的全称是Permanent Generation space,是指内存的永久保存区域。还没有弄明白PermGen space是属于非堆内存,还是就是非堆内存,但至少是属于了。
31文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
XX:MaxPermSize设置过小会导致emoryError: PermGen space 就是内存益出。
说说为什么会内存益出:
(1)这一部分内存用于存放Class和Meta的信息,Class在被 Load的时候被放入PermGen
space区域,它和存放Instance的Heap区域不同。
(2)GC(Garbage Collection)不会在主程序运行期对PermGen space进行清理,所以如果你的APP会LOAD很多CLASS 的话,就很可能出现PermGen space错误。
这种错误常见在web服务器对JSP进行pre compile的时候。
2)JVM内存限制(最大值)
首先JVM内存限制于实际的最大物理内存,假设物理内存无限大的话,JVM内存的最大值跟操作系统有很大的关系。简单的说就32位处理器虽然可控内存空间有4GB,但是具体的操作系统会给一个限制,
这个限制一般是2GB-3GB(一般来说Windows系统下为1.5G-2G,Linux系统下为2G-3G),而64bit以上的处理器就不会有限制了。
2. 为什么有的机器我将-Xmx和-XX:MaxPermSize都设置为512M之后Eclipse可以启动,而有些机器无法启动?
通过上面对JVM内存管理的介绍我们已经了解到JVM内存包含两种:堆内存和非堆内存,另外JVM最大内存首先取决于实际的物理内存和操作系统。所以说设置VM参数导致程序无法启动主要有以下几种原因:
1) 参数中-Xms的值大于-Xmx,或者-XX:PermSize的值大于-XX:MaxPermSize;
2) -Xmx的值和-XX:MaxPermSize的总和超过了JVM内存的最大限制,比如当前操作系统最大内存限制,或者实际的物理内存等等。说到实际物理内存这里需要说明一点的是,
如果你的内存是1024MB,但实际系统中用到的并不可能是1024MB,因为有一部分被硬件占用了。
3. 为何将上面的参数写入到文件Eclipse没有执行对应的设置?
那为什么同样的参数在快捷方式或者命令行中有效而在文件中是无效的呢?这是因为我们没有遵守文件的设置规则:
参数形如“项 值”这种形式,中间有空格的需要换行书写,如果值中有空格的需要用双引号包括起来。比如我们使用-vm C:/Java/jre1.6.0/bin/参数设置虚拟机,
在文件中要写成这样:
-vm
C:/Java/jre1.6.0/bin/
-vmargs
-Xms128M
-Xmx512M
-XX:PermSize=64M
-XX:MaxPermSize=128M
实际运行的结果可以通过Eclipse中“Help”-“About Eclipse SDK”窗口里面的“Configuration
Details”按钮进行查看。
另外需要说明的是,Eclipse压缩包中自带的文件内容是这样的:
-showsplash
rm
--ermSize
256m
-vmargs
32文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
-Xms40m
-Xmx256m
其中–ermSize(注意最前面是两个连接线)跟-XX:MaxPermSize参数的含义基本是一样的,我觉得唯一的区别就是前者是启动的时候设置的参数,
而后者是eclipse所使用的JVM中的参数。其实二者设置一个就可以了,所以这里可以把–ermSize和下一行使用#注释掉。
4. 其他的启动参数。 如果你有一个双核的CPU,也许可以尝试这个参数:
-XX:+UseParallelGC
让GC可以更快的执行。(只是JDK 5里对GC新增加的参数)
补充:
如果你的WEB APP下都用了大量的第三方jar,其大小超过了服务器jvm默认的大小,那么就会产生内存益出问题了。
解决方法: 设置MaxPermSize大小
可以在myelipse里选中相应的服务器比如tomcat5,展开里面的JDK子项页面,来增加服务器启动的JVM参数设置:
-Xms128m
-Xmx256m
-XX:PermSize=128M
-XX:MaxNewSize=256m
-XX:MaxPermSize=256m
或者手动设置MaxPermSize大小,比如tomcat,
修改TOMCAT_HOME/bin/,在echo "Using CATALINA_BASE: $CATALINA_BASE"上面加入以下行:
JAVA_OPTS="-server -XX:PermSize=64M -XX:MaxPermSize=128m
建议:将相同的第三方jar文件移置到tomcat/shared/lib目录下,这样可以减少jar 文档重复占用内存
33文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
第三章. Kettle 基本功能
3.1. 新建转换
3.1.1. 方法1
3.1.2. 方法2
3.1.3. 方法3
3.1.4. 主对象树
3.1.5. 核心对象
3.1.6. 新建数据库连接
3.2. 转换实例
3.2.1. 转换实例1
3.2.2. 转换实例2
3.3. 新建作业
3.3.1. 方法1
3.3.2. 方法2
3.3.3. 方法3
3.3.4. 主对象树
34文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
3.3.5. 核心对象
3.4. 作业实例
3.4.1. 作业实例1
3.4.2. 作业实例2
第四章. Kettle 设计环境
4.1. Transformation:转换步骤(24-228)
4.1.1. Input:输入(38)
4.1.1.1. Csv file input
读取csv文件,设置csv文件路径,可以设置csv文件的相对路径或者绝对路径,字段分隔符,文件读取的缓存大小等
4.1.1.1.1. 功能描述
这个步骤从CSV文件输入数据。
4.1.1.1.2. 操作步骤
功能1:指定选项
选项
文件名
分割符
#附件
NIO的缓冲区大小
CSV文件名。
文件中使用的分割符。
描述
只将符号内的字符串输入。
定义缓冲区大小。
35文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
延迟转换
标题行存在
是否延迟转换。
是否去掉标题行。
添加文件名到结果 是否在结果中输出文件名。
行号字段
并行运行
文件编码
行号字段命名。
指定并行属性。
选择字符集编码。
4.1.1.1.3. 实例讲解
4.1.1.2. DataGrid
4.1.1.3. De-serialize from file:文件反序列化
(原来名称为Cube Input),从二进制kettle cube文件中读取记录
备注:这个步骤仅仅用来存储短期数据。不同版本之间不保证文件的格式一样。
4.1.1.4. ESRI Shapefile Reader
4.1.1.5. Email messages input
4.1.1.6. Fixed file input
读取固定大小文件
4.1.1.7. GZIP CSV Input
4.1.1.8. Generate Rows
生成一些固定字段的记录,主要用来模拟一些数据进行测试。
36文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
4.1.1.9. Generate random credit card numbers
4.1.1.10. Generate random value
4.1.1.11. Get File Names
读取给定目录或者文件全路径的文件名
4.1.1.12. Get Files Rows Count
获取文件内容的行数
4.1.1.13. Get SubFolder names
4.1.1.14. Get System Info:获取系统信息
包括命令行输入的参数,操作系统时间,ip地址,一些特殊属性,kettle版本等
4.1.1.14.1. 功能描述
这个步骤从当前服务器环境中获取信息,例如获取服务器时间、IP地址、主机名等,将信息输送到下一步骤。
选项
System date(variable)
System date(fixed)
start date range(Transformation)
End date rang(Transformation)
Start date range(job)
End date range(job)
Yesterday 00:00:00
Yesterday 23:59:59
Tomorrow 00:00:00
Tomorrow 23:59:59
First day of last month 00:00:00
Last day of last month 23:59:59
First day of this month 00:00:00
描述
系统时间,每次访问的时候都在改变
系统时间,由转换开始来决定
根据ETL日志表的信息,确定日期范围的开始
根据ETL日志表的信息,确定日期范围的结束
根据ETL日志表的信息,确定日期范围的开始
根据ETL日志表的信息,确定日期范围的结束
昨天的开始
昨天的结束
今天的开始
今天的结束
上个月的开始
上个月的结束
这个月的开始
37文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
Last day of this month 23:59:59
Copy of step
Transformation name
Transformation file name
User that modified
transformation last
这个月的结束
复制步骤
转换的名称
转换的文件名(仅仅针对XML)
the
Date when the transformation was
modified last
Transformation batch ID
Hostname
日志表中的批处理ID值
返回服务器的主机名
IP address Returns the IP address
of the server
Command line argument1
Command line argument2
Command line argument3
Command line argument4
Command line argument5
Command line argument6
Command line argument7
Command line argument8
Command line argument9
Command line argument10
Kettle version
Kettle Build version
Kettle Build Date
命令行的第1个参数
命令行的第2个参数
命令行的第3个参数
命令行的第4个参数
命令行的第5个参数
命令行的第6个参数
命令行的第7个参数
命令行的第8个参数
命令行的第9个参数
命令行的第10个参数
返回Kettle的版本
返回Kettle核心库的编译版本
返回Kettle核心库的编译日期
4.1.1.14.2. 操作步骤
功能1:指定选项
选项
步骤名称
字段
描述
步骤的名称,在单个转换中必须唯一。
输出的字段。
示例:
4.1.1.14.3. 实例讲解
第一个用法就是简单的从系统中获取信息。
38文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
从2.3.0版本开始,这个步骤也接受输入行。选择的值将附加到输入流的行中。
4.1.1.15. Get data from XML
从xml文件解析出数据
4.1.1.16. Get repository names
4.1.1.17. Get table names
4.1.1.18. Google Analytics
4.1.1.19. HL7 Input
4.1.1.20. JSON Input
4.1.1.21. LDAP Input
从ldap库读取数据。
4.1.1.22. LDIF Input
读取ldap的ldif文件
4.1.1.23. Load file content in memory
4.1.1.24. Microsoft Access input
读取access数据库
4.1.1.25. Microsoft Excel Input
读取excel文件,和csv文件读取类似,增加了表单,表头,出错(是否忽略错误,严格的类型判断等)的处理
39文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
4.1.1.25.1. 功能描述
这个步骤从EXCEL文件输入数据。
4.1.1.25.2. 操作步骤
4.1.1.25.2.1. 指定文件名
参考 3.1 文本文件输入
指定工作表
4.1.1.25.2.2. 指定内容
选项
头部
非空记录
停在空记录
限制
描述
检查是否工作表指定了一个头部行。
检查是否不需要空行输出。
当步骤在读取工作表遇到一个空行的时候停止读取。
限制输出的行数,0 代表输出所有行。
4.1.1.25.2.3. 字段
4.1.1.25.2.4. 错误处理
参考 3.1 文本文件输入
4.1.1.25.2.5. 其他输出字段
4.1.1.25.3. 实例讲解
4.1.1.26. Mondrian Input
MDX语言从Mondrian服务器上读取数据
40文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
4.1.1.27. OLAP Input
4.1.1.28. Property Input
读取属性.properties文件
4.1.1.29. RSS Input
4.1.1.30. S3 CSV Input
4.1.1.31. SAP Input
4.1.1.32. SAS Input
4.1.1.33. SalesForce Input
4.1.1.34. Table input:表输入
4.1.1.34.1. 功能描述
从数据库读数据,动态绑定参数的SQL语句,参数替换可以从上一个步骤从获取。例如SELECT * FROM customer WHERE birthdate<’${current_date}’这里的${current_date}在执行过程中会作为动态参数被替换掉。这个值是前一个转换步骤设置的。
注:但是测试过程中发现如果上一个步骤设置的变量,在table input里面获取不到,变量设置必须作为一个单独的转换先执行一次,然后才能获取到这个变量。
这一步常常用来利用连接和SQL,从数据库中读取信息。自动生成基本的SQL 语句。
4.1.1.34.2. 操作步骤
指定选项
41文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
选项
步骤名称
连接
SQL
从步骤插入数据
限制
描述
步骤的名称,在单一的步骤中,名称必需唯一。
读取数据的数据库连接。
SQL 语句用来从数据库连接中读取数据。
指定我们期待读取数据的步骤名称。这些信息能被插入到SQL 语句。
设置从数据库中读取的行数。0 所有行。
示例:指定如下SQL语句:注:日期可以从“获取系统信息”步骤类型中获取。
4.1.1.34.3. 实例讲解
4.1.1.35. Text file input:文本文件输入
4.1.1.35.1. 功能描述
可通过此步骤读取大量不同的文本文件,可指定读取的文件列表,或者用正则表达式表示的目录列表。
4.1.1.35.2. 操作步骤
4.1.1.35.2.1. 文件名称指定
指定文件名后,并按“增加”按钮,你可以添加一个文件到“选择文件”中,如下所示:
你也可以用指定正则表达式通配符的形式来搜索文件。正则表达式比简单的用“?”和“*” 通配符更有效。
文件名
/dirA/
正则
选择的文件
.*userdata.*/.txt
所有在/dirA/目录下的并且文件名包含userdata、以txt42文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
为后缀的文件。
/dirB/
/dirC/
AAA.*
[A-Z][0-9].*
所有在/dirB/目录下的并且文件名以AAA 开头的文件。
所有在/dirC/目录下的并且文件名以字母开头、紧接着一个数字的文件。
4.1.1.35.2.2. 从先前的步骤中接受文件名
这个选择允许你利用其它的步骤(例如“Get File names”)来更灵活的构造文件名。利用这种方法,文件名来自:文件文件、数据库表等等。
选项
从以前的步骤接受文件名
步骤读取的文件名来自 读取的文件名来自
描述
将允许你从以前的步骤接受文件名
从输入里面的字段当作文件名 文本文件输入将查询这个步骤,以决定使用哪个文件名
4.1.1.35.2.3. 内容指定
内容标签允许你指定正在读取的文本文件的格式:
下面是标签的选项列表:
选项
文件类型
分隔符
描述
可以是CSV 或者Fixed length(固定长度)。
在文本的单行中,一个或多个字符将被用来分隔字段,比较有代表性的是;或者一个tab 制表符。
封闭字符
逃逸字符
一些字段能够被一对允许分隔的字符来封闭。封闭字符串是可选的。
如果你的数据中有逃逸字符,就指定逃逸字符(或者逃逸字符串)。如果作为逃逸字符,文本’Not the nineo’clock news.’(’作为封闭字符),将被解析成Notthe nine o’clock news.
头部/头部行数量
尾部/尾部行数量
包装行/包利用这个来处理被某些页限制包装的数据行。注:头部和尾部从来不考虑如果你的文本文件有尾部行就使用这个。你可以指定尾部行出现的次数。
如果你的文本文件有头部行就使用这个。你可以指定头部行出现的次数。
43文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
装行数量
分页布局/每页行数/文档头部行
压缩 如果你的文件是ZIP 文件或者GZIP 归档文件,就启用这个。注:此刻归档文件中仅仅第一个文件被读取。
没有空行
输出包含文件名
文件名字段名称
输出行数
行数字段名称
根据文件获取行数
格式 可以是DOS、UNIX 或者混合模式。UNIX 行终止可以是回车,DOS 中可以是回车或者换行。如果你选择混合模式,将不会验证。
编码方式 指定文本文件编码方式。如果不设置就使用系统默认的编码方式。如果想用Unicode,可以指定UTF-8 或者UTF-16。第一次使用的时候,Spoon 将搜索系统,寻找可用的编码。
记录数量限制
解析日期时是否严格要求
本地日期格式
在本地日期常常被解析为“February wnd,2006”的形式,在用法语本地化的系统中日期将不会被解析,因为在法语本地化中February 不能理解。
如果你想严格的解析数据字段,可以禁用这个选项。如果启用的时候,Jan
32nd
将变成Feb 1st。
设置读取记录的行数。0 代表读取所有的。
允许每个文件重置的行数。
如果你想行数作为输出的一部分,可以启用这个。
包含行数的字段名称。
包含文件名的字段名称。
不往下一步发送空行。
如果你想文件名作为输出的一部分,可以启用这个。
被包装。
在行打印机上打印的时候,你可以用这个选项作为最终的手段。用头部行的数量来跳过介绍性的文本,用每页的行数来定位数据行。
44文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
4.1.1.35.2.4. 错误处理
当错误发生的时候,错误处理标签允许你指定这个步骤将重新做些什么。
下面是标签的选项列表
选项
忽略错误
跳过错误行
描述
如果在解析的时候忽略错误,就指定这个选项。
使用这个选项来跳过那些出现错误的行。你可以生成另外的文件来包含发生错误的行号。如果不跳过错误行,解析错误字段将是空的。
错误计数字段
错误字段字段名
在输出流行中增加一个字段,这个字段将包含错误发生的行数。
在输出流行中增加一个字段,这个字段将包含错误发生的字段名称。
错误文本字段名
在输出流行中增加一个字段,这个字段将包含解析错误发生字段的描述。
警告文件目录
当警告发生的时候,它们将被放进这个目录。文件名将是<警告目录>/文件名.<日期时间>.<警告文件扩展>。
错误文件目录
当错误发生的时候,它们将被放进这个目录。文件名将是<错误文件目录>/文件名.<日期时间>.<错误文件扩展>。
失败行数文件目录 当解析行的时候发生错误,行号将被放到这个目录。文件名将是<错误行目录>/文件名.<日期时间>.<错误行扩展>。
4.1.1.35.2.5. 过滤
在“过滤”标签中,你可以指定文本文件中要过滤的行。
下面是标签的选项列表。
选项
过滤字符
搜索字符串。
描述
45文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
过滤位置
在行中过滤字符串必须存在的位置。0 是起始位置,如果你指定一个小于0 的值,过滤器将搜索整个字符。
停止在过滤器 如果你想在文本文件遇到过滤字符的时候,停止处理,就指定Y。
4.1.1.35.2.6. 字段
设定要导入的字段。
选项。
选项
名称
类型
长度
描述。
设置要在输出流中显示的字段名称。
字段类型(String、Date、Number 等)。
对于Number:有效数的数量。
对于String:字符的长度。
对于Date:打印输出字符的长度(例如4 代表返回年份)。
精度
对于Number:浮点数的数量。
对于String,Date,Boolean:未使用。
货币类型
小数
分组
如果为空
默认
去空字符串
重复
用来解释如$10,000.00 的数字。
小数点可以是”.”(10;000.00)或者”,”(5.000,00)。
分组可以是”.”(10;000.00)或者”,”(5.000,00)。
空值如何处理。
字段为空的时候的默认值。
处理之前先去空。
Y/N:如果在当前行中对应的值为空,则重复最后一次不为空的值。
46文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
4.1.1.35.2.7. 其他输出字段
4.1.1.35.3. 格式化
4.1.1.35.3.1. Number格式化
0
#
.
-
,
E
;
%
u230
*(u00A4)
‘
这些信息是从Sun Java API的文档中引入的。
位置
Number
Number
Number
Number
Number
Number
局部化
Yes
Yes
Yes
Yes
Yes
Yes
数字
不包含数字和0
小数分隔符或者货币小数分隔符
减号
分组分隔符
在科学读数法中分隔尾数。不在前缀或者后缀中引用
分隔正负
百分比
千分比
货币标记,被货币符替代
在前缀或者后缀中被引用为指定的字符,例如”’#’#”格式化123到“#123”
含义 符号
Sub pattern boundary Yes
前缀或后缀
前缀或后缀
前缀或后缀
前缀或后缀
Yes
Yes
No
No
4.1.1.35.3.2. Date格式化
G
Y
M
w
W
D
d
F
E
a
H
k
K
h
这些信息是从Sun Java API的文档中引入的。
日期或者时间组合
世纪指定
年
年中的月份
年中的星期
月中的星期
年中的天
月中的天
月中星期的天数
星期中的天数
Am/pm标记
天中的小时(0-23)
天中的小时(1-24)
Am/pm中的小时(0-11)
Am/pm中的小时(1-12)
表达
Text
Year
Month
Number
Number
Number
Number
Number
Text
Text
Number 0
Number 24
Number 0
Number 12
AD
1996;96
July;Jul;07
27
2
189
10
2
Tuesday;Tue
PM
示例 字母
47文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
m
s
S
z
Z
小时中的分钟
分钟中的秒数
毫秒
时区
时区
Number 30
Number 55
Number 978
通用时区
RFC 822时区
Pacific standard Time;PST;GMT-08:00
-0800
4.1.1.35.3.3. 其它
功能/按钮
显示文件名
显示文件内容
描述
这个选项所有已经选择的文件列表。如果转换在单独的服务器上运行,结果可能是不正确
展示文本文件首行的数据。请确保你要展示的文件格式正确。如果有疑问,分别试试DOS和NUIX格式
显示来自第一条数据行的内容 这个按钮帮助你从有多个头部行的、复杂的文本文件中定位数据行
获取字段 允许你猜测文件的布局。如果是CSV文件,这一步接近于自动的。如果是固定长度的文件,你需要指定利用向导来指定字段
预览这一步生成的行 预览行
4.1.1.35.4. 实例讲解
4.1.1.36. XBase input:XBase输入
4.1.1.36.1. 功能描述
读取XBase系列文件,如Foxpro文件,主要是数据库语言,使用这一步可以读取大多数被称为XBase family派生的DBF文件。
4.1.1.37. XML Input Stream(StAX)
4.1.1.37.1. 功能描述
这个步骤允许你读取存储在XML文件中的数据。
它也提供一个接口,你可以定义你想读取的文件名、XML文件的数据重复部分、获 取的字段等。
你可以指定元素或属性字段。
选项 描述
48文档来源为:从网络收集整理.word版本可编辑.
文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持.
文件或目录
正则表达式
在输出包含文件名称
指定输入文件的位置和名称
指定在先前选择的目录中选择文件的表达式
输出流的行中是否要包含XML文件的名称,你可以指定一个以文件名结束的字段名称
输出包含记录号 是否在输出流中包括行号。你可以指定一个以整数结束的字段名称
文件名包含时间 文件名中包含系统时间(_235959)
限制
位置
你可以指定读取的最大行数
指定XML文件重复元素的路径。
例如你可以从XML文件中读取行:
然后你可以设置位置Rows,Row
备注:你也可以设置根元素(Rows)作为重复元素位置,那么输出只包含有一行。
名称:字段的名称
类型:字段可以指定为string,Date或者Number等类型
格式:格式化转换
长度:
Number:number有效数的数量
String:字符串的长度
Date:打印输出字符串的长度
精度:
Number:number浮点数的数量
String:不可用
Date: 不可用
当前货币:常常用来代表流通的货币,例如$10,000.00
十进制数:小数点可以是“,”(10,000.00)或者“.”(5.000,00)
分组:分组可以是“,”(10,000.00)或者“.”(5.000,00)
修整类型:修整方法修整XML中找到的字符串
重复:是否想要重复使用前一行的值代替空值
位置:XML元素或属性的位置。可以使用以下的语法来指定一个元素的位置:
第一个元素称为“element”:E=element/1
第一个属性称为 “attribute”:E=attribute/1
在第二个元素里面的第一个属性称为“attribute”:E=element/2,A=attribute/1
备注:你可以使用“获取字段”按钮自动生成所有可能的位置。
字段
49文档来源为:从网络收集整理.word版本可编辑.
版权声明:本文标题:Pentaho-Data-Integration-完全自学手册.2020.12.11 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1702905418a435415.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论