BI大数据课程内容介绍
树图思维导图提供 BI大数据课程 在线思维导图免费制作,点击“编辑”按钮,可对 BI大数据课程 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:507bb5b47558c8c0e5c1493d505c4a10
BI大数据课程思维导图模板大纲
概念
E:extract
抽取—从数据源获取数据
T:transform
转换—清洗处理转换数据,使之满足数据分析需要
L:load
加载—将转换后的数据导入到数据仓库
实现方式
SQL
Structured Query Language
MySQL
Oracle
SQL Server
Python
excel
爬虫
ML
pandas
shell
linux
SQL内嵌
其他开发语言
Java
Scala
大数据
工具
ETL工具
GUI
少量代码
更容易看懂
SQL
数据同步工具
日志同步
主从
主:业务
从:数据仓库
CDC
canel
其他
数据变化监测
ETL工具
开源免费
Kettle
社区版
企业版
PDI EE
PDI
Pentaho
DataX
开源版
商业版DataWorks
阿里BI
Talend
开源版
商业版
Talend Open Studio
DataPipeline
商业
Informatica PowerCenter
IBM Datastage
Microsoft SSDT
DTS
SSIS
SSDT
Oracle Data Integrator
ODI
SAP DataService
SAP DS
kettle介绍
etl工具
kettle历史
2003
开发
2006
Pentaho收购
PDI
2015
Pentaho被收购
版本历史
版本
社区版
企业版
Java
纯绿色
kettle下载
kettle下载
版本
jdk下载
kettle安装
jdk安装
kettle部署
启动kettle
kettle界面介绍
Spoon
图形化工具
Kitchen
运行job的命令行工具
Pan
运行transform的命令行工具
Carte
轻量级web容器,用于建立专用、远程的ETL Server
功能区介绍
transform、job介绍
transform
步骤
输入
数据源
处理
具体逻辑
输出
数据目标
节点连接
后缀ktr
job
作业项
transform
job
处理逻辑
并行
串行
成功
失败
无论
kjb
start、作业项、成功
kettle初体验
创建一个trans
执行trans
创建一个job
执行job
各组件详细讲解
1、文本文件操作
新创建trans
csv、txt作为源、目标
2、excel文件操作
新创建trans
excel作为源、目标
3、多文件操作
多个文件作为源
4、数据库操作
数据库驱动文件
数据库作为源、目标
MySQL
SQL Server
Oracle
5、文件与数据库操作
文件作为源、数据库作为目标
数据库作为源、文件作为目标
6、生成随机数据
生成记录
生成随机数
生成随机的信用卡
7、自定义常量数据
8、获取子目录名
9、获取文件行数
10、获取系统信息
11、获取表名
12、其他in/output
XML
JSON
13、删除
14、更新
15、插入/更新
16、SQL脚本
insert、update、delete
执行存储过程
17、值映射
18、列拆分为多行
19、列转行
20、剪切字符串
21、去除重复记录
22、增加常量
23、字段选择
24、字符串操作
25、字符串替换
26、拆分字段
27、排序记录
28、数值范围
29、行转列
30、计算器/设置字段值
31、合并记录
32、排序合并
33、记录关联
记录关联 (笛卡尔输出)
记录集连接
34、设置变量
35、获取变量
transform使用多组件
job嵌套
嵌套transform
嵌套job
包部署
文件系统
数据库
使用命令行执行trans 、job
transform转换
pan.bat /file c:\kettle\test.ktr
pan.bat /rep 资源库名称 /user 资源库用户名 /pass 密码 /dir trans脚本目录 /trans 脚本名
参数
job作业
kitchen.bat /file c:\kettle\test.kjb
kitchen.bat /rep 资源库名称 /user (登陆资源库的)用户名 /pass 密码 /dir 脚本所在目录 /job 脚本名
参数
ETL调度
操作系统功能
定时任务
crontab
chcp 65001
调度工具
项目实战
源表、源文件
创建目标表
创建包从源文件抽取数据
创建包从源表抽取数据
多表关联数据处理
复杂逻辑处理
包部署及调度
处理结果检验