Kettle 整合大数据平台（Hadoop、Hive、HBase）

Ianthe ·

更新时间:2024-11-13

· 519 次阅读

一、Kettle整合Hadoop

1、整合步骤

2、Hadoop file input组件

3、Hadoop file output组件

二、Kettle整合Hive

1、初始化数据

2、 kettle与Hive 整合配置

3、从hive 中读取数据

4、把数据保存到hive数据库

5、Hadoop Copy Files组件

6、执行Hive的HiveSQL语句

三、Kettle整合HBase

1、HBase初始化

2. HBase input组件

3、HBase output组件

一、Kettle整合Hadoop
环境 kettle 8.2 版本：

kettle国内镜像下载地址：http://mirror.bit.edu.cn/pentaho/Pentaho%208.2/client-tools/
1、整合步骤
1. 确保Hadoop的环境变量设置好HADOOP_USER_NAME为root

2. 从hadoop下载核心配置文件
/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/hdfs-site.xml /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/core-site.xml 3. 把hadoop核心配置文件放入kettle目录 data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp26 4. 修改 data-integration\plugins\pentaho-big-data-plugin\plugin.properties文件修改plugin.properties active.hadoop.configuration=hdp26 5. 创建Hadoop clusters 打红色的对勾的缺一不可，node01 失效要配置 windows 的 hosts 映射 2、Hadoop file input组件需求：从Hadoop文件系统读取/hadoop/test/1.txt文件，把数据输入到Excel中 1. 配置Hadoop File Input组件 2. Excel 配置输出路径即可 3、Hadoop file output组件需求：读取 user.json 把数据写入到hdfs文件系统的的/hadoop/test/2.txt中。 1. 配置 JSON 输入组件 2. 配置Hadoop file output组件二、Kettle整合Hive 1、初始化数据 1. 连接hive 2. 创建并切换数据库 show databases; -- 查询数据库 drop database test cascade; -- 强制删除数据库 create database test; -- 创建数据库 use test; -- 切换数据库 3. 创建表 CREATE TABLE a ( a int, b int ) ROW format delimited fields terminated BY ',' stored AS TEXTFILE; 4. 创建数据文件 vim a.txt 1,11 2,22 3,33 5. 从文件中加载数据到表 load data local inpath '/export/datas/a.txt' overwrite into table a; 2、 kettle与Hive 整合配置 1. 从虚拟机下载Hadoop的jar包 /export/servers/hadoop-2.7.5/share/hadoop/common/ 2. 把jar包放置在\data-integration\lib目录下 3. 重启kettle，重新加载生效 3、从hive 中读取数据 hive数据库是通过jdbc来进行连接，可以通过表输入控件来获取数据。需求：从hive数据库的test库的a表中获取数据，并把数据保存到Excel中。实现步骤： 1. 设计一下kettle组件结构 2. 配置表输入组件 3. 配置表输出 4、把数据保存到hive数据库 hive数据库是通过jdbc来进行连接，可以通过表输出控件来保存数据。需求：从Excel中读取数据，把数据保存在hive数据库的test数据库的 a 表。实现步骤： 1. 配置 Excel输入组件 2. 配置表输出组件 5、Hadoop Copy Files组件 Kettle作业中的Hadoop Copy Files作业项可以将本地的文件上传到HDFS,也可以向Hive导入数据。需求：把资料\kettle测试数据\weblogs_parse.txt文件导入到Hive表中资源下载地址：http://wiki.pentaho.com/download/attachments/23530622/weblogs_parse.txt.zip?version=1&modificationDate=1327068013000 实现步骤： 1. 创建表 ---创建weblogs表语句 create table test.weblogs ( client_ip string, full_request_date string, day string, month string, month_num int, year string, hour string, minute string, second string, timezone string, http_verb string, uri string, http_status_code string, bytes_returned string, referrer string, user_agent string ) row format delimited fields terminated by '\t'; 2. 配置Hadoop copy files 3. 测试数据是否已经抽取到Hive中数据比较多，笔记本内存有很小，跑起来太费劲了 6、执行Hive的HiveSQL语句 Kettle中可以执行 Hive 的HiveSQL语句，使用作业的SQL脚本。需求：聚合查询weblogs表（以IP和年月分组统计的PV数据），同时建立一个新表保存查询数据。实现步骤： 1. 拖取组件，配置 SQL 组件 2. 测试数据是否生成三、Kettle整合HBase 1、HBase初始化从hbase集群中复制 hbase-site.xml 文件到 kettle 安装目录下的 “plugins/pentaho-big-data-plugin/hadoop-configurations/hdp26” 目录下。 1. 进入HBase shell，查看状态 2. 创建表，并查看 -- 创建表 create 't1','f1' -- 查看表 describe 't1' -- 添加数据 put 't1','rowkey001','f1:name','zhangsan' -- 获取数据 get 't1','rowkey001' 2. HBase input组件 Kettle提供了HBase input控件来读取HBase数据库中的数据。需求：读取HBase数据库中表里面的数据，把数据保存到Excel 实现步骤： 1. 准备一些测试数据 create 't_user','cf' put 't_user','392456197008193000','cf:name','张三' put 't_user','392456197008193000','cf:age','20' put 't_user','392456197008193000','cf:gender','0' put 't_user','392456197008193000','cf:province','北京市' put 't_user','392456197008193000','cf:city','昌平区' put 't_user','392456197008193000','cf:region','回龙观' put 't_user','392456197008193000','cf:phone','18589407692' put 't_user','392456197008193000','cf:birthday','1970-08-19' put 't_user','392456197008193000','cf:hobby','美食;篮球;足球' put 't_user','392456197008193000','cf:register_date','2018-08-06 09:44:43' put 't_user','267456198006210000','cf:name','李四' put 't_user','267456198006210000','cf:age','25' put 't_user','267456198006210000','cf:gender','1' put 't_user','267456198006210000','cf:province','河南省' put 't_user','267456198006210000','cf:city','郑州市' put 't_user','267456198006210000','cf:region','郑东新区' put 't_user','267456198006210000','cf:phone','18681109672' put 't_user','267456198006210000','cf:birthday','1980-06-21' put 't_user','267456198006210000','cf:hobby','音乐;阅读;旅游' put 't_user','267456198006210000','cf:register_date','2017-04-07 09:14:13' put 't_user','892456199007203000','cf:name','王五' put 't_user','892456199007203000','cf:age','24' put 't_user','892456199007203000','cf:gender','1' put 't_user','892456199007203000','cf:province','湖北省' put 't_user','892456199007203000','cf:city','武汉市' put 't_user','892456199007203000','cf:region','汉阳区' put 't_user','892456199007203000','cf:phone','18798009102' put 't_user','892456199007203000','cf:birthday','1990-07-20' put 't_user','892456199007203000','cf:hobby','写代码;读代码;算法' put 't_user','892456199007203000','cf:register_date','2016-06-08 07:34:23' put 't_user','492456198712198000','cf:name','赵六' put 't_user','492456198712198000','cf:age','26' put 't_user','492456198712198000','cf:gender','2' put 't_user','492456198712198000','cf:province','陕西省' put 't_user','492456198712198000','cf:city','西安市' put 't_user','492456198712198000','cf:region','莲湖区' put 't_user','492456198712198000','cf:phone','18189189195' put 't_user','492456198712198000','cf:birthday','1987-12-19' put 't_user','492456198712198000','cf:hobby','购物;旅游' put 't_user','492456198712198000','cf:register_date','2016-01-09 19:15:53' 2. 配置 HBase Input 组件返回到 configure query , 下面我们使用 "create a tuple template " 模板导出到 Excel中的数据并没有展开，可能不是我们想要的结果，我们自己设计映射字段关系。查看结果我们使用 "create a tuple template " 模板导出到 Excel中的数据并没有展开，不是我们想要的结果，我们自己设计映射字段关系，因为 HBase 的设计就是 rowkey 的 column Family 下有很多的 column 自动生成的模板是不能将数据展开的。 3、HBase output组件 Kettle提供了“HBase output”控件来保存数据到 HBase 数据库中。需求：从 user.json 中读取数据，把数据保存在HBase的t_user_2表中实现步骤： [ { "id": "392456197008193000", "name": "张三", "age": 20, "gender": 0, "province": "北京市", "city": "昌平区", "region": "回龙观", "phone": "18589407692", "birthday": "1970-08-19", "hobby": "美食;篮球;足球1", "register_date": "2018-08-06 09:44:43" }, { "id": "267456198006210000", "name": "李四", "age": 25, "gender": 1, "province": "河南省", "city": "郑州市", "region": "郑东新区", "phone": "18681109672", "birthday": "1980-06-21", "hobby": "音乐;阅读;旅游", "register_date": "2017-04-07 09:14:13" }, { "id": "892456199007203000", "name": "王五", "age": 24, "gender": 1, "province": "湖北省", "city": "武汉市", "region": "汉阳区", "phone": "18798009102", "birthday": "1990-07-20", "hobby": "写代码;读代码;算法", "register_date": "2016-06-08 07:34:23" }, { "id": "492456198712198000", "name": "赵六", "age": 26, "gender": 2, "province": "陕西省", "city": "西安市", "region": "莲湖区", "phone": "18189189195", "birthday": "1987-12-19", "hobby": "购物;旅游", "register_date": "2016-01-09 19:15:53" }, { "id": "392456197008193000", "name": "张三", "age": 20, "gender": 0, "province": "北京市", "city": "昌平区", "region": "回龙观", "phone": "18589407692", "birthday": "1970-08-19", "hobby": "美食;篮球;足球1", "register_date": "2018-08-06 09:44:43" }, { "id": "392456197008193000", "name": "张三", "age": 20, "gender": 0, "province": "北京市", "city": "昌平区", "region": "回龙观", "phone": "18589407692", "birthday": "1970-08-19", "hobby": "美食;篮球;足球1", "register_date": "2018-08-06 09:44:43" } ] 实现步骤： 1. 配置HBase output组件 2. 配置kettle数据流与HBase映射关系表不能存在创建即可，不用提前创建查看结果到目前位置，我们就将 kettle 与 Hadoop，Hive， HBase 整合完成，并且演示了基本的案例操作。遇到的问题： IP 的在 Windows在映射在 System32 中的 hosts 中添加 zookeeper ，HBase 启动正常，报错了去看看是否挂掉，HMaster 时间久了不用，好像就挂了作者：kangna_卧龙先生 kettle 大数据平台数据 hive hadoop hbase 大数据

1024 个赞编辑举报

需要登录后方可回复, 如果你还没有账号请注册新账号相关文章 CSS 选择器 Liana 2021-05-05 548 linux yum 命令 Catherine 2020-04-15 865 SQL NOW() 函数 Wilma 2020-11-12 810 vue中上传视频或图片或图片和文字一起到后端的解决方法 Anne 2020-10-24 741 详解css栅格系统在项目中的灵活运用 Ursula 2020-04-01 908 Linux进程间通信——使用流套接字 Ester 2020-09-08 567 ASP.NET数据绑定之DataList控件 Vanora 2020-02-14 993 el-table表格动态合并相同数据单元格(可指定列+自定义合并) Rachel 2023-07-20 1437 vuex页面刷新数据丢失解决方法详解 Psyche 2023-07-20 216 Vue3中是如何实现数据响应式示例详解 Winola 2023-07-20 1347 sessionStorage多Tab标签页数据共享问题分析 Gella 2023-07-20 18 数据结构之带头结点的单链表 Grizelda 2023-07-20 1827 C++各种输出数据类型详解 Janna 2023-07-20 623 Golang基于Vault实现敏感数据加解密 Ophelia 2023-07-21 1848 用Python进行数据清洗以及值处理 Crystal 2023-07-21 283 Python常用的数据清洗方法详解 Laila 2023-07-21 1301 Python multiprocessing.value实现多进程数据共享的示例 Aine 2023-07-21 1131 深入探究python中Pandas库处理缺失数据和数据聚合 Bliss 2023-07-21 191 Python中Pandas库的数据处理与分析 Lillian 2023-07-21 155 pandas删除重复数据简单方法 Tertia 2023-07-21 311

我要提问致谢帮助他人，成就自己。人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。 1024问感谢每一位朋友的帮助和支持。软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座