Kettle将数据导入导Hive2

Camille ·

更新时间:2024-11-13

· 690 次阅读

前言

本来将数据导入到hive，但是不知道什么原因太慢了，一小时200条数据，优化一波kettle，还是成效不大，因此改为借用hadoop file output 到hdfs，然后再load 到hive表里

一，正文

1.在转换里拖入big data/hadoop file output

新建hadoop cluster连接

从集群里下载core-site.xml，hdfs-site.xml，yarn-site.xml，mapred-site.xml

覆盖kettle的plugins\pentaho-big-data-plugin\hadoop-configurations\hdp26中的4个同名文件。

2.填写配置

连接信息只要hadoop file system connection连对就行

再从脚本里托人SQL

在文件里输入路径/文件名

内容里选择分隔符，是不是显示字段名(头部)，压缩格式(orc,snappy)

在生气了语句里，新建数据库连接，写入sql语句

作者：Joseph25

kettle 数据 hive

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

vue中上传视频或图片或图片和文字一起到后端的解决方法

Anne 2020-10-24

741

详解css栅格系统在项目中的灵活运用

Ursula 2020-04-01

908

ASP.NET数据绑定之DataList控件

Vanora 2020-02-14

993

el-table表格动态合并相同数据单元格(可指定列+自定义合并)

Rachel 2023-07-20

1437

vuex页面刷新数据丢失解决方法详解

Psyche 2023-07-20

216

Vue3中是如何实现数据响应式示例详解

Winola 2023-07-20

1347

sessionStorage多Tab标签页数据共享问题分析

Gella 2023-07-20

数据结构之带头结点的单链表

Grizelda 2023-07-20

1827

C++各种输出数据类型详解

Janna 2023-07-20

623

Golang基于Vault实现敏感数据加解密

Ophelia 2023-07-21

1848

用Python进行数据清洗以及值处理

Crystal 2023-07-21

283

Python常用的数据清洗方法详解

Laila 2023-07-21

1301

Python multiprocessing.value实现多进程数据共享的示例

Aine 2023-07-21

1131

深入探究python中Pandas库处理缺失数据和数据聚合

Bliss 2023-07-21

191

Python中Pandas库的数据处理与分析

Lillian 2023-07-21

155

pandas删除重复数据简单方法

Tertia 2023-07-21

311

详解C#如何将枚举以下拉数据源的形式返回给前端

Olive 2023-07-21

797

Flutter中跨组件数据传递的方法总结

Angie 2023-07-21

906

python简单几步实现时间日期处理到数据文件的读写

Nora 2023-07-24

926

Python采集二手车数据的超详细讲解

Pandora 2023-07-24

294

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座