先说说思路:1是直接从mysql输出至hive中,另外一个是先将数据搞到hdfs中,再load一下,当然这只是textfile存储格式而言,若是ORC等其他列式存储的话建议先搞一个textfile格式的中间表,再insert into table select 插进去
太学浅,还是就第一种在人理解上最好的一种先记录一下
1.连接hive对外服务的组件hiveserver2
点击测试,OK之后会显示测试成功
测试直接将mysql中的stdcode表导入一下
抽取数据,插入的目标库中有没有对应为表的话点击下方的SQL,会默认执行DDL语句,create一下表,接下来NEXT
成功!当然具体的可以看kettle下方的运行日志,里边会有详细的记录。
ps:另外再说说kettle相对操作的,觉着若只是练习的话其实差别不大,操作普通文件例如文本文件和csv文件以及excel文件之间的数据的相互抽取,数据库无非就是多需要个连接的jdbc的jar