大数据Hive学习

Malina ·

更新时间:2024-09-21

· 681 次阅读

Hive的功能

使用SQL的方式读取分布式存储系统上的大量数据。

数据库：在线事务处理，并发性、事务性和低延迟性。

数据仓库：在线分析处理，有高的延迟。

Hive与Hbase区别： 1.Hive是数据仓库工具，用于分析大数据；hbase是数据库工具，用于存储NoSQL的数据库。 2.Hive因为执行HQL语句，基于MR处理数据时间，耗时长；hbase可实时查询数据

Hive的数据存储于HDFS上，结构化信息存储在MySQL表里。（hive的数据库和表是HDFS的目录，数据是HDSF文件）

进入hive中可以通过dfs -XX 的命令直接访问hdfs

•HiveServer2

使用hiveserver2服务器，实现客户端以jdbc协议远程访问hive。（客户端不需要安装hive）

•常用命令

desc database XXX/ 某表;

create table test01 as select * from test; 复制表数据同时创建内部表

create external table ext_test like test; 复制test的表结构

insert into ext_test select * from test; 复制表数据到外部表

alter table test add columns (id , int); 添加表中的列

desc formatted test; 查询表的详细信息

•内/外部表

内部表删除表时，数据一同删除

外部表删除表时，只删除表结构，恢复MySQL中表结构时，可正常使用表

•分区表（加快数据查询效率）

在表的目录层级下创建子目录（分区目录）

alter table par_test add partition (year=2019,month=8);

•桶表（加快数据查询效率）

每个桶是表目录里的一个文件，通过hash进行分桶，分桶键只能有一个

桶表只能通过普通表进行数据导入

hive导入/导出 加载本地文件至hive表中

注意事项：

1.hive中设置table的字符分隔符一定要和本地文件中的分隔符对应，不然表中显示NULL 2.本地数据导入，相当于复制操作，导入后本地数据依然存在；从HDFS导入至hive后，相当于剪切操作，导入后hdfs文件不存在

Load data local inpath ‘/home/test01/hello.txt’into table doc_count; 本地文件

Load data inpath ‘/home/test01/hello.txt’into table doc_count; HDFS文件

导出hive数据至本地

insert overwrite local directory ‘/home/test01/out’ row format delimited fields terminated by ‘,’ select * from test;

•View视图，虚表

create view v_test as select name,age from test; 将select name,age from test的操作定义为v_test

alter view v_test as select XXX; 修改操作

导入/导出表

export table test to ‘ /data/user/hive/warehouse/test.db/export’;

import from ‘ /data/user/hive/warehouse/test.db/export’;（如果同名表已经存在即报错）

import table test111 from ‘ /data/user/hive/warehouse/test.db/export’;（如果同名表已经存在可创建新表）

import external table test111 from ‘ /data/user/hive/warehouse/test.db/export’;（导入至新创建的新外部表）

表的连接

表的连接同MySQL，有左连接、右连接和全连接。

查询

去重查询：select distinct name from test;

嵌套子查询：select a.* from (select name from test) a where a.name like ‘w%’;先查询test中名字列，再从名字列查询含w的名字

注意：子查询必须要加别名,as xx，其中as可以省略

Hive执行脚本

单句命令：hive –e “select * from test.test”

脚本命令：hive –f /home/test01/hive_test.sql

hive –e “select * from test.test” > test1.txt 将查询到的结果覆盖到test1.txt文件中

hive –e “select * from test.test” | hdfs dfs –appendToFile - /user/…test 将查询的结果添加到hdfs文件中

作者：wjzholmes

hive

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

vue中上传视频或图片或图片和文字一起到后端的解决方法

Anne 2020-10-24

741

配置hive元数据到Mysql中的全过程记录

Kersen 2021-01-06

728

如何在Win10系统使用Python3连接Hive

Xena 2020-04-23

621

hive从mysql导入数据量变多的解决方案

Freya 2021-04-20

727

pyspark操作hive分区表及.gz.parquet和part-00000文件压缩问题

Pascall 2021-12-16

1050

Docker安装Presto连接Hive的详细过程

Damara 2021-12-16

419

Hive-SQL查询连续活跃登录用户思路详解

Isoke 2022-01-14

1303

一文了解Hive是什么

Olinda 2022-05-28

1614

hive数据仓库新增字段方法

Yvonne 2022-06-23

645

Hive导入csv文件示例

Gilana 2022-06-23

1609

Hive HQL支持2种查询语句风格

Noella 2022-06-23

1583

Hive日期格式转换方法总结

Elina 2022-06-23

263

Hive常用日期格式转换语法

Iria 2022-06-23

1264

Apache教程Hudi与Hive集成手册

Rosalia 2022-07-16

1597

shell命令执行hive脚本(hive交互)

Bonnie 2022-07-18

Hive中常用正则表达式的运用小结

Tia 2022-08-02

1155

详解hive常见表结构

Thalia 2022-08-11

1528

Clickhouse系列之整合Hive数据仓库示例详解

Georgia 2022-10-15

1017

数据库之Hive概论和架构和基本操作

Bunny 2023-04-08

707

Hive数据导出详解

Kitty 2023-04-16

416

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座