Hadoop首选串行化系统——Avro简介及详细使用

Rowena ·

更新时间:2024-09-21

· 744 次阅读

本篇博客，Alice为大家介绍的是Hadoop中作为首选串行化系统的Avro。
在这里插入图片描述

文章目录简介特点Avro数据类型和模式Avro基本类型Avro复杂类型Avro数据序列化/反序列化方法1 使用编译的方式序列化反序列化方法2 不使用编译的方式序列化反序列化简介
        Avro是Hadoop中的一个子项目，也是Apache中一个独立的项目，由Hadoop的创始人Doug Cutting（也是Lucene，Nutch等项目的创始人）开发，设计用于支持大批量数据交换的应用。Avro是一个基于二进制数据传输高性能的中间件。在Hadoop的其他项目中例如HBase(Ref)和Hive(Ref)的Client端与服务端的数据传输也采用了这个工具。Avro是一个数据序列化的系统。Avro 可以将数据结构或对象转化成便于存储或传输的格式。Avro设计之初就用来支持数据密集型应用，适合于远程或本地大规模数据的存储和交换。
特点丰富的数据结构类型；快速可压缩的二进制数据形式，对数据二进制序列化后可以节约数据存储空间和网络传输带宽；存储持久数据的文件容器可以实现远程过程调用RPC 简单的动态语言结合功能
        另外，avro支持跨编程语言实现（C, C++, C#，Java, Python, Ruby, PHP），类似于Thrift，但是avro的显著特征是：avro依赖于模式，动态加载相关数据的模式，Avro数据的读写操作很频繁，而这些操作使用的都是模式，这样就减少写入每个数据文件的开销，使得序列化快速而又轻巧。这种数据及其模式的自我描述方便了动态脚本语言的使用。当Avro数据存储到文件中时，它的模式也随之存储，这样任何程序都可以对文件进行处理。如果读取数据时使用的模式与写入数据时使用的模式不同，也很容易解决，因为读取和写入的模式都是已知的。
Avro数据类型和模式
        Avro定义了少量的基本数据类型，通过编写模式的方式，它们可被用于构建应用特定的数据结构。考虑到互操作性，实现必须支持所有的Avro类型。
Avro基本类型

类型描述模式示例

null 空值 “null”

boolean 二进制值 “boolean”

int 32位带符号整数 “int”

long 64位带符号整数 “long”

float 单精度(32位)IEEE754 浮点数 “float”

double 双精度(64位)IEEE754 浮点数 “double”

bytes 8位无符号字节序列 “bytes”

string Unicode字符序列 “string”

Avro复杂类型

        图中表示的是Avro本地序列化和反序列化的实例，它将用户定义的模式和具体的数据编码成二进制序列存储在对象容器文件中，例如用户定义了包含学号、姓名、院系和电话的学生模式，而Avro对其进行编码后存储在student.db文件中，其中存储数据的模式放在文件头的元数据中，这样读取的模式即使与写入的模式不同，也可以迅速地读出数据。假如另一个程序需要获取学生的姓名和电话，只需要定义包含姓名和电话的学生模式，然后用此模式去读取容器文件中的数据即可。

Avro数据序列化/反序列化
        Avro数据序列化/反序列化一共有两种方式，分为使用编译和非编译两种情况。
方法1 使用编译的方式
        这种方式是比较常见的，即根据Avro模式生成JAVA代码，然后根据JAVA API来进行数据操作。

从Apache官网上下载Avro的jar包

2. 定义模式(Schema)

        在avro中，它是用Json格式来定义模式的。模式可以由基础类型（null, boolean, int, long, float, double, bytes, and string）和复合类型(record, enum, array, map, union, and fixed)的数据组成。这里定义了一个简单的模式User.avsc：
{ "namespace": "com.czxy.hdfs.avro", "type": "record", "name": "User", "fields": [ {"name": "name", "type": "string"}, {"name": "id", "type": "int"}, {"name": "salary", "type": "int"}, {"name": "age", "type": "int"}, {"name": "address", "type": "string"} ] }
3、打开cmd，进入到该目录,执行命令生成User类

  命令格式:java -jar avro-toolsjar包的路径 compile schema 生成的文件名输出路径

执行完之后,在你设置的输出路径下会产生一个新的目录com/czxy/avro/hdfs，在该目录最后一层,会产生一个User.java的文件。

4、打开IDEA，创建一个Maven项目，在pom.xml中加入avro的依赖。
org.apache.avro avro 1.9.2 junit junit 4.13 org.junit.jupiter junit-jupiter-api RELEASE compile
把生成的目录拷贝至项目src下。其中User.java里面生成的User类及其内部类的包名默认是user.avsc文件中的namespace的值。

序列化 /** * 使用编译的方式,实现序列化avro文件 * @throws Exception */ @Test void test01() throws Exception { // 声明并初始化User对象 // 方式1 User user1 = new User(); user1.setName("zhangsan"); user1.setId(1); user1.setSalary(1000); user1.setAge(20); user1.setAddress("beijing"); // 方式2 使用构造函数 User user2 = new User("wangwu", 2, 1000, 19, "guangzhou"); // 方式3 使用Build方式 User user3 = User.newBuilder() .setName("lisi") .setId(3) .setAge(21) .setSalary(2000) .setAddress("shenzhen") .build(); // avro文件存放目录 String path = "G:\\2020干货\\avro\\user.avro"; // 创建write对象[创建一个写入器] DatumWriter userDatumWriter = new SpecificDatumWriter(User.class); // 写入文件[创建一个数据文件写入器,对写入器进行包装] DataFileWriter dataFileWriter = new DataFileWriter(userDatumWriter); // 串行化数据到磁盘[schema 就是我们写的模式文件经过转义后的内容] dataFileWriter.create(user1.getSchema(), new File(path)); // 把生成的user对象写入到avro文件 dataFileWriter.append(user1); dataFileWriter.append(user2); dataFileWriter.append(user3); // 关闭流 dataFileWriter.close(); }
查看产生的序列化存储文件user.avro

Objavro.schemaÈ{“type”:“record”,“name”:“User”,“namespace”:“com.czxy.hdfs.avro”,“fields”:[{“name”:“name”,“type”:“string”},{“name”:“id”,“type”:“int”},{“name”:“salary”,“type”:“int”},{“name”:“age”,“type”:“int”},{“name”:“address”,“type”:“string”}]} ûGú½1r ğj=C«òŠ6xzhangsanĞ(beijingwangwuĞ&guangzhoulisi *shenzhenûGú½1r ğj=C«òŠ6
反序列化 /** * 使用编译的方式,实现avro的反序列化 * @throws Exception */ @Test void show02() throws Exception { DatumReader reader = new SpecificDatumReader(User.class); DataFileReader dataFileReader = new DataFileReader(new File("G:\\2020干货\\avro\\user.avro"),reader); User user = null; // 此处采用迭代器遍历 while (dataFileReader.hasNext()){ user= dataFileReader.next(); System.out.println(user); } // 关闭流 dataFileReader.close(); }
控制台打印结果:

方法2 不使用编译的方式
        无需通过Schema生成java代码，开发者需要在运行时指定Schema。
序列化 /** * 直接使用schema文件进行写,不需要编译 */ @Test void show03() throws Exception { // 指定定义的avsc文件[加载] Schema schema = new Schema.Parser().parse(new File("G:\\2020干货\\avro\\User.avsc")); // 创建GenericRecord,相当于 User1 GenericRecord user1 = new GenericData.Record(schema); // 设置javabean的属性 user1.put("name","zhaoliu"); user1.put("id",1); user1.put("salary",3000); user1.put("age",18); user1.put("address","shanghai"); GenericRecord user2 = new GenericData.Record(schema); // 设置javabean的属性 user2.put("id",2); user2.put("name","maqi"); user2.put("salary",3000); user2.put("age",28); user2.put("address","nanjing"); // 数据写入 DatumWriter datumWriter = new SpecificDatumWriter(schema); DataFileWriter userfileWrite = new DataFileWriter(datumWriter); userfileWrite.create(schema,new File("G:\\2020干货\\avro\\user2.avro")); userfileWrite.append(user1); userfileWrite.append(user2); // 关闭流 userfileWrite.close(); }
生成的user2.avro文件

Objavro.schemaÈ{“type”:“record”,“name”:“User”,“namespace”:“com.czxy.hdfs.avro”,“fields”:[{“name”:“name”,“type”:“string”},{“name”:“id”,“type”:“int”},{“name”:“salary”,“type”:“int”},{“name”:“age”,“type”:“int”},{“name”:“address”,“type”:“string”}]} ySÇ²×iJhÍ sZåîLzhaoliuð.$shanghaimaqið.8nanjingySÇ²×iJhÍ sZåî
反序列化 /** * 直接使用schema文件进行读,不需要编译 * 反串行化avro数据 * @throws Exception */ @Test void show04() throws Exception{ // 指定定义的avsc文件 Schema schema = new Schema.Parser().parse(new File("G:\\2020干货\\avro\\User.avsc")); DatumReader r1 = new SpecificDatumReader(schema); DataFileReader r2 = new DataFileReader(new File("G:\\2020干货\\avro\\user2.avro"),r1); // 创建GenericRecord,相当于 User1 GenericRecord user = null; while (r2.hasNext()){ user = (GenericRecord) r2.next(); System.out.println(user); } }
控制台打印结果:

        基于上述的内容，我们基本了解了avro的核心特性，以及如何使用avro实现简单的案例。本次的分享就到这里，受益的小伙伴或对大数据技术感兴趣的朋友不妨关注一下( • ̀ω•́ )✧

作者：Alice菌

串行化系统 hadoop

类型	描述	模式示例
null	空值	“null”
boolean	二进制值	“boolean”
int	32位带符号整数	“int”
long	64位带符号整数	“long”
float	单精度(32位)IEEE754 浮点数	“float”
double	双精度(64位)IEEE754 浮点数	“double”
bytes	8位无符号字节序列	“bytes”
string	Unicode字符序列	“string”

1024 个赞

编辑举报

需要登录后方可回复, 如果你还没有账号请注册新账号

相关文章

SQL NOW() 函数

Wilma 2020-11-12

810

最常用的HTML转义字符 Escape Sequence

Chynna 2021-04-13

688

Python如何使用函数做字典的值

Clementine 2020-11-28

693

QT实战之实现图片浏览系统

Tricia 2023-04-26

1370

基于C语言编写简易的英文统计和加密系统

Kathy 2023-05-06

1899

如何设计一个几十万在线用户弹幕系统需求方案

Elita 2023-05-09

775

Windows10系统中Oracle完全卸载正确步骤

Tia 2023-05-12

1738

浅谈Linux环境变量与系统编程

Damara 2023-05-12

577

Flutter SystemChrome控制应用程序的系统级别行为

Rosalia 2023-05-12

945

JankMan-极致的卡顿分析系统

Rhea 2023-05-12

863

Android媒体通知栏多系统适配实例讲解

Katherine 2023-05-12

336

理解ASP.NETCore配置系统

Diane 2023-05-13

333

利用C++实现计算机辅助教学系统

Chipo 2023-05-13

646

初学者如何快速搭建Express开发系统步骤详解

Fawn 2023-05-17

317

java获取和设置系统变量问题(环境变量)

Ilona 2023-06-08

936

PostgreSQL数据库管理系统快速入门

Oria 2023-07-17

1096

一文透彻详解.NET框架类型系统设计要点

Malina 2023-07-20

848

Oracle数据库的系统结构

Iria 2023-07-20

1494

iOS开发APP跳转到设置或系统页面详解

Bianca 2023-07-20

150

c语言实现通讯录管理系统详细实例

Jacuqeline 2023-07-20

446

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。
软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座