大数据学习（八）：mapreduce编程案例-计算每个手机号访问网站请求流量、相应流量和流量总和根据手机号判断省份进行分类

Hedva ·

更新时间:2024-11-13

· 810 次阅读

数据类型

数据顺序依次为:时间戳、手机号、mark地址、ip地址、访问地址、网站类型、请求时间、响应时间、请求流量、响应流量、状态


1363157985066 	13726230503	00-FD-07-A4-72-B8:CMCC	120.196.100.82	i02.c.aliimg.com		24	27	2481	24681	200
1363157995052 	13826544101	5C-0E-8B-C7-F1-E0:CMCC	120.197.40.4			4	0	264	0	200
1363157991076 	13926435656	20-10-7A-28-CC-0A:CMCC	120.196.100.99			2	4	132	1512	200
1363154400022 	13926251106	5C-0E-8B-8B-B1-50:CMCC	120.197.40.4			4	0	240	0	200
1363157993044 	18211575961	94-71-AC-CD-E6-18:CMCC-EASY	120.196.100.99	iface.qiyi.com	视频网站	15	12	1527	2106	200
1363157995074 	84138413	5C-0E-8B-8C-E8-20:7DaysInn	120.197.40.4	122.72.52.12		20	16	4116	1432	200
1363157993055 	13560439658	C4-17-FE-BA-DE-D9:CMCC	120.196.100.99			18	15	1116	954	200
1363157995033 	15920133257	5C-0E-8B-C7-BA-20:CMCC	120.197.40.4	sug.so.360.cn	信息安全	20	20	3156	2936	200
1363157983019 	13719199419	68-A1-B7-03-07-B1:CMCC-EASY	120.196.100.82			4	0	240	0	200
1363157984041 	13660577991	5C-0E-8B-92-5C-20:CMCC-EASY	120.197.40.4	s19.cnzz.com	站点统计	24	9	6960	690	200
1363157973098 	15013685858	5C-0E-8B-C7-F7-90:CMCC	120.197.40.4	rank.ie.sogou.com	搜索引擎	28	27	3659	3538	200
1363157986029 	15989002119	E8-99-C4-4E-93-E0:CMCC-EASY	120.196.100.99	www.umeng.com	站点统计	3	3	1938	180	200
1363157992093 	13560439658	C4-17-FE-BA-DE-D9:CMCC	120.196.100.99			15	9	918	4938	200
1363157986041 	13480253104	5C-0E-8B-C7-FC-80:CMCC-EASY	120.197.40.4			3	3	180	180	200
1363157984040 	13602846565	5C-0E-8B-8B-B6-00:CMCC	120.197.40.4	2052.flash2-http.qq.com	综合门户	15	12	1938	2910	200
1363157995093 	13922314466	00-FD-07-A2-EC-BA:CMCC	120.196.100.82	img.qfc.cn		12	12	3008	3720	200
1363157982040 	13502468823	5C-0A-5B-6A-0B-D4:CMCC-EASY	120.196.100.99	y0.ifengimg.com	综合门户	57	102	7335	110349	200
1363157986072 	18320173382	84-25-DB-4F-10-1A:CMCC-EASY	120.196.100.99	input.shouji.sogou.com	搜索引擎	21	18	9531	2412	200
1363157990043 	13925057413	00-1F-64-E1-E6-9A:CMCC	120.196.100.55	t3.baidu.com	搜索引擎	69	63	11058	48243	200
1363157988072 	13760778710	00-FD-07-A4-7B-08:CMCC	120.196.100.82			2	2	120	120	200
1363157985066 	13726238888	00-FD-07-A4-72-B8:CMCC	120.196.100.82	i02.c.aliimg.com		24	27	2481	24681	200
1363157993055 	13560436666	C4-17-FE-BA-DE-D9:CMCC	120.196.100.99			18	15	1116	954	200

自定义数据类型如何实现hadoop的序列化接口？

1、实现Writable接口
2、保留空参构造函数
3、write方法中输出字段二进制数据的顺序要与readFields方法读取数据的顺序一致

package com.bigdata.mapreduce.flow;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import org.apache.hadoop.io.Writable;
/**
 * 自定义数据类型如何实现hadoop的序列化接口
 * 1、实现Writable接口
 * 2、保留空参构造函数
 * 3、write方法中输出字段二进制数据的顺序要与readFields方法读取数据的顺序一致
 * @author 90669
 *
 */
public class FlowBean implements Writable{
	//请求流量
	private int upFlow;
	//响应流量
	private int dFlow;
	//电话
	private String phone;
	//总流量
	private int amountFlow;
	public FlowBean(){}
	public FlowBean(String phone, int upFlow, int dFlow) {
		this.phone = phone;
		this.upFlow = upFlow;
		this.dFlow = dFlow;
		this.amountFlow = upFlow + dFlow;
	}
	public String getPhone() {
		return phone;
	}
	public void setPhone(String phone) {
		this.phone = phone;
	}
	public int getUpFlow() {
		return upFlow;
	}
	public void setUpFlow(int upFlow) {
		this.upFlow = upFlow;
	}
	public int getdFlow() {
		return dFlow;
	}
	public void setdFlow(int dFlow) {
		this.dFlow = dFlow;
	}
	public int getAmountFlow() {
		return amountFlow;
	}
	public void setAmountFlow(int amountFlow) {
		this.amountFlow = amountFlow;
	}
	/**
	 * hadoop系统在序列化该类的对象时要调用的方法
	 */
	@Override
	public void write(DataOutput out) throws IOException {
		out.writeInt(upFlow);
		out.writeUTF(phone);
		out.writeInt(dFlow);
		out.writeInt(amountFlow);
	}
	/**
	 * hadoop系统在反序列化该类的对象时要调用的方法
	 */
	@Override
	public void readFields(DataInput in) throws IOException {
		this.upFlow = in.readInt();
		this.phone = in.readUTF();
		this.dFlow = in.readInt();
		this.amountFlow = in.readInt();
	}
	@Override
	public String toString() {
		return this.phone + ","+this.upFlow +","+ this.dFlow +"," + this.amountFlow;
	}
}

package com.bigdata.mapreduce.flow;
import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
public class FlowCountMapper extends Mapper {
	@Override
	protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
		String line = value.toString();
		String[] fields = line.split("\t");
		// 电话
		String phone = fields[1];
		int upFlow = Integer.parseInt(fields[fields.length - 3]);
		int dFlow = Integer.parseInt(fields[fields.length - 2]);
		context.write(new Text(phone), new FlowBean(phone, upFlow, dFlow));
	}
}

package com.bigdata.mapreduce.flow;
import java.io.IOException;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
public class FlowCountReducer extends Reducer{
	@Override
	protected void reduce(Text key, Iterable values, Context context)
			throws IOException, InterruptedException {
		int upSum = 0;
		int dSum = 0;
		for (FlowBean flowBean : values) {
			upSum+=flowBean.getUpFlow();
			dSum+=flowBean.getdFlow();
		}
		context.write(new Text(key), new FlowBean(key.toString(),upSum,dSum));
	}
}

package com.bigdata.mapreduce.flow;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.Job;
public class JobSubmitter {
	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf);
		job.setJarByClass(JobSubmitter.class);
		job.setMapperClass(FlowCountMapper.class);
		job.setReducerClass(FlowCountReducer.class);
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(FlowBean.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(FlowBean.class);
		FileInputFormat.setInputPaths(job, new Path("D:\\mrdata\\flow\\input"));
		FileOutputFormat.setOutputPath(job, new Path("D:\\mrdata\\flow\\output"));
		job.waitForCompletion(true);
	}
}

运算结果

13480253104	13480253104,180,180,360
13502468823	13502468823,7335,110349,117684
13560436666	13560436666,1116,954,2070
13560439658	13560439658,2034,5892,7926
13602846565	13602846565,1938,2910,4848
13660577991	13660577991,6960,690,7650
13719199419	13719199419,240,0,240
13726230503	13726230503,2481,24681,27162
13726238888	13726238888,2481,24681,27162
13760778710	13760778710,120,120,240
13826544101	13826544101,264,0,264
13922314466	13922314466,3008,3720,6728
13925057413	13925057413,11058,48243,59301
13926251106	13926251106,240,0,240
13926435656	13926435656,132,1512,1644
15013685858	15013685858,3659,3538,7197
15920133257	15920133257,3156,2936,6092
15989002119	15989002119,1938,180,2118
18211575961	18211575961,1527,2106,3633
18320173382	18320173382,9531,2412,11943
84138413	84138413,4116,1432,5548

案例:根据手机号判断省并进行分组

package com.bigdata.mapreduce.flow;
import java.util.HashMap;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;
/**
 * 本类是提供给MapTask用的
 * MapTask通过这个类的getPartition方法，来计算它所产生的每一对kv数据该分发给哪一个reduce task
 * @author ThinkPad
 *
 */
public class ProvincePartitioner extends Partitioner{
	static HashMap codeMap = new HashMap();
	static{
		codeMap.put("135", 0);
		codeMap.put("136", 1);
		codeMap.put("137", 2);
		codeMap.put("138", 3);
		codeMap.put("139", 4);
	}
	@Override
	public int getPartition(Text key, FlowBean value, int numPartitions) {
		//获取手机号前三位进行比对进行分类
		Integer code = codeMap.get(key.toString().substring(0, 3));
		return code==null?5:code;
	}
}

package com.bigdata.mapreduce.flow;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.Job;
public class JobSubmitter {
	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf);
		job.setJarByClass(JobSubmitter.class);
		job.setMapperClass(FlowCountMapper.class);
		job.setReducerClass(FlowCountReducer.class);
		// 设置参数：maptask在做数据分区时，用哪个分区逻辑类 （如果不指定，它会用默认的HashPartitioner）
		job.setPartitionerClass(ProvincePartitioner.class);
		// 由于我们的ProvincePartitioner可能会产生6种分区号，所以，需要有6个reduce task来接收
		job.setNumReduceTasks(6);
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(FlowBean.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(FlowBean.class);
		FileInputFormat.setInputPaths(job, new Path("D:\\mrdata\\flow\\input"));
		FileOutputFormat.setOutputPath(job, new Path("D:\\mrdata\\flow\\province-output"));
		job.waitForCompletion(true);
	}
}

输出结果

13502468823	13502468823,7335,110349,117684
13560436666	13560436666,1116,954,2070
13560439658	13560439658,2034,5892,7926

作者：qq_33252988

省份数据学习分类 mapreduce 流量手机大数据

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

CSS 选择器

Liana 2021-05-05

548

JavaScript break 和 continue 语句

Diana 2020-03-31

610

jQuery - 设置内容和属性

Kate 2021-07-27

915

利用Asp.Net Core的MiddleWare思想如何处理复杂业务流程详解

Radinka 2020-03-16

585

Asp.Net使用服务器控件Image/ImageButton显示本地图片的方法

Mathilda 2020-07-07

845

Shell中去除字符串前后空格的方法

Iris 2021-08-03

567

详解css栅格系统在项目中的灵活运用

Ursula 2020-04-01

908

CSS3的文字阴影—text-shadow的使用方法

Vevina 2020-11-08

798

数据结构之带头结点的单链表

Grizelda 2023-07-20

1827

C++各种输出数据类型详解

Janna 2023-07-20

623

Linux signal()函数的使用学习

Fawn 2023-07-21

785

Golang基于Vault实现敏感数据加解密

Ophelia 2023-07-21

1848

用Python进行数据清洗以及值处理

Crystal 2023-07-21

283

Python常用的数据清洗方法详解

Laila 2023-07-21

1301

Python multiprocessing.value实现多进程数据共享的示例

Aine 2023-07-21

1131

深入探究python中Pandas库处理缺失数据和数据聚合

Bliss 2023-07-21

191

Python中Pandas库的数据处理与分析

Lillian 2023-07-21

155

pandas删除重复数据简单方法

Tertia 2023-07-21

311

详解C#如何将枚举以下拉数据源的形式返回给前端

Olive 2023-07-21

797

Flutter中跨组件数据传递的方法总结

Angie 2023-07-21

906

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座