直方图,又称质量分布图,是一种统计报告图,由一系列高度不等的纵条或线段表示数据分布情况。用横轴表示数据类型,纵轴表示分布情况。直方图是数值数据分布的精确图形表示。绘制连续性的数据,展示一组或多组数据的分布状况。
直方图的绘制和条形图有些相似,需要把plt.bar()修改成plt.hist(),更改图形的拟合方式,即可绘制直方图。例如你获取到了250部电影的数量,他们的时长都在80-140分钟,如何呈现电影的时长分布情况呢?
老规矩,上代码:
'''
组数=极差/组距
'''
from matplotlib import pyplot as plt
from matplotlib import font_manager
import random
a = [random.randint(80,140) for i in range(250)]
print(a)
print(max(a)-min(a))
# 计算组数
d = 3 # 组距
num_bins = (max(a)-min(a))//d
# 设置图形大小
plt.figure(figsize=(20, 8), dpi=80)
plt.hist(a, num_bins)
# 设置x轴刻度
plt.xticks(range(min(a), max(a)+d, d))
# 设置网格
plt.grid(alpha=0.4)
plt.show()
运行结果如下图:
程序分析:通过随机数random.randint()生成250个80-140的随机整数,代表250部电影的时长。然后要把时间段分成组,设置组距d为3,那么(max-min)//d即为分成的组数,然后通过plt.hist()对组数和数据进行拟合。设置x刻度时,因为range含头不含尾,所以最后截止的位置要加一个组距d,才能显示完全。可以看出,这个数字直方图可以显示每个电影时长在每个时段占得数目。那么问题又来了,如果想要知道在每个时段占总时段的比例呢,也就是频率分布直方图?
so easy! 只需要在plt.hist()里面设置参数density=True实现数量的频率化,其余不变。
代码如下:
'''
组数=极差/组距
'''
from matplotlib import pyplot as plt
from matplotlib import font_manager
import random
a = [random.randint(80,140) for i in range(250)]
print(a)
print(max(a)-min(a))
# 计算组数
d = 3 # 组数
num_bins = (max(a)-min(a))//d
# 设置图形大小
plt.figure(figsize=(20,8),dpi=80)
plt.hist(a,num_bins,density=True) # 使用density实现频率化
# 设置x轴刻度
plt.xticks(range(min(a),max(a)+d,d))
# 设置网格
plt.grid(alpha=0.4)
plt.show()
运行结果:
显而易见,每个时段的数目变成了总体的占比,也就是频率,很好的达到了想要的效果。
那如果要自己设置数据自己设置x轴的距离,对x轴的刻度不均匀划分呢?
上代码:
# coding=utf-8
from matplotlib import pyplot as plt
from matplotlib import font_manager
interval = [0,5,10,15,20,25,30,35,40,45,60,90,150]
width = [5,5,5,5,5,5,5,5,5,15,30,60]
quantity = [836,2737,3723,3926,3596,1438,3273,642,824,613,215,47]
plt.figure(figsize=(20,8),dpi=80)
plt.bar(range(len(quantity)),quantity,width=1)
# 设置x轴刻度
_x = [i-0.5 for i in range(13)]
plt.xticks(_x, interval)
plt.grid(alpha=0.8)
plt.show()
运行结果如下图:
可以看出来,很简单,只需要把x轴对应的数据设置好,把对应x轴的刻度设置好,进行数据匹配即可。一定要注意,分配的组数和数据个数匹配问题。
总结:这篇文章总的讲述了一下绘制频数直方图和频率直方图的绘制方法,通过图像进行比较,发现各个直方图的优缺点,以便在工程中进行运用。