前言
疫情即将散去,又到了求职季。学习Python的各位该如何选择自己的职业方向,算法工程师还是数据分析师?跟随本文一起看看吧!
01 数据获取与处理
本次样本数据采集于拉勾网,因为本文的重点是招聘数据分析,而在之前的文章中我们讲解过很多次如何使用requests爬取网页数据,这里就不再赘述,来看下爬取网站部分代码
url_html = 'https://www.lagou.com/jobs/list_' + job_position + '?labelWords=&fromSearch=true&suginput='
params = {
'city': job_address,
'first': 'true' if i == 1 else 'false',
'pn': i,
'kd': job_position}
# 创建一个session对象
s = requests.Session()
# 发送请求,获得cookies
s.get(url_html, headers=headers, data=params, timeout=4)
cookie = s.cookies
res = s.post(url_request, data=params, headers=headers, cookies=cookie, timeout=4) # 注意分析网页数据获取格式
res.encoding = res.apparent_encoding
text = json.loads(res.text)
本文在拉勾网招聘信息中选择北京、上海、广州、深圳、杭州这五个城市下分别以数据分析师、算法工程师为筛选条件来采集样本,采集到的原始数据如下
当然我们在进行数据分析时不需要图中这么多变量,因此对数据进行清洗后最终样本数量为1979条,并选择以下几个变量进行分析
02 薪资水平
我们首先来看下数据分析师与算法工程师的薪资水平密度分布图,绘制出这两个岗位的薪资分布密度图并标记出薪资的均值(图中虚线)