请选择 进入手机版 | 继续访问电脑版
开启左侧

Python爬取历年招聘数据,告诉你如何成为优秀的数据分析工程师! ...

[复制链接]
依安时尚视听 发表于 2019-1-6 21:23:50 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...84 做者:依安时髦视听 帖子ID:5442





做者 | 法纳斯特责编 | 郭芮
比年去,数据阐发师的需供热度连续爬升,而且跟着数据代价的不竭发掘更加获得市场承认。一个脍炙人口的究竟是,数据阐发师、数据发掘工程师、以致于数据科教家城市有着较下的起薪,是止业公认的喷鼻饽饽。
本文中便经由过程对BOSS曲聘、推勾网数据阐发岗的数据停止阐发,理解数据阐发岗的止业状况,也以此去理解处置数据阐发所需求的妙技。




网页阐发



一开端我的假想是经由过程爬虫框架Pyspider停止数据获得。
讲原理,Pyspider的确是一款优良的爬虫框架,我们能够操纵它快速便利天完成页里抓与。不外带去便利性的同时,也有它的范围性,庞大页里欠好爬与。正在本次针对BOSS曲聘战推勾网的数据爬与中,前者胜利利用了Pyspider,但后者却不可,由于推勾网的数据是Ajax减载的。
也便是道,推勾网岗亭数据恳求的网址是稳定的,改动的是表单数据,表单数据跟着页数改动,恳求方法为POST,那里出法子正在Pyspider里用轮回遍向来获得每页的数据。或许是我对Pyspider框架理解的不敷,借达没有到驾轻就熟。以是最初推勾网的爬与,接纳平居的法子,正在PyCharm中自止编写法式。
1、获得BOSS曲聘索引页疑息:


Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...41 做者:依安时髦视听 帖子ID:5442





获得BOSS曲聘索引页疑息,次要是岗亭称号、薪资、所在、事情年限、教历请求,公司称号、范例、形态、范围。
原来一开端是念对详情页阐发的,借能够获得详情页里的事情内乱容战事情妙技需供。然后因为恳求太多,便抛却了。索引页有10页,1页有30个岗亭,一个详情页便需求一个恳求,算起去一共有300个恳求。
我是到了第2页(60个恳求),便呈现了会见过于频仍的正告。而只获得索引页疑息的话,只要10个恳求,根本上出甚么成绩,中减也没有念来饱捣代办署理IP,以是去面简朴的。
2、获得推勾网索引页疑息:


Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...36 做者:依安时髦视听 帖子ID:5442





获得推勾网索引页疑息,次要是岗亭称号、所在、薪资、事情年限、教历请求,公司称号、范例、形态、范围,事情妙技,事情祸利。
网页为Ajax恳求,我接纳PyCharm编写代码,驾轻就熟。




数据获得



1、Ppyspider获得BOSS曲聘数据
Pyspider的装置很简朴,间接正在号令止pip3 install pyspider便可。
那里由于之前出有装置Pyspider对接的PhantomJS(处置JavaScript衬着的页里),以是需求从网站下载下去它的exe文件,将其放进Python的exe文件地点的文件夹下。
最初正在号令止输进pyspider all,便可运转Pyspider。
正在阅读器翻开网址http://localhost:5000/,创立项目,增加项目称号,输进恳求网址,获得以下图:


Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...69 做者:依安时髦视听 帖子ID:5442





最初正在Pyspider的剧本编纂器里编写代码,分离右边的反应状况,对代码减以矫正。


Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...4 做者:依安时髦视听 帖子ID:5442





剧本编纂用具体代码以下:
Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...37 做者:依安时髦视听 帖子ID:5442



Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...19 做者:依安时髦视听 帖子ID:5442



Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...63 做者:依安时髦视听 帖子ID:5442



获得BOSS曲聘数据阐发岗数据以下:


Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...6 做者:依安时髦视听 帖子ID:5442





2、PyCharm获得推勾网数据
Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...35 做者:依安时髦视听 帖子ID:5442



Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...32 做者:依安时髦视听 帖子ID:5442



Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...19 做者:依安时髦视听 帖子ID:5442



获得推勾网数据阐发岗数据以下:


Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...72 做者:依安时髦视听 帖子ID:5442





那里的数据库系统皆是本人正在里面创立的,便没有揭代码细道了。




数据可视化



1、都会散布图


Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...46 做者:依安时髦视听 帖子ID:5442





Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...7 做者:依安时髦视听 帖子ID:5442





岗亭的散布状况,那里能够看出岗亭年夜多皆散布正在东部地域,中部也有一些。
2、都会散布热力争


Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...10 做者:依安时髦视听 帖子ID:5442





Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...0 做者:依安时髦视听 帖子ID:5442





京津冀、少三角、珠三角麋集度八两半斤,成皆重庆地域也有一些小需供。
能够道北上广深,那四个一线都会包办了年夜部门的岗亭需供。
3、事情经历薪火图


Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...52 做者:依安时髦视听 帖子ID:5442





Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...51 做者:依安时髦视听 帖子ID:5442





那里经由过程看箱形图的四分位及中心值,大抵能看出跟着事情年限的增加,薪资也是一起上降。
BOSS曲聘里,1年之内事情经历的薪资,有个最下4万多的,那必定是分歧理的。因而便来数据库系统看了下,实在谁人岗亭请求是3年以上,但实践给的标签倒是1年之内,以是道数据滥觞供给的数据的精确性很主要。
4、教历薪火图


Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...27 做者:依安时髦视听 帖子ID:5442





Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...53 做者:依安时髦视听 帖子ID:5442





总的来讲「硕士」>「本科」>「年夜专」,固然年夜专、本科中也有下薪火的。究竟结果越今后才能便越主要,教历算是一个主要的减分项。
5、公司形态薪火图


Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...30 做者:依安时髦视听 帖子ID:5442





Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...18 做者:依安时髦视听 帖子ID:5442





那里的数据出甚么特性,便当理解下那些观点。一个公司的开展,能够是从「天使轮」不断到「上市公司」,路途崎岖。
6、公司范围薪火图


Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...41 做者:依安时髦视听 帖子ID:5442





Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...34 做者:依安时髦视听 帖子ID:5442





一般来讲,公司范围越年夜,薪火该当会越下。究竟结果年夜厂的人为摆正在那边,念没有明白皆易。
不外那里出能表现出去差异,却是发明人数起码的公司,最下人为给的没有下,易没有成是早期缺钱?
7、公司范例TOP10


Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...23 做者:依安时髦视听 帖子ID:5442





Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...94 做者:依安时髦视听 帖子ID:5442





数据阐发岗次要集合正在互联网止业,「金融」、「天产」、「教诲」、「医疗」、「游戏」也有所触及,年夜部门岗亭需供皆集合第三财产上。
8、事情妙技图
那个算是本文的重面,那些妙技将会是往后进修的重面。


Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...29 做者:依安时髦视听 帖子ID:5442





数据发掘、SQL、BI、数据运营、SPSS、数据库系统、MySQL等等最主要。
9、事情祸利图


Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...31 做者:依安时髦视听 帖子ID:5442





那里能够看出年夜部门重面皆环绕着「五险一金」、「祸利多」、「团队气氛好」、「提升空间年夜」、「止业年夜牛发头」上。
如果哪家公司皆具有了,那几乎便是要上天。不外您我皆分明,那是没有存正在的,便算能够存正在,也只是他人家的公司罢了~




总结



最初揭两张BOSS曲聘和推勾网薪火TOP20,以此去做为鼓励。
1、BOSS曲聘薪火TOP20
Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...52 做者:依安时髦视听 帖子ID:5442





2、推勾网薪火TOP20


Python爬与积年雇用数据,报告您怎样成为优良的数据阐发工程师! ...2 做者:依安时髦视听 帖子ID:5442





究竟结果我们不克不及仅仅当条咸鱼,我们要当便当一只要胡想的咸鱼!!!
获得完好源码可面击:https://github.com/Tobby-star/JOB?files=1。
做者:法纳斯特,Python喜好者,专注爬虫,数据阐发及可视化。声明:本文尾收小我私家公家号法纳斯特,做者投稿,版权回其小我私家一切。



上一篇:一张图让你学会Python,学习Python的简单,小白的福利
下一篇:利用Python对QQ空间数据进行分析,对你的QQ好友有一个彻底的了解 ...
回复

使用道具 举报

精彩评论10

twxd 发表于 2019-1-6 21:40:12 | 显示全部楼层
支持一下Python爬取历年招聘数据,告诉你如何成为优秀的数据分析工程师! ...1 作者:twxd 帖子ID:5442
回复

使用道具 举报

dsadsadsasd 发表于 2019-1-6 21:40:18 | 显示全部楼层
路过,学习下
回复

使用道具 举报

hoei 发表于 2019-1-6 21:40:22 | 显示全部楼层
找到好贴不容易,我顶你了,谢了
回复

使用道具 举报

一条龙 发表于 2019-1-6 21:40:28 | 显示全部楼层
有竞争才有进步嘛
回复

使用道具 举报

5674152 发表于 2019-1-6 21:40:32 | 显示全部楼层
帮你顶下哈!!
回复

使用道具 举报

nestnall 发表于 2019-1-6 21:40:37 | 显示全部楼层
支持一下Python爬取历年招聘数据,告诉你如何成为优秀的数据分析工程师! ...74 作者:nestnall 帖子ID:5442
回复

使用道具 举报

dreamxyp@56.com 发表于 2019-1-6 21:40:41 | 显示全部楼层
找到好贴不容易,我顶你了,谢了
回复

使用道具 举报

qfwoshiyu 发表于 2019-1-6 21:40:45 | 显示全部楼层
路过,学习下
回复

使用道具 举报

闲不住a 发表于 2019-1-6 21:40:49 | 显示全部楼层
有竞争才有进步嘛
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注0

粉丝1

帖子205

发布主题
推荐阅读 更多
阅读排行 更多
广告位

技术技术

客服客服

投诉投诉

举报举报


联系邮箱:
jdyweb@163.com
微信扫一扫
关注“小白会计网”公众号
17621938886
周一至周五 9:00-18:00
意见反馈:jdyweb@163.com
关于我们

扫一扫关注我们

Powered by 筋斗云网络 X3.3© 2016-2018 Comsenz Inc. |appname