- 博客(4)
- 收藏
- 关注
原创 两种方式对boss直聘招聘岗位的爬取
上次留了个坑,采取两种方式对需要爬取的网站进行数据抓取。首先使用selenium+chromedriver进行抓取,这种方式速度慢,但是可以跳过各种反爬设置,并对各种反爬能够直接以网页的形式进行显示。因此我们可以采取这种方式进行测试,找到其中的反爬规则,然后采用通用爬虫进行爬取。今天下午闲着没事对boss直聘进行了测试one:selenium+chromedriver鉴于代码不长,就直接贴代码...
2019-05-14 22:31:04 4332 6
原创 DataFrame数据拼接合并的几种方式
pd.merge()merge 是融合的意思实例:a=pd.DataFrame({'a':[1,2,3],'b':[2,3,4]})b=pd.DataFrame({'a':[11,22,33],'c':[22,33,44]})c=pd.merge(a,b) cEmpty DataFrameColumns: [a, b, c]Index: []通过验证发现,a和b的同名列表...
2019-03-31 16:39:32 54170 5
原创 机器学习中的几种数据变换形式
最近在学习到特征工程时编码方式这一块让我迷惑,到底有几种编码方式,在什么情况下适用?参考了几位大佬的博客,加上自己的理解,总结一下,以备以后查看。one-hot编码:one-hot编码,又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。机器学习库在机器学习中常用于文本分类。缺点是只能对数据类型的字段分...
2019-03-31 14:05:50 2457 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人