- 博客(6)
- 收藏
- 关注
原创 自实现train_test_split
train_test_split 对于数据处理是非常重要的,对于建立模型时验证模型得准确性是非常重要的。不过实现起来还是非常简单的。话的不说了,上代码。import numpy as npfrom sklearn.datasets import load_irisdef myself_split(test_ratio,X,Y): # X表示特征值,Y表示目标值 # 自实...
2019-07-15 19:49:44
628
原创 Python 爬取微信公众号文章
获取任何你想爬取的微信公众号文章本程序通过输入关键字(如CSDN)就会获取到所有包含关键字(如CSDN)的公众号。在逐一获取所有公众号下所有文章。当然,这只是理想情况,腾讯的反爬不是一般的厉害,他会直接封掉你的账号。而每个账号又直接和微信号挂钩,所以目前我还不知道如何解决。是什么地方和微信号挂钩呢,在登录公众号的时候需要用微信扫描二维码登录。如果持续爬取,每个账号一次大概会封一个小时左右,每天...
2019-07-10 21:21:53
1879
4
原创 自实现KNN算法
自实现KNN算法:KNN原理:由你的"邻居"来推断出你的类别定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。两个样本的距离可以通过如下公式计算,又叫欧式距离比如说,a(a1,a2,a3),b(b1,b2,b3)公式-欧式距离:√((
2019-07-10 20:04:38
504
原创 Python爬虫整站爬取安居客新房房源数据
对安居客新房房源进行整站爬取,全国所有城市的新房数据。获取数据字段也主要集中在第一个页面,并未进行二层页面的挖掘在持续爬取过程中,会出现验证码的过程,不过它的验证码还是比较友好的,只需要在浏览器拖动图片就行,代码又能重新运行了。整个爬取过程中我只拖动了两次。所以安居客是算非常友好的网站了,当然上述问题也可以使用代理IP解决。接下来还可以做的,加上代理IP,加上多线程,进行二级页面的进一步...
2019-07-09 13:19:29
4813
6
原创 python爬虫 爬取安居客北京新房的所有房源数据
python code经过url 的改变就能获取到其他城市的所有数据一次性获取所有城市的数据,还需要在分析分析房源的信息获取的也不多,还可以进一步完善安居客还算比较友好的网站,几乎没有什么反爬措施,当然也可能和我爬的数据较少有关网站结构也很简单,几乎都是静态页面,很容易爬取"""安居客爬取房源数据""""""北京:url = https://bj.fang.anjuke.c...
2019-07-09 10:48:23
1367
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人