empty_town-CSDN博客

原创自实现train_test_split

train_test_split 对于数据处理是非常重要的，对于建立模型时验证模型得准确性是非常重要的。不过实现起来还是非常简单的。话的不说了，上代码。import numpy as npfrom sklearn.datasets import load_irisdef myself_split(test_ratio,X,Y): # X表示特征值，Y表示目标值 # 自实...

2019-07-15 19:49:44 777

获取任何你想爬取的微信公众号文章本程序通过输入关键字（如CSDN）就会获取到所有包含关键字(如CSDN)的公众号。在逐一获取所有公众号下所有文章。当然，这只是理想情况，腾讯的反爬不是一般的厉害，他会直接封掉你的账号。而每个账号又直接和微信号挂钩，所以目前我还不知道如何解决。是什么地方和微信号挂钩呢，在登录公众号的时候需要用微信扫描二维码登录。如果持续爬取，每个账号一次大概会封一个小时左右，每天...

2019-07-10 21:21:53 2235 4

原创自实现KNN算法

自实现KNN算法：KNN原理：由你的"邻居"来推断出你的类别定义：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。两个样本的距离可以通过如下公式计算，又叫欧式距离比如说，a(a1,a2,a3),b(b1,b2,b3)公式-欧式距离：√((

2019-07-10 20:04:38 604

原创 Python爬虫整站爬取安居客新房房源数据

对安居客新房房源进行整站爬取，全国所有城市的新房数据。获取数据字段也主要集中在第一个页面，并未进行二层页面的挖掘在持续爬取过程中，会出现验证码的过程，不过它的验证码还是比较友好的，只需要在浏览器拖动图片就行，代码又能重新运行了。整个爬取过程中我只拖动了两次。所以安居客是算非常友好的网站了，当然上述问题也可以使用代理IP解决。接下来还可以做的，加上代理IP，加上多线程，进行二级页面的进一步...

2019-07-09 13:19:29 5315 6

原创 python爬虫爬取安居客北京新房的所有房源数据

python code经过url 的改变就能获取到其他城市的所有数据一次性获取所有城市的数据，还需要在分析分析房源的信息获取的也不多，还可以进一步完善安居客还算比较友好的网站，几乎没有什么反爬措施，当然也可能和我爬的数据较少有关网站结构也很简单，几乎都是静态页面，很容易爬取"""安居客爬取房源数据""""""北京：url = https://bj.fang.anjuke.c...

2019-07-09 10:48:23 1529 1

原创 python爬取中国新闻网滚动新闻栏的所有新闻（未完整实现）

发士大夫

2019-07-08 23:09:09 1115 1

weixin_44530636的博客

原创自实现train_test_split

原创 Python 爬取微信公众号文章

原创自实现KNN算法

原创 Python爬虫整站爬取安居客新房房源数据

原创 python爬虫爬取安居客北京新房的所有房源数据

原创 python爬取中国新闻网滚动新闻栏的所有新闻（未完整实现）

空空如也

空空如也

原创 自实现train_test_split

原创 Python 爬取微信公众号文章

原创 自实现KNN算法

原创 Python爬虫整站爬取安居客新房房源数据

原创 python爬虫 爬取安居客北京新房的所有房源数据

原创 python爬取中国新闻网滚动新闻栏的所有新闻（未完整实现）

空空如也

空空如也

原创自实现train_test_split

原创自实现KNN算法

原创 python爬虫爬取安居客北京新房的所有房源数据