自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 自实现train_test_split

train_test_split 对于数据处理是非常重要的,对于建立模型时验证模型得准确性是非常重要的。不过实现起来还是非常简单的。话的不说了,上代码。import numpy as npfrom sklearn.datasets import load_irisdef myself_split(test_ratio,X,Y): # X表示特征值,Y表示目标值 # 自实...

2019-07-15 19:49:44 628

原创 Python 爬取微信公众号文章

获取任何你想爬取的微信公众号文章本程序通过输入关键字(如CSDN)就会获取到所有包含关键字(如CSDN)的公众号。在逐一获取所有公众号下所有文章。当然,这只是理想情况,腾讯的反爬不是一般的厉害,他会直接封掉你的账号。而每个账号又直接和微信号挂钩,所以目前我还不知道如何解决。是什么地方和微信号挂钩呢,在登录公众号的时候需要用微信扫描二维码登录。如果持续爬取,每个账号一次大概会封一个小时左右,每天...

2019-07-10 21:21:53 1879 4

原创 自实现KNN算法

自实现KNN算法:KNN原理:由你的"邻居"来推断出你的类别定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。两个样本的距离可以通过如下公式计算,又叫欧式距离比如说,a(a1,a2,a3),b(b1,b2,b3)公式-欧式距离:√((

2019-07-10 20:04:38 503

原创 Python爬虫整站爬取安居客新房房源数据

对安居客新房房源进行整站爬取,全国所有城市的新房数据。获取数据字段也主要集中在第一个页面,并未进行二层页面的挖掘在持续爬取过程中,会出现验证码的过程,不过它的验证码还是比较友好的,只需要在浏览器拖动图片就行,代码又能重新运行了。整个爬取过程中我只拖动了两次。所以安居客是算非常友好的网站了,当然上述问题也可以使用代理IP解决。接下来还可以做的,加上代理IP,加上多线程,进行二级页面的进一步...

2019-07-09 13:19:29 4813 6

原创 python爬虫 爬取安居客北京新房的所有房源数据

python code经过url 的改变就能获取到其他城市的所有数据一次性获取所有城市的数据,还需要在分析分析房源的信息获取的也不多,还可以进一步完善安居客还算比较友好的网站,几乎没有什么反爬措施,当然也可能和我爬的数据较少有关网站结构也很简单,几乎都是静态页面,很容易爬取"""安居客爬取房源数据""""""北京:url = https://bj.fang.anjuke.c...

2019-07-09 10:48:23 1367 1

原创 python爬取中国新闻网滚动新闻栏的所有新闻(未完整实现)

发士大夫

2019-07-08 23:09:09 941 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除