爬虫
文章平均质量分 84
koishi70
cs
展开
-
豆瓣电影top250下的评论爬取
近日想要试试文本分类的小demo,需要有足够大量的好评差评数据,在研究了一些点评网站后,我选择了豆瓣电影top250豆瓣电影TOP250,这个网上的评价质量高,而且网页结构清晰明显,好爬取。美中不足的是每个电影的评价(好评以及差评)只能爬取各前200条,并且爬了太多(估计是访问100页左右)之后就封IP,一天后解封。后来换了手机提供的WLAN热点之后就再也没有封得掉我,不知道其中是什么原理...原创 2018-03-21 19:42:13 · 5010 阅读 · 4 评论 -
yande.re 爬虫 自动爬取网站上的图片
最近想要自动下载一些東方project同人图,看了看几家同人图网站,最后想先拿yande.re试手,不用登陆,页面上也没有乱七八糟的广告混淆视听,而且图片普遍质量很高,以下是代码: 如果有想用的,直接修改tag,文件保存路径,页数就可以直接用了import urllibimport urllib.requestimport reimport timeimport osdef...原创 2018-03-23 00:02:44 · 23990 阅读 · 2 评论