爬虫
姬小野
这个作者很懒,什么都没留下…
展开
-
如何用爬虫爬去一张图片
这次是一只简单的爬虫, 代码只有五行, 目的是爬去一张网页上的图片先展示代码吧import urllib.requestr = urllib.request.urlopen('http://image.samanlehua.com/mh/25933.jpg')r = r.read()with open('picture.jpg', 'wb') as f: f.write(r...原创 2018-08-01 15:54:56 · 5787 阅读 · 2 评论 -
Python爬虫爬取猫眼电影排行
本博客介绍使用爬虫爬取猫眼电影最受期待榜单先看main函数代码, 这个函数用来获取一个页面上的榜单信息, 我们大致了解一下爬虫程序的框架def main(offset): url = 'http://maoyan.com/board/6?offset=' + str(offset) html = getHtml(url) info = getRank(html) ...原创 2018-08-02 11:25:04 · 1445 阅读 · 0 评论 -
python3爬虫+php+mysql简单应用
文章目录简介步骤1、用python写简单爬虫获取电影评分,并将评分写入到数据库中2、终端数据库操作实例3、php读取MySQL数据,并显示如图,测试成功(略丑。。。)简介做一个结合python3+php+mysql的简单应用,实现python爬取一部电影的豆瓣评分,我选取的是看不见的客人 Il testimone invisibile (2018),目前的评分是9.0分。步骤1、首先用p...原创 2019-05-04 12:01:50 · 1254 阅读 · 0 评论 -
scrapy初学习--爬取豆瓣新片榜
文章目录爬取豆瓣榜单遇到403错误效果代码爬取豆瓣榜单遇到403错误如图解决方法:在setting.py中添加user agentUSER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'爬取成功...原创 2019-06-19 19:01:34 · 343 阅读 · 0 评论 -
scrapy初学习--爬取自己csdn博客全部的文章链接
爬取自己csdn博客全部的文章链接首先观察自己文章目录列表的url可以很方便地构造出全部的目录url, 每个url中有20个博客文章然后根据这些url分析源代码, 找出唯一标示元素的信息.但我发现一个问题有一篇不是我的文章也在源代码里面. 分析发现, 他的标示和我的有点不一样, 加了个style属性. 所以在css选择的时候要稍小心, 不要让它乱入了.将其写入到文件. 用追加写的...原创 2019-06-20 13:13:43 · 424 阅读 · 0 评论 -
Scrapy+Selenium关键字豆瓣读书评论爬取
文章目录思路1. 根据关键字构造豆瓣搜索url, 根据结果获取书的id2. 根据id, 构造该书评论的url链接3. 爬取网页内容, 并构造下一页url4. 重复步骤3, 反复爬取过程1. 页面爬取测试2. 使用selenium工具获取id3. 将selenium集成到scrapy中4. 爬取结果5. 阶段性spider代码ip异常问题1. 给selenium添加代理2. 给scrapy添加代理3...原创 2019-06-27 13:26:26 · 1382 阅读 · 0 评论