![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
Juno的学习日记
我们的人生不止如此。
展开
-
python爬取豆瓣正在上映的电影
爬取的目标网址:https://movie.douban.com/cinema/nowplaying/zhuhai/(后面这个珠海是表示的地点)使用的工具:Jupyter Notebook(5.4.7),python3.7.1使用的python库:requests、pyquery、pandas要爬取的网站长这个样子:先引入库import requestsfrom pyquer...原创 2019-05-19 11:09:03 · 1288 阅读 · 0 评论 -
多种方式爬取猫眼电影TOP100
最近开始学习爬虫,用的是崔庆才老师的教程,其中第一个实战就是爬取猫眼电影的TOP100,使用的是requests+re。但我觉得re有点复杂,于是探索了一下用其他解析库来爬取。爬取思路:首先我要爬取的网站为:https://maoyan.com/board/4?offset=,当翻到第二时网址变成了https://maoyan.com/board/4?offset=10,第三页网址时变成了ht...原创 2019-05-19 13:49:05 · 1739 阅读 · 0 评论 -
python爬取拉勾网的职位信息
爬取的网址为https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=使用pycharm+anaconda使用到的库:requests+time+json+pandas网页分析:当我们进入拉勾网,输入python搜索,查看源码时,发现居然没有这些职位的信息,而且翻页的时候发现网址...原创 2019-05-19 15:08:08 · 1030 阅读 · 1 评论 -
python爬取电影天堂
爬取的网址:http://www.ygdy8.net/html/gndy/dyzz/list_23_1.html使用的环境:pychram+anaconda5.4.7+python3.7.1使用的函数库:requests+pyquery+csv+time爬取思路:先在爬取的网址中得到电影详情页的网址,再访问详情页提取需要的信息。网站分析:关于翻页,网站第一页为http://www...原创 2019-05-19 16:42:24 · 2357 阅读 · 0 评论 -
为了斗图,爬一爬表情包
爬取的网址:http://www.doutula.com/photo/list/?page=本次主要是学习多线程爬虫,使用queue队列下的生产者与消费者模式。网站分析:这个网站的构造比较简单,直接在上面的网址后面加上1表示第一页,加上2表示第二页,以此类推。数据也都可以用requests直接访问到,没有什么反爬虫的措施,但是要爬的慢一点,太快了还是会出问题。我这里使用的多线程的方法,爬取...原创 2019-05-25 12:38:16 · 1289 阅读 · 0 评论 -
爬一爬百思不得姐上的搞笑图片
前两天看了一个爬百思不得姐上段子的视频,然后特意去百思不得姐网址看了一下,发现还有声音,就想爬一下声音这个一栏。使用的是我新学的多线程O(∩_∩)O,没想到居然掉进一个坑。这个网站的声音有十页,但是十页的内容都一毛一样,爬的时候看着我设置的提示信息,有点怀疑人生,比如一下出现5个“xxxxxx已经下载完成”,找了好久才发现是网站的问题。哎本着来都来了的心态,就再爬一下图片吧。网址:http://...原创 2019-05-25 13:04:36 · 653 阅读 · 0 评论 -
使用selenium爬取淘宝商品
爬取的页面是:“https://s.taobao.com/search?q=手机”,这个是淘宝搜索手机时候的网址。爬取的思路:使用selenium来模拟登陆淘宝,然后爬取这一页中商品的一些信息;爬取完以后,找到输入页面的输入框,依次输入下一页的页码,比如刚刚爬的是第一页,就输入2,再点击确定按钮,以此类推,就可以实现翻页的功能。其中需要多次使用WebDriverWait,来保证需要爬取的内容出...原创 2019-05-28 22:06:04 · 1563 阅读 · 0 评论 -
selenium爬百度图片
一开始学习爬虫的时候就想爬一下百度图片,但是怎么也爬不成功。学习了几天才知道,百度图片库中的图片也不是放在源代码里面的,用requests去直接去请求是拿不到的。最近几天学习了一下selenium,也趁着今天我的IP又被某网址封了,我也没有代理可以用,就拿百度图片来练一下,了却一下心愿。用selenium来爬百度图片就比较简单了,直接进入要爬取类型的图片的第一张详情页,获取源代码,找到图片的u...原创 2019-05-28 22:09:37 · 931 阅读 · 0 评论 -
selenium再爬百度图片
上次爬百度图片的时候本来是不想去详情页进行爬取的,而是想通过模拟下拉的方式进行爬取,但是一直没有成功。因为我的思路是下拉一点,爬取一点,这样很难把控。今天突然想到,可以一下全部下拉,等下拉到最下面的时候,开始进行爬取。具体代码如下,使用了运行js文件的方法完成下拉的操作。一开实验了一下,按照我设定的下拉的幅度,大概五十多次可以拉到底。等拉到底部,下面哪一行小字出现的时候,开始读取源码,进行爬取。...原创 2019-05-28 22:11:25 · 232 阅读 · 0 评论