![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
kaijia323
现在已经不做爬虫了,现在做前端,之前的文章代码现在已经忘记了,所以之前的代码问题请自行百度吧
展开
-
scrapy框架爬取鬼故事
python版本:3.8.3编译器:vscode框架:scrapy数据存放:mongodb适合有一定爬虫基础以及scrapy框架的爬友观看仅做技术交流,不可商用或攻击对方服务器,侵权联系作者删转载请注明原链接项目上传到码云:Scrapy_GhostStory目标网站:鬼故事大全生成scrapy文件scrapy startproject Scrapy_GhostStorycd Scrapy_GhostStoryscrapy genspider ghost "123"修改一原创 2020-06-12 22:01:05 · 258 阅读 · 0 评论 -
爬取某空间自己好友发的动态,制作词云看看他们都在发表啥内容....
写在前面‘’‘python版本---3.7.4使用到的模块: import requests import json import time import random import re import wordcloud import jieba import imageio使用的编辑器:sublime----------------------------------...原创 2019-12-08 15:17:29 · 469 阅读 · 1 评论 -
python爬虫——爬取快读小说app
1. 爬取结果(csv文件,出现了有两个表头…不明所以,无关大雅)2. 使用fiddler4进行抓包通过观察url,我们不难发现其中的规律,要实现进行分类抓取,需要更改url第一个数字,如下https://sc.canrike.com/Categories/1/hot/1.htmlhttps://sc.canrike.com/Categories/2/hot/1.html要实现翻页...原创 2019-06-25 10:46:18 · 4842 阅读 · 3 评论 -
python爬虫——爬取大学排名信息
1. 结果图2. 这次爬取的网址请点击传送门传送门3. 在该网址选择查院校,其他都是默认4. 这次爬取的信息主要是下图红框的内容,在浏览器开发者中,点击XHR就可以发现这个接口,接口的内容都有我们需要的信息。5. 先构建请求头,请求头直接复制过来了# 构建请求头headers = { 'Accept': '*/*', 'Accept-Encoding': 'g...原创 2019-06-15 18:32:49 · 5657 阅读 · 3 评论 -
python爬虫——爬取喜马拉雅app
主要爬取喜马拉雅悬疑栏目的小说名字,演播者以及简介,先上爬取的数据图。此次抓取使用fiddler抓包,喜马拉雅的抓包很简单,这里就不多阐述。通过对比两条的url可以发现只有ts-时间戳和pageId不同,其他的都没变化,因此可以知道,改变pageId就可以实现翻页。另外最上面的url是我去除一些不必要的参数,其没有影响。分析数据小说是存储在列表当中的,所以需要先取出这个列表,再遍...原创 2019-06-14 12:53:46 · 6144 阅读 · 1 评论 -
python爬虫——如何爬取ajax网页之爬取雪球网文章
效果图传送门点击传送门进入网站之后我们打开开发工具之后,往下滑时会出现一个接口(当然滑的越多接口越多)我们通过对比两个及以上的接口进行分析它们的不同之处(这叫找规律)可以发现max_id是在变化的,其他都是不变的,而且count是返回的文章数目有15个,所以max_id只要自增15就可以实现翻页了,是不是很简单我们可以这么写代码实现翻页(这代码只是举例子怎么写翻...原创 2019-04-28 13:01:34 · 2446 阅读 · 2 评论 -
python爬虫——selenium爬取京东商品信息
1. 先看效果2. 目标网站点击跳转3. 解析,首先找到输入框的id4. 找到之后编写代码# 获取输入框的id,并输入关键字python爬虫 browser.find_element_by_id('key').send_keys('python爬虫') # 输入回车进行搜索 browser.find_element_by_id('key').send_ke...原创 2019-04-13 23:26:09 · 7297 阅读 · 3 评论 -
python爬虫——使用bs4爬取链家网的房源信息
1. 先看效果2. 进入链家网,这里我选择的是海口市点击跳转到链家网3. 先看网页的结构,这些房子的信息都在li标签,而li标签再ul标签,所以怎么做大家都懂4. 代码如下,url的链接大家可以自己翻页看看就找到规律了,这里就不多说了url = 'https://hk.lianjia.com/ershoufang/pg{}/'.format(page)# 请求urlresp =...原创 2019-04-12 14:30:24 · 6687 阅读 · 10 评论 -
使用selenium爬取搜狗微信文章
缺点:还是没能攻破验证码识别,验证码是刷新一次验证码就会变化一次,实在是没有这个能力攻破from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfro...原创 2019-04-08 22:19:56 · 1651 阅读 · 4 评论 -
使用pyquery爬取搜狗微信文章
缺点:还是没有使用代理,出现验证码就停止抓取了import requestsfrom pyquery import PyQuery as pqfrom fake_useragent import UserAgentfrom urllib.parse import urlencodeimport queueimport re# 构建请求头ua = UserAgent()head...原创 2019-04-08 11:16:24 · 333 阅读 · 0 评论 -
python爬虫——使用bs4爬取搜狗微信文章
缺点:该方法只能爬取有限的数量,因为没有使用代理,当爬取一定数量时会出现验证码import requestsfrom bs4 import BeautifulSoupfrom fake_useragent import UserAgentimport queuefrom urllib.parse import urlencodeimport re# 构建请求头ua = User...原创 2019-04-08 10:30:01 · 698 阅读 · 0 评论 -
python爬虫——使用xpath爬取搜狗微信文章
缺点:爬取一定数量之后会出现验证码,导致不能继续爬取,需要更换ip才可以继续爬取,或者在浏览器重新输入验证码之后复制cookie后方能继续爬取。import requestsfrom fake_useragent import UserAgentfrom urllib.parse import urlencodefrom lxml import etreeimport reimport...原创 2019-04-07 23:25:30 · 1224 阅读 · 1 评论 -
python爬虫——如何爬取js渲染的网页之爬取知乎的问题及作者信息
1. 访问知乎话题搜索python爬虫关键字2. 往下翻页后的再查看源代码是加载不出来的,只能加载第一页的代码3. 右键检查刷新之后可以看到下图有这么一个网址,通过这个接口就可以爬取那些渲染后的信息了4. 随便打开一个,我们需要的信息在这里可以找到,顺便提一下,这个网址返回来的数据是json格式的,也就是可以像字典那样操作5. 话不多说,代码附上,如果想要爬取多的话,建议弄个代理...原创 2019-04-10 16:14:52 · 7226 阅读 · 6 评论 -
python爬虫——使用代理和xpath爬取豆瓣读书
根据豆瓣读书的所有标签自动创建文件夹,使用代理防止被反爬。但是我的代理好像是假的,还是被反爬了…通过设置cookie爬取,但是爬取一定数量后需要在浏览器手动进行验证码输入…总的来说,代码写的很麻烦import requestsfrom lxml import etreefrom fake_useragent import UserAgentimport threadingimport q...原创 2019-04-10 12:22:42 · 622 阅读 · 0 评论