小爬虫的博客

不定期更新文章

自定义博客皮肤

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

HTML <p> 标签

1. p标签是段落 &lt;!doctype html&gt; &lt;html lang="en"&gt; &lt;head&gt; &lt;meta charset="UTF-8"&gt;...

2019-09-08 15:34:36

阅读数 10

评论数 0

HTML h1 - h6 标签的 align 属性

1. h标签有一个align属性,可以改变该标题在浏览器中显示的位置 &lt;!doctype html&gt; &lt;html lang="en"&gt; &lt;head&gt; &lt;meta charset=...

2019-09-08 15:24:24

阅读数 14

评论数 0

HTML <h1> 到 <h6> 标签

1. 使用SublimeText编写 快捷键:html:5之后按tab键就会快速生成html5的框架,前提是sublime已经安装好了插件(emmet,安装请自行百度) 快速生成h1-h6标签的快捷键 输入:h&amp;*6后按tab键 &lt;!doctype html&...

2019-09-08 15:08:32

阅读数 3

评论数 0

我的第一个html网页

1. 使用SublimeText编写 &lt;!doctype html&gt; &lt;html lang="UTF-8"&gt; &lt;head&gt; &lt;meta charset="UTF-8&...

2019-09-08 14:40:00

阅读数 9

评论数 0

python爬虫——爬取快读小说app

1. 爬取结果(csv文件,出现了有两个表头…不明所以,无关大雅) 2. 使用fiddler4进行抓包 通过观察url,我们不难发现其中的规律,要实现进行分类抓取,需要更改url第一个数字,如下 https://sc.canrike.com/Categories/1/hot/1.html h...

2019-06-25 10:46:18

阅读数 429

评论数 3

python爬虫——爬取大学排名信息

1. 结果图 2. 这次爬取的网址请点击传送门 传送门 3. 在该网址选择查院校,其他都是默认 4. 这次爬取的信息主要是下图红框的内容,在浏览器开发者中,点击XHR就可以发现这个接口,接口的内容都有我们需要的信息。 5. 先构建请求头,请求头直接复制过来了 # 构建请求头 headers...

2019-06-15 18:32:49

阅读数 265

评论数 0

python爬虫——爬取喜马拉雅app

主要爬取喜马拉雅悬疑栏目的小说名字,演播者以及简介,先上爬取的数据图。 此次抓取使用fiddler抓包,喜马拉雅的抓包很简单,这里就不多阐述。 通过对比两条的url可以发现只有ts-时间戳和pageId不同,其他的都没变化,因此可以知道,改变pageId就可以实现翻页。另外最上面的url是...

2019-06-14 12:53:46

阅读数 531

评论数 0

python爬虫——如何爬取ajax网页之爬取雪球网文章

效果图 传送门点击传送门 进入网站之后我们打开开发工具之后,往下滑时会出现一个接口(当然滑的越多接口越多) 我们通过对比两个及以上的接口进行分析它们的不同之处(这叫找规律) 可以发现max_id是在变化的,其他都是不变的,而且count是返回的文章数目有15个,所以max_id只要...

2019-04-28 13:01:34

阅读数 354

评论数 1

python爬虫——爬取taptap游戏的评论信息(通过fiddler抓包)

1. 效果图,只抓取了评论人名字,游戏时长和评论内容,另外因为随机延迟,爬取的速度不是很快,有需要的爬友们可以写个多线程进行爬取 2. 通过抓包,分析之后我们可以找到评论区所在的url,对比之后我们可以发现该条url就是我们需要的url 3. 通过对比多条url,发现其中的规律,就是from递...

2019-04-17 14:11:22

阅读数 682

评论数 3

python爬虫——爬取b站APP视频信息(通过fiddler抓包工具)

1. 先看效果图,随便抓的信息 2. 解析 ,fiddler抓包工具的配置大家自己百度吧,教程都很详细 3. 打开fiddler和模拟器,在模拟器打开哔哩哔哩软件,fiddler我是通过查找分析之后之后过滤的域名 4. 我们通过打开b站的相应版块,然后进行往下翻页之后,fiddler就会根据...

2019-04-16 20:35:05

阅读数 344

评论数 9

python爬虫——使用selenium爬取qq群的成员信息(全自动实现自动登陆)

1. 效果图,其中涉及一些真名我就打码了,还有qq号我也打码了,见谅 2. 解析,通过访问qq群官网并登陆 点击传送门 3. 分析登陆的元素,下图一目了然,怎么获取这个登陆元素应该都知道了 4. 代码奉上 url = 'https://qun.qq.com/' # 构建谷歌驱动器 brow...

2019-04-14 19:12:05

阅读数 314

评论数 0

python爬虫——selenium爬取京东商品信息

1. 先看效果 2. 目标网站 点击跳转 3. 解析,首先找到输入框的id 4. 找到之后编写代码 # 获取输入框的id,并输入关键字python爬虫 browser.find_element_by_id('key').send_keys('python爬虫') # 输入回...

2019-04-13 23:26:09

阅读数 348

评论数 0

python爬虫——使用bs4爬取链家网的房源信息

1. 先看效果 2. 进入链家网,这里我选择的是海口市点击跳转到链家网 3. 先看网页的结构,这些房子的信息都在li标签,而li标签再ul标签,所以怎么做大家都懂 4. 代码如下,url的链接大家可以自己翻页看看就找到规律了,这里就不多说了 url = 'https://hk.lianji...

2019-04-12 14:30:24

阅读数 124

评论数 0

python爬虫——使用selenium爬取知网文献相关信息

1. 先看爬取的效果 2. 知网的反爬虫手段很强,反正我爬取pc端的时候,用selenium爬取获取不到源代码,真是气人,后来换成手机端就可以获取了,爬取手机端的操作如下。 3. 首先进入知网后,选择开发工具,建议放在右边,之后再点击图中红框的东东,然后刷新一下网页就切换到手机端了 4.进入...

2019-04-11 22:58:11

阅读数 460

评论数 0

python爬虫——如何爬取js渲染的网页之爬取知乎的问题及作者信息

1. 访问知乎话题搜索python爬虫关键字 2. 往下翻页后的再查看源代码是加载不出来的,只能加载第一页的代码 3. 右键检查刷新之后可以看到下图有这么一个网址,通过这个接口就可以爬取那些渲染后的信息了 4. 随便打开一个,我们需要的信息在这里可以找到,顺便提一下,这个网址返回来的数据是...

2019-04-10 16:14:52

阅读数 349

评论数 1

python爬虫——使用代理和xpath爬取豆瓣读书

根据豆瓣读书的所有标签自动创建文件夹,使用代理防止被反爬。但是我的代理好像是假的,还是被反爬了…通过设置cookie爬取,但是爬取一定数量后需要在浏览器手动进行验证码输入…总的来说,代码写的很麻烦 import requests from lxml import etree from fake_u...

2019-04-10 12:22:42

阅读数 71

评论数 0

使用selenium爬取搜狗微信文章

缺点:还是没能攻破验证码识别,验证码是刷新一次验证码就会变化一次,实在是没有这个能力攻破 from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait from selenium.web...

2019-04-08 22:19:56

阅读数 286

评论数 4

使用pyquery爬取搜狗微信文章

缺点:还是没有使用代理,出现验证码就停止抓取了 import requests from pyquery import PyQuery as pq from fake_useragent import UserAgent from urllib.parse import urlencode imp...

2019-04-08 11:16:24

阅读数 80

评论数 0

python爬虫——使用bs4爬取搜狗微信文章

缺点:该方法只能爬取有限的数量,因为没有使用代理,当爬取一定数量时会出现验证码 import requests from bs4 import BeautifulSoup from fake_useragent import UserAgent import queue from urllib.p...

2019-04-08 10:30:01

阅读数 172

评论数 0

python爬虫——使用xpath爬取搜狗微信文章

缺点:爬取一定数量之后会出现验证码,导致不能继续爬取,需要更换ip才可以继续爬取,或者在浏览器重新输入验证码之后复制cookie后方能继续爬取。 import requests from fake_useragent import UserAgent from urllib.parse impor...

2019-04-07 23:25:30

阅读数 189

评论数 1

提示
确定要删除当前文章?
取消 删除