爬虫
文章平均质量分 74
比奇堡咻飞兜
我很丰富,无法简介
展开
-
【Python爬虫实战】爬取2021中国大学排名(简单)
目录一.准备工作二.进行分析三.完整代码一.准备工作引入如下库:import requests from bs4 import BeautifulSoupimport bs4二.进行分析根据网址http://www.gaosan.com/gaokao/241219.html我们找到对应网页,按F12打开开发者界面。点击左上角图标:然后就可以查找指定内容,我们随便点击一个大学,可以看到对应的HTML内容:我们发现所有信息都被写在tbody标签下的tr中,每个tr表示一个学校,tr下原创 2021-07-18 12:17:34 · 7859 阅读 · 10 评论 -
【Python爬虫实战】爬取IU高清大图
文章目录一.准备工作二.具体分析三.具体步骤(1)将HTML文本提取出来(2)第一步解析获得各个图集网址(3)第二步解析获得图集中每张图片所在页面网址(4)第三步解析获得每张图片网址(5)下载图片四.完整代码我们的目的,IU那么漂亮,爬!最近刷dy突然看到了好几张IU的高清壁纸,我直接马上换成手机壁纸,今天就来网上爬虫下载一些IU的高清大图,冲冲冲!有图为证:一.准备工作准备一些必要的库:import requestsfrom bs4 import BeautifulSoupi原创 2021-07-08 14:48:27 · 385 阅读 · 7 评论 -
BeautifulSoup库入门
文章目录一.准备二.使用(1)获取HTML文本(2)解析HTML文本(3)BeautifulSoup类的基本元素(4)遍历方式一.准备首先得安装好bs4库,然后引入BeautifulSoup。from bs4 import BeautifulSoup二.使用BeautifulSoup库是解析、遍历、维护“标签树”的功能库。“标签树”就是HTML代码,因为它带有标签而且层次分明,所以形象的把它叫做“标签树”。(1)获取HTML文本使用前我们要先得到HTML代码,操作如下(以baidu.c原创 2021-07-08 12:05:14 · 309 阅读 · 0 评论 -
Re库入门
一.调用Re库是Python的标准库,主要用于字符串匹配。其中正则表达式作为函数参数来使用。调用方式: import re二.正则表达式的表示类型1)raw string 类型(原生字符串类型)格式为 r’‘text’比如: r’[1-9]\d{5}’其中不包含转义字符,我们使用这一种方式2)string 类型,包含转义字符,非常繁琐比如: ‘[1-9]\d{5}’在每个\之前都需要加一个\进行转义三.Re库主要函数函数名称作用返回类型re.fi原创 2021-02-02 17:03:30 · 4163 阅读 · 0 评论 -
正则表达式
一.什么是正则表达式维基百科:正则表达式(英语:Regular Expression,常简写为regex、regexp或RE),又称正则表示式、正则表示法、规则表达式、常规表示法,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本。二.正则表达式的常用操作符操作符说明实例.表示任何单个字符万能字符匹配[ ]字符集,对单个字符给出取值范围[ abc] 表示原创 2021-02-02 15:38:29 · 342 阅读 · 1 评论