![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python爬虫
文章平均质量分 92
流鼻涕不用抽纸
流鼻涕不用抽纸。
展开
-
爬虫从入门到入狱(5)——多线程爬虫与常见搜索算法
文章内容均出自《python爬虫开发》文章目录5.1 多线程爬虫5.1.1 多线程的优势5.1.2 多进程库:multiprocessing5.1.3 多线程爬虫开发5.2 爬虫的常见搜索算法5.2.1 深度优先搜索5.2.2 广度优先搜索5.2.3 算法选择5.1 多线程爬虫5.1.1 多线程的优势在掌握了requests与正则表达式以后,就可以开始实战爬取一些简单的网址了。但是,此时的爬虫只有一个进程、一个线程,因此称为单线程爬虫。单线程爬虫每次只访问一个页面,不能充分利用计算机的网络带宽。一原创 2022-04-13 15:44:36 · 2394 阅读 · 3 评论 -
爬虫从入门到入狱(4)——requests与正则表达式
声明:为什么没有3?问就是审核过不去,改了好几遍都过不去。但是问题不大,3是一个阶段案例,不影响之后的学习。文章内容均出自《python爬虫开发》文章目录4.1 python第三方库4.1.1 第三方库介绍4.1.2 第三方库安装4.1.3 requests的安装4.2 requests获取网页源代码4.2.1 GET方式4.2.2 POST方法4.3 requests与正则表达式的结合4.1 python第三方库4.1.1 第三方库介绍在Python开发的过程中,常常需要将一些功能比较通用的代码原创 2022-04-12 21:54:56 · 1457 阅读 · 2 评论 -
爬虫从入门到入狱(2)——CSV文件操作
文章内容均出自《python爬虫开发》文章目录2.1 文件操作2.1.1 打开文件:open与with open () as参数 :encoding2.1.2 阅读文件:read与readlines2.1.3 写入文件:write与writelines2.2 读写CSV文件2.2.1 CSV文件2.2.2 Python读CSV文件:DictReader()2.2.3 Python写CSV文件:DictWriter()2.1 文件操作2.1.1 打开文件:open与with open () as使原创 2022-04-11 14:44:41 · 4144 阅读 · 6 评论 -
爬虫从入门到入狱(1)——正则表达式
文章内容均出自《python爬虫开发》文章目录1.1正则表达式1.2正则表达式的基本符号1.2.1 点号 “ . ”1.2.2 星号 “ * ”1.2.3 点号+星号 “ .* ”1.2.4 问号“ ? ”1.2.5 点号+星号+问号“ .*?” (最常用)1.2.6 小括号“()”1.2.7 反斜杠 “ \ ”1.2.8 数字 “ \d”1.3 使用正则表达式1.3.1 findall 方法1.3.2 search 方法1.3.3 compile 方法1.4 正则表达式的提取技巧1.4.1 先抓大后抓小原创 2022-04-10 23:01:31 · 14026 阅读 · 18 评论