学py的小菜鸡-CSDN博客

原创计算机二级Python备考整理

http://ncre.neea.edu.cn/https://python123.io/index.html一、概况上机考试，考试时长１２０分钟，满分１００分。Ｗｉｎｄｏｗｓ７操作系统，建议Ｐｙｔｈｏｎ３．４．２至Ｐｙｔｈｏｎ３．５．３版本，ＩＤＬＥ开发环境。单项选择题４０分（含公共基础知识部分 10 分，数据结构与算法和python基础知识 30 分）。 ****选择题20分以下直接暴毙，所以把握基础很重要****操作题６０分（包括基本编..

2021-07-15 15:14:53 975

原创爬虫基础（笔记）——4.Selenium与验证码识别

Selenium（WEB自动化工具）准备工作下载selenium包pip install selenium如遇网络问题可改源： pip install selenium -i 清华源下载浏览器驱动注意找对应浏览器版本的驱动，下载解压完成后将驱动文件（重命名去掉后面的数字）复制进python解释器所在文件夹下Edge浏览器驱动网站：https://developer.microsoft.com/en-us/microsoft-edge/tools/webdr..

2021-05-28 15:02:20 489

原创爬虫基础（笔记）——3.线程与进程

线程与进程线程线程模块线程模块提供了Thread类来处理线程，Thread类提供了以下方法:run():用以表示线程活动的方法。 start():启动线程活动。 join([time]):等待至线程中止。这阻塞调用线程直至线程的join() 方法被调用中止-正常退出或者抛出未处理的异常-或者是可选的超时发生。 isAlive():返回线程是否活动的。 getName():返回线程名。 setName():设置线程名。使用 threading 模块创建线...

2021-05-28 14:55:28 120

原创爬虫基础（笔记）——2.正则表达式、Xpath与BeautifulSoup

#爬取51job求职网保存到数据库import urllib.requestfrom bs4 import BeautifulSoupimport timeimport pymysql# 根据url生成请求对象def handle_request(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Geck.

2021-05-28 14:49:33 904

原创爬虫基础（笔记）——1.urllib库与requests库

Urllib库 Urllib.request 修改报头，模拟浏览器1.1使用build_opener()修改报头#导入相应模块，使用 import urllib 或 from urllib import request 均可import urllib#自定义User-Agentheaders=("User-Agent",“Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chr.

2021-05-28 14:38:16 405

原创爬取小说案例

相关网站：http://www.biquge001.com/"""笔趣阁搜索小说关键词，选择一本，爬取所有章节思路：1.构建搜索网页，进行请求2.找到所有匹配后的所有小说名和对应url（xpath）/ 有时会直接跳某本小说的章节页，这种情况不考虑了3.选取小说，请求url4.爬取每一章（多线程）（xpath）----------------------------------------------------------------"""import req...

2021-05-22 16:09:38 244

原创爬取图片案例2（Ajax网页异步加载、Queue队列、线程池）

相关网站：https://www.huashi6.com/"""爬取画师通网站，本来想利用xpath，但数据不在源文件中，失败通过浏览器检查功能找到了搜索结果页面的对应文件利用线程池提高效率思路：1.提示用户输入关键词2.构建第一个url,发出请求，获取响应，得到页面数3.构建所有的url，创建队列，进行多进程爬取4.解析响应数据，下载其中所有图片"""from urllib import requestimport requestsfrom UA_IP_Pool..

2021-05-21 20:40:01 201

原创爬取图片案例

相关网站：https://pic.netbian.com/"""爬取彼岸图网思路：1.按用户输入的爬取对象编号构建首页url2.爬取url，获取页数信息（re）3.线程池爬取所有页面，获取每个页面上所有图片块的url（xpath）4.多任务异步协程爬取图片块信息，下载图片5.所有图片下载完毕后再次询问用户是否继续其他爬取----------------------------------------------------------------"""#需要导入的模..

2021-05-20 01:12:45 165

原创搭建用户、IP代理池（2.0版本）

学爬虫要解决的问题不少，经常手滑疯狂请求某些好康的网站(^-^)导致自己的IP被封（伤害性不大，侮辱性极强），于是知道了代理IP的美妙。既然知道了解决方法，那么说干就干，一个星期自己写出来一个代理池，以下是一些说明吧。本人白嫖党，所以爬取选择齐云代理上的免费代理，先验证代理IP的可用性，再保存到本地.txt文件中（注意每次使用代理IP都会监测IP文件的修改时间来决定是否刷新IP文件），同时附带了一个用户代理池，随机ua和ip。封装成一个UA_IP_Pool模块，使用时先from UA_IP_Pool..

2021-05-20 00:54:53 603

原创 Python基础（笔记）

目录Tips汉字多行语句空行isinstance(object, classinfo)与type(abject)编码方式一些python内置函数关于pippip本体关于pip-review（分叉pip-tools，用来升级包）关于wheel文件import 与 from......import目录只有包含一个叫做 __init__.py 的文件才会被认作是一个包__name__属性导入模块Python 标识符Python算术运算符//.

2021-05-13 01:12:52 361

xuepydexiaocaiji的博客