Python爬虫
文章平均质量分 74
Python爬虫从入门到实战
对流层的酱猪肘
应统研二~顺利毕业~前程似锦
展开
-
Python爬虫27-移动端数据抓取一
移动端数据抓取一一、adb使用1.1 查看连接的移动设备1.2 安装app应用1.3 查看应用包名1.4 卸载app应用二、UIAutomator2快速入门2.1 初始化移动设备2.2 u2控制移动设备2.3 u2启动手机app三、UIAutomator2基本操作3.1 启动服务3.2 停止服务3.3 运行状态3.4 查看设备的分辨率3.5 查看获取到的Ip地址3.6 通过u2安装app3.7 启动app3.8 获取前台运行的app的信息3.9 停止app3.10 停止所有app3.11 清除app缓存3.原创 2020-10-09 22:31:43 · 1332 阅读 · 0 评论 -
Python爬虫26-Python和MongoDB的交互
Python和MongoDB的交互原创 2020-10-09 22:30:52 · 224 阅读 · 0 评论 -
Python爬虫25-MongoDB练习题
MongoDB练习题测试数据1、查询年龄大于25小于27的name,age2、查询出不是美国的name3、查询国籍是中国或者美国的学生信息4、查询语文成绩大于85或者英语成绩大于90的学生信息5、查询出名字中存在"li"的学生信息6、查询喜欢看MONGODB和PHP的学生7、查询第二本书是JAVA的学生信息8、查询喜欢的书数量是4本的学生9、查询出persons中一共有多少国家分别是什么测试数据var persons = [{ name:"jim", age:25, email:"75431457原创 2020-10-09 22:30:30 · 393 阅读 · 0 评论 -
Python爬虫24-MongoDB数据库的使用
MongoDB数据库基本使用原创 2020-10-09 22:29:55 · 151 阅读 · 0 评论 -
Python爬虫23-Scrapy爬取当当网图书信息
Scrapy爬取当当网图书信息1、创建一个scrapy项目scrapy startproject dangdang2、生成一个爬虫文件scrapy genspider dd dangdang.com3、设置settings添加log日志等级添加headers请求头4、添加一个文件运行爬虫from scrapy import cmdlinecmdline.execute(['scrapy','crawl','dd'])5、开始编写...原创 2020-10-09 22:29:18 · 310 阅读 · 0 评论 -
Python爬虫22-Python操作Redis
Python操作Redis一、设置值二、取值一、设置值运行完毕后在redis里面检验二、取值类型默认为字节将 decode_responses=False 修改类型改为字符串原创 2020-10-09 22:28:28 · 61 阅读 · 0 评论 -
Python爬虫21-Redis数据类型
Redis操作一、Redis介绍二、Redis的安装及启动三、Redis常用五大数据类型3.1 redis-string3.1.1 set / mset3.1.2 get / mget3.1.3 append3.1.4 del3.1.5 strlen3.1.6 incr / decr3.1.7 incrby / decrby3.1.8 getrange / setrange3.2 redis-list3.2.1 lpush / rpush / lrange3.2.2 lpop / rpop3.2.3 lin原创 2020-10-09 22:28:08 · 113 阅读 · 0 评论 -
Python爬虫20-Scrapy爬取苏宁易购图书
Scrapy爬取苏宁易购图书1、创建一个scrapy项目scrapy startproject book2、生成一个爬虫文件scrapy genspider su book.suning.com3、设置settings添加log日志等级添加headers请求头打开管道4、添加一个文件运行爬虫from scrapy import cmdlinecmdline.execute(['scrapy','crawl','su'])5、编写程序将结果保存到 pipeline原创 2020-10-09 22:27:27 · 355 阅读 · 0 评论 -
Python爬虫19-Scrapy爬取汽车之家图片
Scrapy爬取汽车之家图片一、普通方式爬取二、内置模块爬取一、普通方式爬取1、创建一个scrapy项目scrapy startproject car2、生成一个爬虫文件scrapy genspider baoma car.autohome.com.cn3、设置settings:添加log日志等级,添加headers请求头,打开管道4、添加一个文件运行爬虫from scrapy import cmdlinecmdline.execute(['scrapy','crawl','bao原创 2020-10-09 22:27:08 · 399 阅读 · 0 评论 -
Pyhton爬虫18-Scrapy模拟登录
Scrapy模拟登录一、模拟登录人人网二、模拟登录GitHub方法:1、直接携带cookie2、找到发送post请求的URL地址,带上信息,发送请求一、模拟登录人人网1、创建一个scrapy项目scrapy startproject renren2、生成一个 crawlspider 爬虫文件scrapy genspider rr renren.com3、设置settings,添加log日志等级,添加headers请求头4、添加一个文件运行爬虫from scrapy import原创 2020-09-02 13:59:08 · 100 阅读 · 0 评论 -
Python爬虫17-Scrapy 爬取微信小程序社区
Scrapy CrawlSpider实现爬取知识点:LinkExtractors:链接提取器,会在所有爬的页面中找到满足规则的url,实现自动的爬取callback:提取url地址的response会交给callback来处理follow:继续提取下一页的url1、创建一个scrapy项目scrapy startproject weChat2、生成一个 crawlspider 爬虫文件scrapy genspider -t crawl wx wxapp-union.com3、原创 2020-09-02 13:58:22 · 384 阅读 · 0 评论 -
Python爬虫16-Scrapy爬取阳光政务平台信息
Scrapy爬取阳光政务平台信息需求:实现翻页爬取1、创建一个scrapy项目scrapy startproject sun2、生成一个爬虫文件scrapy genspider yg wz.sun0769.com原创 2020-09-02 13:57:56 · 563 阅读 · 0 评论 -
Python爬虫15-Scrapy爬取腾讯招聘网信息
Scrapy爬取腾讯招聘网信息需求:爬取多页职位详情内容1、创建一个scrapy项目scrapy startproject tencent2、生成一个爬虫文件scrapy genspider tc tencent.com3、设置settings,添加log日志等级4、分析页面url5、开始编写代码 def parse(self, response): for page in range(1,6): # 拼接起始页url原创 2020-09-02 13:57:20 · 294 阅读 · 0 评论 -
Python爬虫14-Scrapy初探
Scrapy一、scrapy介绍二、scrapy入门2.1 创建一个scrapy项目2.2 生成一个爬虫2.3 在命令中运行爬虫2.4 settings.py文件设置2.4.1 添加headers请求头2.4.2 将robots协议注释掉2.4.3 添加log日志等级一、scrapy介绍Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,只需要实现少量的代码,就能够快速的抓取二、scrapy入门2.1 创建一个scrapy项目scrapy startproject spider原创 2020-09-02 13:56:49 · 188 阅读 · 0 评论 -
Python爬虫13-多任务进程
多任务进程一、多进程二、多进程队列一、多进程import multiprocessingimport timedef demo1(): while True: print('1111111111111') time.sleep(1)def demo2(): while True: print('2222222222222') time.sleep(1)def main(): t1=multiproces原创 2020-09-02 13:05:24 · 70 阅读 · 0 评论 -
Python爬虫12-爬取王者荣耀图片
爬取王者荣耀图片一、普通方式爬取二、多线程爬取一、普通方式爬取1、确定目标url ,删除callback参数2、把url后面的200改成03、要爬取多页需修改url中page参数,默认第一页是0import requestsfrom urllib import requestfrom urllib import parseimport osheaders={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/53原创 2020-09-02 13:05:03 · 620 阅读 · 0 评论 -
Python爬虫11-多线程同步问题
多线程同步问题一、线程中的资源竞争一、线程中的资源竞争原创 2020-08-17 22:43:55 · 171 阅读 · 0 评论 -
Python爬虫10-多任务线程
多任务线程一、模拟多任务二、多线程的创建一、模拟多任务import threadingimport timedef singe(): for i in range(3): print('唱歌。。。。。') time.sleep(2)def dance(): for j in range(3): print('跳舞。。。。。') time.sleep(2)if __name__ == '__main__':原创 2020-08-17 20:30:36 · 95 阅读 · 0 评论 -
Python爬虫09-Tesseract图形验证码识别
Tesseract图形验证码识别一、tesseract 使用二、pytesseract处理图形验证码Tesseract是一个将图像翻译成文字的OCR(光学文字识别)一、tesseract 使用import pytesseractfrom PIL import Image# PIL(Python Imaging Library) 图形处理库# 指定Tesseract的安装路径和数据包的路径pytesseract.pytesseract.tesseract_cmd = r'D:\Program原创 2020-08-17 20:30:17 · 100 阅读 · 1 评论 -
Python爬虫08-selenium案例
selenium案例一、操作Cookie1.1 获取百度的cookie1.2 模拟登录QQ空间二、页面等待一、操作Cookie1.1 获取百度的cookiefrom selenium import webdriverdriver=webdriver.Chrome()driver.get('https://www.baidu.com/')# 获取所有的cookiecookies = driver.get_cookies()for cookie in cookies: print(co原创 2020-08-17 20:29:47 · 183 阅读 · 0 评论 -
Python爬虫07-selenium基础、进阶
一、介绍selenium是一个web的自动化测试工具,可以直接运行在浏览器上,让浏览器自动加载页面,获取需要的数据,甚至页面截屏二、Phantomjs快速入门无头浏览器:一个完整的浏览器内核,但不包括显示和用户交互页面的浏览器,可通过截屏呈现# 导入模块from selenium import webdriver# 驱动driver=webdriver.PhantomJS()# 打开百度driver.get('https://www.baidu.com/')# 定位操作输入内容driv原创 2020-08-08 21:00:21 · 209 阅读 · 0 评论 -
Python爬虫06-bs4爬取全国城市温度
1、导入模块import requestsfrom bs4 import BeautifulSoup2、定义函数解析网页def Geturl(url): headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'} response=requests.get(url原创 2020-07-30 13:13:45 · 243 阅读 · 0 评论 -
Python爬虫05-bs4
bs4一、bs4对象种类一、bs4对象种类种类意思tag标签NavigableString可导航的字符串BeautifulSoupbs对象Comment注释原创 2020-07-29 22:08:01 · 164 阅读 · 0 评论 -
Python爬虫04-xpath爬取豆瓣韩剧数据
xpath爬取豆瓣韩剧数据需求:爬取豆瓣韩剧的标题、评分、评论以及详情页地址。1、导入模块import requestsfrom lxml import etreeimport csv2、分析每一页链接的规律https://www.douban.com/doulist/2942804/?start=0&sort=seq&playable=0&sub_type= 第1页https://www.douban.com/doulist/2942804/?start=25原创 2020-07-26 21:09:45 · 400 阅读 · 0 评论 -
Python爬虫03—正则表达式
正则表达式一、概念二、应用场景三、match()函数四、元字符4.1 . 匹配除换行符外任意一个字符五、预定义匹配字符集一、概念正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、以及特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。二、应用场景1、表单验证(手机号、邮箱、身份证)2、爬虫三、match()函数match(pattern, string, flags=0)第一个参数是正则表达式,如果匹配成功,则返回一个match对原创 2020-07-22 16:39:31 · 309 阅读 · 0 评论 -
Python爬虫02—请求模块
Requests模块一、响应对象Response的方法二、发送post请求(有道翻译)三、Requests设置代理四、处理不信任的SSL证书一、响应对象Response的方法response.text 返回unicode格式的数据(str)response.content 返回字节流数据(二进制)response.content.decode(‘utf-8’) 手动进行解码response.url 返回urlresponse.encode() = ‘编码’import requestsur原创 2020-07-19 15:13:59 · 585 阅读 · 0 评论 -
Python爬虫01—urllib内置模块案例
urllib内置模块案例一、爬取百度贴吧源码1、普通方法2、函数方法3、类方法一、爬取百度贴吧源码需求:(1)输入要爬取贴吧的主题(2)输入爬取的起始页和终止页(3)把每一页内容保存到本地html文件分析:https://tieba.baidu.com/f?kw=%E4%B8%AD%E5%9B%BD&ie=utf-8&pn=0 第一页https://tieba.baidu.com/f?kw=%E4%B8%AD%E5%9B%BD&ie=utf-8&pn=50原创 2020-07-15 22:52:36 · 184 阅读 · 1 评论 -
Python爬虫01—请求模块
Python爬虫01—请求模块一、基本概念1、请求方法1.1 GET1.2 POST2、Refer3、状态码二、获取图片1、requests模块2、request模块三、获取网页源码四、urllib.parse模块一、基本概念1、请求方法1.1 GET查询参数都会在URL上显示出来1.2 POST查询参数和需要提交数据是隐藏在Form表单里的,不会在URL地址上显示出来2、Refer表明当前这个请求是从哪个url过来的。一般情况下可以用来做反爬的技术3、状态码200 : 请求成功301原创 2020-07-15 20:16:05 · 164 阅读 · 0 评论