- 博客(65)
- 收藏
- 关注
原创 Python爬虫20-Scrapy爬取苏宁易购图书
Scrapy爬取苏宁易购图书1、创建一个scrapy项目scrapy startproject book2、生成一个爬虫文件scrapy genspider su book.suning.com3、设置settings添加log日志等级添加headers请求头打开管道4、添加一个文件运行爬虫from scrapy import cmdlinecmdline.execute(['scrapy','crawl','su'])5、编写程序将结果保存到 pipeline
2020-10-09 22:27:27
416
原创 Python爬虫19-Scrapy爬取汽车之家图片
Scrapy爬取汽车之家图片一、普通方式爬取二、内置模块爬取一、普通方式爬取1、创建一个scrapy项目scrapy startproject car2、生成一个爬虫文件scrapy genspider baoma car.autohome.com.cn3、设置settings:添加log日志等级,添加headers请求头,打开管道4、添加一个文件运行爬虫from scrapy import cmdlinecmdline.execute(['scrapy','crawl','bao
2020-10-09 22:27:08
502
原创 Pyhton爬虫18-Scrapy模拟登录
Scrapy模拟登录一、模拟登录人人网二、模拟登录GitHub方法:1、直接携带cookie2、找到发送post请求的URL地址,带上信息,发送请求一、模拟登录人人网1、创建一个scrapy项目scrapy startproject renren2、生成一个 crawlspider 爬虫文件scrapy genspider rr renren.com3、设置settings,添加log日志等级,添加headers请求头4、添加一个文件运行爬虫from scrapy import
2020-09-02 13:59:08
118
原创 Python爬虫17-Scrapy 爬取微信小程序社区
Scrapy CrawlSpider实现爬取知识点:LinkExtractors:链接提取器,会在所有爬的页面中找到满足规则的url,实现自动的爬取callback:提取url地址的response会交给callback来处理follow:继续提取下一页的url1、创建一个scrapy项目scrapy startproject weChat2、生成一个 crawlspider 爬虫文件scrapy genspider -t crawl wx wxapp-union.com3、
2020-09-02 13:58:22
410
原创 Python爬虫16-Scrapy爬取阳光政务平台信息
Scrapy爬取阳光政务平台信息需求:实现翻页爬取1、创建一个scrapy项目scrapy startproject sun2、生成一个爬虫文件scrapy genspider yg wz.sun0769.com
2020-09-02 13:57:56
665
原创 Python爬虫15-Scrapy爬取腾讯招聘网信息
Scrapy爬取腾讯招聘网信息需求:爬取多页职位详情内容1、创建一个scrapy项目scrapy startproject tencent2、生成一个爬虫文件scrapy genspider tc tencent.com3、设置settings,添加log日志等级4、分析页面url5、开始编写代码 def parse(self, response): for page in range(1,6): # 拼接起始页url
2020-09-02 13:57:20
310
原创 Python爬虫14-Scrapy初探
Scrapy一、scrapy介绍二、scrapy入门2.1 创建一个scrapy项目2.2 生成一个爬虫2.3 在命令中运行爬虫2.4 settings.py文件设置2.4.1 添加headers请求头2.4.2 将robots协议注释掉2.4.3 添加log日志等级一、scrapy介绍Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,只需要实现少量的代码,就能够快速的抓取二、scrapy入门2.1 创建一个scrapy项目scrapy startproject spider
2020-09-02 13:56:49
347
原创 Python爬虫13-多任务进程
多任务进程一、多进程二、多进程队列一、多进程import multiprocessingimport timedef demo1(): while True: print('1111111111111') time.sleep(1)def demo2(): while True: print('2222222222222') time.sleep(1)def main(): t1=multiproces
2020-09-02 13:05:24
148
原创 Python爬虫12-爬取王者荣耀图片
爬取王者荣耀图片一、普通方式爬取二、多线程爬取一、普通方式爬取1、确定目标url ,删除callback参数2、把url后面的200改成03、要爬取多页需修改url中page参数,默认第一页是0import requestsfrom urllib import requestfrom urllib import parseimport osheaders={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/53
2020-09-02 13:05:03
709
原创 Python爬虫10-多任务线程
多任务线程一、模拟多任务二、多线程的创建一、模拟多任务import threadingimport timedef singe(): for i in range(3): print('唱歌。。。。。') time.sleep(2)def dance(): for j in range(3): print('跳舞。。。。。') time.sleep(2)if __name__ == '__main__':
2020-08-17 20:30:36
267
原创 Python爬虫09-Tesseract图形验证码识别
Tesseract图形验证码识别一、tesseract 使用二、pytesseract处理图形验证码Tesseract是一个将图像翻译成文字的OCR(光学文字识别)一、tesseract 使用import pytesseractfrom PIL import Image# PIL(Python Imaging Library) 图形处理库# 指定Tesseract的安装路径和数据包的路径pytesseract.pytesseract.tesseract_cmd = r'D:\Program
2020-08-17 20:30:17
129
1
原创 Python爬虫08-selenium案例
selenium案例一、操作Cookie1.1 获取百度的cookie1.2 模拟登录QQ空间二、页面等待一、操作Cookie1.1 获取百度的cookiefrom selenium import webdriverdriver=webdriver.Chrome()driver.get('https://www.baidu.com/')# 获取所有的cookiecookies = driver.get_cookies()for cookie in cookies: print(co
2020-08-17 20:29:47
335
原创 Python爬虫07-selenium基础、进阶
一、介绍selenium是一个web的自动化测试工具,可以直接运行在浏览器上,让浏览器自动加载页面,获取需要的数据,甚至页面截屏二、Phantomjs快速入门无头浏览器:一个完整的浏览器内核,但不包括显示和用户交互页面的浏览器,可通过截屏呈现# 导入模块from selenium import webdriver# 驱动driver=webdriver.PhantomJS()# 打开百度driver.get('https://www.baidu.com/')# 定位操作输入内容driv
2020-08-08 21:00:21
462
原创 Python爬虫06-bs4爬取全国城市温度
1、导入模块import requestsfrom bs4 import BeautifulSoup2、定义函数解析网页def Geturl(url): headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'} response=requests.get(url
2020-07-30 13:13:45
261
原创 Python爬虫05-bs4
bs4一、bs4对象种类一、bs4对象种类种类意思tag标签NavigableString可导航的字符串BeautifulSoupbs对象Comment注释
2020-07-29 22:08:01
274
原创 Python爬虫04-xpath爬取豆瓣韩剧数据
xpath爬取豆瓣韩剧数据需求:爬取豆瓣韩剧的标题、评分、评论以及详情页地址。1、导入模块import requestsfrom lxml import etreeimport csv2、分析每一页链接的规律https://www.douban.com/doulist/2942804/?start=0&sort=seq&playable=0&sub_type= 第1页https://www.douban.com/doulist/2942804/?start=25
2020-07-26 21:09:45
448
原创 Python爬虫03—正则表达式
正则表达式一、概念二、应用场景三、match()函数四、元字符4.1 . 匹配除换行符外任意一个字符五、预定义匹配字符集一、概念正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、以及特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。二、应用场景1、表单验证(手机号、邮箱、身份证)2、爬虫三、match()函数match(pattern, string, flags=0)第一个参数是正则表达式,如果匹配成功,则返回一个match对
2020-07-22 16:39:31
333
原创 Python爬虫02—请求模块
Requests模块一、响应对象Response的方法二、发送post请求(有道翻译)三、Requests设置代理四、处理不信任的SSL证书一、响应对象Response的方法response.text 返回unicode格式的数据(str)response.content 返回字节流数据(二进制)response.content.decode(‘utf-8’) 手动进行解码response.url 返回urlresponse.encode() = ‘编码’import requestsur
2020-07-19 15:13:59
816
原创 Python爬虫01—urllib内置模块案例
urllib内置模块案例一、爬取百度贴吧源码1、普通方法2、函数方法3、类方法一、爬取百度贴吧源码需求:(1)输入要爬取贴吧的主题(2)输入爬取的起始页和终止页(3)把每一页内容保存到本地html文件分析:https://tieba.baidu.com/f?kw=%E4%B8%AD%E5%9B%BD&ie=utf-8&pn=0 第一页https://tieba.baidu.com/f?kw=%E4%B8%AD%E5%9B%BD&ie=utf-8&pn=50
2020-07-15 22:52:36
214
1
原创 Python爬虫01—请求模块
Python爬虫01—请求模块一、基本概念1、请求方法1.1 GET1.2 POST2、Refer3、状态码二、获取图片1、requests模块2、request模块三、获取网页源码四、urllib.parse模块一、基本概念1、请求方法1.1 GET查询参数都会在URL上显示出来1.2 POST查询参数和需要提交数据是隐藏在Form表单里的,不会在URL地址上显示出来2、Refer表明当前这个请求是从哪个url过来的。一般情况下可以用来做反爬的技术3、状态码200 : 请求成功301
2020-07-15 20:16:05
188
原创 Python基础之字典
Python基础之字典一、特点二、基础知识1. 创建字典1.1 创建空字典1.2 创建带有元素的字典2. 访问字典3. 增加和修改4. 删除和清空5. 字典相关函数5.1 dict.keys()5.2 dict.values()5.3 dict.items()5.4 dict.get(key,default=None)5.5 dict.update(dict2)5.6 dict.fromkey...
2020-04-28 22:52:03
436
原创 Python基础之列表
Python基础之列表介绍一、基础知识1、访问列表中的元素2、修改元素的值3、删除元素3.1 del语句3.2 remove()方法3.3 pop()方法4、列表常用函数5、列表特殊操作5.1 组合列表5.2 列表的乘法5.3 判断元素是否在列表中6、切片7、排序和反转8、多维列表9、列表的遍历10、列表的内置方法介绍Python的列表是一个有序可重复的元素集合,其元素的数据类型可以不同...
2020-04-25 21:58:53
603
原创 Python基础之字符串
Python基础之字符串介绍获取字符串长度函数len(s)如何改变文本的样式如何插入一段漂亮的代码片创建一个表格设定内容居中、居左、居右SmartyPants介绍字符串是Python中最常用的数据类型之一,使用单引号或双引号来创建字符串,使用三引号创建多行字符串。获取字符串长度函数len(s)注意空字符串 s="“是连续两个引号,中间没有任何东西,空串的长度为 0,len(s)=0, 但是...
2020-04-19 14:22:21
1085
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅