![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
文章平均质量分 77
weixin_48737462
这个作者很懒,什么都没留下…
展开
-
flask框架
Flask框架轻量级的web框架安装:pip install flask导包:from flask import Flask步骤:1.创建应用程序app = Flask(__name__)2.运行应用程序if __name__ == '__main__': app.run()3.进行业务处理代码:from flask import Flask# 创建应用程序# web应用程序app = Flask(__name__)# 写一个函数来处理浏览器发过来的请求@app原创 2021-01-12 22:08:04 · 59 阅读 · 0 评论 -
Scrapy框架五大核心组件
Scrapy框架五大核心组件引擎(scrapy)用来处理整个系统的数据流处理,触发事务(框架核心)调度器(scheduler)用来接收引擎发过来的请求(去重后)压入队列,并在引擎再次请求时返回队列下载器(downloader)用来下载网页内容,并将网页内容以response的形式返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)。爬虫(spiders)爬虫是主要干活的, 它可以生成url, 并从特定的url中提取自己需要的信息, 即所谓的实体(原创 2020-12-14 21:03:43 · 349 阅读 · 0 评论 -
python办公自动化——提取pdf中的文字和表格
python办公自动化——提取pdf中的文字和表格一、提取pdf中的文字编码流程:1.导入包:import pdfplumber2.找到pdf路径:pdf_path = ‘xxx.pdf’3.打开pdf :pdf = pdfplumber.open(pdf_path)4.获取页面获取某一页:parse_page = pdf.pages[n]获取所有页面:parse_page = pdf.pages5.获取所有页面的文字:parse_page.extract_text()6.存原创 2020-12-11 14:41:26 · 1292 阅读 · 0 评论 -
基于管道的持久化存储
基于管道的持久化存储scrapy框架中已经为我们专门集成好了高效、便捷的持久化操作功能,我们可以直接使用。先来认识两个文件:items.py:数据结构模板文件。定义数据属性。pipelines.py:管道文件。接收数据(items),进行持久化操作。持久化流程1.爬虫文件爬取到数据后,需要将数据封装到items对象中2.使用yield关键字将items对象提交给pipelines管道进行持久化存储3.在管道文件中的process_item方法中接收爬虫文件提交过来的数据,编写持久原创 2020-12-10 21:44:18 · 322 阅读 · 0 评论 -
python爬虫——scrapy框架
scrapy框架什么是框架?是一个集成了许多功能并具有极强通用性的项目模板怎么学习框架?专门学习框架封装好的各种功能的详细用法什么是scrapy框架?爬虫封装好的一个明星框架。功能:高性能的持久化存储、异步的数据下载、高性能的数据解析、分布式scrapy框架的基本使用环境的安装windows:pip install wheel下载twisted地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/安装twisted:pi原创 2020-12-10 10:07:41 · 106 阅读 · 2 评论 -
python爬虫之selenium(3)动作链
python爬虫之selenium(3)selenium处理iframe如果定位的标签存在于iframe标签之中,则必须使用switch_to.iframe(iframe的id)动作链(拖动):from selenium.webdriver import ActionChains实例化一个动作链action = ActionChains(bro)长按且点击操作click_and_hold(div)move_by_offset(x,y):拖动perform:让动作链立即执行释放动作链原创 2020-11-15 19:24:32 · 532 阅读 · 0 评论 -
python爬虫之selenium(2)
python爬虫之selenium(2)1.模拟淘宝搜索商品from selenium import webdriverfrom time import sleepbro = webdriver.Chrome(executable_path='./chromedriver')bro.get('https://www.taobao.com/')search_input = bro.find_element_by_id('q')search_input.send_keys('毛衣开衫')btn原创 2020-11-15 18:47:01 · 99 阅读 · 0 评论 -
python爬虫之selenium(1)
python爬虫之selenium(1)Q1.验证当前页面是动态加载出来的1.根据URL地址,利用F12开发者工具抓包,Response中返回的是响应数据,利用搜索,判断当前数据是否是通过ajax请求动态加载出来的。Q2.如何获取动态加载到的数据2.利用ALL中所有的包,点击一下,CTRL+F进行全局搜索,找到响应包中含关键字的包,再利用Headers中的URL和下面的参数发请求selenium模块的基本使用selenium模块和python之间的关联?便捷的获取网页中动态加载出来的原创 2020-11-15 17:18:52 · 112 阅读 · 0 评论 -
python爬虫之xpath实战图片下载
python爬虫之xpath实战图片下载#-*- codeing=UTF-8 -*-#@Time : 2020/11/3 19:24#@Author :syoopy#@File : .py#@Software : PyCharmimport requestsfrom lxml import etreeif __name__ == '__main__': #1.指定url url = 'http://pic.netbian.com/4kmeishi/' #2.UA伪原创 2020-11-03 21:39:12 · 245 阅读 · 0 评论 -
python爬虫之xpath实战
python爬虫之xpath实战代码:import requestsfrom lxml import etreeif __name__ == '__main__': url = "https://wx.58.com/ershoufang/" headers = {"user-agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 S原创 2020-11-02 22:31:48 · 187 阅读 · 0 评论 -
python爬虫之xpath解析基础
xpath解析xpath解析:最常用且最便捷高效的一种解析方式。具有通用性。xpath解析原理:- 1.实例化一个etree对象,且需要将被解析的页面源码数据加载到该对象中。- 2.调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。环境的安装pip install lxmllxml是一种处理xml和html的python语言,也是一种解析库如何实例化一个etree对象 from lxml import etree- 1.将本地html文档中的源码数原创 2020-11-02 21:39:01 · 932 阅读 · 0 评论 -
python爬虫实战-获取部门预算文件公开时间
python爬虫实战-获取预算文件公开时间#-*- codeing=UTF-8 -*-#@Time : 2020/9/18 21:29#@Author :syoopy#@File : .py#@Software : PyCharmimport requestsimport jsonimport pandas as pdheaders = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHT原创 2020-09-18 22:11:28 · 207 阅读 · 0 评论 -
python爬虫之requests(4)
python爬虫之requests(4)实战:爬取豆瓣电影喜剧排行榜在页面中,滚轮向下滑动时,地址栏不变,局部刷新出新数据,打开F12开发者工具-Network,往下滑动,出现响应,即采用ajax请求Request URL:将后面的参数以字典形式封装发起的是get请求返回的是json数据参数封装成字典代码:import requestsimport jsonurl = 'https://movie.douban.com/j/chart/top_list?'headers =原创 2020-10-28 14:12:16 · 99 阅读 · 0 评论 -
python爬虫之requests(2)
python爬虫之requests(2)实战:制作简易网页采集器(获取到的是全部网页的内容)1.处理参数封装到字典当中kw=input(“请输入搜索词:”)dict1={“wd”:kw}2.存储时采用动态的名字filename=kw+’.html’再将filename传入open函数当中运行代码:import requests#1.指定URLurl = 'https://www.baidu.com/s?'#2.UA伪装headers = { "User-Agent":原创 2020-10-28 13:57:07 · 112 阅读 · 0 评论 -
python爬虫之requests(1)-全流程公式
python爬虫之requests(1)实战:爬取百度网页html1.指定URL2.UA伪装3.发起请求(模拟浏览器)requests(URL=URL,Headers=headers)4.获取响应数据返回response对象Content-Type查看是text/html还是Json格式5.持久化存储补充response属性# respone属性print(respone.text) # 获取响应的页面内容print(respone.content) # 获取二进制页面内容原创 2020-10-28 13:39:02 · 272 阅读 · 0 评论