![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
文章平均质量分 80
Viviana-0
这个作者很懒,什么都没留下…
展开
-
Django基础教程
一、Django是什么?Django 是用 Python 开发的一个免费开源的 Web 框架,可以用于快速搭建高性能、优雅的网站,Django 提供了许多网站后台开发经常用到的模块,使开发者能够专注于业务部分。二、MVC设计模式在Web开发领域有一个著名的设计模式 ---- MVC,而Django的设计模式是MTVM:Model模型,和数据库进行交互V:View视图,产生html页面C:Controller,控制器接收请求,进行处理,与M和V进行交互,返回应答三、MTV设计模式M:M原创 2020-10-12 21:02:11 · 14195 阅读 · 2 评论 -
(三) 爬虫教程 |解析库的使用
在实现爬虫中,我们提取页面信息时使用的是正则表达式,这还是比较烦琐的,万一有地方写错了,可能会导致匹配失败。在Python中还有很多强大的库lxml、Beautiful Soup、pyquery等,有了它们我们就不必要为正则表达式发愁,解析效率也会大大提高。一.关于XPath1.概述XPath 全称 XML Path Language ,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言。它最初是用来搜寻 XML 文档的,但是它同样适用于 HTML 文档的搜索所以在做爬虫时,我.原创 2022-04-16 08:42:32 · 227 阅读 · 0 评论 -
(八) 爬虫教程 |Scrapy框架的使用
一、Scrapy框架的介绍Scrapy是一个基于Twisted 的异步处理框架,是纯 Python 实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以灵活完成各种需求。1.1架构介绍1.Engine:引擎,处理整个系统的数据流处理、触发事物Item:项目,它定义了怕去结果的数据结构,爬取的数据会被赋值成该Item对象Scheduler:调度器,接受引擎发过来的请求并将其加入队列中,在引擎再次请求的时候即哪个请求提供给引擎Downloader:下载器,下载网页内容,并将网页内容原创 2020-12-29 16:08:18 · 1083 阅读 · 0 评论 -
(七) 爬虫教程 |验证码的识别
目前,许多网站采取各种各样的措施来反爬虫,其中一个措施便是使用验证码。随着技术的发展,后来加入了英文字母和混淆。有的网站还可能看到中文字符的验证码,这使得识别愈发困难。一、tessereocr安装Windows下安装1.在Windows下,首先需要下载tesseract,它为tessereocr提供了支持。tesserac 下载地址: https://digi.bib.uni-mannheim.de/tesseract/2.进入下载页面,可以看到有各种.exe文件的下载列表。3..原创 2020-12-28 15:35:15 · 597 阅读 · 0 评论 -
(六) 爬虫教程 |Selenium的使用
一、Selenium概述Selenium 是一个用于测试 Web 应用程序的框架,该框架测试直接在浏览器中运行,就像真实用户操作一样。它支持多种平台:Windows、Linux、Mac,支持多种语言:Python、Perl、PHP、C# 等,支持多种浏览器:Chrome、IE、Firefox、Safari 等。二、Selenium下载安装1.Selenium安装pip install selenium2. WebDriver安装我们安装好了Selenium库,但是它是一个自动化测试工具,需原创 2020-12-25 16:51:37 · 1168 阅读 · 0 评论 -
(五) 爬虫教程 |Ajax 数据爬取
一、前言有时候我们在用 requests 抓取页面的时候,得到的结果可能和在浏览器中看到的不一样:在浏览器中可以看到正常显示的页面数据,但是使用 requests 得到的结果并没有,这是因为requests 获取的都是原始的 HTML 文档,而浏览器中的页面则是经过 JavaScript 处理数据后生成的结果,这些数据的来源有多种,可能是通过 Ajax 加载的, 可能是包含在 HTML 文档中的,也可能是经过 JavaScript 和定算法计算后生成的对于第一种情况,数据加载是一种异步加载方式,原始的原创 2020-12-24 16:11:02 · 2890 阅读 · 0 评论 -
(四) 爬虫教程 |解析库Beautiful Soup的使用
一、Beautiful Soup概述Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了原创 2020-12-23 15:06:44 · 524 阅读 · 0 评论 -
(三) 爬虫教程 |解析库XPath的使用
在实现爬虫中,我们提取页面信息时使用的是正则表达式,这还是比较烦琐的,万一有地方写错了,可能会导致匹配失败。在Python中还有很多强大的库lxml、Beautiful Soup、pyquery等,有了它们我们就不必要为正则表达式发愁,解析效率也会大大提高。一、关于XPath概述XPath 全称 XML Path Language ,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言。它最初是用来搜寻 XML 文档的,但是它同样适用于 HTML 文档的搜索所以在做爬虫时,我们完全.原创 2020-12-22 14:46:58 · 1035 阅读 · 0 评论 -
(二) 爬虫教程 |基本requests库的使用
一、HTTP基本原理1.URL和URI这里我们首先了解一下URL和URI,URI的全程为Uniform Resource Identifier,即统一资源标志符,URL的全称为Uniform Resource Locator,即统一资源定位符做一个不完全准确的类比,URI的作用像身份证号一样,URL的作用像家庭住址一样,URN可以唯一标识一个人,而URL可以告诉邮递员怎么把货送到你手里。2.超文本我们在浏览器里看到的网页就是超文本,其网页源代码是一系列HTML代码,里面包含了一系列标签,比原创 2020-12-21 15:08:32 · 578 阅读 · 0 评论 -
(一) 爬虫教程 |正则表达式
一、概述:正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。二、常用的正则匹配规则三、match()match()方法会尝试从字符串的起始位置匹配正则表达式,如果匹配,就返回匹配成功的结果;如果不匹配,就返回None在 match()方法中,第一个参数传入了正则表达式,第二个参数传入了要匹配的字符串打印输出结果,可以看到结果是 SRE_Match 对象原创 2020-12-18 15:52:13 · 608 阅读 · 1 评论 -
常用的第三方模块-Pillow
一、关于PIL和Pillow区分1.PILPIL官方文档:http://pythonware.com/products/pil/PIL是一个强大的、方便的python图像处理库,功能非常强大,曾经一度被认为是python平台事实上的图像处理标准库,不过Python 2.7以后不再支持。2.PillowPillow官方文档:https://pillow.readthedocs.org/Pillow是基于PIL模块fork的一个派生分支,但如今已经发展成为比PIL本身更具活力的图像处理库。原创 2020-12-14 15:20:56 · 1310 阅读 · 0 评论 -
Python中关于collections模块的数据类型
python的collections是用于存储数据集合(比如列表list, 字典dict, 元组tuple和集合set)的容器。这些容器内置在Python中,可以直接使用。collections模块提供了额外的,高性能的数据类型,可以增强你的代码,使事情变得更清洁,更容易。Python官方文档对defaultdic的定义dict subclass that calls a factory function to supply missing values关于defaultdict:def.原创 2020-12-11 13:39:41 · 702 阅读 · 2 评论 -
Python 进度条库 - Tqdm
tqdm就能非常完美的支持和解决这些问题,可以实时输出处理进度而且占用的CPU资源非常少,支持循环处理、多进程、递归处理、还可以结合linux的命令来查看处理情况,等进度展示。1.关于tqdm的简单用法方法一:import timefrom tqdm import tqdmfor i in tqdm(range(200)): time.sleep(0.01)方法二:针对迭代对象是range()的情况,tqdm还提供了简化版的trange()来代替tqdm(range()):.原创 2020-11-12 13:20:53 · 841 阅读 · 1 评论 -
关于Python基础知识点
--------- Python基础陆续更新中 -------------------一、计算机的三大组件一、计算机包含有较多的硬件,但是一个程序要运行,有三个核心的硬件,分别是:CPU中央处理器,是一块超大规模的集成电路负责处理数据/计算内存临时存储数据(断电之后,数据会消失)速度快空间小价格高硬盘永久存储数据速度慢空间大价格便宜二、程序执行的原理1.程序要运行前,程序是保存在硬盘中的2.当要运行一个程序时候- 操作系统会首先让CPU把程序 复制到内存中原创 2020-09-27 21:08:25 · 2011 阅读 · 2 评论 -
解决:Script file ‘D:\programme\anaconda\Anaconda\Scripts\pip-script.py‘ is not present.
报错:Script file ‘D:\programme\anaconda\Anaconda\Scripts\pip-script.py’ is not present.解决:首先进入anaconda安装路径下的Scripts目录下,接着输入:easy_install pip关于esay_install pip:它会通过模块名称来安装,setuptools会自动搜索PyPI以查找最新版本的模块,如果找到的话,他会自动下载,自动编译和安装pip是easy_install改进版,提供更好的提原创 2020-09-27 19:37:56 · 2186 阅读 · 1 评论 -
关于conda的使用
Conda 是一个开源的软件包管理系统和环境管理系统,用于安装多个版本的软件包及其依赖关系,并在它们之间轻松切换。 Conda 是为 Python 程序创建的,适用于 Linux,OS X 和Windows,也可以打包和分发其他软件。一、在conda虚拟环境下安装python环境conda create -n python35 python==3.5anaconda命令创建python版本为3.5,名字为python35的虚拟环境,python35文件可以在Anaconda安装目录envs文件下.原创 2020-08-28 14:54:33 · 672 阅读 · 1 评论 -
Windows中Minio的安装和使用
MinIO 是一个基于Apache License v2.0开源协议的对象存储服务。它兼容亚马逊S3云存储服务接口,非常适合于存储大容量非结构化的数据,例如图片、视频、日志文件、备份数据和容器/虚拟机镜像等,而一个对象文件可以是任意大小,从几kb到最大5T不等。MinIO是一个非常轻量的服务,可以很简单的和其他应用的结合,类似 NodeJS, Redis 或者 MySQL。1.Minio官网地址:https://min.io/2.安装启动在cmd窗口中,命令行进行minio.exe所在的文件夹.原创 2020-07-07 07:47:38 · 15330 阅读 · 2 评论 -
关于PhantomJS:下载与安装
一、PhantomJS介绍:PhantomJS是一个Webkit的"无界面(headless)浏览器",它会把网站加载到内存并执行页面上的JavaScript二、PhantomJS下载官方下载地址:https://phantomjs.org/download.html下载完成将其进行解压,单独放在一个文件夹中配置环境变量 —— 控制面板----->系统和安全------>系统 -----> 高级 -----> 环境变量 ----> 用户变量 ----->编辑原创 2020-05-22 11:39:03 · 3974 阅读 · 0 评论 -
在Chrome安装xpath helper
1.打开浏览器2.方式一:管理 —> 更多工具 ----> 填充功能方式二:在导航栏中输入chrome://extensions即可自动跳转3.出现这个页面,点击载入未封装的项目4.选择下载好的xpath helper插件5.成功出现插件6.若要召唤出插件则按快捷键CTRL+SHIFT+XTips:1.我下载的插件是.crx但是在载入的时候是没有出现可以选择的内容的2.这种情况我们将插件先进行更改后缀,将原本的.crx改为rar3.再将.rar解压后放入一个文件夹中原创 2020-05-15 13:52:47 · 971 阅读 · 0 评论 -
Pycharm解决:bs4.FeatureNotFound: Couldn‘t find a tree builder with the features you requested: lxml. D
安装beautifulsoup之后,运行报错:bs4.FeatureNotFound: Couldn’t find a tree builder with the features you requested: lxml. Do you need to install a parser library?解决:在终端中 安装 pip install lxml...原创 2020-04-26 16:11:21 · 1000 阅读 · 0 评论 -
Pycharm解决:在终端安装python库但是pycharm中没有此库的问题
一开始遇到这个问题我以为只是新建个项目可能就会好了,后来发现在终端安装python库,但是pycharm中没有此库的问题新建项目是解决不了的解决:1.File ----> Settings ------> Project class ----> Project Interpreter —> 点击第二步(会出现add则点击add) ----> 在点击 Existi...原创 2020-04-26 15:37:01 · 7571 阅读 · 4 评论