那个她，-CSDN博客

原创 Scrapy初识与创建

Scrapy 是一套基于基于Twisted的异步处理框架，纯python实现的爬虫框架，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便～一.安装Scrapy框架因为功能十分强大，所以依赖很多库，不能直接安装，需要先安装依赖库，因为我的电脑在Windows下，所以这里展示Windows下的安装方法（如果有其他平台的需要，欢迎给我留言我在发出来）需要安装4个依赖库分别是1.lxml（这个最重要），使用pip命令安装pip3 install lxml若

2020-06-02 13:25:22 195

原创 XPath基本使用教程

一：简介XPath 是一门在 XML 文档中查找信息的语言。XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。二：XPath节点在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。案例：<?xml version="1.0" encoding="UTF-8"?><bookstore&

2020-06-02 11:22:26 1471

原创 pymysql模块的基本使用

一.安装pycharm以及操作数据库模板pymysql是Python中操作mysql的模块，（使用方法几乎和MySQLdb相同，但是在Python3中，mysqldb这个库已经不能继续使用了）安装：方法1：在cmd中输入下面的命令即可：pip3 install pymysql方法2：在pycharm集成开发环境中进行安装模块（比较简单就不再说明了）使用步骤:连接数据库—>创建游标—>执行SQL—>fetch获得数据，进行业务处理—>关闭游标—>commit—&g

2020-06-01 09:35:26 355

原创正则表达式萌新详解

在我们使用爬虫进行大型网站数据的爬取时我们肯定会用到数据解析，正则表达式是数据解析方法的一种。正则表达式模式描述^匹配字符串的开头$匹配字符串的末尾。.匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。[…]用来表示一组字符,单独列出：[amk] 匹配 ‘a’，‘m’或’k’[^…]不在[]中的字符：...

2020-04-07 14:07:32 300

原创 requests实战爬取生产许可证信息

本次案例涉及到requests的使用比较全面！！！首先我们打开网址：化妆品许可证图1：图2：这里我们要爬取的信息就是上图中的许可证信息。这里我们分析一下，如果我们要获取到图2中的信息，首先我们要得到它的url，它的url也只能通过图1中的数据获得。步入正题：我们使用抓包工具看一下数据到底是怎么传输的：这里我们找到了这个请求，我么发现在它的返回response中并没有有关企...

2020-04-04 11:36:28 352

原创 Requests实战小案例----豆瓣

今天我们看一下如何爬取豆瓣的电影信息。首先我们打开豆瓣电影的网页，这里我随便一个分类。这里我们看到页面中只有这20个电影，点击加载更多会继续向服务器发送请求然后返回数据。话不多说，开发者工具看走一走。这里我们点击“加载更多”会发送这样一个请求。我们可以从这个请求中发现哪些我们需要的内容呢？1.Request Url2.数据类型3.传递的参数ok，需要的东西我们都找到了，接...

2020-04-01 14:14:48 195

原创 requests案例--度娘翻译

我们首先打开百度翻译页面当我们搜索单词时，这里我搜多“dog”看一下。这里我们发现页面中只有部分内容发生变化。然后我们抓下包：这里我们发现很多数据包，只有图中的kw参数是“dog”，然后我们看一下Request Url。这里我们找到了Request Url，同时我们也发现了返回的数据类型为json类型。这里我们也找到了json数据。接下来就是我们的代码：import req...

2020-03-31 20:10:42 318

原创爬虫的初始深入

爬虫再使用场景中的分类1.通用爬虫：抓取系统重要组成部分。抓取的是一整张页面数据。2.聚焦爬虫：是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。3.增量式爬虫：检测网站中数据更新的情况。只会抓取网站中最新更细出来的数据。爬虫的矛盾反爬机制：相关的门户网站通过定制相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。反反爬策略：爬虫程序通过制定相关的策略或者技术手段用来破...

2020-03-31 13:24:21 127

原创 HTTP协议详解

HTTP协议简介超文本传输协议（英文：HyperText Transfer Protocol，缩写：HTTP）是一种用于分布式、协作式和超媒体信息系统的应用层协议。HTTP是万维网的数据通信的基础。HTTP协议是基于C/S架构进行通信的，而HTTP协议的服务器端实现程序有httpd、nginx等，其客户端的实现程序主要是Web浏览器，例如Firefox、InternetExplorer、Goo...

2020-03-18 18:53:16 1872

原创 Urllib中基本使用一（发送请求）

日常生活中我们浏览的那些网页例如：淘宝，百度，京东等等的网页，表面上看有各种特效和动画，实际上都是由后台的代码（HTML,CSS,JS等）经过浏览器解释才呈现出来的。今天我们要做的就是爬取网页的源码。1.urlopen：import urllib.requestresponse = urllib.request.urlopen("https://www.taobao.com/")dat...

2020-03-17 19:36:35 343

原创 matplotlib绘制3D图小例子

这里我们用到matplotlib、numpy和Axes3D库from mpl_toolkits.mplot3d import Axes3Dimport matplotlib.pyplot as pltimport numpy as np点线图：print("点线图")fig = plt.figure()ax = Axes3D(fig)X = np.arange(0,20,0.25...

2020-03-09 10:06:40 281

原创 DataFrame的索引，删除，运算，广播，排序小例子

import pandas as pdimport numpy as npse = pd.Series([1,2,3],index=['a','b','c'])print(se)print("索引：")print(se["b"])print(se[1])print(se[['b','c']])print(se.index)print(se.values)print("创建...

2020-03-04 19:18:52 355

原创 Numpy小案例

要求：列名：Vehicle_ID（车辆编号） Frame_ID（时间点） Local_X（车辆左前角x轴坐标）Local_Y（车辆左前角y轴坐标）v_length(车辆长度)v_Width（车辆宽度）Lane_ID（道路ID） v_Vel（车辆速度） v_Class（车辆类别） Preceding（前车ID） Following（后车ID） Space_Headway（车头距）需求：注...

2020-03-03 19:21:15 582

原创 Python多线程

首先我们区分一下线程和进程：进程和线程的关系：（1）一个线程只能属于一个进程，而一个进程可以有多个线程，但至少有一个线程。（2）资源分配给进程，同一进程的所有线程共享该进程的所有资源。（3）处理机分给线程，即真正在处理机上运行的是线程（4）线程在执行过程中，需要协作同步。不同进程的线程间要利用消息通信的办法实现同步。线程是指进程内的一个执行单元,也是进程内的可调度实体.进程与线...

2020-02-09 19:30:12 536

原创 Numpy高级索引

Numpy比Python提供更多的索引方式，有助于我们提取数据，这里说一下整数数组索引，布尔索引和花式索引。整数数组索引：例1：import numpy as npx = np.array([[1, 2], [3, 4], [5, 6]]) y = x[[0,1,2], [0,1,0]]print (y)读一下代码，然后我们看输出结果：取得的是（0，0），（1，1）和（...

2020-02-08 14:34:30 1009 1

原创 Numpy数组（数组的属性，索引和切片，数组的变形）

Numpy简述Numpy是Python中科学计算的基础包，它是一个Python库，提供多维数组对象，各种派生对象（如：掩码数组和矩阵），同时提供对数组/数据的各种操作。Numpy的数据类型：名称描述bool_布尔型数据类型（True 或者 False）int_默认的整数类型（类似于 C 语言中的 long，int32 或 int64）intc与 C 的 ...

2020-02-06 15:20:44 334

原创通过网易云API爬取评论

网上的爬取网易云评论的方法大多数是讲如何构建参数去破解它的一些加密，然后再去爬取评论。但是我们可以通过网易云的API接口，因为它是属于非加密的get请求，所以难度就直线下降。这里有一点需要注意：在一首歌每页显示20条评论的情况下，只有前500页是不重复的评论，从500页之后都是第500页的内容。在网页端和pc端都是这样。也就是说我们只能爬取到最多2万条数据。同时在XHR中发现获取不到的评论...

2020-02-04 13:13:14 3126 2

原创关于Django项目注册时邮件认证错误

今天突然博客注册出现了问题，就是游客注册时需要邮件认证，刚开始还没问题，但是QQ被冻结后，认证邮件发送就出现了问题下面是Django项目邮件认证中的setting配置文件需要的一部分参数：EMAIL_BACKEND='django.core.mail.backends.smtp.EmailBackend'EMAIL_USE_SSL = True# 邮箱服务EMAIL_HOST = 'sm...

2020-02-03 23:16:03 284

原创 wordcloud实现词云

这个词云是我通过爬取网易云《公子啊》的评论提取出来的热词制作的，通过词云我们可以直观的看出文字的出现频率。首先我们需要安装下面几个库 pip install re # 正则表达式库 pip install collections # 词频统计库 pip install numpy # numpy数据处理库 pip install jieba # 结巴分词 p...

2020-02-03 15:48:46 899

原创关于Python安装wordcloud库的方法和出现问题的解决方法

关于Puthon安装wordcloud库的方法和出现问题的解决方法wordcloud库是一个优秀的词云展示第三方库，安装时可能出现安装失败的情况。这里我们直接用命令行安装：pip install wordcloud正常是可以直接安装的，但是有时候会出现“VC++ 14的缺失问题，有一部分文章解决方案是安装上VC，实际上并不需要这么麻烦”我们通过下面的网址下载一个python的压缩包文件...

2020-02-02 17:39:55 2947 7

那个她，的博客