2021年02月_withxinxin

原创 02-28 python正则提取（98.46㎡）-数字

1、如：import res='85.45㎡'result=re.findall('\d+\.?\d*',s)print(result)

2021-02-28 23:15:11 97

原创 02-28 pandas中的settingwithcopywarning

pandas大坑之一：即：链式赋值潜在的异常警告，详细查看转载：https://www.jianshu.com/p/72274ccb647a

2021-02-28 12:14:42 68

原创 02-28 import pandas_profiling报错

安装 pandas_profiling模块时报错，一大串红色…脑袋大查询借鉴1：在对应目录下找到anaconda3和python解释器，然后分别修改权限结果是失败了，不过这个思路可以学习下。借鉴2：更新pip 安装包，后再安装pandas_profiling模块最后ok了，也不知道是pip更新OK了还是两次综合起作用了2、运行时报错（对应目录下已经存在tqdm文件包）ModuleNotFoundError: No module named 'tqdm.auto'解决：删.

2021-02-28 10:55:26 760

原创 02-27 mysql 相关错误

1、Data truncated for column ‘area’ at row 1字段的值超过其可输入的范围了，就像int(10)，但是导入的数据中有超出范围的，可以把字段的类型改一下，比如改成bigint(50)等等2、Out of range value for column ‘字段’ at row 1查看多条博客，最终发现:数据库表的类型是int可能数据长度不够，改为varchar解决。...

2021-02-27 23:35:29 106

原创 02-27成都二手房分析之分析

三、数据分析分析目的1、近半年成都二手房整体挂牌量及均价走势如何？2、目前成都二手房价位、房源有什么特点？3、成都各区县的挂牌情况，找出抛压最大的区域？数据清洗首先查看依稀我爬取的数据，共计23个维度，有些可以进行维度细分，比如：所在楼层、抵押信息等。在进行数据清洗清洗前使用pandas_profiling对爬取的数据进行快速的统计分析如下：#代码import pandas-profiling从统计分析报告内容可以看出本次爬取数据共计55555行，23列，存在89重复行，重复占比小于

2021-02-27 23:31:03 625 1

原创 02-27 类方法调用报错

1、错误名称TypeError: open_spider() takes 1 positional argument but 2 were givenTypeError:open_spider（）接受1个位置参数，但给出了2个原因为open_spider函数缺少参数spider代码：import pymysql# from pymysql import cousorsclass LianjiaPipeline(object): conn=None cursor=None

2021-02-27 22:19:54 470

原创 02-27多个CSV文件的合并

1、（windows）即cmd到该目录下 copy *CSV newname.csv

2021-02-27 20:35:42 123

原创成都链家项目之-存储部分

1、爬虫部分2、存储部分2-1 :MYSQL准备：1.安装mysql2.创建数据库->table3、分析部分

2021-02-27 13:41:57 88

原创 02-27 MySQL语句bug

1、语句结束分号为中文版：；2、语句若无响应： \g如： show databases ； > \g3、

2021-02-27 07:56:39 83

原创 02-27 提高scrapy爬取效率的方法

1、增加并发（增加并发线程数）scrapy默认开启的线程为32个，可以适当增加。在setting文件中修改为 1002、降低日志级别在运行scrapy时会有大量日志信息输出，为了减少日志信息的输出，降低CPU的使用率，可以设置输出错误日志 LOG_LEVEL='ERROR' 或者 'INFO'3、禁止cookie如果不是真的需要cookie，则在爬取数据时可以禁止cookie，从而减少CPU的使用率。在setting中写 COOKIES_ENABLED=False4、禁止重试：对

2021-02-27 06:26:54 908

原创 02-27 windows下MySQL安装流程

1、下载安装包并解压2、在dos进入对应路径下的bin文件3、初始化数据库 mysqld --initialize --console (注意:此过程中需要记录初始密码，后第一个登陆使用)4、安装mysqlmysqld --install5、启动mysql服务net start mysql / sc start mysql 6、登陆数据库mysql -u rooot -p7、修改密码alter user 'root'@'localhost' identified by

2021-02-27 05:40:47 104

原创 02-25 崩溃的两个问题

1.安装MySQL时记录了初始密码的，初始化登录后，就是报错密码错误，输了n边还是错，查了俩小时，解决方法有：my. ini文件内修改，跳过密码登录的，打开. err文件找密码的，重新安装的，倒腾的脑壳大，2、爬取链家6000多个url时，第79个URL的 —装修情况解析获取报错（索引超限），try：except解决反正其乐无穷…………...

2021-02-25 23:58:06 93

原创 02-23 pandas读取csv文件时报错

1、pandas读取文件时报错：SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape原因：路径写为：C:\Users\Administrator.USER-20200802SR\Desktop\pythonlianxi 1、没有文件名及格式 2、斜杠错误解决措施：改1、在路径前面加r，即保持字符原始值的意思。r

2021-02-23 23:57:29 339 1

原创 02-23 成都链家项目-2

1、创建工程-scrapy startproject LianJia2、进入spiders目录下创建爬虫文件（在终端）进入文件 -cd LianJia（确保爬虫文件位于spiders内）创建文件 - scrapy genspiders first www.xxx.com3、写spider文件

2021-02-23 23:52:58 74

原创 02-22 python生成器详解-2

一、原理生成器作用：解决了资源消耗的问题，用一个值，产生一个值，用完就扔，而列表是个数据存储结构，元素都是已生成存储起来的# 1 [ ] 为列表生成式list1=[ x*x for x in range(5)]# 第一次遍历for i in list1: print(i,end=" \n")# 返回值为：0 1 4 9 16# 第二次遍历for i in list1: print(i,end=" \n")# 返回值为：0 1 4 9 16

2021-02-22 23:52:28 338

原创 02-22 python异常之5

1、异常内容：ERROR: Twisted-20.3.0-cp36-cp36m-win_amd64.whl is not a supported wheel on this platform.因： python版本为3.8.8，但Twisted版本为C36，故报错

2021-02-22 23:03:58 126

原创 02-21二手房项目之-scrapy环境准备

1、一切模块安装都在python同目录下2、如何进入python（同级）目录终端，先找到python安装位置，然后在上方路径栏中输入-cmd，就直接进入终端3、pycharm中终端的利用3、python生成器的原理深入

2021-02-22 00:07:09 87

原创 02-21 python 生成器

1、含义： python生成器只要在def中有yield关键字，生成器，2、意义：其功能是每次函数运行到yield的时候，会返回yield后边的值并且函数暂停，知道下次调用3、eg: def fib(times): n=0 a,b=0,1 while n<times: print(b) a,b=b,a+b n+=1 return "done"# fib(10) #返回值如下：# 1#

2021-02-21 22:55:40 78

原创 02 -20 windows下scrapy环境的安装

1、 windows终端下安装：（依赖wheel和twisted模块）注意：需与Python安装同目录下2、依赖anaconda安装：pip install scrapy -y （依赖的包一起安装）3、

2021-02-20 22:13:22 60

原创 02-02成都二手房分析项目

一、分析目的1、2020年成都二手房整体挂牌量及均价走势如何？2、目前成都二手房价位、房源有何特点？3、成都各区县的挂牌情况，找出抛压最大的区域？二、主要工作1、数据挖掘：从链家网爬取成都二手房在售房源新信息，并持久化存储...

2021-02-19 01:59:02 380

原创 02-18 时间戳转日期

1、时间戳转日期：先转时间元组-timeArray，再转日期（年月日-时分秒）2、代码：import timet=time.time()tint(t)timeArray=time.localtime(t)timeArraydatatime=time.strftime("%Y-%m-%d",timeArray)datatime

2021-02-18 22:31:32 189

原创 02-18 36kr文章爬取-1

问题：1、动态加载的url通用模板如何设置？2、如何控制文章发布时间在一年内？3、如何实现分类保存？初步代码如下：import requestsfrom lxml import etreeimport timeimport jsonurl='https://gateway.36kr.com/api/mis/nav/ifm/subNav/flow'headers={ 'User_Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) Appl

2021-02-18 04:27:45 498

原创 02-18 post请求参数（form data和request payload）

1、AJAX Post请求中常用的两种传参数的形式： form data 和 request payload2、get请求的时候，我们的参数直接反映在url里面，形式为key1=value1&key2=value2形式，比如：http://news.baidu.com/ns?word=NBA&tn=news&from=news&cl=2&rn=20&ct=13、若post请求;那么表单参数是在请求体中，也是以key1=value1&key

2021-02-18 01:33:02 3428

原创 02-17 模拟登陆+多种反爬

1、验证码识别：（为了模拟登陆）相关的线上识别平台：打码兔，云打码，超级鹰（主要使用）：http://www.chaojiying.com/about.html 1.注册，登陆（用户中心的身份认证） 2、识别收费、 3、登陆后创建一个软件 ①点击软件ID-> 生成一个软件ID ②下载实例代码：点击开发文档-选择python-下载文档文档和爬虫项目放同目录 4、价格体系-有验证码类型，英文数字，中文汉字（如1902）二、对古诗文网中的验证码图片进行识别： https

2021-02-17 07:51:35 130

原创 02-16 scrapy五大核心组件

1、scrapy五大核心组件的Spider 主要用来干活的，用于从特定的网页汇总提取自己需要的信息，即所谓的实体（item），用户也可以从中提取连接，让scrapy继续抓取下一个网页①产生url（对不同的url，封装请求对象）②解析数据引擎用来处理整个系统的数据流处理，触发事务（框架核心）对象的实例化，方法的调用，都是通过引擎实现；但是方法和实例化类很多，引擎如何知道？引擎通过自己接受到的数据流l类型来判断，如接受到response，就需要去调用parse方法，如接收到i

2021-02-17 03:19:00 127

原创 02-15 scrapy-手动发送请求（get）（爬取多页+递归解析）

一、如何手动爬取重点1、使用场景：爬取多个页码（有很多页的网页）对应的页面源码数据2、url构造 ①进入网页的起始url （起始urlscrapy会自动发送请求） ②定义一个通用的url模板（多个url时需手动发送请求）3、递归根式函数 yield scrapy.Request(url,callback) 其中解析函数parse为递归函数4、scrapy一般发送get请求发送post请求如下（不常用）： data={ #post请求的参数 'kw':'xxx' }

2021-02-16 21:46:52 891

原创 02-14 scrapy +持久化存储+四文件详解（spider+setting+items+pipelines）

一、重点总结：extract（）方法scrapy中xpath返回的不是string，而是list，列表 #元素是selector对象 #extract() 是将Selector对象中的data参数的值取出 #列表直接调用extract()，表示extract（）作用到列 #表中的每一个元素二、实例爬取糗百文章1、创建项目工程主目录下（cd ../）scrapy startproject qiubaiPro2、创建爬虫文件 cd qiubaiPro -scrap

2021-02-14 23:58:53 120

原创 02-13 爬虫框架- scrapy

1、爬虫框架： scrapy（主要） +pyspider（一般）2、什么是框架？如何学习框架？ ①一个集成了各种功能且具有很强通用型（可以被应用在各种不同需求中）的一个项目模板 ②初级学习如何使用即可3、集成了哪些功能：高效能的数据解析操作，持久化的存储，高效能的数据下载操作...4、环境安装注：scrapy的异步是借助于Twisted实现的，所以需要提前下载安装Twisted windows： ①pip install wheel ②下载twisted h

2021-02-14 23:30:37 125

原创 02-12 多任务异步协程实例

一、注意事项：'''1、将多个对象存储到一个列表中，然后将该列表注册到事件循环中，在注册过程中，该列表需要用wait方法进行处理2、在任务对象对应的特殊函数内部的实现中，不可以出现不支持异步模块的代码，否则会中断整个异步效果，并且在该函数的内部中每一组阻塞操作都必须使用await关键字进行修饰3、requests模块不支持异步，所以不能出现在async 修饰的函数中二、代码框架import timeimport asynciourls=[ 'http://www.taob

2021-02-12 23:17:01 161

原创 02-12 单线程和多线程代码实例

from multiprocessing.dummy import Poolimport requestsimport timestart_time=time.time()pool=Pool(5)# 同步爬取代码urls=['http://127.0.01:5000/bobo','http://127.0.01:5000/jay','http://127.0.01:5000/tom']for url in urls: page_text=requests.get(url)

2021-02-12 22:02:12 123

原创 02-12 单线程+多任务异步协程

一、理论基础1、线程是有限的，线程开启过多，CPU吃不消2、多任务--理论上每个线程下可以开启很多协程，但实际效果一般500个最佳，速度最快‘’’二、爬虫推荐单线程+多任务异步协程1、协程是一个对象，可以吧协程当做衣蛾特殊的函数，如果一个函数的定义被async关键字修饰，该特殊的函数被调用后函数内部的程序语句不会被立即执行，而是会返回一个协程对象，如eg12、任务对象（task):所谓的任务对象就是协程对象的进一步封装（即是一个高级的协程对象）在任务对象中可以实现显示协程

2021-02-12 18:03:45 307

原创 02-11 同步和异步、并发和并行、阻塞和非阻塞

1、同步和异步解释官方定义：同步和异步关注的是消息通信机制 (synchronous communication/ asynchronous communication)。同步，就是调用某个东西是，调用方得等待这个调用返回结果才能继续往后执行。异步，和同步相反调用方不会理解得到结果，而是在调用发出后调用者可用继续执行后续操作，被调用者通过状体来通知调用者，或者通过回掉函数来处理这个调用现实举例：你去商城买东西，你看上了一款手机，能和店家说你一个这款手机，他就去仓库拿货，你得在店里等

2021-02-11 02:08:51 146

原创 02-10 jupyter 快捷键

1、 jupyter 快捷键—编辑模式下： ①ESC 编辑模式进入命令行模式 ②ctrl + / 注释整行 ③ctrl+→ 到行尾 ④ctrl+← 到行首 ⑤shift + tab 取消缩进 ⑥tab 缩进 ⑦ctrl + d 删除整行–命令模式下 ①enter 命令行模式进入编辑模式 ②m 切换cell类型为 markdown ③a/b 上下方插入cell ④ ctrl+ ↑ 选择上一个cell ， ctrl + ↓ 选下一个cell ⑤y 切换cell 模型

2021-02-10 22:12:28 157

原创 02-09 cookie 反爬

1、什么是cookie？①HTTP协议是一个无状态的协议，服务器无法区分出两次请求是否发送自同一服务器，需要通过会话控制来解决这个问题，会话控制主要有两种方式Cookie 和 Session②Cookie就是一个头，Cookie由服务器创建，服务器以响应头（头信息-UA）的形式发送给客户端。客户端收到Cookie以后，会将其自动保存，在下次向服务器发送请求时会自动将Cookie以请求的形式发出，服务器收到以后就可以检查请求头中的Cookie并且可以根据Cookie中的信息来识别出不同的用户

2021-02-10 21:39:27 286

原创 02-10 爬虫网页分析基础

1、network 部分参数意：①query string parameters -查询字符串参数② view parsed- 已分析的视图③ request payload- 请求有效负载

2021-02-10 20:59:16 118

原创 02-08 SQL温故知新二

1、偏析函数①leg(exp_str, offset,defavl) over() 向上偏析exp_str : 偏析的字段offset：偏析量defavl：偏析后的填充值，若为指定，则用NULL填充HiveQL与SQL区别1、Hive不支持等值连接•SQL中对两表内联可以写成：•select * from dual a,dual b where a.key = b.key;•Hive中应为•select * from dual a join dual b on a.key = b.k

2021-02-08 22:06:46 112

原创 02- 05 Excel -总结1

1、Excel工作薄的表都是2^14 列，2^20行，共计2^14 * 2^20个单元格；2、工作表的主要操作有：插入、删除、复制、移动、重命名、保护、设置工作表标签颜色；3、单元格地址：列标签行标签--如 B34 -第二列34行；区域地址左上角单元格：右下角单元格如：A1:F564、快捷键选定单元格区域（前提行或列中无空单元格）数据列： ctrl+shift+↓数据行：ctrl+shift+→多行或多列：ctrl+shift+↓/→5、数据类型有：文本型：

2021-02-06 22:12:31 71

原创 02-06 SQL之温故知新解

1、选择语句核心框架及运行顺序8- select column1， column2， sum（聚合函数） 1- from table1 a 3- join table2 b 2- on a.column=b.column4- where 5- group by6- with7- having(排序后筛选）9- order by 10-limit （限制结果数量）2、select 后有几项，最终结果就有几个字段3、partition by a.year

2021-02-06 21:50:44 88

原创 02-04 python基础知识3

1、开发者工具中：elements中的页面标签数据对应的是整张网页页面加载完毕对应的数据，这些数据一般由一个或多个url请求得到；

2021-02-04 22:40:09 42

原创 02 -02 36kr项目

1、项目内容1、基于python的数据采集采集36kr的最近一年的文章，按照分类保存新闻文本；链接：https://36kr.com/information/web_news/latest工具：python注意：数据采集控制并发度不要太高，0.5s采集一遍文章，同时准守robots协议，不允许采集的域名不能采集；https://36kr.com/robots.txt2、文本聚类采用k-means算法对采集的文本进行聚类；参考文档：https://www.cnblogs.com/fe

2021-02-02 23:17:14 284

2021-05-27function.py

2021-05-27 查询客户邮箱.py

空空如也