自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 资源 (2)
  • 收藏
  • 关注

原创 02-28 python正则提取(98.46㎡)-数字

1、如:import res='85.45㎡'result=re.findall('\d+\.?\d*',s)print(result)

2021-02-28 23:15:11 97

原创 02-28 pandas中的settingwithcopywarning

pandas大坑之一:即:链式赋值潜在的异常警告,详细查看转载:https://www.jianshu.com/p/72274ccb647a

2021-02-28 12:14:42 68

原创 02-28 import pandas_profiling报错

安装 pandas_profiling模块时报错,一大串红色…脑袋大查询借鉴1:在对应目录下找到anaconda3和python解释器,然后分别修改权限结果是失败了,不过这个思路可以学习下。借鉴2:更新pip 安装包,后再安装pandas_profiling模块最后ok了,也不知道是pip更新OK了还是两次综合起作用了2、运行时报错(对应目录下已经存在tqdm文件包)ModuleNotFoundError: No module named 'tqdm.auto'解决:删.

2021-02-28 10:55:26 760

原创 02-27 mysql 相关错误

1、Data truncated for column ‘area’ at row 1字段的值超过其可输入的范围了,就像int(10),但是导入的数据中有超出范围的,可以把字段的类型改一下,比如改成bigint(50)等等2、Out of range value for column ‘字段’ at row 1查看多条博客,最终发现:数据库表的类型是int可能数据长度不够,改为varchar解决。...

2021-02-27 23:35:29 106

原创 02-27成都二手房分析之分析

三、数据分析分析目的1、近半年成都二手房整体挂牌量及均价走势如何?2、目前成都二手房价位、房源有什么特点?3、成都各区县的挂牌情况,找出抛压最大的区域?数据清洗首先查看依稀我爬取的数据,共计23个维度,有些可以进行维度细分,比如:所在楼层、抵押信息等。在进行数据清洗清洗前使用pandas_profiling对爬取的数据进行快速的统计分析如下:#代码import pandas-profiling从统计分析报告内容可以看出本次爬取数据共计55555行,23列,存在89重复行,重复占比小于

2021-02-27 23:31:03 625 1

原创 02-27 类方法调用报错

1、错误名称TypeError: open_spider() takes 1 positional argument but 2 were givenTypeError:open_spider()接受1个位置参数,但给出了2个原因为open_spider函数缺少参数spider代码:import pymysql# from pymysql import cousorsclass LianjiaPipeline(object): conn=None cursor=None

2021-02-27 22:19:54 470

原创 02-27多个CSV文件的合并

1、 (windows)即cmd到该目录下 copy *CSV newname.csv

2021-02-27 20:35:42 123

原创 成都链家项目之-存储部分

1、爬虫部分2、存储部分2-1 :MYSQL准备:1.安装mysql2.创建数据库->table3、分析部分

2021-02-27 13:41:57 88

原创 02-27 MySQL语句bug

1、 语句结束分号为中文版: ;2、语句若无响应: \g如: show databases ; > \g3、

2021-02-27 07:56:39 83

原创 02-27 提高scrapy爬取效率的方法

1、增加并发(增加并发线程数)scrapy默认开启的线程为32个,可以适当增加。在setting文件中修改为 1002、降低日志级别在运行scrapy时会有大量日志信息输出,为了减少日志信息的输出,降低CPU的使用率,可以设置输出错误日志 LOG_LEVEL='ERROR' 或者 'INFO'3、禁止cookie如果不是真的需要cookie,则在爬取数据时可以禁止cookie,从而减少CPU的使用率。在setting中写 COOKIES_ENABLED=False4、禁止重试:对

2021-02-27 06:26:54 908

原创 02-27 windows下MySQL安装流程

1、下载安装包并解压2、在dos进入对应路径下的bin文件3、初始化数据库 mysqld --initialize --console (注意:此过程中需要记录初始密码,后第一个登陆使用)4、安装mysqlmysqld --install5、启动mysql服务net start mysql / sc start mysql 6、登陆数据库mysql -u rooot -p7、修改密码alter user 'root'@'localhost' identified by

2021-02-27 05:40:47 104

原创 02-25 崩溃的两个问题

1.安装MySQL时记录了初始密码的,初始化登录后,就是报错密码错误,输了n边还是错,查了俩小时,解决方法有:my. ini文件内修改,跳过密码登录的,打开. err文件找密码的,重新安装的,倒腾的脑壳大,2、爬取链家6000多个url时,第79个URL的 —装修情况 解析获取报错(索引超限),try:except解决反正其乐无穷…………...

2021-02-25 23:58:06 93

原创 02-23 pandas读取csv文件时报错

1、pandas读取文件时报错:SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape原因:路径写为:C:\Users\Administrator.USER-20200802SR\Desktop\pythonlianxi 1、没有文件名及格式 2、斜杠错误解决措施:改1、在路径前面加r,即保持字符原始值的意思。r

2021-02-23 23:57:29 339 1

原创 02-23 成都链家项目-2

1、创建工程-scrapy startproject LianJia2、进入spiders目录下创建爬虫文件(在终端)进入文件 -cd LianJia(确保爬虫文件位于spiders内) 创建文件 - scrapy genspiders first www.xxx.com3、写spider文件

2021-02-23 23:52:58 74

原创 02-22 python生成器详解-2

一、原理 生成器作用:解决了资源消耗的问题,用一个值,产生一个值,用完就扔,而列表是个数据存储结构,元素都是已生成存储起来的# 1 [ ] 为列表生成式list1=[ x*x for x in range(5)]# 第一次遍历for i in list1: print(i,end=" \n")# 返回值为:0 1 4 9 16# 第二次遍历for i in list1: print(i,end=" \n")# 返回值为:0 1 4 9 16

2021-02-22 23:52:28 338

原创 02-22 python异常之5

1、 异常内容:ERROR: Twisted-20.3.0-cp36-cp36m-win_amd64.whl is not a supported wheel on this platform.因: python版本为3.8.8,但Twisted版本为C36,故报错

2021-02-22 23:03:58 126

原创 02-21二手房项目之-scrapy环境准备

1、一切模块安装都在python同目录下2、如何进入python(同级)目录终端,先找到python安装位置,然后在上方路径栏中输入-cmd,就直接进入终端3、pycharm中终端的利用3、python生成器的原理深入

2021-02-22 00:07:09 87

原创 02-21 python 生成器

1、 含义: python生成器只要在def中有yield关键字,生成器,2、意义:其功能是每次函数运行到yield的时候,会返回yield后边的值并且函数暂停,知道下次调用3、eg: def fib(times): n=0 a,b=0,1 while n<times: print(b) a,b=b,a+b n+=1 return "done"# fib(10) #返回值如下:# 1#

2021-02-21 22:55:40 78

原创 02 -20 windows下scrapy环境的安装

1、 windows终端下安装: (依赖wheel和twisted模块) 注意:需与Python安装同目录下2、依赖anaconda安装:pip install scrapy -y (依赖的包一起安装)3、

2021-02-20 22:13:22 60

原创 02-02成都二手房分析项目

一、分析目的1、2020年成都二手房整体挂牌量及均价走势如何?2、目前成都二手房价位、房源有何特点?3、成都各区县的挂牌情况,找出抛压最大的区域?二、主要工作1、数据挖掘:从链家网爬取成都二手房在售房源新信息,并持久化存储...

2021-02-19 01:59:02 380

原创 02-18 时间戳转日期

1、时间戳转日期:先转时间元组-timeArray,再转 日期(年月日-时分秒)2、代码:import timet=time.time()tint(t)timeArray=time.localtime(t)timeArraydatatime=time.strftime("%Y-%m-%d",timeArray)datatime

2021-02-18 22:31:32 189

原创 02-18 36kr文章爬取-1

问题:1、动态加载的url通用模板如何设置?2、如何控制文章发布时间在一年内?3、如何实现分类保存?初步代码如下:import requestsfrom lxml import etreeimport timeimport jsonurl='https://gateway.36kr.com/api/mis/nav/ifm/subNav/flow'headers={ 'User_Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) Appl

2021-02-18 04:27:45 498

原创 02-18 post请求参数(form data和request payload)

1、AJAX Post请求中常用的两种传参数的形式: form data 和 request payload2、get请求的时候,我们的参数直接反映在url里面,形式为key1=value1&key2=value2形式,比如:http://news.baidu.com/ns?word=NBA&tn=news&from=news&cl=2&rn=20&ct=13、若post请求;那么表单参数是在请求体中,也是以key1=value1&key

2021-02-18 01:33:02 3428

原创 02-17 模拟登陆+多种反爬

1、验证码识别:(为了模拟登陆)相关的线上识别平台:打码兔,云打码,超级鹰(主要使用):http://www.chaojiying.com/about.html 1.注册,登陆(用户中心的身份认证) 2、识别收费、 3、登陆后创建一个软件 ①点击软件ID-> 生成一个软件ID ②下载实例代码: 点击开发文档-选择python-下载文档 文档和爬虫项目放同目录 4、价格体系-有验证码类型,英文数字,中文汉字(如1902)二、对古诗文网中的验证码图片进行识别: https

2021-02-17 07:51:35 130

原创 02-16 scrapy五大核心组件

1、scrapy五大核心组件的Spider 主要用来干活的,用于从特定的网页汇总提取自己需要的信息,即所谓的实体(item),用户也可以从中提取连接,让scrapy继续抓取下一个网页①产生url(对不同的url,封装请求对象)②解析数据引擎用来处理整个系统的数据流处理,触发事务(框架核心)对象的实例化,方法的调用,都是通过引擎实现;但是方法和实例化类很多,引擎如何知道? 引擎通过自己接受到的数据流l类型来判断,如接受到response,就 需要去调用parse方法,如接收到i

2021-02-17 03:19:00 127

原创 02-15 scrapy-手动发送请求(get)(爬取多页+递归解析)

一、如何手动爬取重点1、使用场景: 爬取多个页码(有很多页的网页)对应的页面源码数据2、url构造 ①进入网页的起始url (起始urlscrapy会自动发送请求) ②定义一个通用的url模板(多个url时需手动发送请求)3、递归根式函数 yield scrapy.Request(url,callback) 其中解析函数parse为递归函数4、scrapy一般发送get请求 发送post请求如下(不常用): data={ #post请求的参数 'kw':'xxx' }

2021-02-16 21:46:52 891

原创 02-14 scrapy +持久化存储+四文件详解(spider+setting+items+pipelines)

一、重点总结:extract()方法scrapy中xpath返回的不是string,而是list,列表 #元素是selector对象 #extract() 是将Selector对象中的data参数的值取出 #列表直接调用extract(),表示extract()作用到列 #表中的每一个元素二、 实例爬取糗百文章1、创建项目工程 主目录下(cd ../)scrapy startproject qiubaiPro2、创建爬虫文件 cd qiubaiPro -scrap

2021-02-14 23:58:53 120

原创 02-13 爬虫框架- scrapy

1、爬虫框架: scrapy(主要) +pyspider(一般)2、什么是框架?如何学习框架? ①一个集成了各种功能且具有很强通用型(可以被应用在各种不同需求中)的一个 项目模板 ②初级学习如何使用即可3、集成了哪些功能:高效能的数据解析操作,持久化的存储,高效能的数据下载操作...4、环境安装 注:scrapy的异步是借助于Twisted实现的, 所以需要提前下载安装Twisted windows: ①pip install wheel ②下载twisted h

2021-02-14 23:30:37 125

原创 02-12 多任务异步协程实例

一、注意事项:'''1、将多个对象存储到一个列表中,然后将该列表注册到事件循环中,在注册过程中,该列表需要用wait方法进行处理2、在任务对象对应的特殊函数内部的实现中,不可以出现不支持异步模块的代码,否则会中断整个异步效果,并且在该函数的内部中每一组阻塞操作都必须使用await关键字进行修饰3、requests模块不支持异步,所以不能出现在async 修饰的函数中二、代码框架import timeimport asynciourls=[ 'http://www.taob

2021-02-12 23:17:01 161

原创 02-12 单线程和多线程 代码实例

from multiprocessing.dummy import Poolimport requestsimport timestart_time=time.time()pool=Pool(5)# 同步爬取代码urls=['http://127.0.01:5000/bobo','http://127.0.01:5000/jay','http://127.0.01:5000/tom']for url in urls: page_text=requests.get(url)

2021-02-12 22:02:12 123

原创 02-12 单线程+多任务异步协程

一、 理论基础1、线程是有限的,线程开启过多,CPU吃不消2、多任务--理论上每个线程下可以开启很多协程,但实际效果一般500个最佳,速度最快‘’’二、爬虫推荐单线程+多任务异步协程1、协程是一个对象,可以吧协程当做衣蛾特殊的函数,如果一个函数的定义被async关键字修饰,该特殊的函数被调用后函数内部的程序语句不会被立即执行,而是会返回一个协程对象,如eg12、任务对象(task):所谓的任务对象就是协程对象的进一步封装( 即是一个高级的协程对象)在任务对象中可以实现显示协程

2021-02-12 18:03:45 307

原创 02-11 同步和异步、并发和并行、阻塞和非阻塞

1、同步和异步解释官方定义:同步和异步关注的是消息通信机制 (synchronous communication/ asynchronous communication)。同步,就是调用某个东西是,调用方得等待这个调用返回结果才能继续往后执行。异步,和同步相反 调用方不会理解得到结果,而是在调用发出后调用者可用继续执行后续操作,被调用者通过状体来通知调用者,或者通过回掉函数来处理这个调用现实举例:你去商城买东西,你看上了一款手机,能和店家说你一个这款手机,他就去仓库拿货,你得在店里等

2021-02-11 02:08:51 146

原创 02-10 jupyter 快捷键

1、 jupyter 快捷键—编辑模式下: ①ESC 编辑模式进入命令行模式 ②ctrl + / 注释整行 ③ctrl+→ 到行尾 ④ctrl+← 到行首 ⑤shift + tab 取消缩进 ⑥tab 缩进 ⑦ctrl + d 删除整行–命令模式下 ①enter 命令行模式进入编辑模式 ②m 切换cell类型为 markdown ③a/b 上下方插入cell ④ ctrl+ ↑ 选择上一个cell , ctrl + ↓ 选下一个cell ⑤y 切换cell 模型

2021-02-10 22:12:28 157

原创 02-09 cookie 反爬

1、什么是cookie?①HTTP协议是一个无状态的协议,服务器无法区分出两次请求是否发送自同一服务器,需要通过会话控制来解决这个问题,会话控制主要有两种方式Cookie 和 Session②Cookie就是一个头,Cookie由服务器创建,服务器以响应头(头信息-UA)的形式发送给客户端。客户端收到Cookie以后,会将其自动保存,在下次向服务器发送请求时会自动将Cookie以请求的形式发出,服务器收到以后就可以检查请求头中的Cookie并且可以根据Cookie中的信息来识别出不同的用户

2021-02-10 21:39:27 286

原创 02-10 爬虫网页分析基础

1、network 部分参数意:①query string parameters -查询字符串参数② view parsed- 已分析的视图③ request payload- 请求有效负载

2021-02-10 20:59:16 118

原创 02-08 SQL温故知新二

1、 偏析函数①leg(exp_str, offset,defavl) over() 向上偏析exp_str : 偏析的字段offset:偏析量defavl:偏析后的填充值,若为指定,则用NULL填充HiveQL与SQL区别1、Hive不支持等值连接•SQL中对两表内联可以写成:•select * from dual a,dual b where a.key = b.key;•Hive中应为•select * from dual a join dual b on a.key = b.k

2021-02-08 22:06:46 112

原创 02- 05 Excel -总结1

1、Excel工作薄的表都是2^14 列,2^20行,共计2^14 * 2^20个单元格;2、工作表的主要操作有:插入、删除、复制、移动、重命名、保护、设置工作表标签颜色;3、单元格地址: 列标签行标签--如 B34 -第二列34行;区域地址 左上角单元格:右下角单元格 如:A1:F564、快捷键选定单元格区域(前提行或列中无空单元格)数据列: ctrl+shift+↓数据行:ctrl+shift+→多行或多列:ctrl+shift+↓/→5、数据类型有:文本型:

2021-02-06 22:12:31 71

原创 02-06 SQL之温故知新解

1、选择语句核心框架及运行顺序8- select column1, column2, sum(聚合函数) 1- from table1 a 3- join table2 b 2- on a.column=b.column4- where 5- group by6- with7- having(排序后筛选)9- order by 10-limit (限制结果数量)2、select 后有几项,最终结果就有几个字段3、partition by a.year

2021-02-06 21:50:44 88

原创 02-04 python基础知识3

1、 开发者工具中:elements中的页面标签数据对应的是整张网页页面加载完毕对应的数据,这些数据一般由一个或多个url请求得到;

2021-02-04 22:40:09 42

原创 02 -02 36kr项目

1、 项目内容1、基于python的数据采集采集36kr的最近一年的文章,按照分类保存新闻文本;链接:https://36kr.com/information/web_news/latest工具:python注意:数据采集控制并发度不要太高,0.5s采集一遍文章,同时准守robots协议,不允许采集的域名不能采集;https://36kr.com/robots.txt2、文本聚类采用k-means算法对采集的文本进行聚类;参考文档:https://www.cnblogs.com/fe

2021-02-02 23:17:14 284

2021-05-27function.py

匹配文件的配置文件

2021-05-27

2021-05-27 查询客户邮箱.py

python链接数据库,抓取数据及处理后存入excel或MySQL的脚本(20)

2021-05-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除