自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 idea中获取程序运行的时间

long startTime=System.currentTimeMillis(); //获取开始时间 //要测的程序或方法 long endTime=System.currentTimeMillis(); //获取结束时间 System.out.println("程...

2019-10-14 17:00:41

阅读数 0

评论数 0

原创 python中urlparse.urljoin()的用法

以response.url为基础,将URL相对路径转换为URL绝对路径 >>>from urllib.parse import urljoin >>> urljoin("http://www.chac...

2019-09-17 15:42:41

阅读数 29

评论数 0

原创 python中lambda函数用法

lambda匿名函数的格式:冒号前是参数,可以有多个,用逗号隔开,冒号右边的为表达式。 例1:传入一个参数的lambda函数 a=lambda x:x*x print(a(3)) 例2:传入多个参数的lambda函数 def sum(x,y): return x+y 用...

2019-09-17 09:25:21

阅读数 15

评论数 0

原创 设置显示日志的级别

六个日志等级:TRACE / DEBUG / INFO / WARNING / ERROR / FATAL 还有两个特殊等级 ALL、OFF DEBUG:输出调试信息;指出细粒度信息事件对调试应用程序是非常有帮助的。INFO: 输出提示信息;消息在粗粒度级别上突出强调应用程序的运行过程。WAR...

2019-09-16 17:14:27

阅读数 56

评论数 0

原创 python中enumerate()的用法

在同时需要index和value值的时候可以使用 enumerate。下列分别将字符串,数组,列表与字典遍历序列中的元素以及它们的下标: 一、字符串 for i, j in enumerate("abcde"): print(i, j) 输出结果: 0 a 1...

2019-09-11 16:47:03

阅读数 12

评论数 0

原创 python中字符串中值的逐个读取

功能:将字符串的内容逐个录入到列表中 words = [] for word in str: words +=word print('words = ',words)

2019-09-11 14:51:30

阅读数 95

评论数 0

原创 python数组的反转

import numpy as np arr = np.arange(10) # 反转前 print(arr) 输出结果: [0 1 2 3 4 5 6 7 8 9] # 反转后 arr2 = arr[::-1] print(arr2) 输出结果: [9 8 7 6 5 4 3 2 1 0]...

2019-09-04 15:24:15

阅读数 42

评论数 0

原创 案例:互联网金融行业客户价值分析

import pandas as pd from datetime import datetime from math import ceil from pandas import DataFrame from sklearn.cluster import KMeans # 数据读取 data=...

2019-08-22 21:12:32

阅读数 20

评论数 0

原创 客户价值分析:RFM聚类分析原理

一、RFM模型 在用户运营过程中,通常需要根据用户的属性对用户进行归类,以便于在转化过程中获得更大的收益。用户有很多属性,究竟选择哪些属性进行分析呢?根据美国数据库营销研究所Arthur Hughes的研究,客户数据库中有三个神奇的要素,这三个要素构成了客户分类最好的指标: R-最近一次消费距...

2019-08-22 08:39:16

阅读数 124

评论数 0

原创 数据预处理:异常值及数据标准化

1-异常值的处理--缺失化 import pandas as pd import numpy as np SegData = pd.read_csv('../data/SegData.csv') print(SegData.head()) 输出结果: age gender ...

2019-08-21 21:20:47

阅读数 32

评论数 0

原创 数据预处理:缺失值的处理

缺失值标志:NaN(no a number) 缺失值的处理:1-删除dropna 2-填充fillna 1-删除 from pandas import Series import numpy as np strSer = Series(['a', 'b', np.nan, 'd', 'e...

2019-08-21 17:47:04

阅读数 19

评论数 0

原创 数据预处理:几个常用函数

1-groupby 分组统计 (与统计函数连用才有意义) # 分组 import pandas as pd data = pd.read_excel('../data/pivot_table_demo.xlsx') # 读取数据 print(data.head()) 输出结果:(展示文件...

2019-08-21 16:41:57

阅读数 11

评论数 0

原创 数据预处理:数据集的合并

1-merge # merge import pandas as pd df1 = pd.DataFrame({'key': ['a', 'b', 'c'], 'data1': range(3)}) print(df1) 输出结果: key data1 0 a 0 1 ...

2019-08-21 15:05:57

阅读数 76

评论数 0

原创 数据探索:数据透视表pivot_table

import pandas as pd # 读取数据 data = pd.read_excel('../data/pivot_table_demo.xlsx') print(data.describe()) # 仅展示的是数字字段的 print(data.describe(include='...

2019-08-21 11:03:50

阅读数 18

评论数 0

原创 数据探索:相关性分析

# 数据读取 import pandas as pd df=pd.read_excel('../data/regression.xlsx',index_col='分行编号') # 设置字体 from pylab import mpl mpl.rcParams['font.sans-seri...

2019-08-21 09:47:29

阅读数 52

评论数 0

原创 数据探索:常用统计量分析

一、集中趋势的度量 import pandas as pd from pandas import Series # 数据读取 df1 = pd.read_csv('../data/data.csv', index_col='年份') print(df1.head()) # 获取数据个数 p...

2019-08-19 18:01:30

阅读数 25

评论数 0

原创 Scrapy常用命令

一、全局命令 1-startproject 创建一个新的Scrapy项目: scrapy startproject <project_name> [project_dir] 例如:scrapy startproject Crawler51job 【注意】项目...

2019-08-19 15:20:56

阅读数 12

评论数 0

原创 Scrapy中的Selectors及正则表达式的使用

1-Request 表示一个HTTP请求,它通常是在爬虫生成,并由下载执行,从而生成Response。 使用前需要先导入: from scrapy.http import Request 2-Response 表示的HTTP响应,这通常是下载,并提交到爬虫进行处理。 3-在sel...

2019-08-19 15:00:12

阅读数 19

评论数 0

原创 Scrapy爬取多页数据

一、创建项目 打开pycharm下面的Terminal窗口 scrapy startproject 项目名 例如:scrapy startproject crawler51job 二、定义要爬取的数据 编写items文件 # -*- coding: utf-8 -*- # Def...

2019-08-19 14:26:20

阅读数 29

评论数 0

原创 Scrapy项目的目录结构

1-items的编写 Item对象可以保存爬取到的数据,相当于存储爬取到的数据的容器。 对于爬取到的的数据,需要提取出我们关注的结构化的信息,以便于对数据的管理。 2-pipelines的编写 主要用于接收提取出来的项目(item),接收后,会对这些item进行处理 常见的处理方式主要有...

2019-08-19 12:09:11

阅读数 7

评论数 0

提示
确定要删除当前文章?
取消 删除