数据分析基础
克莱默申克
这个作者很懒,什么都没留下…
展开
-
apriori关联分析代码
代码未完全读懂,先码着。。。来源于《python数据分析与挖掘实战》因为没有aproiri相关的库,所以先写一个# -*- coding: utf-8 -*-import numpy as npimport pandas as pddef connect_string(x, ms): x = list(map(lambda i:sorted(i.split(ms)), x)) l = len(x[0]) r = [] for i in range(len(x)):原创 2021-04-15 17:21:26 · 413 阅读 · 1 评论 -
K-means聚类模板
# -*- coding: utf-8 -*-import pandas as pd# 参数初始化inputfile = '../data/consumption_data.xls' # 销量及其他属性数据outputfile = '../tmp/data_type.xls' # 保存结果的文件名k = 3 # 聚类的类别iteration = 500 # 聚类最大循环次数data = pd.read_excel(inputfile, index_col = 'Id') # 读原创 2021-04-11 20:14:19 · 739 阅读 · 0 评论 -
python决策树分类模型ID3算法
# -*- coding: utf-8 -*-# 代码5-2import pandas as pd# 参数初始化filename = '../data/sales_data.xls'data = pd.read_excel(filename, index_col = u'序号') # 导入数据# 数据是类别标签,要将它转换为数据# 用1来表示“好”“是”“高”这三个属性,用-1来表示“坏”“否”“低”data[data == u'好'] = 1data[data == u'是']原创 2021-04-07 20:58:28 · 298 阅读 · 0 评论 -
python 进行PCA降维
#-*- coding: utf-8 -*-#主成分分析 降维import pandas as pd#参数初始化inputfile = '../data/principal_component.xls'outputfile = '../tmp/dimention_reducted.xls' #降维后的数据data = pd.read_excel(inputfile, header = None) #读入数据from sklearn.decomposition import PCApc原创 2021-04-07 17:22:20 · 482 阅读 · 0 评论 -
利用python进行小波变换
inputfile= '../data/leleccum.mat' #提取自Matlab的信号文件from scipy.io import loadmat #mat是MATLAB专用格式,需要用loadmat读取它mat = loadmat(inputfile)signal = mat['leleccum'][0]import pywt #导入PyWaveletscoeffs = pywt.wavedec(signal, 'bior3.7', level = 5)#返回结果为level+1个原创 2021-04-07 17:11:41 · 2613 阅读 · 1 评论 -
三种方法实现数据离散化-python实现
#-*- coding: utf-8 -*-#数据规范化import pandas as pddatafile = '../data/discretization_data.xls' #参数初始化data = pd.read_excel(datafile) #读取数据data = data[u'肝气郁结证型系数'].copy()k = 4d1 = pd.cut(data, k, labels = range(k)) #等宽离散化,各个类比可以命名为0,1,2,3#等频率离散化w..原创 2021-04-06 21:42:08 · 4422 阅读 · 0 评论 -
数据预处理之数据规范化
三种规范化方法1.最小-最大规范化2.零-均值规范化3.小数定标规范化import pandas as pdimport numpy as npdatafile = '../data/normalization_data.xls' #参数初始化data = pd.read_excel(datafile, header = None) #读取数据(data - data.min())/(data.max() - data.min()) #最小-最大规范化(data - data.mean原创 2021-04-06 20:20:04 · 423 阅读 · 0 评论 -
python拉格朗日插值填补空缺
#拉格朗日插值代码import pandas as pd #导入数据分析库Pandasfrom scipy.interpolate import lagrange #导入拉格朗日插值函数inputfile = '../data/catering_sale.xls' #销量数据路径outputfile = '../tmp/sales.xls' #输出数据路径data = pd.read_excel(inputfile) #读入数据data[u'销量'][(data[u'销量'] < 40原创 2021-04-06 19:31:44 · 457 阅读 · 0 评论 -
python数据分析与挖掘实战(2)帕累托法则菜品盈利分析与相关性分析
表格样式菜品数据特征提取from __future__ import print_functionimport pandas as pdcatering_sale = '../data/catering_sale.xls' #餐饮数据data = pd.read_excel(catering_sale, index_col = u'日期') #读取数据,指定“日期”列为索引列data = data[(data[u'销量'] > 400)&(data[u'销量'] < 50原创 2021-04-05 20:37:17 · 701 阅读 · 0 评论 -
python数据分析与挖掘(1)
张良均老师所著图书第三章第一部分代码笔记#-*- coding: utf-8 -*-import pandas as pdcatering_sale = '../data/catering_sale.xls' #餐饮数据data = pd.read_excel(catering_sale, index_col = u'日期') #读取数据,指定“日期”列为索引列import matplotlib.pyplot as plt #导入图像库plt.rcParams['font.sans-seri原创 2021-04-05 20:10:18 · 101 阅读 · 0 评论