数据分析
python数据分析
song s
本科在读学生,非计算机专业
展开
-
statsmodels统计建模分析库 (2) --时间序列模型
导入数据import pandas as pdimport numpy as npimport seaborn as sns #热力图import itertools import datetimeimport matplotlib.pyplot as pltimport statsmodels.api as sm from statsmodels.tsa.stattools import adfuller #ADF检验from statsmodels.stats.diagnostic i原创 2020-06-15 14:25:12 · 1439 阅读 · 0 评论 -
statsmodels统计建模分析库 (1) --线性回归模型
import statsmodels.api as sm1、线性回归模型1.1 普通最小二乘#构建数据nsample = 100x = np.linspace(0, 10, 100)X = np.column_stack((x, x**2))beta = np.array([1, 0.1, 10])e = np.random.normal(size=nsample)X = sm.add_constant(X) #加入一列数据全为1y = np.dot(X, beta) + e#原创 2020-06-15 14:01:32 · 749 阅读 · 0 评论 -
语言处理---nltk
1、安装语料库import nltknltk.download()2、分词sentence = "Python is a widely used high-level programming language for general-purpose programming."tokens = nltk.word_tokenize(sentence) # 需要下载punkt分词模型print(tokens)3、词形处理3.1 词干提取(stemming)from nltk.stem.p原创 2020-05-17 15:21:58 · 260 阅读 · 0 评论 -
数据分析--部分操作
近日练习了几个数据分析的竞赛题目,其中有部分分析过程一直转不过弯(小白太菜了)。1、将某一列作为索引data =data.set_index('key')2、数据分割(提取日期中的月份)x='2017/1/1 9:05'print(x.split('/')[1])print(x.split('/')[2])print(x.split('/')[2].split(' ')) ##x...原创 2020-03-28 16:41:44 · 179 阅读 · 0 评论 -
python--Seaborn可视化(学习笔记)
Seaborn是基于matplotlib的Python可视化库。它提供了一个高级界面来绘制有吸引力的统计图形。可以使得数据可视化更加的方便,美观。import numpy as npimport pandas as pdfrom scipy import statsimport matplotlib.pyplot as pltimport seaborn as sns%matplot...原创 2020-03-04 19:31:01 · 247 阅读 · 0 评论 -
python--时间序列数据分析(学习笔记)
时间数据处理分析一、创建时间数据import pandas as pdimport numpy as npfrom datetime import datetimeindex_time = pd.date_range('20200301', periods=1000, freq='D')#生成从20200301开始1000天的数据,作为indexdata = pd.Series(ra...原创 2020-03-01 16:48:53 · 300 阅读 · 0 评论 -
Python--数据预处理与清洗(学习笔记)
import numpy as npimport pandas as pdfrom matplotlib import pyplot as pltdata = pd.read_csv('file.csv',encoding = 'gbk')data.info() #查看数据类型一、数据合并1、堆叠数据df1 = data.iloc[:1500,:] ##取出detail1前150...原创 2020-03-01 15:24:56 · 353 阅读 · 1 评论 -
python---pandas基础知识(学习笔记)
pandas是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入 了大量库和一些标准的数据模型,提供了高效地操作大型结构化数据集所需的工具。import pandas as pdimport numpy as nppandas文件读取与储存data = pd.read_csv('file.csv',sep = ',',encoding = 'gbk')...原创 2020-02-29 16:48:47 · 209 阅读 · 0 评论 -
python----Matplotlib数据可视化基础(学习笔记)
Matplotlib数据可视化import numpy as npimport matplotlib.pyplot as plt #导入库plt.rcParams['font.sans-serif'] = 'SimHei' ## 设置中文显示plt.rcParams['axes.unicode_minus'] = False基本语法data = np.arange(0,2,0.01...原创 2020-02-29 15:19:59 · 341 阅读 · 0 评论 -
Python---Numpy相关知识(学习笔记)
数据分析必备库:numpyNumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。import numpy as np #导入 NumPy 库 numpy数组创建arr1 = np.array([1, 2, 3, 4]) #创建一维数组arr1 = np.array([0, 1, 2,...原创 2020-02-29 14:07:00 · 297 阅读 · 0 评论