数据分析
tsing_9521
这个作者很懒,什么都没留下…
展开
-
python numpy库/数组
数组和列表的区别:数组:数组是用于储存多个相同类型数据的集合列表:一个列表内可包好多种数据类型数组:一旦创建,指定位置元素不能删除,除非重建数组对象列表:列表内元素可以删除,删除后,后续元素会前移数组库名:numpy 别名:np安装:pip install numpy生成的数据类型:<class ‘numpy.ndarray’>1. ndarray的创建:语法结构原创 2019-03-01 18:11:04 · 337 阅读 · 0 评论 -
sql的case when then的用法
case when then else end 语句一般用于数据分类标记,比如将一组年龄数据根据年龄段分为’青年’,‘中年’,‘老年’举个栗子:#建立一张成绩单+------+------+---------+| s_id | c_id | s_score |+------+------+---------+| 01 | 01 | 80 || 01 | 02 ...原创 2019-04-10 09:46:52 · 402 阅读 · 0 评论 -
置信区间 VS 置信水平
经典统计学的核心思想是用样本估计总体,当样本足够大时,样本的均值方差等指标就会无限逼近整体的真实情况,且样本总是围绕在整体的平均值周围呈正态分布置信区间即是用样本平均值估算总体平均值种方法。如上图:x轴表示样本平均值y轴表示样本平均值对应的概率μ是总体的平均值α是总体的方差所有的样本平均值围绕在总体平均值两侧,并呈正态分布置信区间描述的是:我们估计的总体平均值与真实的总体平均值...原创 2019-04-03 17:04:16 · 6659 阅读 · 0 评论 -
Python 利用nltk,jieba库统计词频并导入csv文件
利用Python的nltk模块进行词频统计:示例的negreview.txt 链接见:链接:https://pan.baidu.com/s/10XJiJtzjhVauGJ8vtyxDIQ提取码:g65t这是一段女装差评文本,我们需要统计词频并写入csv文件:import nltkimport jiebafrom nltk.corpus import stopwordsimport ...原创 2019-04-03 11:38:17 · 2588 阅读 · 0 评论 -
利用pandas对womenclothing 的列进行处理与可视化
import pandas as pdimport matplotlib.pyplot as pltfrom pylab import *#设置显示行数和列数pd.set_option('display.max_rows',25000)pd.set_option('display.max_columns',30)#data=pd.read_csv('wc.csv')#查看数据基本...原创 2019-04-09 10:10:52 · 145 阅读 · 0 评论 -
假设检验的一般步骤(t检验/z检验)
假设检验的一般步骤:第一步.:提出原假设(h0)和备择假设h1第二步: 确定显著水平消费类:0.05质量控制:0.01民意调查:0.1第三步;选择检验统计量(z检验和t检验)z检验使用场景:(正态分布,大样本(样本容量>30)/总体标准差已知)z值计算:z=(x-μ)/s/根号nx是检验样本的平均数;μ是已知总体的平均数;S是总体的标准差;n是样本容量。使用方法...原创 2019-04-08 12:00:37 · 23034 阅读 · 0 评论 -
利用jieba库进行中文文本分析词频统计 并存储到字典里
利用jieba库进行中文文本分析 并存储到字典里:import jiebawords=jieba.lcut(''' 我与父亲不相见已二年余了,我最不能忘记的是他的背影。那年冬天,祖母死了,父亲的差使也交卸了,正是祸不单行的日子,我从北京到徐州,打算跟着父亲奔丧回家。到徐州见着父亲,看见满院狼藉的东西,又想起祖母,不禁簌簌地流下眼泪。父亲说,“事已如此,不必难过,好在天无绝人之路!” 回家变...原创 2019-04-01 16:34:36 · 2559 阅读 · 0 评论 -
Python3 绘制简单的散点图
import pandas as pdimport matplotlib.pyplot as plt#设置显示的行列数pd.set_option('display.max_rows',25000)pd.set_option('display.max_columns',30)#读取数据data=pd.read_csv('wc0329.csv')#利用groupby聚合,并排序...原创 2019-04-01 14:14:35 · 1080 阅读 · 0 评论 -
mysql和Python3 连接 pymysql 模块
安装模块:pip install pymysqlimport pymysqlconn=pymysql.connect(host='127.0.0.1',port=3306, user='root', passwd='12345qq',db='project') #建立连接 host:'127.0.0.1,不用联网也可访问数据库 port:2206 user:登录mysql的用户名,...原创 2019-04-01 11:30:00 · 286 阅读 · 0 评论 -
python 词云 wordcloud
试了一下在线的一些词云,很多对文本大小有限制,然后发现Python有wordcloud模块。示例文本里有136W单词,加载速度也没有很慢wordcoud的所有参数见:https://blog.csdn.net/u010309756/article/details/67637930简单实例#导入模块from wordcloud import WordCloud,ImageColorGen...原创 2019-03-27 15:11:30 · 236 阅读 · 0 评论 -
sql row_number 用法
row_number 语句可将select的语句按某一列排序并赋予其连续的编号,示例如下:语法:ROW_NUMBER () OVER ([ <partition_by_clause> ] <order_by_clause>) 。备注:ORDER BY 子句可确定在特定分区中为行分配唯一 ROW_NUMBER 的顺序。参数:<partition_by_claus...原创 2019-04-10 11:19:45 · 7060 阅读 · 0 评论 -
kaggle women clothing 项目
项目kaggle地址:https://www.kaggle.com/nicapotato/womens-ecommerce-clothing-reviews分析思路:首先通过观察数据得知,这是女装销售情况及评价的数据,变量有商品ID,服装所属的三级类目,客户年龄,评分,评论标题,评论内容。变量分类:我们把这几个变量分为三大类:商品变量,客户变量,反馈变量商品变量包括 clothing i...原创 2019-03-31 16:23:06 · 1506 阅读 · 0 评论 -
将csv 文件存入mysql 报错The MySQL server is running with the --secure-file-priv option so it cannot execute
系统:windows10mysql版本:mysql 8.0step1:用create语句创建database和tablestep 2: 用下列语句将 csv 文件写入table(#表注释)load data infile ‘C:\Users\tsing\Desktop\wc.csv’ #1into table project.wc character set gb2312 #2fie...原创 2019-03-21 19:07:50 · 71120 阅读 · 18 评论 -
Python dataframe 相关系数和协方差
相关系数和协方差:一.协方差只表示线性相关的方向,取值正无穷到负无穷。也就是说,协方差为正值,说明一个变量变大另一个变量也随之变大(正相关);取负值说明一个变量变大另一个变量变小(负相关),取0说明两个变量没有相关关系。注意:协方差的绝对值不反映线性相关的程度(其绝对值与变量的取值范围有关系)。二.相关系数不仅表示线性相关的方向,还表示线性相关的程度,取值[-1,1]。也就是说,相关...原创 2019-03-02 17:39:13 · 7959 阅读 · 0 评论 -
Python Pandas/ pandas.dataframe/dataframe 的主要方法(一)
Dataframe:dataframe:二维的表格型数据结构,是组合的series。dataframe 的每一行和每一列都是一个series。语法结构:DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)data:数组(多维),可迭代对象,字典嵌套或dataframeindex:索引名称,如不传入,则...原创 2019-03-02 14:54:38 · 1773 阅读 · 0 评论 -
Python pandas,pandas.series,series的主要方法
Pandas 安装:pip install pandasnumpy 和pandas 区别:numpy :生成的是ndarray,数组pandas:基于numpy,生成两种对象,一种是series,一种是dataframe。series: 一维数组类似array,series=索引+数据。区别是Series能保存不同种数据类型,字符串、boolean值、数字等,而numpy只能存储同类型数...原创 2019-03-02 10:36:53 · 6782 阅读 · 1 评论 -
pandas agg apply, transform的区别
agg,apply 和transform 都可以对dataframe进行运算,下面对这三种方法做一下比较:作用:dataframe.agg():只做聚合操作dataframe.apply() 作用对象是dataframedataframe.transform()对dataframe的每个series做transform操作,返回的结构与原dataframe一致可接受的func类型:ag...原创 2019-04-22 15:51:42 · 4624 阅读 · 0 评论