- 博客(15)
- 收藏
- 关注
转载 PCA的原理和普通实现
如果你的职业定位是数据分析师/计算生物学家,那么不懂PCA、t-SNE的原理就说不过去了吧。跑通软件没什么了不起的,网上那么多教程,copy一下就会。关键是要懂其数学原理,理解算法的假设,适合解决什么样的问题。学习可以高效,但却没有捷径,你终将为自己的思维懒惰和行为懒惰买单。PCA的原理和普通实现PCA原理2019年05月16日用了这么久的PCA,看了很多人的讲解,基本上都是一上来就讲...
2019-06-01 16:08:54 1936
转载 R语言主成分分析——prcomp VS princomp
最简单的主成分分析函数,prcomp 和 princomp 都是自带的函数,不需要额外的包http://strata.uga.edu/software/pdf/pcaTutorial.pdf很好的一个介绍http://gastonsanchez.wordpress.com/2012/06/17/principal-components-analysis-in-r-part-1/很好的一个介绍...
2019-06-01 14:50:56 6331
转载 所谓的特征值和特征向量
在线性代数的最后,我们都会学矩阵的特征值分解,我们知道一个方阵A经过特征值分解后就得到特征向量和特征值了。那么,这个所谓的特征值和特征向量到底是什么东西呢?我们一上来就会学到这样的一个公式:Ax = λx,其中x是一个向量这个式子是如此的简单粗暴,以致于从这个公式来看,给向量x乘上一个矩阵A,只是相当于给这个向量乘上了一个系数λ。偌大一个矩阵A对向量x的作用竟然本质上不过只是和一个小小的数...
2019-06-01 11:47:30 526
转载 R语言中的igraph包绘制网络图
本文转自网络。R语言中的igraph包可以很方便地画出网络图,在社交关系分析等领域发挥重要作用,下面介绍包中一个重要的函数graph_from_data_frame()。graph_from_data_frame(d, directed = TRUE, vertices = NULL)参数解释(1)d: 格式为数据框,用来指定边序列;(2)directed: 用于指定生成有向图...
2019-05-19 17:10:07 23395
转载 R语言之 删除重复数据
这篇主要介绍如何在R中识别和删除重复数据。主要用的到R base和dplyr函数:duplicated():用于识别重复的元素和unique():用于提取唯一元素,distinct()[dplyr package]删除数据框中的重复行。x <- c(1, 1, 2,4, 5, 4, 6)duplicated(x)## [1] FALSE TRUE FALSE ...
2019-05-18 11:50:53 50752 1
转载 R语言 tidyr包的三个重要函数:gather,spread,separate的用法和举例
tidyr是Hadley(Tidy Data的作者Hadley Wickham)写的非常有用、并且经常会使用到的包,常与dplyr包结合使用(这个包也是他写的)准备工作:首先安装tidyr包(一定要加引号,不然报错)install.packages("tidyr")载入tidyr(可以不加引号)library(tidyr)gather()gather...
2019-05-12 15:11:16 8531
转载 R语言与DataFrame
文章转自:https://segmentfault.com/a/1190000004621068什么是DataFrame引用 r-tutor上的定义:DataFrame 是一个表格或者类似二维数组的结构,它的各行表示一个实例,各列表示一个变量。没错,DataFram...
2019-05-12 14:23:50 4732
原创 数据预处理,PCA主成分分析
from sklearn.decomposition import PCAmy_pca = PCA(n_components=7) #10个属性删了3个剩7个#数据表中不允许出现离散数据(salary,department),而且分析的left属性也不需要进行pca处理,因为是我们关注的属性lower_mat = my_pca.fit_transform(df.drop(labels...
2019-05-10 19:38:06 1409
原创 pandas 透视表
说明:pandas透视表用pivot_table()函数,注意聚合方法aggfunc参数的选取。left 是否离职;promotion_last_5years:近5年是否提升;salary:工资水平Work_accident:是否有工作事故piv_tb = pd.pivot_table(df,values="left",index=["promotion_last_5ye...
2019-05-10 18:06:11 201
原创 pandas 按某一特征分组,求各组对应的标注两两之间是否存在明显差异
目的:得到各部门的离职分布求left属性各个部门(departement)之间是否有明显差异,用独立t检验方法,基本思路:得到各部门的离职分布,两两之间求他们的t检验统计量,求出p值要点说明:indices属性是得到分组后按组的索引,是一个字典类型数据,如 {sale:array[1,3,5,6],...}(数据中1,3,5,6列是sale部门的数据)indices.key()...
2019-05-10 17:42:14 1182
原创 pandas的DataFrame把几列数据合并成为新的一列
问题描述我有一个用于模型训练的DataFrame如下图所示:其中的country、province、city、county四列其实是位置信息的不同层级,应该合成一列用于模型训练方法:parent_teacher_data['address'] = parent_teacher_data['country']+parent_teacher_data['province']+parent_te...
2019-05-07 16:46:33 30882 2
转载 pandas按行按列遍历Dataframe的几种方式
遍历数据有以下三种方法:简单对上面三种方法进行说明:iterrows(): 按行遍历,将DataFrame的每一行迭代为(index, Series)对,可以通过row[name]对元素进行访问。itertuples(): 按行遍历,将DataFrame的每一行迭代为元祖,可以通过row[name]对元素进行访问,比iterrows()效率...
2019-05-02 21:12:14 12067 1
原创 Python从本地连续读取csv文件,并合并为Dataframe
path = r"C:\Users\Zeng_Zhitong\Desktop\python数据分析微专业\数据\眼动数据\处理后数据"file = glob.glob(os.path.join(path,'*data.csv'))d1 = []for f in file: d1.append(pd.read_csv(f,engine='python'))data = pd.con...
2019-05-02 20:58:38 3383
原创 python:pandas 合并多个DataFrame
python:pandas 合并多个DataFramepython 把几个DataFrame合并成一个DataFrame——merge,append,join,concat1、mergepd.merge(left,right,how=‘inner’,on=None,left_on=None,right_on=None,left_index=False,right_index=False,so...
2019-05-02 20:45:27 1591
原创 多个series合并成dataframe
多个series合并成dataframes1 = data[“PicFixationDuration”].value_counts()s2 = data[“WordFixationDuration”].value_counts()result = pd.DataFrame(list(zip(s1,s2)))print(result)s1 和 s2 是两个series...
2019-05-02 20:40:13 11327
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人