艾特曾经
码龄6年
关注
提问 私信
  • 博客:161,475
    161,475
    总访问量
  • 7
    原创
  • 650,661
    排名
  • 24
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2018-12-13
博客简介:

weixin_44084325的博客

查看详细资料
个人成就
  • 获得42次点赞
  • 内容获得4次评论
  • 获得368次收藏
  • 代码片获得134次分享
创作历程
  • 15篇
    2019年
成就勋章
TA的专栏
  • pandas 基础
    9篇
  • series
    1篇
  • R基础
    6篇
创作活动更多

新星杯·14天创作挑战营·第9期

这是一个以写作博客为目的的创作活动,旨在鼓励大学生博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。我们诚挚邀请你们参加为期14天的创作挑战赛! 注: 1、参赛者可以进入活动群进行交流、分享创作心得,互相鼓励与支持(开卷),答疑及活动群请见 https://bbs.csdn.net/topics/619626357 2、文章质量分查询:https://www.csdn.net/qc

475人参与 去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

PCA的原理和普通实现

如果你的职业定位是数据分析师/计算生物学家,那么不懂PCA、t-SNE的原理就说不过去了吧。跑通软件没什么了不起的,网上那么多教程,copy一下就会。关键是要懂其数学原理,理解算法的假设,适合解决什么样的问题。学习可以高效,但却没有捷径,你终将为自己的思维懒惰和行为懒惰买单。PCA的原理和普通实现PCA原理2019年05月16日用了这么久的PCA,看了很多人的讲解,基本上都是一上来就讲...
转载
发布博客 2019.06.01 ·
2022 阅读 ·
0 点赞 ·
0 评论 ·
9 收藏

R语言主成分分析——prcomp VS princomp

最简单的主成分分析函数,prcomp 和 princomp 都是自带的函数,不需要额外的包http://strata.uga.edu/software/pdf/pcaTutorial.pdf很好的一个介绍http://gastonsanchez.wordpress.com/2012/06/17/principal-components-analysis-in-r-part-1/很好的一个介绍...
转载
发布博客 2019.06.01 ·
6414 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

所谓的特征值和特征向量

在线性代数的最后,我们都会学矩阵的特征值分解,我们知道一个方阵A经过特征值分解后就得到特征向量和特征值了。那么,这个所谓的特征值和特征向量到底是什么东西呢?我们一上来就会学到这样的一个公式:Ax = λx,其中x是一个向量这个式子是如此的简单粗暴,以致于从这个公式来看,给向量x乘上一个矩阵A,只是相当于给这个向量乘上了一个系数λ。偌大一个矩阵A对向量x的作用竟然本质上不过只是和一个小小的数...
转载
发布博客 2019.06.01 ·
537 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

R语言中的igraph包绘制网络图

本文转自网络。R语言中的igraph包可以很方便地画出网络图,在社交关系分析等领域发挥重要作用,下面介绍包中一个重要的函数graph_from_data_frame()。graph_from_data_frame(d, directed = TRUE, vertices = NULL)参数解释(1)d: 格式为数据框,用来指定边序列;(2)directed: 用于指定生成有向图...
转载
发布博客 2019.05.19 ·
23961 阅读 ·
8 点赞 ·
0 评论 ·
109 收藏

R语言之 删除重复数据

这篇主要介绍如何在R中识别和删除重复数据。主要用的到R base和dplyr函数:duplicated():用于识别重复的元素和unique():用于提取唯一元素,distinct()[dplyr package]删除数据框中的重复行。x <- c(1, 1, 2,4, 5, 4, 6)duplicated(x)## [1] FALSE TRUE FALSE ...
转载
发布博客 2019.05.18 ·
51351 阅读 ·
18 点赞 ·
1 评论 ·
160 收藏

R语言 tidyr包的三个重要函数:gather,spread,separate的用法和举例

tidyr是Hadley(Tidy Data的作者Hadley Wickham)写的非常有用、并且经常会使用到的包,常与dplyr包结合使用(这个包也是他写的)准备工作:首先安装tidyr包(一定要加引号,不然报错)install.packages("tidyr")载入tidyr(可以不加引号)library(tidyr)gather()gather...
转载
发布博客 2019.05.12 ·
9010 阅读 ·
2 点赞 ·
0 评论 ·
18 收藏

R语言与DataFrame

文章转自:https://segmentfault.com/a/1190000004621068什么是DataFrame引用 r-tutor上的定义:DataFrame 是一个表格或者类似二维数组的结构,它的各行表示一个实例,各列表示一个变量。没错,DataFram...
转载
发布博客 2019.05.12 ·
4757 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

数据预处理,PCA主成分分析

from sklearn.decomposition import PCAmy_pca = PCA(n_components=7) #10个属性删了3个剩7个#数据表中不允许出现离散数据(salary,department),而且分析的left属性也不需要进行pca处理,因为是我们关注的属性lower_mat = my_pca.fit_transform(df.drop(labels...
原创
发布博客 2019.05.10 ·
1466 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

pandas 透视表

说明:pandas透视表用pivot_table()函数,注意聚合方法aggfunc参数的选取。left 是否离职;promotion_last_5years:近5年是否提升;salary:工资水平Work_accident:是否有工作事故piv_tb = pd.pivot_table(df,values="left",index=["promotion_last_5ye...
原创
发布博客 2019.05.10 ·
207 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

pandas 按某一特征分组,求各组对应的标注两两之间是否存在明显差异

目的:得到各部门的离职分布求left属性各个部门(departement)之间是否有明显差异,用独立t检验方法,基本思路:得到各部门的离职分布,两两之间求他们的t检验统计量,求出p值要点说明:indices属性是得到分组后按组的索引,是一个字典类型数据,如 {sale:array[1,3,5,6],...}(数据中1,3,5,6列是sale部门的数据)indices.key()...
原创
发布博客 2019.05.10 ·
1211 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

pandas的DataFrame把几列数据合并成为新的一列

问题描述我有一个用于模型训练的DataFrame如下图所示:其中的country、province、city、county四列其实是位置信息的不同层级,应该合成一列用于模型训练方法:parent_teacher_data['address'] = parent_teacher_data['country']+parent_teacher_data['province']+parent_te...
原创
发布博客 2019.05.07 ·
30927 阅读 ·
7 点赞 ·
2 评论 ·
12 收藏

pandas按行按列遍历Dataframe的几种方式

遍历数据有以下三种方法:简单对上面三种方法进行说明:iterrows(): 按行遍历,将DataFrame的每一行迭代为(index, Series)对,可以通过row[name]对元素进行访问。itertuples(): 按行遍历,将DataFrame的每一行迭代为元祖,可以通过row[name]对元素进行访问,比iterrows()效率...
转载
发布博客 2019.05.02 ·
12124 阅读 ·
1 点赞 ·
1 评论 ·
14 收藏

Python从本地连续读取csv文件,并合并为Dataframe

path = r"C:\Users\Zeng_Zhitong\Desktop\python数据分析微专业\数据\眼动数据\处理后数据"file = glob.glob(os.path.join(path,'*data.csv'))d1 = []for f in file: d1.append(pd.read_csv(f,engine='python'))data = pd.con...
原创
发布博客 2019.05.02 ·
3405 阅读 ·
2 点赞 ·
0 评论 ·
15 收藏

python:pandas 合并多个DataFrame

python:pandas 合并多个DataFramepython 把几个DataFrame合并成一个DataFrame——merge,append,join,concat1、mergepd.merge(left,right,how=‘inner’,on=None,left_on=None,right_on=None,left_index=False,right_index=False,so...
原创
发布博客 2019.05.02 ·
1615 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

多个series合并成dataframe

多个series合并成dataframes1 = data[“PicFixationDuration”].value_counts()s2 = data[“WordFixationDuration”].value_counts()result = pd.DataFrame(list(zip(s1,s2)))print(result)s1 和 s2 是两个series...
原创
发布博客 2019.05.02 ·
11342 阅读 ·
2 点赞 ·
0 评论 ·
10 收藏
加载更多