数据合并概念与函数总结
Datawhale Pandas研习社 第五次打卡记录——合并
一、pandas数据合并知识结构思维导图
二、关于数据合并——连接
数据合并,从概念上讲,就是把异源或者异构的数据进行合并。如果一个数据集的数据量变的比原来大了,那么它一定合并了其他的数据集。
从数据集的连接方式上说,主要可以分为内连接和外连接两大种,主要方式可以总结为下图。其实SQL、Python、R中关于数据连接的方式都是一样的,弄懂了数据合并、连接的运作方式,三门语言的这一模块都可以通了,仅仅是函数运用的区别。根据实际经验,整理数据时,外连接中左连接比较常用。
R语言中dplyr包的join系列与merge函数都可以用来做数据合并。
如果对于数据连接的方式有所疑惑,强烈建议阅读https://www.jianshu.com/p/b4758662076e,此文以R语言为工具,以图例形式将数据连接的运作方式讲的非常清楚,读完一定会对理解数据连接有所帮助。