数据分析入门笔记(一)

pycharm + python3.6 + pandas

课程:使用pandas进行数据分析
part 4 表示课程对应的第四小节

part 4 显示

加载pandas

import pandas as pd

读取文件

movies = pd.read_csv

默认显示前五行

movies.head()

显示文件的各项属性

movies.describe()

显示文件行列数

movies.shape()

显示文件数据类型

movies.dtypes()
type(movies)
movies.describe(include=[‘object’])

part 5 重命名

import pandas as pd
ufo = pd.read_csv()

读取文件前五行

ufo.head()

读取文件列标题

ufo.columns

对列标题重命名,方法一

ufo.rename(columns = {‘Colors Reported’: ‘new name’, ‘Shape Reported’: ‘new name’})

自定义新名字

ufo_cols = [‘自定义新标题’,‘自定义2’]

重命名方法二

ufo.columns = ufo_cols

重命名方法三

ufo = pd.read_csv(‘路径’, name=ufo_cols,
header=0)

part 6 删除

import pandas as pd
ufo = pd.read_csv()

去除文件的一个特定列

ufo.drop(‘Color Reported’, axis=1, inplace=True)

去除文件两列

ufo.drop([‘City’, ‘State’], axis=1, inplace=True)

去除特定行,【0,1】为index

ufo.drop([0, 1], axis=0, inplace=True)

part 7 排序

import pandas as pd
movies = pd.read_csv(‘文件路径’)

将标题按照字母顺序排序,并显示排序后的标题

movies.title.sort_values()

按文件中顺序显示标题,只显示标题

movies[‘title’]
对文件中所有行按指定的内容进行排序文件中所有行,以标题为主,按照顺序排列,显示的是所有内容,同理,可指定其他列标题
movies.sort_values(‘title’)
同上,但为逆序排列
movies.sort_values(‘title’,ascending=False)
同上,但是先以第一个列标题排序,然后在第一个标题排好序的第一批内容里按第二列标题排序
movies.sort_values([‘title’,‘duration’])
注意,排序不会变更源文件,只是在排序命令行处显示排序结果

part 8 筛选

import pandas as pd
movies = pd.read_csv(‘文件路径’)

筛选满足条件的数据

is_long = movies.duration >= 200
is_long.head

在表中直接筛选符合条件的数据

movies[movies.duration >= 200]

在筛选后的数据里只显示genre的数据

movies[movies.duration >= 200][‘genre’]
第二种方式
movies.loc[movies.duration >= 200, ‘genre’]
第三种方式
movies[movies.duration >= 200].genre

part 9 进行多个筛选操作

import pandas as pd
#读取文件
movies = pd.read_csv(‘文件路径’)

设置多个筛选条件,与

movies[(movies.duration >= 200) and (movies.genre == ‘Dramma’)]

movies[(movies.duration >= 200) & (movies.genre == ‘Dramma’)]

只要满足一个即可,或

movies[(movies.duration >= 200) | (movies.genre == ‘Dramma’)]

对单列内的数据筛选

筛选genre这一列中,内容为Crime,Drama,Action的数据
movies[movies.genre.isin([‘Crime’, ‘Drama’, ‘Action’])]

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
R语言是一种功能强大的开源编程语言和环境,广泛应用于数据分析和统计建模。入门R语言的过程,我可以分享一些我自己的笔记和经验。 首先,入门R语言需要准备好安装R语言和RStudio的环境。RStudio是R语言的一个集成开发环境,提供了更加友好的界面和便捷的操作。安装完毕后,我们可以打开RStudio开始学习。 接下来,建议通过在线教程、视频教程或者书籍来学习R语言的基础知识和语法。了解R语言的数据结构,如向量、矩阵、数据帧等,掌握R语言的基本运算和函数操作等非常重要。 在学习过程中,我发现通过实际操作来巩固知识是非常有效的。可以尝试使用R语言处理一些简单的数据集,如读取数据数据清洗和数据可视化等。这样可以更好地理解R语言的功能和应用。 另外,熟悉R语言的常用包和函数也是非常重要的。R语言有很多强大的数据分析包,如ggplot2、dplyr和tidyr等。通过学习它们的基本用法和常见函数的操作,可以更好地进行数据分析和统计建模。 同时,我也建议多参与R语言的相关社区和论坛,与其他R语言爱好者交流和分享经验。这不仅可以解决遇到的问题,还能学习到更多实际案例和应用技巧。 最后,持续学习和实践是掌握R语言的关键。不断地阅读学习材料、参与项目和练习编程,都是提高R语言技能的有效途径。 希望以上简要的笔记入门R语言和数据分析有所帮助。R语言具有强大的数据分析能力,相信通过不断学习和实践,你可以在数据分析领域取得更好的成果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值