机器学习Pandas的简单使用

🌞欢迎来到机器学习的世界 
🌈博客主页:卿云阁 

💌欢迎关注🎉点赞👍收藏⭐️留言📝

🌟本文由卿云阁原创!

🌠本阶段属于练气阶段,希望各位仙友顺利完成突破

📆首发时间:🌹2021年3月18日🌹

✉️希望可以和大家一起完成进阶之路!

🙏作者水平很有限,如果发现错误,请留言轰炸哦!万分感谢!


目录

🍈 一、Pandas的介绍

🥝二 、Pandas的使用

🥥三 、Pandas教程

🍈 一、Pandas的介绍

  • 2008年WesMcKinney开发出的库
  • 专门用于数据挖掘的开源python库
  • 以Numpy为基础,借力Numpy模块在计算方面性能高的优势
  • 基于matplotlib,能够简便的画图
  • 独特的数据结构

(1).head()可以读取前几条数据,指定前几条都可以

import pandas as pd
df = pd.read_csv('D://iris.csv')
df.head(6)

 (2).info返回当前的信息

df.info()


结果:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Sepal.Length  150 non-null    float64
 1   Sepal.Width   150 non-null    float64
 2   Petal.Length  150 non-null    float64
 3   Petal.Width   150 non-null    float64
 4   Species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB

 (3)索引列和名

df.index


结果:
RangeIndex(start=0, stop=891, step=1
df.columns #列名

结果:
Index(['Sepal.Length', 'Sepal.Width', 'Petal.Length', 'Petal.Width',
       'Species'],
      dtype='object')
df.dtypes

结果:
Sepal.Length    float64
Sepal.Width     float64
Petal.Length    float64
Petal.Width     float64
Species          object
dtype: object
df.values #数值

结果:
array([[5.1, 3.5, 1.4, 0.2, 'setosa'],
       [4.9, 3.0, 1.4, 0.2, 'setosa'],
       [4.7, 3.2, 1.3, 0.2, 'setosa'],
       [4.6, 3.1, 1.5, 0.2, 'setosa'],
       [5.0, 3.6, 1.4, 0.2, 'setosa'],
       [5.4, 3.9, 1.7, 0.4, 'setosa'],
       [4.6, 3.4, 1.4, 0.3, 'setosa'],
       [5.0, 3.4, 1.5, 0.2, 'setosa'],
       [4.4, 2.9, 1.4, 0.2, 'setosa'],
       [4.9, 3.1, 1.5, 0.1, 'setosa'],
       [5.4, 3.7, 1.5, 0.2, 'setosa'],
       [4.8, 3.4, 1.6, 0.2, 'setosa'],
       [4.8, 3.0, 1.4, 0.1, 'setosa'],
       [4.3, 3.0, 1.1, 0.1, 'setosa'],
       [5.8, 4.0, 1.2, 0.2, 'setosa'],
       [5.7, 4.4, 1.5, 0.4, 'setosa'],
       [5.4, 3.9, 1.3, 0.4, 'setosa'],
       [5.1, 3.5, 1.4, 0.3, 'setosa'],
       [5.7, 3.8, 1.7, 0.3, 'setosa'],
       [5.1, 3.8, 1.5, 0.3, 'setosa'],
       [5.4, 3.4, 1.7, 0.2, 'setosa'],
       [5.1, 3.7, 1.5, 0.4, 'setosa'],
       [4.6, 3.6, 1.0, 0.2, 'setosa'],
       [5.1, 3.3, 1.7, 0.5, 'setosa'],
       [4.8, 3.4, 1.9, 0.2, 'setosa'],
       [5.0, 3.0, 1.6, 0.2, 'setosa'],
       [5.0, 3.4, 1.6, 0.4, 'setosa'],
       [5.2, 3.5, 1.5, 0.2, 'setosa'],
       [5.2, 3.4, 1.4, 0.2, 'setosa'],
       [4.7, 3.2, 1.6, 0.2, 'setosa'],
       [4.8, 3.1, 1.6, 0.2, 'setosa'],
       [5.4, 3.4, 1.5, 0.4, 'setosa'],
       [5.2, 4.1, 1.5, 0.1, 'setosa'],
       [5.5, 4.2, 1.4, 0.2, 'setosa'],
       [4.9, 3.1, 1.5, 0.2, 'setosa'],
       [5.0, 3.2, 1.2, 0.2, 'setosa'],
       [5.5, 3.5, 1.3, 0.2, 'setosa'],
       [4.9, 3.6, 1.4, 0.1, 'setosa'],
       [4.4, 3.0, 1.3, 0.2, 'setosa'],
       [5.1, 3.4, 1.5, 0.2, 'setosa'],
       [5.0, 3.5, 1.3, 0.3, 'setosa'],
       [4.5, 2.3, 1.3, 0.3, 'setosa'],
       [4.4, 3.2, 1.3, 0.2, 'setosa'],
       [5.0, 3.5, 1.6, 0.6, 'setosa'],
       [5.1, 3.8, 1.9, 0.4, 'setosa'],
       [4.8, 3.0, 1.4, 0.3, 'setosa'],
       [5.1, 3.8, 1.6, 0.2, 'setosa'],
       [4.6, 3.2, 1.4, 0.2, 'setosa'],
       [5.3, 3.7, 1.5, 0.2, 'setosa'],
       [5.0, 3.3, 1.4, 0.2, 'setosa'],
       [7.0, 3.2, 4.7, 1.4, 'versicolor'],
       [6.4, 3.2, 4.5, 1.5, 'versicolor'],
       [6.9, 3.1, 4.9, 1.5, 'versicolor'],
       [5.5, 2.3, 4.0, 1.3, 'versicolor'],
       [6.5, 2.8, 4.6, 1.5, 'versicolor'],
       [5.7, 2.8, 4.5, 1.3, 'versicolor'],
       [6.3, 3.3, 4.7, 1.6, 'versicolor'],
       [4.9, 2.4, 3.3, 1.0, 'versicolor'],
       [6.6, 2.9, 4.6, 1.3, 'versicolor'],
       [5.2, 2.7, 3.9, 1.4, 'versicolor'],
       [5.0, 2.0, 3.5, 1.0, 'versicolor'],
       [5.9, 3.0, 4.2, 1.5, 'versicolor'],
       [6.0, 2.2, 4.0, 1.0, 'versicolor'],
       [6.1, 2.9, 4.7, 1.4, 'versicolor'],
       [5.6, 2.9, 3.6, 1.3, 'versicolor'],
       [6.7, 3.1, 4.4, 1.4, 'versicolor'],
       [5.6, 3.0, 4.5, 1.5, 'versicolor'],
       [5.8, 2.7, 4.1, 1.0, 'versicolor'],
       [6.2, 2.2, 4.5, 1.5, 'versicolor'],
       [5.6, 2.5, 3.9, 1.1, 'versicolor'],
       [5.9, 3.2, 4.8, 1.8, 'versicolor'],
       [6.1, 2.8, 4.0, 1.3, 'versicolor'],
       [6.3, 2.5, 4.9, 1.5, 'versicolor'],
       [6.1, 2.8, 4.7, 1.2, 'versicolor'],
       [6.4, 2.9, 4.3, 1.3, 'versicolor'],
       [6.6, 3.0, 4.4, 1.4, 'versicolor'],
       [6.8, 2.8, 4.8, 1.4, 'versicolor'],
       [6.7, 3.0, 5.0, 1.7, 'versicolor'],
       [6.0, 2.9, 4.5, 1.5, 'versicolor'],
       [5.7, 2.6, 3.5, 1.0, 'versicolor'],
       [5.5, 2.4, 3.8, 1.1, 'versicolor'],
       [5.5, 2.4, 3.7, 1.0, 'versicolor'],
       [5.8, 2.7, 3.9, 1.2, 'versicolor'],
       [6.0, 2.7, 5.1, 1.6, 'versicolor'],
       [5.4, 3.0, 4.5, 1.5, 'versicolor'],
       [6.0, 3.4, 4.5, 1.6, 'versicolor'],
       [6.7, 3.1, 4.7, 1.5, 'versicolor'],
       [6.3, 2.3, 4.4, 1.3, 'versicolor'],
       [5.6, 3.0, 4.1, 1.3, 'versicolor'],
       [5.5, 2.5, 4.0, 1.3, 'versicolor'],
       [5.5, 2.6, 4.4, 1.2, 'versicolor'],
       [6.1, 3.0, 4.6, 1.4, 'versicolor'],
       [5.8, 2.6, 4.0, 1.2, 'versicolor'],
       [5.0, 2.3, 3.3, 1.0, 'versicolor'],
       [5.6, 2.7, 4.2, 1.3, 'versicolor'],
       [5.7, 3.0, 4.2, 1.2, 'versicolor'],
       [5.7, 2.9, 4.2, 1.3, 'versicolor'],
       [6.2, 2.9, 4.3, 1.3, 'versicolor'],
       [5.1, 2.5, 3.0, 1.1, 'versicolor'],
       [5.7, 2.8, 4.1, 1.3, 'versicolor'],
       [6.3, 3.3, 6.0, 2.5, 'virginica'],
       [5.8, 2.7, 5.1, 1.9, 'virginica'],
       [7.1, 3.0, 5.9, 2.1, 'virginica'],
       [6.3, 2.9, 5.6, 1.8, 'virginica'],
       [6.5, 3.0, 5.8, 2.2, 'virginica'],
       [7.6, 3.0, 6.6, 2.1, 'virginica'],
       [4.9, 2.5, 4.5, 1.7, 'virginica'],
       [7.3, 2.9, 6.3, 1.8, 'virginica'],
       [6.7, 2.5, 5.8, 1.8, 'virginica'],
       [7.2, 3.6, 6.1, 2.5, 'virginica'],
       [6.5, 3.2, 5.1, 2.0, 'virginica'],
       [6.4, 2.7, 5.3, 1.9, 'virginica'],
       [6.8, 3.0, 5.5, 2.1, 'virginica'],
       [5.7, 2.5, 5.0, 2.0, 'virginica'],
       [5.8, 2.8, 5.1, 2.4, 'virginica'],
       [6.4, 3.2, 5.3, 2.3, 'virginica'],
       [6.5, 3.0, 5.5, 1.8, 'virginica'],
       [7.7, 3.8, 6.7, 2.2, 'virginica'],
       [7.7, 2.6, 6.9, 2.3, 'virginica'],
       [6.0, 2.2, 5.0, 1.5, 'virginica'],
       [6.9, 3.2, 5.7, 2.3, 'virginica'],
       [5.6, 2.8, 4.9, 2.0, 'virginica'],
       [7.7, 2.8, 6.7, 2.0, 'virginica'],
       [6.3, 2.7, 4.9, 1.8, 'virginica'],
       [6.7, 3.3, 5.7, 2.1, 'virginica'],
       [7.2, 3.2, 6.0, 1.8, 'virginica'],
       [6.2, 2.8, 4.8, 1.8, 'virginica'],
       [6.1, 3.0, 4.9, 1.8, 'virginica'],
       [6.4, 2.8, 5.6, 2.1, 'virginica'],
       [7.2, 3.0, 5.8, 1.6, 'virginica'],
       [7.4, 2.8, 6.1, 1.9, 'virginica'],
       [7.9, 3.8, 6.4, 2.0, 'virginica'],
       [6.4, 2.8, 5.6, 2.2, 'virginica'],
       [6.3, 2.8, 5.1, 1.5, 'virginica'],
       [6.1, 2.6, 5.6, 1.4, 'virginica'],
       [7.7, 3.0, 6.1, 2.3, 'virginica'],
       [6.3, 3.4, 5.6, 2.4, 'virginica'],
       [6.4, 3.1, 5.5, 1.8, 'virginica'],
       [6.0, 3.0, 4.8, 1.8, 'virginica'],
       [6.9, 3.1, 5.4, 2.1, 'virginica'],
       [6.7, 3.1, 5.6, 2.4, 'virginica'],
       [6.9, 3.1, 5.1, 2.3, 'virginica'],
       [5.8, 2.7, 5.1, 1.9, 'virginica'],
       [6.8, 3.2, 5.9, 2.3, 'virginica'],
       [6.7, 3.3, 5.7, 2.5, 'virginica'],
       [6.7, 3.0, 5.2, 2.3, 'virginica'],
       [6.3, 2.5, 5.0, 1.9, 'virginica'],
       [6.5, 3.0, 5.2, 2.0, 'virginica'],
       [6.2, 3.4, 5.4, 2.3, 'virginica'],
       [5.9, 3.0, 5.1, 1.8, 'virginica']], dtype=object)

(4)自己创建一个dataframe结构

data = {'country':['aaa','bbb','ccc'],#国家
       'population':[10,12,14]}       #人口
df_data = pd.DataFrame(data)
df_data

(5)取指定的数据

age = df['Age']
age[:5]

结果:
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

🥝二 、Pandas的使用

1.将红酒数据转换为 pandas DataFrame

DataFrame 可以方便地处理像 Excel 工作表那样的二维数据。 df_X DataFrame 形式的特
征值。 下面的代码调用 head 方法输出了数据集前 5 行的数据 ,用于查看数据集中包含了什 么样的数据。
import pandas as pd
from sklearn.datasets import load_wine
data=load_wine()
df_X = pd.DataFrame(data.data, columns=data.feature_names)
df_X.head(5)

2.接下来看一下转换后的数据。做法和刚才相同:调用 head
法。 df_y 是名副其实的目标变量数据。
df_y = pd.DataFrame(data.target, columns=["kind(target)"])
df_y.head(5)

 3.我们将这些数据合并在一起。下面使用 pandas 的 concat 将特征值 df_X 和目标变量 df_y 合并。

df=pd.concat([df_X,df_y],axis=1)
df.head(5)

直方图的形式输出的 alcohol 列的数据。由于下面的代码没有指定 bins 参数,所
以程序使用默认的参数值 10 ,输出了有 10 个区间的直方图。
import matplotlib.pyplot as plt
plt.hist(df.loc[:,"alcohol"])

下面的代码使用 corr 方法汇总计算并输出了相关系数(表 1-12 )。相关系数越接近于 1 ,越表 明数据之间是正相关关系;越接近于 -1 ,越表明数据之间是负相关关系。换言之,如果相关系数在 0 左右,表明数据列之间的相关性很低。
df.corr()

describe 方法用于输出每列的统计信息。输出的统计信息从上到下依次为行数、平均值、标
准差、最小值、 25 百分位数、中位数、 75 百分位数、最大值 。从统计信息可以看出每列 包含的数据具有何种特性、有没有缺损等信息。

使用 scatter_matrix 输出散点图矩阵。这里将 14 列全都输出了出来

from pandas.plotting import scatter_matrix
_ = scatter_matrix(df, figsize=(15, 15))

 

下列代码输出的是从所有散点图矩阵中选出的索引为 0 的列、索引为 9 的列和最后一列的关联性。通过像这样减少散点图矩阵输出的列,能够看出更细致的情况.


🥥三 、Pandas教程

https://www.runoob.com/pandas/pandas-install.html

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
机器学习是一门利用计算机算法来使计算机从大量数据中学习和提取模式的技术。在机器学习中,numpy、pandas和sklearn是三个非常重要且常用的库。 首先,numpy是一个Python数值计算库,提供了高性能的多维数组对象,以及处理这些数组的工具。机器学习算法通常需要对大量的数据进行处理和计算,numpy提供了快速有效的数组操作和计算方法,使得机器学习的数据处理更加高效。 其次,pandas是一个数据分析工具,提供了高性能的数据结构和数据分析工具。在机器学习中,我们通常需要对数据进行清洗、处理和预处理,pandas提供了强大的数据处理功能,可以方便地进行数据清洗、筛选和转换等操作。同时,pandas还提供了灵活的数据结构,如Series和DataFrame,使得数据的管理和分析更加方便。 最后,sklearn是一个用于机器学习Python库,提供了丰富的机器学习算法和工具。sklearn包含了常用的分类、回归、聚类等机器学习算法,同时还提供了特征选择、数据预处理、模型评估等功能。sklearn与numpy和pandas结合使用,可以更加方便地进行机器学习任务的实现和评估。 总之,学习掌握numpy、pandas和sklearn这三个库是机器学习的基础。它们提供了强大的数值计算、数据处理和机器学习算法的功能,可以帮助我们更加高效地进行数据分析和机器学习模型的构建。了解和使用这些库,将极大地提升机器学习的效率和准确性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

卿云阁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值