细节决定成败

最新推荐文章于 2025-12-11 20:49:41 发布

原创最新推荐文章于 2025-12-11 20:49:41 发布 · 534 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#python #numpy #开发语言

本文介绍了Python中np.random模块的随机数生成方法(np.random.random和np.random.randint)，DataFrame的使用，以及机器学习中的数据预处理、等间隔样本生成、matplotlib绘图、OrderedDict排序和线性回归中的reshape技巧。还展示了如何使用决策树和随机森林进行分类并可视化决策区域。

1.区分：np.random.random（），np.random.randint（），DataFrame(np.random.random（），DataFrame(np.random.randint（）

a=np.random.random(size=(4,5))   #创建4行5列的数组
b=DataFrame(np.random.random(size=(4,5)))   #加DataFrame则表示创建4行5列表格
c=np.random.randint(0,100)   #生成一个随机整数，范围0-100
d=np.random.randint(0,100,size=(4,5,6,2))    #有size就是N维数组
e=DataFrame(np.random.randint(0,100,size=(4,5)))   #加DataFrame表示创建表格

#导入相关模块
import numpy as np
import pandas as pd
from pandas import DataFrame

a=np.random.random(size=(4,5))   #创建4行5列的数组
b=DataFrame(np.random.random(size=(4,5)))   #加DataFrame则表示创建4行5列表格
c=np.random.randint(0,100)   #生成一个随机整数，范围0-100
d=np.random.randint(0,100,size=(4,5,6,2))    #有size就是N维数组
e=DataFrame(np.random.randint(0,100,size=(4,5)))   #加DataFrame表示创建表格
print(a)
print(b)
print(c)
print(d)
print(e)
'''
区别：
（1）np.random.random和np.random.randint的区别：前者创建的是0-1之间的浮点数，类型为数组。后者能在自定义范围内创建一个整数（不加size参数）或N维数组（加size[5,1,2,4,6]参数,5维）
（2）加DataFrame表示创建表格，不加表示数组
'''

DataFrame函数介绍：

具体文献博客：DataFrame(3)：DataFrame常用属性说明_dataframe的属性-CSDN博客

#导入相应模块
from sklearn.datasets import load_iris
import pandas as pd

#用DataFrame让数据集更加直观（表格表示形式）
iris=load_iris()
print(iris)
iris_data=pd.DataFrame(data=iris.data,columns=['Sepal_Length','Sepal_Width','Petal_Length','Petal_Width'])
iris_data['target']=iris_target                 #加一列目标值列(target)
print(iris_data)

2.机器学习有关概念理解

3.回归和分类问题

4.生成等间隔样本

nsample = 20
#用于在0到10之间生成等间隔的样本
x=np.linspace(0,10,nsample)   #nsample是要生成的样本数量。这个函数将返回一个包含nsample个元素的一维数组，这些元素是在0到10之间均匀分布的。
print(x)

5.用列表表达式求y的值

import matplotlib.pyplot as plt

x = [3, 4, 5, 7 ,9,11] # [列表]
print(x)
y = [i**2+6 for i in x]  #用列表表达式求y的值
print(y)
plt.plot(x, y)
plt.show()

不能写成：y=i**2+6

6.模块collections中的OrderedDict类

Python字典是无序的，可以用OrderedDict来进行排序，示例如下

#导入相关的模块

from collections import OrderedDict   #从collections模块中导入OrderedDict字典功能，这个字典是严格按照输入顺序排列字典元素，
                                      # 与Python普通字典的区别是：普通的字典，如果相同的元素，仅仅顺序不一样，则字典是相同的
                                      #但是在OrderedDict字典中   如果元素相同，仅仅顺序不同，那么这两个字典就是不同的
import numpy as np                    #numpy是处理数组的Python包使用NumPy，开发人员可以执行以下操作：（1）数组的算数和逻辑运算。
                                      # （2）傅立叶变换和用于图形操作的例程。（3）与线性代数有关的操作，NumPy 拥有线性代数和随机数生成的内置函数。
import pandas as pd                   #pandas是用于数据挖掘的库

#创建数据集（------------------------------------------------------------------------------------------------------------）
data = {'学习时长':[0.5, 0.65, 1, 1.25, 1.4,1.75, 1.75, 2, 2.25, 2.45, 2.65, 3, 3.25,3.5, 4, 4.25, 4.5, 4.75, 5, 5.5, 6],
       '成绩':[12,23,18,43,20,22,23,35,50,63,48,55,76,62,73,82,76,64,82,91,93]}   #通过字典的方式创建的数据data，一个键是“学习时长”，一个是“成绩”
print(data)
dataOrderDict = OrderedDict(data)
dataDf = pd.DataFrame(dataOrderDict)
print(dataDf)

7.reshape

（1）example

reshape(-1, 1) 表示（任意行，1列），4行4列变为16行1列
reshape(1, -1) 表示（1行，任意列），4行4列变为1行16列
reshape(-1, 2) 表示（任意行，2列），4行4列变为8行2列

reshape(-1, 1) 等多用于不知道具体行数或列数时

（2）线性回归中

线性回归中

X_train = X_train.values.reshape(-1,1)
y_train = y_train.values.reshape(-1,1)

把数据变成一列的原因：

8.matplotlib绘图不显示中文

# 在代码中添加如下语句 —— 设置字体为：SimHei（黑体）
plt.rcParams['font.sans-serif']=['SimHei']

9.表格型数据画散点图

以上数据结构画图写法如下

plt.scatter(iris_data['Sepal_Length'],iris_data['Petal_Length'],color='red',label='Sepal_Length')

10.画决策区域

# 引入数据
from mlxtend.plotting import plot_decision_regions  #绘制决策区域
from sklearn import datasets
import matplotlib.pyplot as plt
import numpy as np

iris = datasets.load_iris()
# 'feature_names': ['sepal length (cm)','sepal width (cm)','petal length (cm)','petal width(cm)'],
#只取其中两个特征 第三列和第四列,[0,3]则代表取第一列和第四列
X = iris.data[:,[2,3]]
y = iris.target
print("Class labels:",np.unique(y))  #打印分类类别的种类，不显示重复

# 切分训练数据和测试数据
from sklearn.model_selection import train_test_split
## 30%测试数据，70%训练数据，stratify=y表示训练数据和测试数据具有相同的类别比例
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state=1,stratify=y)   #stratify=y表示y为数组对象

from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
## 估算训练数据
sc.fit(X_train)
## 对数据进行标准化
X_train_std = sc.transform(X_train)
X_test_std = sc.transform(X_test)
'''
## 决策树分类器  标准化之后的数据
from sklearn.tree import DecisionTreeClassifier
tree = DecisionTreeClassifier(criterion='gini',max_depth=4,random_state=1)
tree.fit(X_train_std,y_train)
plot_decision_regions(X_train_std,y_train,clf=tree)
'''
##使用随机森林分类器
from sklearn.ensemble import RandomForestClassifier      #随机森林分类
rf = RandomForestClassifier(criterion='gini',max_depth=4,random_state=1)   #criterion='gini'表示用基尼系数作为度量标准。max_depth=4表示决策树最大深度
rf.fit(X_train_std,y_train)
##画决策区域
plot_decision_regions(X_train_std,y_train,clf=rf)

plt.xlabel('petal length [standardized]')
plt.ylabel('petal width [standardized]')
plt.legend(loc=2)
plt.show()
a=rf.score(X_test_std, y_test)
print(a)