细节决定成败

1.区分:np.random.random(),np.random.randint(),DataFrame(np.random.random(),DataFrame(np.random.randint()

a=np.random.random(size=(4,5))   #创建4行5列的数组
b=DataFrame(np.random.random(size=(4,5)))   #加DataFrame则表示创建4行5列表格
c=np.random.randint(0,100)   #生成一个随机整数,范围0-100
d=np.random.randint(0,100,size=(4,5,6,2))    #有size就是N维数组
e=DataFrame(np.random.randint(0,100,size=(4,5)))   #加DataFrame表示创建表格

#导入相关模块
import numpy as np
import pandas as pd
from pandas import DataFrame

a=np.random.random(size=(4,5))   #创建4行5列的数组
b=DataFrame(np.random.random(size=(4,5)))   #加DataFrame则表示创建4行5列表格
c=np.random.randint(0,100)   #生成一个随机整数,范围0-100
d=np.random.randint(0,100,size=(4,5,6,2))    #有size就是N维数组
e=DataFrame(np.random.randint(0,100,size=(4,5)))   #加DataFrame表示创建表格
print(a)
print(b)
print(c)
print(d)
print(e)
'''
区别:
(1)np.random.random和np.random.randint的区别:前者创建的是0-1之间的浮点数,类型为数组。后者能在自定义范围内创建一个整数(不加size参数)或N维数组(加size[5,1,2,4,6]参数,5维)
(2)加DataFrame表示创建表格,不加表示数组
'''

DataFrame函数介绍:

具体文献博客DataFrame(3):DataFrame常用属性说明_dataframe的属性-CSDN博客

#导入相应模块
from sklearn.datasets import load_iris
import pandas as pd

#用DataFrame让数据集更加直观(表格表示形式)
iris=load_iris()
print(iris)
iris_data=pd.DataFrame(data=iris.data,columns=['Sepal_Length','Sepal_Width','Petal_Length','Petal_Width'])
iris_data['target']=iris_target                 #加一列目标值列(target)
print(iris_data)

2.机器学习有关概念理解

3.回归和分类问题

4.生成等间隔样本

nsample = 20
#用于在0到10之间生成等间隔的样本
x=np.linspace(0,10,nsample)   #nsample是要生成的样本数量。这个函数将返回一个包含nsample个元素的一维数组,这些元素是在0到10之间均匀分布的。
print(x)

5.用列表表达式求y的值

import matplotlib.pyplot as plt

x = [3, 4, 5, 7 ,9,11] # [列表]
print(x)
y = [i**2+6 for i in x]  #用列表表达式求y的值
print(y)
plt.plot(x, y)
plt.show()

不能写成:y=i**2+6

6.模块collections中的OrderedDict类

Python字典是无序的,可以用OrderedDict来进行排序,示例如下

#导入相关的模块

from collections import OrderedDict   #从collections模块中导入OrderedDict字典功能,这个字典是严格按照输入顺序排列字典元素,
                                      # 与Python普通字典的区别是:普通的字典,如果相同的元素,仅仅顺序不一样,则字典是相同的
                                      #但是在OrderedDict字典中   如果元素相同,仅仅顺序不同,那么这两个字典就是不同的
import numpy as np                    #numpy是处理数组的Python包使用NumPy,开发人员可以执行以下操作:(1)数组的算数和逻辑运算。
                                      # (2)傅立叶变换和用于图形操作的例程。(3)与线性代数有关的操作,NumPy 拥有线性代数和随机数生成的内置函数。
import pandas as pd                   #pandas是用于数据挖掘的库

#创建数据集(------------------------------------------------------------------------------------------------------------)
data = {'学习时长':[0.5, 0.65, 1, 1.25, 1.4,1.75, 1.75, 2, 2.25, 2.45, 2.65, 3, 3.25,3.5, 4, 4.25, 4.5, 4.75, 5, 5.5, 6],
       '成绩':[12,23,18,43,20,22,23,35,50,63,48,55,76,62,73,82,76,64,82,91,93]}   #通过字典的方式创建的数据data,一个键是“学习时长”,一个是“成绩”
print(data)
dataOrderDict = OrderedDict(data)
dataDf = pd.DataFrame(dataOrderDict)
print(dataDf)

7.reshape 

(1)example

reshape(-1, 1)  表示(任意行,1列),4行4列变为16行1列
reshape(1, -1)  表示(1行,任意列),4行4列变为1行16列
reshape(-1, 2)  表示(任意行,2列),4行4列变为8行2列

reshape(-1, 1)  等多用于不知道具体行数或列数时

(2)线性回归中

线性回归中

X_train = X_train.values.reshape(-1,1)
y_train = y_train.values.reshape(-1,1)

把数据变成一列的原因:

 8.matplotlib绘图不显示中文

# 在代码中添加如下语句 —— 设置字体为:SimHei(黑体)
plt.rcParams['font.sans-serif']=['SimHei'] 

9.表格型数据画散点图

以上数据结构画图写法如下

plt.scatter(iris_data['Sepal_Length'],iris_data['Petal_Length'],color='red',label='Sepal_Length')

10.画决策区域

# 引入数据
from mlxtend.plotting import plot_decision_regions  #绘制决策区域
from sklearn import datasets
import matplotlib.pyplot as plt
import numpy as np

iris = datasets.load_iris()
# 'feature_names': ['sepal length (cm)','sepal width (cm)','petal length (cm)','petal width(cm)'],
#只取其中两个特征 第三列和第四列,[0,3]则代表取第一列和第四列
X = iris.data[:,[2,3]]
y = iris.target
print("Class labels:",np.unique(y))  #打印分类类别的种类,不显示重复

# 切分训练数据和测试数据
from sklearn.model_selection import train_test_split
## 30%测试数据,70%训练数据,stratify=y表示训练数据和测试数据具有相同的类别比例
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state=1,stratify=y)   #stratify=y表示y为数组对象

from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
## 估算训练数据
sc.fit(X_train)
## 对数据进行标准化
X_train_std = sc.transform(X_train)
X_test_std = sc.transform(X_test)
'''
## 决策树分类器  标准化之后的数据
from sklearn.tree import DecisionTreeClassifier
tree = DecisionTreeClassifier(criterion='gini',max_depth=4,random_state=1)
tree.fit(X_train_std,y_train)
plot_decision_regions(X_train_std,y_train,clf=tree)
'''
##使用随机森林分类器
from sklearn.ensemble import RandomForestClassifier      #随机森林分类
rf = RandomForestClassifier(criterion='gini',max_depth=4,random_state=1)   #criterion='gini'表示用基尼系数作为度量标准。max_depth=4表示决策树最大深度
rf.fit(X_train_std,y_train)
##画决策区域
plot_decision_regions(X_train_std,y_train,clf=rf)

plt.xlabel('petal length [standardized]')
plt.ylabel('petal width [standardized]')
plt.legend(loc=2)
plt.show()
a=rf.score(X_test_std, y_test)
print(a)

  • 17
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值