Python之Scikit-Learm

Scikit-Learm是利用Python进行机器学习的常用的第三方模块。机器学习的功能主要包括分类、回归、降维和聚类了主要的分类算法包括局册数、贝叶斯分类、支持向量机、随机森林等。主要的回归算法有SVR、Lasso等。常见的降维方法有主要的成分分析、主题模型等。常见的聚类分析有K-means、Gaussian等。同时,Scikit-Learn还包含了特征提取、数据处理和模型评估这三大块。
Scikit-Learn 的模块列表:
(1)关于数据集的模块:sklearn.datasets
(2)关于特征预处理的模块:sklearn.feature_extraction(特征抽取)、sklearn.featurn_selection(特征选择)、sklearn.preprocessing(特征预处理)、sklearn.random_projection(数据集合)
(3)关于模型训练的模块:slearn.cluster、sklearn.cluster.bicluster、sklearn.linear_model、sklearn.naive_bayes、sklearn.naruaral_network、sklearn.svm、sklearn.tree
(4)关于模型评估的模块:sklearn.metrics、sklearn.cross_validation
(5)关于其他功能的模块:sklearn.corvariance、sklearn.mixture等

1、决策树
决策树算法易于理解,计算简单,能够处理有缺失属性的样本及不相关的特征,在短时间内可对较大的数据做出可行且效果良好的判断。缺点就是会忽略数据之间的相关性、容易出现过拟合等。
下面调用sklearn.tree对训练集进行训练
1、在机器学习中,我们通常将原始数据按照比例分割为“测试集”和“训练集”,通常使用sklearn.cross_validation里的train_test_split模块用来分割数据。cross_validation已经弃用,现在改为从 sklearn.model_selection 中调用train_test_split 函数。
train_test_split参数含义参考这里!

2、sklearn.tree.DecisionTreeClassifier 参数含义参考这里!

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import sklearn
import re
from sklearn.model_selection import train_test_split
import sklearn.tree as tree
#调用sklearn.tree对训练集进行训练
data=pd.read_excel("E://《Python与量化投资-从理论到实战》 代码//chapter3//loan.xlsx")
target=data["Type"]
data.drop("Type",axis="columns",inplace=True)   #axis=1表示删除行,axis=0表示删除列
train_data,test_data,train_target,test_target=train_test_split(data,target,test_size=0.4,train_size=0.6,random_state=12345)   #分割数据
clf_1=tree.DecisionTreeClassifier(criterion="entropy")  #用信息增益来表示决策树的纯度
clf_1.fit(train_data,train_t
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值