![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
特征工程
。难悟易误。
这个作者很懒,什么都没留下…
展开
-
特征提升:特征抽取
#对象为以字典结构进行存储的数据,对特征进行抽取和向量化 #定义一组字典列表,用来表示多个数据样本(每个字典代表一个数据样本) measurements=[{'city':'Dubai','temperature':33.},{'city':'London','temperature':12.},{'city':'San Fransisco','temperature':18.}] from...原创 2019-03-08 19:36:55 · 221 阅读 · 0 评论 -
特征筛选
通过特征筛选的方法,提升决策树的预测性能 import pandas as pd titanic=pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt') #分析数据特征与预测目标 y=titanic['survived'] X=titanic.drop(['row.names','nam...原创 2019-03-12 21:12:49 · 695 阅读 · 0 评论 -
解决过拟合问题--正则化(Lasso 和 Ridge)
一、样本过拟合与欠拟合 #输入训练样本的特征以及目标值,分别存储在变量X_train,y_train中 X_train=[[6],[8],[10],[14],[18]] y_train=[[7],[9],[13],[17.5],[18]] from sklearn.linear_model import LinearRegression regressor=LinearRegression()...原创 2019-03-13 16:29:58 · 643 阅读 · 0 评论 -
超参搜索(网格搜索)(并行搜索)
#导入新闻数据抓取器 from sklearn.datasets import fetch_20newsgroups import numpy as np #即时从互联网下载数据 news=fetch_20newsgroups(subset='all') from sklearn.cross_validation import train_test_split X_train,X_test,y_...原创 2019-03-13 19:25:10 · 710 阅读 · 0 评论