着凉xxx-CSDN博客

原创【python】数据预处理整理

#导入库import pandas as pdimport numpy as np#导入数据集 dataset = pd.read_csv('Data.csv') #把格式调成数据框df = pd.DataFrame(data)#显示 dataframe 的简明摘要，包括每列非空值的数量df.info()# 返回每列数据的有效描述性统计df.describe()# 查看每列的索引号和标签df.columns# loc[]传入的是行、列的名字：如loc[‘第几行’,'那一

2022-03-09 16:33:54 1402

原创【python机器学习手册】第12章模型选择

#12.1 使用穷举搜索选择最佳模型#通过搜索一系列的超参数来选择最佳模型#gridsearchCV是使用交叉验证进行模型选择(找最佳参数)的暴力方法，用户为一个集合，对集合里的每一个值或者值的组合来训练模型，性能得分最高的为最佳模型import numpy as npimport warningswarnings.filterwarnings("ignore")#忽略警告from sklearn import linear_model, datasetsfrom sklearn.model_

2020-12-01 20:03:50 963

原创【python机器学习手册】第11章模型评估

#11.1模型评估#用于评估算法生成的模型在实际应用中的表现#解决方案：创建一个流水线，对数据进行预处理、训练模型，然后用交叉验证方法评估模型的性能from sklearn import datasetsfrom sklearn import metrics#计算性能指标from sklearn.model_selection import KFold,cross_val_score#k折和交叉验证是两个东西from sklearn.pipeline import make_pipeline#流

2020-12-01 20:02:44 627

原创【python机器学习手册】第10章特征选择

#10.1 VT（方差阈值化）from sklearn import datasetsfrom sklearn.feature_selection import VarianceThreshold#载入方差阈值函数iris=datasets.load_iris()features=iris.datatarget=iris.targetthresholder=VarianceThreshold(threshold=0.5)#方差小于等于0.5的删除，含有信息比较少的列（特征）删除features

2020-11-24 16:56:35 424

原创【python机器学习手册】第七章处理日期和时间

#7.1 把字符串转换成日期#使用pandas的to_datatime函数，并通过format参数指定字符串的日期和时间格式。import numpy as npimport pandas as pddate_strings = np.array(['03-04-2005 11:35 PM', '23-05-2010 12:01 AM', '04-09-2009 09:09 PM'])[pd.to_

2020-11-24 15:31:23 918

原创【python机器学习手册】第四章处理数值型数据

#4.1 缩放，最大为1，最小为0import numpy as npfrom sklearn import preprocessingfeature=np.array([[-500.5],#随手建立一个数组 [-100.1], [0], [100.1], [900.9]])minmax_scale=preprocessing.MinMaxScaler((0,1),copy

2020-11-23 20:15:29 261

原创【python机器学习手册】第五章处理分类数据

#5.1对没有内部顺序的nominal型分类特征编码#单热编码 #numpyimport numpy as npfrom sklearn.preprocessing import LabelBinarizer,MultiLabelBinarizerfeatures=np.array([["Texas"], ["California"], ["Texas"], ["Delaware"],

2020-11-23 20:12:41 273

原创【python机器学习手册】第二章加载数据

#2.1from sklearn import datasetsdigits=datasets.load_digits()#把这个数据集命名为digitsdigits{'data': array([[ 0., 0., 5., ..., 0., 0., 0.], [ 0., 0., 0., ..., 10., 0., 0.], [ 0., 0., 0., ..., 16., 9., 0.], ..., [ 0

2020-11-19 19:28:46 406 3

原创【python机器学习手册】第三章数据整理

#3.1import pandas as pddataframe=pd.DataFrame()#DF一定要大写dataframe["name"]=["JACK","steven"]#增加列dataframe["age"]=[38,25]#数字不用引号，字符串采用引号dataframe["driver"]=[True,False]#布朗值不用引号，一定要首字母大写才是布朗值dataframe name age driver

2020-11-18 16:16:34 174

原创【python机器学习手册】第一章向量、矩阵和数组

#1.1import numpy as npvector_row=np.array([1,2,3])print(vector_row)#行向量[1 2 3]vector_column=np.array([[1], [2], [3]])#列向量print(vector_column)#每行都要有【】，多行就多个【】[[1] [2] [3]]#1.2matrix=np.array([[1,

2020-11-18 16:13:44 254

原创【python机器学习手册】第九章特征提取代码+笔记

#9.1from sklearn.preprocessing import StandardScalerfrom sklearn.decomposition import PCAfrom sklearn import datasetsdigits=datasets.load_digits()features=StandardScaler().fit_transform(digits.data)pca=PCA(n_components=0.99,whiten=True)features_pca=

2020-11-18 15:49:39 769 1

原创西瓜书-贝叶斯分类器笔记

![笔记2![](https://img-blog.csdnimg.cn/20201029223016790.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80ODA0MDMzOQ==,size_16,color_FFFFFF,t_70)

2020-10-29 22:31:59 167

原创西瓜书-神经网络笔记

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

2020-10-29 22:28:42 157

weixin_48040339的博客