- 博客(5)
- 收藏
- 关注
原创 数据读取输出
读取数据 import pandas as pd pd.read_csv('path', sep = '', header = None) pd.read_table('path', sep = '', header = None) path:文件路径 sep: 数据的间隔符号 header: 列名的行号,默认为0即第一行是列名,如果没有列名则header = None
2018-01-11 13:25:17
261
原创 Pipeline和FeatureUnion的学习
Pipeline 有关链接 官方: http://scikit-learn.org/stable/modules/pipeline.html#pipelinePipeline and FeatureUnion 点击打开链接pipeline.Pipeline()参数 例子: 点击打开链接 点击打开链接 点击打开链接 点击打开链接 别人博客:
2017-07-23 15:28:37
403
原创 os.path.join/os.mkdir/read_csv等
os.path.join( path1[, path2[, ....]] ) : 将path1和path2等连成同一个路径; os.getcwd() : 返回当前工作目录; os.chdir( path ) : 改变工作目录为path; os.listdir( path ) : 列举path路径中的文件名,字符串列表形式返回;*注意:‘.‘:当前
2017-07-03 13:52:16
489
原创 strip函数
strip函数 str.strip(rm) 当rm为空时,默认删除空白符(‘\n’,'\t','\r',' ') >>> a=' 123' >>> a.strip() '123' >>> a='\n 123 ' >>> a.strip() '123' >>> a='\r 123 \n' >>> a.strip() '123' 当rm不为空:这
2017-03-22 16:49:49
805
原创 决策树之信息增益
对于决策树,根据其划分属性的不同,有决策树之信息增益、决策树之信息增益率、决策树之基尼指数。我们先了解决策树之信息增益。 信息熵:衡量样本集合纯度的一种指标。信息熵越小表明纯度越高,反之则纯度越低。 其中,Ent(D)表示样本集合D的信息熵,样本集合D中有k类样本,其所占比例为 ,(k=1,2,…|y|)tips:此间所说的k类样本就是我们分类标签的类别,当分类是0—
2017-03-16 15:03:28
3050
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人