- 博客(5)
- 收藏
- 关注
原创 实用小技巧-----解决从Github上获取.csv文件
由于最近学习需要,要在github上获取原始数据。但下载通道给堵死了,试着改了虚拟IP地址等方法都没有用,于是尝试出了一个半自动的小方法。问题叙述找到需要的资源地址。以该项目为例:https://github.com/jakevdp/data-USstates常规的链接下载方法失效,采用最原始的方法:复制粘贴。将复制后的内容放到Excel表格中,再导出逗号分隔符(CSV)文件该文件顺序并没有想象中的完美,如果直接逐行读取(以其中一个文件为例),结果如下:后面产生了一行我们不需要的空数据,用记事
2020-07-25 12:33:21 1952
原创 如何完成用Jupyter完成决策树的可视化
原生态的Jupyter Notebook无法完成对dot图的可视化,早上搞了好久才解决可视化的问题,记录一下备用吧。准备工作安装graphviz包网址:https://graphviz.gitlab.io/_pages/Download/Download_windows.html选择praphviz-2.38.msi下载默认路径为C:\Program Files (x86)\Graphviz2.38设置环境变量。注意:如果运行时系统无法正确找到graphviz,大概率是因为与matlab中的
2020-07-08 15:39:54 5338
原创 决策树参数调节
基本的决策树语法如下from sklearn.datasets import load_breast_cancerfrom sklearn.model_selection import train_test_splitfrom sklearn.tree import DecisionTreeClassifiercancer=load_breast_cancer()X_train,X_test,y_train,y_test=train_test_split( cancer.data,canc
2020-07-08 15:06:02 6618 2
原创 机器学习起步--鸢尾花分类2
*最近时间比较宽裕了,闲暇之余多学习一下项目的流程吧。虽然主要目标是random forest,但作为掉包侠,肯定是用学习使用多种模型的Training data和Testing data的分类科学的理论方法,简而言之就是有放回的抽取,在统计学的意义下尽可能减少随机性对训练结果的影响。实现分类的代码块如下:from sklearn.datasets import load_irisiris_datasets = load_iris()from sklearn.model_selection i
2020-07-06 16:16:48 241
原创 机器学习起步---鸢尾花分类1
本文基于Jupyter notebook网页式交互开发环境,前提是配置好相应的软件以及路径,推荐使用Anaconda,它是免费的开源项目,下载方便,并且预置了Jupyter notebook应用程序和Numpy,Scipy,matplotlib,pandas,IPython,scikit-learn等诸多科学计算包*分析的对象是一个已经封装好的数据集合,文本重点是对于该对象结构的剖析,以及使用既有算法对其训练,观察,预测和评估的一系列操作。而不涉及如何从其他地方提取数据,生成新的数据集初识数据l.
2020-06-15 18:20:16 468
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人