作为一个CV与图像处理方向上的新人,为了能够进入正式科研道路上时不被自己的老板嫌弃,我们必须尽力去自学一系列以后可能用到的技能来武装自己。而在本领域现阶段神经网络,机器学习,深度学习充斥在我们的生活之中,不了解一二真的都不太好意思说自己是这行业内的人了……而python编程语言在这一背景下地位水涨船高。其解释性语言的特性以及广泛开源的优点得到了程序猿们乃至一些大牛们的青睐,随之而来的就是方便好用的各种各样的开源工具了。一个像我这样的小白,随便找本书籍学习一二,就可以用现成的开源工具实现一些有趣的机器学习模型*—*因此希望记录下自己一些学习过程中的经验与体会,希望能够与大家一块学习交流。
首先介绍一下最近折腾的几个灰常实用的工具库:
1、向量,矩阵运算的数据库numpy以及更为强大的SciPy
2、用于数据采集,以及预处理和分析的工具包Pandas
3、用于绘制图形的工具包Matplotlib
4、可以直接用于机器学习与实践的,封装了大量机器学习模型的核心程序库Scikit-learn
……作为一个小白暂时就用到了以上这几个,之后如果还有其他的会继续补充,关于这些工具包的简单实用方法均可以在网络上很容易的获得
通常情况下以上工具包需要我们自己去一个一个下载安装,为了简单起见,推荐直接安装Anaconda平台,该平台已经自动安装并支持上述我们提到的所有工具包
该系列以后每一篇都会提到一个学习过程中遇到的问题及个人找到的解决方法,如果有更好的方法,欢迎大家一起来进行交流学习
(备注:本人学习过程中使用的是python2.7版本进行编程,相信大家接触过python编程语言的都知道python2与3版本间编程规则存在差异且彼此不兼容)
本期问题:当我们使用pandas从网上down下相关数据后想进行保存留一个备份,却发现无法使用通常的文件读写方法进行
上述问题出现的原因是因为pandas会将数据转入其独有的dataframe格式(二维数据表格),该格式的数据无法直接保存在通常的文件中显示的,因此需要使用DataFrame格式的对应方法将其转换为csv文件再导出,对应代码如下
# -*- coding: utf-8 -*-
"""
Created on Thu Mar 02 16:44:44 2017
@author: bridge
"""
#analysis titanic with the Decision Tree
#使用pandas下载数据
import pandas as pd
import csv
titanic=pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')
f=file('titanic.csv','wb')
titanic.to_csv(f,encoding='utf-8',index=False)
titanic.head()
关于pandas.DataFrame的其他简单操作,建议参考博客http://blog.csdn.net/maliang_1993/article/details/50907983
以上内容主要参考了《python机器学习及实践——从零开始通往kaggle竞赛之路》一书,刚刚入手开始学习,个人感觉很赞!~
第一次写此类文章,如果有侵犯了其他人的版权问题请谅解,此文章仅用作学习交流,同时也请大家从自己开始做起,培养起版权意识。