自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

I'm zm

Work hard, play harder, love hardest.

  • 博客(24)
  • 收藏
  • 关注

原创 决策树建模

第一个例子是基于假想的服务器日志数据构建决策树,我们利用构建好的决策树来预测用户是否可能成为付费用户。数据集# -*- coding: utf-8 -*-"""Created on Mon May 16 15:31:51 2016@author: ZM"""my_data=[['slashdot','USA','yes',18,'None'], ['google','Fran

2016-05-17 10:42:45 2989

原创 蓄水池抽样算法

问题:在不知道文件总行数的情况下,如何从文件中随机的抽取一行? 通常情况下,我们在已知文件大小时利用rand随机生成一个行数即可。 在不知道行数的情况下,我们首先选择第一行,然后以1/2的概率替换为第二行,然后以1/3的概率替换为第三行,以此类推; 第一行被选择的概率:1∗(1/2)∗(2/3)∗(3/4)...=1/n1*(1/2)*(2/3)*(3/4)...=1/n

2016-05-14 19:27:14 3995

原创 collections.defaultdict

通常情况下在遍历一个数组,找到每个数组里面的每个元素的个数时,我们会选择:bag = {}for word in words: if word not in bag: bag[word] = 1 else: bag[word] += 1像上面那样我们每次都要判断字典中是否有该键,有一个更简单的方法就是使用collections.defaultdi

2016-05-13 09:49:45 1461

原创 pandas.read_csv——分块读取大文件

今天在读取一个超大csv文件的时候,遇到困难: 首先使用office打不开 然后在python中使用基本的pandas.read_csv打开文件时:MemoryError 最后查阅read_csv文档发现可以分块读取。 read_csv中有个参数chunksize,通过指定一个chunksize分块大小来读取文件,返回的是一个可迭代的对象TextFileReader,IO

2016-05-11 16:47:15 78677 6

原创 Anaconda

Anaconda报错Spyder打开错误:pyder crashed during last sessionIf Spyder does not start at all and before submitting a bug report, please try to reset setting to defaults by running Spyder with the command li

2016-05-06 17:16:53 5104

原创 SQL基本语法&SQLite

Databases 数据库是一个数据存储区用于存储、查询和处理数据。数据库存储我们需要的数据并且开放一个和数据交互的接口。大多数科技公司使用数据库来组织数。数据库系统包括数据库管理软件与管理控制、安全和访问控制,语言与数据库接口这些内容。 首先,我们将关注SQL语言一个结构化查询语言。它是用来查询、更新和修改数据库中的数据。SQL SQL是最常见的一种数据库语言,在任何数据专业工具箱

2016-05-06 11:21:34 931

原创 HTML&CSS

Introduction 互联网上有很多信息并不是存在数据库中也不是API格式,这些数据存储网页上。提取这些数据的一个技术就是网页爬虫(web scraping)。 在Python中进行爬虫的过程大概就是:使用requests库加载这个网页,然后使用beautifulsoup 库从这个网页中提取出相关的信息。Webpage Structure 网页是由HyperText Markup

2016-05-06 10:06:23 1087

原创 Reddit网站获赞最高文章/评论的爬取

Reddit 前面我们熟悉了API,学会了如何发出请求,授权以及解析API响应。现在,我们将这些概念串在一起探索一下Reddit网站上的热门文章和评论。 Reddit是一个社区驱动的额分享网站,用户可以提交文章和链接,其他人可以进行upvote(表示喜欢),或者downvote(表示不喜欢)。用户也可以对提交内容进行评价,评价也可以被upvoted 以及downvoted。Reddit有很

2016-05-05 21:08:35 3673

原创 GithubAPI

Introduction在前面学习了一个简单的API(Application Program Interface )国际空间站 International Space Station (ISS),我们可以通过向国际空间站网页服务器发出一个数据请求,并可获得空间站的一些信息。但是通常情况下想要通过API获取一个网站服务器的数据是需要授权的。比如你想利用Reddit API 来获取一些你自己的私人信息

2016-05-05 20:18:46 5758 1

原创 Linux——输出重定向&特殊字符

Appending在前面我们提到过输出重定向:echo "This is all a dream..." > dream.txt如果dream.txt存在,执行上述语句将会覆盖之前的内容。如果这个dream.txt不存在,那么会自动新建一个dream.txt文件,将上述字符串添加进去。这整个过程牵扯了从命令的标准输出(standard output)到文件的标准输入(standard inpu

2016-05-05 16:45:04 2528

原创 Jupyter(IPython)

Jupyter Console Jupyter控制台,原名IPython是一个增强的Python解释器。在之前的shell中我们是利用Python解释器来执行我们的Python脚本文件,而Jupyter加强了这个shell,并添加了一些细节,简化处理数据。 通常在你写数据分析脚本时或者编写原型代码时,你需要快速测试一些代码,此时你会在shell环境下执行它,因为这样很快速。Jupyter

2016-05-05 15:23:01 4341

原创 Git版本控制

Version Control Systems 大型公司在开发一个项目时通常有一个团队进行代码的编写,为了使这些成员之间能进行代码的共享融合,产生了分布式版本控制(version control )系统,为的就是促进协同(collaboration)工作。 版本控制系统有很多,比如Mercurial, Subversion.其中Git是目前最受欢迎的一个。Git是一个命令行工具,在shel

2016-05-05 10:32:21 711 2

原创 Linux——Python程序执行

Command Line Python 前面几篇学的都是如何操作文件系统,创建/修改文件以及在命令行中运行python。学会这些并不能足够了解怎么用Python进行编程,我们还需要学会如何修改和执行python程序。 Create a Python script. Create a virtual environment. Change file permissions.

2016-05-04 21:50:48 895

原创 Linux——Python虚拟环境

Command Line Python在前面一篇中,我们直接在python命令行中运行代码,虽然简单明了,但是命令行是不能保存文件的。因此在开发python程序时,我们需要将python代码存为文件。然后早命令行中用python解释器来执行这个文件。为了使Python解释器可以执行我们的Python代码文件,我们需要在一个空白文件中添加下面这段代码:if __name__ == "__main

2016-05-04 21:23:21 1723

原创 Linux——环境变量&flags

Setting Variables 我们在终端中输入命令,然后命令被执行了,继而产生结果。这一切交互行为都发生在一个叫做bash的shell中。shell是一种用来进行访问和控制计算机的方法。Command-line shells有一个文本界面提供输入命令以及结果显示。graphical shells允许你点击按钮移动鼠标等等。目前有很多unix shells,但是Bash是最受欢迎的一种,并且

2016-05-04 20:21:31 1576 1

原创 Linux——文件操作

Making A File创建文件的方式有好几种,其中touch就是一种。touch命令将会创建一个空文件,比如touch file.txt会在当前目录下创建一个空的file文本文件。之后我们可以对这个文件进行编辑。~$ touch test.txtStandard Streams我们可以通过echo命令来打印文本信息,比如输入echo “Dataquest is awesome”,将会打印D

2016-05-04 19:05:59 1250

原创 Linux——简单介绍

Introduction许多人通过一个图形用户界面(graphical user interface)与计算机交互。GUI如下: 在GUI之前,人们是通过命令行界面(command-line interface)与计算机进行交互的,它也可以称为一个shell或终端。对于一个编程任务,命令行界面比GUI更快更强大。 几乎所有的程序员和数据科学家都广泛的使用终端,并且认为能与它进行交互是一个至关重要

2016-05-04 15:32:42 559

原创 Python——time模块&datetime模块

python中有一个时间模块time,它使用的是Unix timestamps.不明显显示年月日,而是一个浮点数,表示从1970到现在所经历的秒数。利用time()函数可以获得当前这个Unix timestamps时间。import timecurrent_time = time.time()'''current_time : 1462328968.143729'''Converting

2016-05-04 11:32:07 466

原创 Python——正则表达式

Regular Expressions当我们想从下面这段字符串中获取年份这个信息的时候,我们并不知道怎么分离这个字符串,什么样的表达形式代表了年份,这个时候就需要用到正则表达式。''' - `"Jan 17, 2012"` - `"9/22/2005"` - `"Spring 2007"` - `"New Year's Eve 1999"`''' 一个正则表达式就是一个字符序列,描

2016-05-04 10:27:32 934

原创 自然语言处理——简单词袋模型

What Is Natural Language Processing? 本文将学习自然语言处理,当给予计算机一篇文章,它并不知道这篇文章的含义。为了让计算机可以从文章中做出推断,我们需要将文章转化为数值表示。这个过程使得计算机能够凭语法规则去识别它。那么首先就要学会如何将文章变为数值表示。Looking At The Data Hacker News网站是一个可以提交文章的社区网站,并且

2016-05-03 16:12:00 9797

原创 Dataquest用户流失预测

上一篇做了一些简单的数据分析,现在我们做一个预测任务,预测一下哪些用户有可能会离开Dataquest这个学习平台。我们利用逻辑回归来做这件事。我们不想知道某人正好要离开所做的事,而是关心他们在离开之前的一些屏幕中所做的事,因此我们提取每个session的最后5个events.Remove Columns对于预测来说,event中的id这个属性是没有意义的,因此需要将其剔除: '''colum

2016-05-03 14:57:02 2575

原创 Dataquest用户数据分析

Thinking Through Analytics Data本文将介绍如何从头到尾对数据进行分析。我们将探索Dataquest这个网站上用户的匿名化分析数据。我们将探索用户是如何进行学习的,数据源主要有两个:数据库网站前端的收集的数据A Quick Look At Dataquest首先需要明确Dataquest这个网站是怎样构造的:当前处在一个任务中,任务是由远程数据库,以及一些知识点组成

2016-05-03 10:18:26 4506 1

原创 NBA球员总得分预测——K近邻算法

Dataset本文的数据集nba_2013.csv是2013到2014赛季的NBA球员信息:player – name of the playerpos – the position of the playerg – number of games the player was ings – number of games the player startedpts – total poi

2016-05-02 11:16:55 3109

原创 电影评论分类——朴素贝叶斯

Before We Classify给定一个电影的评论(文本信息),我们想要知道这个评论的语气是积极(+1)的还是消极的(-1)。本文利用 naive bayes分类模型来解决这个问题。朴素贝叶斯的原理是计算某个样本属于某个类的概率。计算公式是基于贝叶斯理论:P(A∣B)=P(B∣A)/P(A)P(B),意思是给定B,计算A的概率。# Here's a running history for t

2016-05-02 10:49:09 4540 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除