数据挖掘—dataquest
文章平均质量分 79
mmい
这个作者很懒,什么都没留下…
展开
-
中央情报局关键词提取——Unicode码
Dataset 本文的任务是学习计算机在内存中如何存储一个值。本文的数据集sentences_cia.csv是中央情报局备忘录的一个摘录,描述了酷刑和其他秘密活动的细节。数据格式如下: year,statement,,, 1997,”The FBI information included that al-Mairi’s brother “”traveled to Afghani原创 2016-04-29 08:48:53 · 2068 阅读 · 0 评论 -
Reddit网站获赞最高文章/评论的爬取
Reddit 前面我们熟悉了API,学会了如何发出请求,授权以及解析API响应。现在,我们将这些概念串在一起探索一下Reddit网站上的热门文章和评论。 Reddit是一个社区驱动的额分享网站,用户可以提交文章和链接,其他人可以进行upvote(表示喜欢),或者downvote(表示不喜欢)。用户也可以对提交内容进行评价,评价也可以被upvoted 以及downvoted。Reddit有很原创 2016-05-05 21:08:35 · 3730 阅读 · 0 评论 -
Pandas——NaN&Pivot&dropna&reset_index
本文的数据是Titanic上的船客的信息,有这么几个属性: pclass – the cabin class of the passenger. 1 was the best cabin class, followed by 2, then 3. name – the name of the passenger. sex – the gender of the passeng原创 2016-04-21 17:03:57 · 3057 阅读 · 1 评论 -
HTML&CSS
Introduction 互联网上有很多信息并不是存在数据库中也不是API格式,这些数据存储网页上。提取这些数据的一个技术就是网页爬虫(web scraping)。 在Python中进行爬虫的过程大概就是:使用requests库加载这个网页,然后使用beautifulsoup 库从这个网页中提取出相关的信息。Webpage Structure 网页是由HyperText Markup原创 2016-05-06 10:06:23 · 1102 阅读 · 0 评论 -
Pandas——value_counts&index&to_dict
本文数据是大学专业和就业的信息。有两个csv文件all-ages.csv和recent-grads.csv主要的属性如下: Rank - The numerical rank of the major by post-graduation median earnings. Major_code - The numerical code of the major. Major - T原创 2016-04-21 19:30:47 · 10063 阅读 · 1 评论 -
Series——series_custom&reindex&sort_index
Pandas 中主要的数据类型有三个:Series (collection of values) DataFrame (collection of Series objects) Panel (collection of DataFrame objects)本篇重点讲Series Series 对象使用numpy的数组进行快速计算,它是基于numpy的但是又扩展了numpy,ndarr原创 2016-04-21 20:42:28 · 1785 阅读 · 0 评论 -
DataFrames——set_index
Shared IndexDataFrames可以理解为一组共享indexde Series的集合import pandas as pdfandango = pd.read_csv('fandango_score_comparison.csv')print(fandango.head(2))print(fandango.index)Custom Indexset_index()函数允许你将原创 2016-04-21 21:08:16 · 1284 阅读 · 0 评论 -
Spell Checker
# 将文本中的特殊字符替换成空格,然后全部变为小写def clean_text(text_string, special_characters): cleaned_string = text_string for string in special_characters: cleaned_string = cleaned_string.replace(string,原创 2016-04-21 21:25:47 · 532 阅读 · 0 评论 -
SQL基本语法&SQLite
Databases 数据库是一个数据存储区用于存储、查询和处理数据。数据库存储我们需要的数据并且开放一个和数据交互的接口。大多数科技公司使用数据库来组织数。数据库系统包括数据库管理软件与管理控制、安全和访问控制,语言与数据库接口这些内容。 首先,我们将关注SQL语言一个结构化查询语言。它是用来查询、更新和修改数据库中的数据。SQL SQL是最常见的一种数据库语言,在任何数据专业工具箱原创 2016-05-06 11:21:34 · 948 阅读 · 0 评论 -
Visualizations&plot&pivot_table
Dataset数据集forest_fires.csv是关于葡萄牙国家公园的森林火灾信息,下面是几个特征。 X – The X position on the grid where the fire occurred. Y – The Y position on the grid where the fire occured. month – the month the fire o原创 2016-04-22 09:28:43 · 1049 阅读 · 0 评论 -
Seaborn
Seaborn Matplotlib是Python主要的绘图库。但是不建议你直接使用它,原因与不推荐你使用NumPy是一样的。虽然Matplotlib很强大,它本身就很复杂,你的图经过大量的调整才能变精致。因此,作为替代推荐一开始使用Seaborn。Seaborn 是由斯坦福大学提供的一个python库,简短地描述下seaborn的优点。具体来说,它可以:默认情况下就能创建赏心悦目的图表。(只有原创 2016-04-22 14:33:20 · 11371 阅读 · 2 评论 -
Matplotlib's Internals
High Level Of Abstractionimport matplotlib.pyplot as plt# 2 simple lists of valuesmonth = [1,1,2,2,4,5,5,7,8,10,10,11,12,12]temperature = [32,15,40,35,50,55,52,80,85,60,57,45,35,105]plt.scatter(mont原创 2016-04-22 15:30:10 · 584 阅读 · 4 评论 -
Basemap可视化地图信息
Dataset在气象学和气候学中,地址数据十分重要,因此本文就是学会可视化地理数据。headquartered:总部所在地我们可以根据这个数据探索很多有趣的问题:对于每一个机场,他们最频繁的目的地是哪里?哪一个城市关于机场和航线而言是中心枢纽?Geographic Coordinate Systems(地理坐标系统) Longitude values:经度[-180,180]原创 2016-04-23 10:26:02 · 16176 阅读 · 9 评论 -
scatter_matrix&df.plot&sns.boxplot
Dataset本文的数据集hollywood_movies.csv是好莱坞2007到2011年的电影的信息,可视化的目标是更好的理解好莱坞的基本经济以及探索电影成功的异常性质。下面是csv文件中某些重要的属性 Year: the year the movie was released. Critic Rating: average rating by the critics. Aud原创 2016-04-23 11:17:43 · 2656 阅读 · 0 评论 -
avengers
Dataset本文的数据集是复仇者avengers.csv,是一个著名的和广受喜爱的宇宙超级英雄团队,最初的漫画系列发自于在1960年代。本文主要探索这些复仇者的生与死(作家喜欢写死写活一个复仇者)属性:-URL,Name/Alias, Appearances ,Current? ,Gender ,Probationary ,Introl Full/Reserve Avengers In原创 2016-04-23 11:42:53 · 695 阅读 · 0 评论 -
Probability And Statistics——Correlations&Covariance
Skew(偏度) 在概率论和统计学中,偏度衡量实数随机变量概率分布的不对称性。偏度的值可以为正,可以为负或者甚至是无法定义。在数量上,偏度为负(负偏态)就意味着在概率密度函数左侧的尾部比右侧的长,绝大多数的值(包括中位数在内)位于平均值的右侧。偏度为正(正偏态)就意味着在概率密度函数右侧的尾部比左侧的长,绝大多数的值(但不一定包括中位数)位于平均值的左侧。偏度为零就表示数值相对均匀地分布在平均值原创 2016-04-23 17:30:09 · 4117 阅读 · 0 评论 -
Probability And Statistics In Python: Linear Regression
本文主要探索专业品酒师是怎么评估不同的白葡萄酒的强调内容下面是关于酒的一些特征以及样本: density – shows the amount of material dissolved in the wine.(酒中材料的种类) alcohol – the alcohol content of the wine.(酒精含量) quality – the average qualit原创 2016-04-23 19:09:03 · 952 阅读 · 0 评论 -
Probability And Statistics In Python:Distributions And Sampling
Dataset本文的数据集US的收入数据(income data),基本特征如下: id – the county id. county – the name and state of the county. pop_over_25 – the number of adults over age 25. median_income – the median income for原创 2016-04-23 21:05:19 · 741 阅读 · 0 评论 -
Normalizing&Sorting DataFrame Column
Dataset 本实验的目的将高蛋白低脂肪的食物打分,公式如下: Score=2×(Protein_(g))−0.75×(Lipid_Tot_(g))食品营养表food_info是个DataFrame对象,food_info.columns得到的是DataFrame的列标签对象(# 读入数据import pandas as pdfood_info = pd.read_csv("fo原创 2016-04-21 15:37:37 · 505 阅读 · 0 评论 -
Global Variables
本文的数据集是US的学生贷款违约数据,每一行是一个大学的学生违约信息。可能是涉及隐私,总共有12个属性,只给出了下面几个: institution – the name of the university. state – the state the university is in. city – the city the university is in. borrower原创 2016-04-21 14:55:09 · 555 阅读 · 0 评论 -
nfl_suspensions
nfl_suspensions_data.csv looks like: NFL球员停赛数据。 Unique Values打开数据,去掉数据的第一行,将每年的停赛数据按年聚集存入到字典中。import csvf = open("nfl_suspensions_data.csv")nfl_suspensions = list(csv.reader(f))nfl_suspensions = n原创 2016-04-21 11:04:28 · 411 阅读 · 0 评论 -
算法时间复杂度评估
Implementing An Algorithm实现一个查找算法:我们采用线性查找,线性查找是查找算法的一个实现方法,它采用循环遍历每个元素直到找到匹配元素为止:本算法提供了一个数据集nba:2013年的NBA球员信息,第一列是球员名字。我们尝试找到Kobe打的位置(SG).# When Kobe is found in the dataset, store his position in原创 2016-04-29 10:12:12 · 2143 阅读 · 0 评论 -
二分查找
Implementing Binary Search – Part 1# A function to extract a player's last namedef format_name(name): return name.split(" ")[1] + ", " + name.split(" ")[0]# The length of the datasetlength = len(原创 2016-04-29 10:44:46 · 399 阅读 · 0 评论 -
基本数据结构
Arrays 最基本的数据结构就是数组。计算机的内存可以看成是一个内存槽(memory slots)的长链,数组在内存中的存储方式十分简单和直观。数组的第二个元素存储在第一个元素的旁边,第三个存储在第二个的旁边,以此类推。我们可以很确定的提取出某个槽的元素。这种结构的存储易于访问,但是当进行删除和添加操作时,会很费时,并且数组通常不会超出他们的初始大小。Dynamic Arrays 许多语原创 2016-04-29 11:20:19 · 439 阅读 · 0 评论 -
递归
Factorials用递归写出阶乘# Recursive factorial functiondef factorial(n): # Check the base case # Recursive case return n * factorial(n - 1)def factorial(n): # Check the base case if n ==原创 2016-04-29 15:40:25 · 292 阅读 · 0 评论 -
面向对象——运算符重载
Defining Custom Classes创建一个球员类,一个球队类:class Player(): # The special __init__ function is run whenever a class is instantiated. # The init function can take arguments, but self is always the fi原创 2016-04-29 16:43:27 · 465 阅读 · 0 评论 -
面向对象——异常处理
Dataset本文的数据集是关于研究人员对筷子不同长度的舒适度体验信息:Food pinching efficiency:十进制数,值越高,表示筷子越好。(夹食物效率越好)Individual:独一无二的标识,标识使用这个筷子的人Chopstick length:毫米Organizing Our Code创建一个记录对象,每一个对象代表这个实验记录:# Define the Trial原创 2016-04-29 17:24:20 · 399 阅读 · 0 评论 -
一级函数
String Manipulationhello : str (hello = "hello world"[0:5]foo = "some string"password = "password"print(foo[5:11])'''string'''Omitting Starting Or Ending Indices索引的时候可以忽略开始index以及结束index:hello原创 2016-04-29 18:44:50 · 1266 阅读 · 0 评论 -
Python数据存储
Computer Components一个计算机必须能做4件事:接受输入产生输出存储数据执行计算Data Storage 程序中的变量存放在内存中,可以快速的进行访问,而像数据文件这样的数据一般很大存放在硬盘中,访问速度很慢。下面显示的是内存中的存储情况,一个格子是一个byte,发现短整型数据占一个byte,strings的每一个字符占一个byte。利用id(my_var)可以获取到该原创 2016-04-30 09:46:38 · 869 阅读 · 0 评论 -
Python并行处理——多线程
Parallel Processing 并行处理利用多个CPU在同一时间处理多条指令,这是个很有用的技术,但是它带来的问题也是很多的,比如多个处理器怎么共享数据?这个会造成很多读写冲突,因此需要学会管理这些因素,写出更强大的代码来进行快速并有意义的数据分析。Mutability在python中,有些变量像intergers,是不可变的。这意味着他们的值是不可变的。def add1(x):原创 2016-04-30 11:09:58 · 6579 阅读 · 0 评论 -
Python——正则表达式
Regular Expressions当我们想从下面这段字符串中获取年份这个信息的时候,我们并不知道怎么分离这个字符串,什么样的表达形式代表了年份,这个时候就需要用到正则表达式。''' - `"Jan 17, 2012"` - `"9/22/2005"` - `"Spring 2007"` - `"New Year's Eve 1999"`''' 一个正则表达式就是一个字符序列,描原创 2016-05-04 10:27:32 · 952 阅读 · 0 评论 -
Python——time模块&datetime模块
python中有一个时间模块time,它使用的是Unix timestamps.不明显显示年月日,而是一个浮点数,表示从1970到现在所经历的秒数。利用time()函数可以获得当前这个Unix timestamps时间。import timecurrent_time = time.time()'''current_time : 1462328968.143729'''Converting原创 2016-05-04 11:32:07 · 490 阅读 · 0 评论 -
学会不用for循环
animals = ["cat", "dog", "rabbit"]for animal in animals: if animal == "cat": print("Cat found")'''Cat found'''animals = ["cat", "dog", "rabbit"]if "cat" in animals: print("Cat foun原创 2016-04-20 21:12:54 · 654 阅读 · 0 评论 -
文件操作
读取文件# 打开文件f = open('dq_unisex_names.csv', 'r')# 将文件以字符串流的形式读入到data中data = f.read()# 利用\n符号分解字符串流——>获得一行一行的字符串流data_list = data.split('\n')string_data = []for data in data_list: # 利用,将没行字符串流分解为一原创 2016-04-20 21:05:48 · 680 阅读 · 0 评论 -
面向对象编程
看一个简单的例子:class Team(): def __init__(self): self.name = "Tampa Bay Buccaneers"bucs = Team()print(bucs.name)'''Tampa Bay Buccaneers''' 当调用Team()函数时,会自动调用init函数,self是自动传入到init中的参数,它指向当原创 2016-04-21 08:53:03 · 306 阅读 · 0 评论 -
处理error
The Datasetlegislators.csv last_name,first_name,birthday,gender,type,state,party Bassett,Richard,1745-04-02,M,sen,DE,Anti-Administration Bland,Theodorick,1742-03-21,,rep,VA, Burke,Aedanus,1原创 2016-04-21 10:01:52 · 460 阅读 · 0 评论 -
enumerate() ——循环同时枚举元素和index
探索legislators数据中每个性别中最常见的名字enumerate看一个小例子: 在这个例子中,利用了python的 enumerate() 函数同时循环了两个变量,一个是序号,一个元素。animals = ["Dog", "Tiger", "SuperLion", "Cow", "Panda"]viciousness = [1, 5, 10, 10, 1]for i, animal原创 2016-04-21 10:36:22 · 847 阅读 · 0 评论 -
chi-squared test(卡方测验)
Dataset本文的数据集是来自卡方测试的分类数据,这个测试使我们能够确定观察一组分类的统计显著性值。样本例子: age,workclass,fnlwgt,education,education_num,marital_status,occupation,relationship,race,sex,capital_gain,capital_loss,hours_per_week,native_c原创 2016-04-24 10:10:02 · 6882 阅读 · 0 评论