数据科学
文章平均质量分 96
绝不原创的飞龙
这个作者很懒,什么都没留下…
展开
-
NumPy Essentials 带注释源码 二、NumPy 数组对象
NumPy 数组对象# 来源:NumPy Essentials ch2数组索引和切片# 创建 100x100 个 0~1 随机数x = np.random.random((100, 100)) # 取第 42 行 87 列的元素(从零开始)y = x[42, 87]# 取第 k 行的所有元素# 等价于 x[k] 和 x[k, ...]print(x[k, :]) a = np.array([原创 2017-06-14 20:44:27 · 37866 阅读 · 0 评论 -
NumPy Essentials 带注释源码 三、NumPy 数组使用
NumPy 数组使用# 来源:NumPy Essentials ch3向量化import numpy as np # NumPy 数组的运算是向量化的# 数组和标量运算是每个元素和标量运算x = np.array([1, 2, 3, 4]) x + 1 # array([2, 3, 4, 5]) # 数组和数组运算是逐元素运算y = np.array([-1, 2, 3, 0]) x *原创 2017-06-14 20:47:33 · 38155 阅读 · 0 评论 -
NumPy Essentials 带注释源码 四、NumPy 核心和模块
NumPy 核心和模块# 来源:NumPy Essentials ch4步长# 步长是每个维度相邻两个元素的偏移差值import numpy as npx = np.arange(8, dtype = np.int8)x# array([0, 1, 2, 3, 4, 5, 6, 7])# x 是一维数组,步长为 1,因为 int8 占一个字节x.strides# (1,)# data原创 2017-06-14 20:50:15 · 38546 阅读 · 0 评论 -
NumPy Essentials 带注释源码 五、NumPy 中的线性代数
NumPy 中的线性代数# 来源:NumPy Essentials ch5矩阵import numpy as np ndArray = np.arange(9).reshape(3,3) # matrix 可以从 ndarray 直接构建x = np.matrix(ndArray) # identity 用于构建单位矩阵y = np.mat(np.identity(3)) x '''原创 2017-06-15 09:34:16 · 39164 阅读 · 0 评论 -
NumPy Essentials 带注释源码 六、NumPy 中的傅里叶分析
NumPy 中的傅里叶分析# 来源:NumPy Essentials ch6绘图函数import matplotlib.pyplot as plt import numpy as np def show(ori_func, ft, sampling_period = 5): n = len(ori_func) interval = sampling_period / n原创 2017-06-15 11:12:25 · 44272 阅读 · 0 评论 -
计算与推断思维 三、Python 编程
三、Python 编程 原文:Programming in Python 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译编程可以极大地提高我们收集和分析世界信息的能力,而这些信息又可以通过上一节所述的谨慎推理来发现。 在数据科学中,编写程序的目的是,指示计算机执行分析步骤。 电脑无法自行研究世界。 人们必须准确描述计算机应该执行什么步骤来收集翻译 2017-11-11 21:23:44 · 38226 阅读 · 0 评论 -
计算与推断思维 一、数据科学
一、数据科学 原文:Data Science 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译什么是数据科学数据科学是通过探索,预测和推断,从大量不同的数据集中得出有用的结论。探索涉及识别信息中的规律。预测涉及使用我们所知道的信息,对我们希望知道的值作出知情的猜测。推断涉及量化我们的确定程度:我们发现的这些规律是否也出现在新的观察中?我们的预测翻译 2017-11-11 21:30:35 · 38565 阅读 · 0 评论 -
计算与推断思维 五、表格
五、表格 原文:Tables 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译表格是表示数据集的基本对象类型。 表格可以用两种方式查看:具名列的序列,每列都描述数据集中所有条目的一个方面,或者行的序列,每行都包含数据集中单个条目的所有信息。为了使用表格,导入所有称为datascience的模块,这是为这篇文章创建的模块。from data翻译 2017-11-18 21:05:17 · 38194 阅读 · 0 评论 -
计算与推断思维 四、数据类型
四、数据类型 原文:Data Types 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译每个值都有一个类型,内建的type函数返回任何表达式的结果的类型:type(3)inttype(3/1)float表达式的type是其最终值的类型。 所以,type函数永远不会表明,表达式的类型是一个名称,因为名称总是求值为它们被赋予的值。x = 3翻译 2017-11-18 21:07:49 · 37678 阅读 · 0 评论 -
计算与推断思维 六、可视化
六、可视化 原文:Visualization 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译表格是一种组织和可视化数据的强大方式。然而,无论数据如何组织,数字的大型表格可能难以解释。 有时解释图片比数字容易得多。在本章中,我们将开发一些数据分析的基本图形方法。 我们的数据源是互联网电影数据库(IMDB),这是一个在线数据库,包含电影,电视节目翻译 2017-11-18 21:13:02 · 39148 阅读 · 0 评论 -
DeepLearningAI 学习笔记 1.2 logistic 回归
1.2 logistic 回归 视频:第二周 神经网络基础 整理:飞龙logistic 回归属于广义线性回归。所谓广义线性回归,就是在线性回归的模型上加一些东西,使其适应不同的任务。logitic 回归虽然名字里有回归,但是它解决的是二元分类问题。二元分类问题中,标签只有两个值。一个典型的二元分类是输入一张图片,判断是不是猫。首先来看假设,我们的假设是这样的:P(y=1|x)=σ(θ原创 2017-11-24 22:30:42 · 36828 阅读 · 0 评论 -
计算与推断思维 九、经验分布
九、经验分布 原文:Empirical Distributions 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译大部分数据科学都涉及来自大型随机样本的数据。 在本节中,我们将研究这些样本的一些属性。我们将从一个简单的实验开始:多次掷骰子并跟踪出现的点数。 die表包含骰子面上的点数。 所有的数字只出现一次,因为我们假设骰子是平等的。die翻译 2017-12-31 13:33:38 · 42178 阅读 · 0 评论 -
计算与推断思维 七、函数和表格
七、函数和表格 原文:Functions and Tables 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译通过使用 Python 中已有的函数,我们正在建立一个使用的技术清单,用于识别数据集中的规律和主题。 现在我们将探索Python编程语言的核心功能:函数定义。我们在本书中已经广泛使用了函数,但从未定义过我们自己的函数。定义一个函数的目翻译 2017-12-27 14:03:35 · 39620 阅读 · 0 评论 -
计算与推断思维 十、假设检验
十、假设检验 原文:Testing Hypotheses 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译数据科学家们经常面对世界的是或不是的问题。你在这个课程中看到了一些这样的问题的例子:巧克力对你有好处吗?Broad Street 水泵的水是否会导致霍乱?加州的人口统计在过去的十年中有所改变吗?我们是否回答这些问题取决于我们的数据。翻译 2018-01-04 09:09:52 · 39394 阅读 · 0 评论 -
计算与推断思维 八、随机性
八、随机性 原文:Randomness 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译在前面的章节中,我们开发了深入描述数据所需的技能。 数据科学家也必须能够理解随机性。 例如,他们必须能够随机将个体分配到实验组和对照组,然后试图说明,观察到的两组结果之间的差异是否仅仅是由于随机分配,或真正由于实验所致。在这一章中,我们开始分析随机性。 首先翻译 2017-12-28 23:00:02 · 39644 阅读 · 0 评论 -
计算与推断思维 二、因果和实验
二、因果和实验 原文:Causality and Experiments 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译“这些问题已经,而且可能永远留在自然界难以捉摸的秘密之中,它们属于人类智力根本难以接近的一类问题。 - 1849 年 9 月,伦敦时报,霍乱如何传染和传播死刑有威慑作用吗?巧克力对你有好处吗?什么导致乳腺癌?翻译 2018-01-17 22:35:02 · 38500 阅读 · 0 评论 -
计算与推断思维 十七、更新预测
十七、更新预测 原文:Updating Predictions 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译我们知道如何使用训练数据将一个点划分为两类之一。 我们的分类只是对类别的预测,基于最接近我们的新点的,训练点中最常见的类别。假设我们最终发现了我们的新点的真实类别。 然后我们会知道我们的分类是否正确。 另外,我们将会有一翻译 2018-01-18 19:43:29 · 37402 阅读 · 0 评论 -
计算与推断思维 十一、估计
十一、估计 原文:Estimation 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译在前一章中,我们开始开发推断思维的方法。特别是,我们学会了如何使用数据,在世界的两个假设之间做决策。但是我们通常只想知道,某件事情有多大。例如,在前面的章节中,我们调查了敌人可能拥有的战机数量。在选举年,我们可能想知道有多少选民赞成特定候选人。翻译 2018-01-18 20:00:08 · 38873 阅读 · 0 评论 -
计算与推断思维 十四、回归的推断
十四、回归的推断 原文:Inference for Regression 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译到目前为止,我们对变量之间关系的分析纯粹是描述性的。我们知道如何找到穿过散点图的最佳直线来绘制。在所有直线中它的估计的均方误差最小,从这个角度来看,这条线是最好的。但是,如果我们的数据是更大总体的样本呢?如果我翻译 2018-01-18 20:11:09 · 38510 阅读 · 0 评论 -
Python 数据科学入门教程:Pandas
Python 和 Pandas 数据分析教程 原文:Data Analysis with Python and Pandas Tutorial Introduction 译者:飞龙 协议:CC BY-NC-SA 4.0大家好,欢迎阅读 Python 和 Pandas 数据分析系列教程。 Pandas 是一个 Python 模块,Python 是我们要使用的编程语言翻译 2018-02-02 20:13:43 · 48518 阅读 · 4 评论 -
计算与推断思维 十二、为什么均值重要
十二、为什么均值重要 原文:Why the Mean Matters 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译在这个课程中,我们已经研究了几个不同的统计量,包括总编译距离,最大值,中位数和平均值。在关于随机性的明确假设下,我们绘制了所有这些统计量的经验分布。有些统计量,比如最大和总变异距离,分布明显偏向一个方向。但是,无论研究翻译 2018-01-27 22:50:54 · 46226 阅读 · 1 评论 -
计算与推断思维 十三、预测
十三、预测 原文:Prediction 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译数据科学的一个重要方面,是发现数据可以告诉我们什么未来的事情。气候和污染的数据说了几十年内温度的什么事情?根据一个人的互联网个人信息,哪些网站可能会让他感兴趣?病人的病史如何用来判断他或她对治疗的反应?为了回答这样的问题,数据科学家已经开发出了翻译 2018-01-27 23:48:28 · 40233 阅读 · 0 评论 -
计算与推断思维 十五、分类
十五、分类 原文:Classification 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译David Wagner 是这一章的主要作者。机器学习是一类技术,用于自动寻找数据中的规律,并使用它来推断或预测。你已经看到了线性回归,这是一种机器学习技术。本章介绍一个新的技术:分类。分类就是学习如何根据过去的例子做出预测。我们举翻译 2018-01-28 00:08:33 · 38692 阅读 · 0 评论 -
计算与推断思维 十六、比较两个样本
十六、比较两个样本 原文:Comparing Two Samples 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译最近邻分类方法的动机是这样的,个体可能像最近的邻居。 从另一个角度来看,我们可以说一个类别的个体不像另一个类别中的个体。 机器学习为我们提供了一种有力的方法来发现这种相似性的缺乏,并将其用于分类。 它揭示了一种模式,通翻译 2018-01-28 00:18:16 · 37483 阅读 · 0 评论 -
Pandas 中文文档
目前还需要校对,请提交 PR 谢谢。在线阅读:https://apachecn.github.io/pandas-doc-zh/Github:https://github.com/apachecn/pandas-doc-zh翻译 2017-09-30 11:25:47 · 65049 阅读 · 0 评论 -
计算与推断思维 翻译完成
面向(未来的)数据科学家的入门课来咯~前一半讲 Python 编程,后一半讲统计学基本概念并用 Python 模拟。Github:https://github.com/Kivy-CN/data8-textbook-zhGitee:https://gitee.com/wizardforcel/data8-textbook-zh电子书还没生成好,由于存在 SVG 图片,工具会报错,在线翻译 2018-01-28 00:30:56 · 39678 阅读 · 0 评论 -
Python 数据科学入门教程:NLTK
自然语言处理教程 原文:Natural Language Process 译者:飞龙 协议:CC BY-NC-SA 4.0一、使用 NLTK 分析单词和句子欢迎阅读自然语言处理系列教程,使用 Python 的自然语言工具包 NLTK 模块。NLTK 模块是一个巨大的工具包,目的是在整个自然语言处理(NLP)方法上帮助您。 NLTK 将为您提供一切,从将翻译 2018-02-06 20:48:05 · 44504 阅读 · 2 评论 -
Python 数据科学入门教程:OpenCV
图像和视频分析 原文:Images and Video Analysis 译者:飞龙 协议:CC BY-NC-SA 4.0一、Python OpenCV 入门欢迎阅读系列教程,内容涵盖 OpenCV,它是一个图像和视频处理库,包含 C ++,C,Python 和 Java 的绑定。 OpenCV 用于各种图像和视频分析,如面部识别和检测,车牌阅读,照片...翻译 2018-02-08 18:26:28 · 39211 阅读 · 0 评论 -
复杂性思维中文第二版 五、细胞自动机
五、细胞自动机 原文:Chapter 5 Cellular Automatons 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译细胞自动机(CA)是一个世界的模型,带有非常简单的物理。 “细胞”的意思是世界被分成一个大口袋,称为细胞。 “自动机”是一台执行计算的机器 - 它可能是一台真机。 ,但更多时候,“机器”是数学抽象或计算机...翻译 2018-04-07 23:38:17 · 40223 阅读 · 1 评论 -
复杂性思维中文第二版 十一、进化
十一、进化 原文:Chapter 11 Evolution 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译生物学乃至整个科学最重要的思想,是通过自然选择的进化论,它声称由于自然选择而创造出新的物种并改变现有的物种。自然选择是个体间遗传差异导致生存和繁殖差异的过程。在了解生物学的人中,进化论被广泛认为是一个事实,也就是它足以接近...翻译 2018-04-14 12:17:02 · 38604 阅读 · 0 评论 -
复杂性思维中文第二版 六、生命游戏
六、生命游戏 原文:Chapter 6 Game of Life 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译在本章中,我们考虑二维细胞自动机,特别是 John Conway 的生命游戏(GoL)。 像上一章中的一些 CA 一样,GoL 遵循简单的规则并产生令人惊讶的复杂行为。 就像沃尔夫勒姆的规则 110 一样,事实证明 Go...翻译 2018-04-09 20:59:22 · 38691 阅读 · 0 评论 -
复杂性思维中文第二版 十二、合作进化
十二、合作进化 原文:Chapter 12 Evolution of cooperation 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译在最后一章中,我们提出两个问题,一个来自生物学,一个来自哲学:在生物学中,“利他主义问题”是自然选择与利他主义之间的明显冲突,自然选择表明动物生存在不断竞争的状态中来生存和繁殖,利他主义...翻译 2018-04-15 00:30:35 · 38197 阅读 · 0 评论 -
复杂性思维 中文第二版 翻译完成
复杂性思维 中文第二版 来源:Think Complexity 译者:飞龙 版本:2.5 自豪地采用谷歌翻译在线阅读PDF格式EPUB格式MOBI格式代码仓库赞助我协议CC BY-NC-SA 4.0KivyCN 学习资源Kivy 中文文档Think Python 中文第二版UCB CS61a 教材:SIC...翻译 2018-04-15 11:40:53 · 39395 阅读 · 0 评论 -
复杂性思维中文第二版 七、物理建模
七、物理建模 原文:Chapter 7 Physical modeling 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译到目前为止,我们所看到的细胞自动机不是物理模型;也就是说,他们不打算描述现实世界中的系统。 但是一些 CA 用作物理模型。在本章中,我们考虑一个 CA,它模拟扩散(散开)并相互反应的化学物质,这是 Alan...翻译 2018-04-10 16:59:00 · 38800 阅读 · 0 评论 -
复杂性思维中文第二版 八、自组织临界
八、自组织临界 原文:Chapter 8 Self-organized criticality 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译在前一章中,我们看到了一个具有临界点的系统的例子,并且我们探索了临界系统 - 分形几何的一个共同特性。在本章中,我们将探讨临界系统的另外两个性质:重尾分布,我们在第五章中见过,和粉红噪声...翻译 2018-04-11 15:38:10 · 39950 阅读 · 0 评论 -
复杂性思维中文第二版 九、基于智能体的模型
九、基于智能体的模型 原文:Chapter 9 Agent-based models 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译我们迄今为止看到的模型可能具有“基于规则”的特征,因为它们涉及受简单规则支配的系统。 在本章和以后的章节中,我们将探索基于智能体(agent)的模型。基于智能体的模型包含智能体,它旨在模拟人和其他...翻译 2018-04-12 11:36:57 · 39129 阅读 · 0 评论 -
复杂性思维中文第二版 十、兽群、鸟群和交通堵塞
十、兽群、鸟群和交通堵塞 原文:Chapter 10 Herds, Flocks, and Traffic Jams 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译本章的代码位于chap10.ipynb中,它是本书仓库中的 Jupyter 笔记本。使用此代码的更多信息,请参见第?节。10.1 交通堵塞是什么导致交通堵塞...翻译 2018-04-12 22:13:45 · 38008 阅读 · 0 评论 -
复杂性思维中文第二版 附录 A、算法分析
附录 A、算法分析 原文:Appendix A Analysis of algorithms 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 部分参考了《Think Python 2e 中译本 第二十一章:算法分析》算法分析 (Analysis of algorithms) 是计算机科学的一个分支, 着重研究算法的性能,...翻译 2018-04-13 18:07:30 · 38916 阅读 · 0 评论 -
数据科学的原理与技巧 二、数据生成
二、数据生成 原文:DS-100/textbook/notebooks/ch02 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译数据科学很难成为没有数据的科学。 因此重要的是,我们通过了解我们的数据是如何生成的,来启动任何数据分析。在本章中,我们将讨论数据来源。 虽然术语“数据来源”通常指的是数据的整个历史,以及它随时间变化的位...翻译 2018-06-03 22:55:47 · 38530 阅读 · 0 评论 -
数据科学的原理与技巧 三、处理表格数据
三、处理表格数据 原文:DS-100/textbook/notebooks/ch03 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译索引、切片和排序起步在本章的每一节中,我们将使用第一章中的婴儿名称数据集。我们将提出一个问题,将问题分解为大体步骤,然后使用pandas DataFrame将每个步骤转换为 Python...翻译 2018-06-05 17:33:05 · 37491 阅读 · 0 评论