《白话大数据与机器学习》读书笔记1

这部分是大数据入门所需的系统性知识

第1章 大数据产业

对大数据产业的理解:
1、大数据是一个以数据为核心的产业,是一个围绕大数据生命周期不断循环往复的生产过程,在作者看来大数据产业生产流程从数据的生命周期的传导和演变上可以分为几个部分:数据收集、数据存储、数据建模、数据分析、数据变现。
2、“大数据”这个人造词汇其实很容易产生不少误解,尤其是这个“大”字,很容易让人感觉,数据量必须大,而且特别大,越大越能形成产业,也越有价值。其实这真的是“大数据”给人带来的误导。大数据产业的存在和其他产业并无二致,本身是为了给其他产业提供服务。
3、大数据人才,大数据人才大致可以分为以下3个方向:
(1)大数据架构方向
研究的主要方面:架构理论(高并发,高可用,并行计算,MapReduce,Spark等);数据流应用(Flume,Fluentd,Kafka,ZMQ等);存储应用(HDFS,Ceph等);软件应用(Hive、HBase、Cassandra、PrestoDB等);可视化应用(HightCharts、ECharts,D3,HTML5,CSS3等)
(2)大数据分析方向
研究的主要方面:数据库应用(RDBMS,NoSQL,MySQL,Hive,Cassandra等);数据加工(ETL,Python);数据统计(统计,概率);数据分析(数据建模、数据挖掘、机器学习、回归分析、聚类、分类、协同过滤)
(3)大数据开发方向
研究的主要方面:数据开发(RDBMS,NoSQL,Hive);数据流工具开发(Flume,Heka,Fluentd,Kafka,ZMQ等);数据前端开发(HightCharts、ECharts,JavaScript、D3、HTML5、CSS等);数据获取开发(爬虫、分词、自然语言处学习、文本分类等)

第2章 步入数据之门

数据应用领域中的常见概念:
1、数据:一些符号如果想要被认定为数据,那就必须承载一定的信息。而信息是很可能因场景而定,因解读者的认知而定,所以一些符号是不是可以被当做数据,有相当的因素是取决于解读者的主观视角的。
2、信息:信息就是那些把我们不清楚的事情阐明的描述,而已经明确或者知晓的东西让我们再“知晓”一遍,这些被知会的内容就不再是信息了。
3、算法:算法可以被理解为“计算的方法和技巧”,在计算机中,算法大多数指的就是一段或者几段程序,告诉计算机用什么样的逻辑和步骤来处理数据和计算,然后得到处理的结果。算法的应用是一个辩证的过程,不仅在于不同算法间的比较和搭配使用有着辩证关系,在同一个算法中,不用的参数和阈值设置同样会带来大相径庭的结果,甚至影响数据解读的科学性。
4、商业智能:通过用于基于事实的支持系统来辅助商业决策的制定;是一个具体的、大的应用领域,也是数据挖掘和机器学习应用的一个天然亲密的场景。

第3章 排列组合与古典概型

1、误解1:对“概率”一词本身的理解有偏差。“概率”一词的汉语含义是几率、可能性、可能程度;概率本身的解释是对于大量样本分布比例的解释,而非单次事件的可能性的解释。
2、误解2:事件之间的独立性。扔出一次硬币,得到正面,下一次重新再扔,那么这一次扔硬币和上一次扔硬币之间是没有关系的。

第4章 统计与分布

1、加和值:得到的所有数据的总和,用希腊字母Σ来表示,读作“西格玛”。
2、平均值:得到的总和除以个数得到的值,为指标的一个方面。
3、标准差:中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。
所有数减去其平均值的平方和,所得结果除以该组数之个数(或个数减一,即变异数),再把所得值开根号,所得之数就是这组数据的标准差。
4、加权均值:权指的是权重,也就是所占的“比重”或“重要程度”。
5、众数,中位数
(1)众数:是在样本对象中出现最多的那个数。
(2)中位数:顾名思义,就是位于中间位置的数。如:168,172,175,175,177,177,185,205共8个数字,那么中位数是176,即(177+175)/2。
6、欧式距离:Euclidean Distance,在一个N维度的空间里,求两个点的距离,那么这个距离需要用两个点在各自维度上的坐标相减,平方后加和再开平方。
欧式距离里的距离计算:
在这里插入图片描述
7、曼哈顿距离:也叫出租车距离,用来标明两个点在标准坐标系上的绝对轴距总和。
曼哈顿距离里的距离计算:
在这里插入图片描述
8、高斯分布:Gaussian Distribution,也叫正态分布。
高斯分布的概率密度函数:
在这里插入图片描述
9、泊松分布:是一种统计与概率学中常见的离散概率分布。
泊松分布的概率函数:
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值