第十四章大数据和数据科学 10分单选2道、多选4道

joewdc

于 2024-08-06 21:50:06 发布

阅读量613

点赞数 20

分类专栏： DAMA-CDGP 文章标签：大数据

本文链接：https://blog.csdn.net/weixin_48277834/article/details/140966609

版权

DAMA-CDGP 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

14.0 语境关系图

在这里插入图片描述

14.1 大数据与数据科学【7 个步骤，重要】

1.定义大数据战略和业务需求（P）

(1) 组织正在尝试解决什么问题，需要分析什么；
(2) 获取或使用哪些数据源；
(3) 要提供的数据的及时性和范围；
(4) 对其他数据结构的影响和与其他数据结构的关系；
(5) 对现有已建模数据的影响。

2.选择数据源（P）【重点】

(1) 它的起源（不要用有争议的数据，来路是正的）；
(2) 其格式；
(3) 数据元素代表什么；
(4) 它如何连接到其他数据；
(5) 更新频率。

Q：选择数据源时有哪些要点需要考虑？
A：以上五条，数据起源、格式、数据元素代表什么、如何连接到其他数据、更新频率。
需要注意基础数据、颗粒度（设计尽量原子化，以最细粒度获取数据，聚合用于多种用途，如姓&名）、一致性、可靠性、检查/分析新数据源。

3.获取和融合数据源（D）【工作量最大】

4.制定假设和方法（D）

5.集成/组织数据进行分析（D）【工作量最大】

6.使用模型探索数据（D）【精讲 3 36 分左右】

(1) 填充预测模型。
(2) 训练模型（默认 70%数据用来训练，建立算法）。
(3) 评估模型（默认 30%数据用来验证评估哪一个算法最好，liftvalue值越高，模型越好）。
(4) 创建数据可视化。

7.部署和监控（O）

Q：工作量最大的是什么步骤？【多选题】
A：3.获取和融合数据源（D）、5.集成/组织数据进行分析（D）。
在这里插入图片描述
DW/传统 BI 对已经发生的事情产生事后结论，数据科学是对未来发生事情的洞察和预见，规范性分析比预测性分析更全面（规范性，算命避祸）。
数据科学是将数据挖掘、统计分析、及其学习与数据集成整合，结合数据建模能力，去构建预测模型、探索数据内容的模式。
要有 1）丰富的数据源；
2）信息对齐和分析；
3）信息交付；
4）数据发现及数据洞察展示。

14.2 大数据和云计算【各种软件】

组件图谱：文件系统、数据存储、内存技术、数据搜集与消息系统、数据处理、查询引擎、分析和报告工具、调度与管理服务、机器学习、开发平台。
1.文件系统：
HDFS Hadoop Distributed File System，简称 HDFS，是一个分布式文件系统。HDFS 是一个高度容错性的系统，适合部署在廉价的机器上。HDFS 能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。
2.数据存储：
（1）MongoDB 是一个基于分布式文件存储的数据库。由C++语言编写。旨在为 web 应用提供可扩展的高性能数据存储解决方案。介于关系数据库和非关系数据库之间的开源产品，是非关系数据库当中功能最丰富、最像关系数据库的产品。
（2）Redis 是一个高性能的 key-value 存储系统，和Memcached 类似，它支持存储的 value 类型相对更多，包括 string（字符串）、list（链表）、set（集合）和 zset（有序集合）。Redis 的出现，很大程度补偿了memcached这类key/value 存储的不足，在部分场合可以对关系数据库起到很好的补充作用。【如果数据库性能不好，加个 Redis】
（3）Neo4j 是一个高性能的，NOSQL 图形数据库，它将结构化数据存储在网络上而不是表中。自称“世界上第一个和最好的图形数据库”，“速度最快、扩展性最佳的原生图形数据库”，“最大和最有活力的社区”。用户包括Telenor、Wazoku、ebay、必能宝（Pitney Bowes）、MigRaven、思乐（Schleich）和 Glowbl 等。【洛杉矶警察局用图数据库打击黑帮】
（4）HBASE 是 Hadoop 的数据库，一个分布式、可扩展、大数据的存储。是为有数十亿行和数百万列的超大表设计的，是一种分布式数据库，可以对大数据进行随机性的实时读取/写入访问。提供类似谷歌 Bigtable 的存储能力，基于Hadoop 和 Hadoop 分布式文件系统（HDFS）而建。
（5）Cassandra 是一个混合型的非关系的数据库，类似于Google的BigTable，其主要功能比 Dynamo（分布式的 Key-Value 存储系统）更丰富。这种NoSQL数据库最初由 Facebook 开发，现已被 1500 多家企业组织使用，包括苹果、欧洲原子核研究组织（CERN）、康卡斯特、电子港湾、GitHub、GoDaddy、Hulu、Instagram、Intuit、Netfilx、Reddit 及其他机构。【逐渐被HBase 超过】
3.内存技术：
数据计算在内存中进行，但不能断电，Redis。
4.数据搜集与消息系统：
数据搜集： Logstash 是一个应用程序日志、事件的传输、处理、管理和搜索的平台。可以用它来统一对应用程序日志进行收集管理，提供了Web 接口用于查询和统计。
消息系统：
（1）RabbitMQ 是一个受欢迎的消息代理系统，通常用于应用程序之间或者程序的不同组件之间通过消息来进行集成。RabbitMQ 提供可靠的应用消息发送、易于使用、支持所有主流操作系统、支持大量开发者平台。
（2）ActiveMQ 是 Apache 出品，号称“最流行的，最强大”的开源消息集成模式服务器。ActiveMQ 特点是速度快，支持多种跨语言的客户端和协议，其企业集成模式和许多先进的功能易于使用，是一个完全支持JMS1.1 和J2EE1.4规范的 JMS Provider 实现。Kafka 是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模网站中的所有动作流数据，目前已成为大数据系统在异步和分布式消息之间的最佳选择。
5.数据处理：
（1）Spark 是一个高速、通用大数据计算处理引擎。拥有Hadoop MapReduce所具有的优点，但不同的是 Job 的中间输出结果可以保存在内存中，从而不再需要读写 HDFS，因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce 的算法。它可以与 Hadoop 和 Apache Mesos 一起使用，也可以独立使用
（2）Kinesis 可以构建用于处理或分析流数据的自定义应用程序，来满足特定需求。Amazon Kinesis Streams 每小时可从数十万种来源中连续捕获和存储数TB 数据，如网站点击流、财务交易、社交媒体源、IT 日志和定位追踪事件。【前端用 kibana（开源的分析和可视化平台）呈现，后端用elastic search】
（3）Hadoop 是一个开源框架，适合运行在通用硬件，支持用简单程序模型分布式处理跨集群大数据集，支持从单一服务器到上千服务器的水平scaleup。Apache 的 Hadoop 项目已几乎与大数据划上了等号，它不断壮大起来，已成为一个完整的生态系统，拥有众多开源工具面向高度扩展的分布式计算。高效、可靠、可伸缩，能够为你的数据存储项目提供所需的 YARN、HDFS 和基础架构，并且运行主要的大数据服务和应用程序。
6.查询引擎：
（1)Presto 是一个开源的分布式 SQL 查询引擎，适用于交互式分析查询，可对 250PB 以上的数据进行快速地交互式分析。Presto 的设计和编写是为了解决像 Facebook 这样规模的商业数据仓库的交互式分析和处理速度的问题。Facebook 称 Presto 的性能比诸如 Hive 和 MapReduce 要好上10 倍有多。
（2）Pig 是一种编程语言，它简化了 Hadoop 常见的工作任务。Pig可加载数据、转换数据以及存储最终结果。Pig 最大的作用就是为MapReduce 框架实现了一套 shell 脚本，类似我们通常熟悉的 SQL 语句。【pig 是编程语言】
（3）Solr 基于 Apache Lucene，是一种高度可靠、高度扩展的企业搜索平台。知名用户包括 eHarmony、西尔斯、StubHub、Zappos、百思买、AT&T、95Instagram、Netflix、彭博社和 Travelocity。【企业级搜索引擎，目前很多企业用百度较贵，可以考虑 solr】
7.分析和报告工具：（
1）Kylin 是一个开源的分布式分析引擎，提供了基于Hadoop 的超大型数据集（TB/PB 级别）的 SQL 接口以及多维度的 OLAP 分布式联机分析。最初由eBay开发并贡献至开源社区。它能在亚秒内查询巨大的 Hive 表。【麒麟社区】
（2）Kibana 是一个使用 Apache 开源协议的 Elasticsearch 分析和搜索仪表板，可作为 Logstash 和 ElasticSearch 日志分析的 Web 接口，对日志进行高效的搜索、可视化、分析等各种操作。
（3）Zeppelin 是一个提供交互数据分析且基于 Web 的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档，并且支持多种语言，包括Scala(使用Apache Spark)、Python(Apache Spark)、SparkSQL、Hive、Markdown、Shell 等。【后台数据库用 Hive，前台用 Zeppelin 界面】
8.调度与管理服务：
（1）YARN 是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，解决了旧 MapReduce 框架的性能瓶颈。它的基本思想是把资源管理和作业调度/监控的功能分割到单独的守护进程。【yet another resource negotiator 另一种资源调度系统，AMPlab提倡以人为本，Aligent mechine people】
（2）Ambari 作为 Hadoop 生态系统的一部分，提供了基于Web 的直观界面，可用于配置、管理和监控 Hadoop 集群。目前已支持大多数Hadoop组件，包括 HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop 和Hcatalog等。【hive 性能比较糟糕，可看做 OLAP 数据仓库】
9.机器学习：
（1）Tensorflow 是 Google 开源的一款深度学习工具，使用C++语言开发，上层提供 Python API。在开源之后，在工业界和学术界引起了极大的震动，因为 TensorFlow 曾经是著名的 Google Brain 计划中的一部分，GoogleBrain项目的成功曾经吸引了众多科学家和研究人员往深度学习这个“坑”里面跳，这也是当今深度学习如此繁荣的重要原因。
（2）Torch 是 Facebook 和 Twitter 主推的一个特别知名的深度学习框架，Facebook Reseach 和 DeepMind 所使用的框架，正是Torch（DeepMind被Google 收购之后才转向 TensorFlow）。出于性能的考虑，它使用了一种比较小众的编程语言 Lua，目前在音频、图像及视频处理方面有着大量的应用。在目96前深度学习大部分以 Python 为编程语言的大环境之下，一个以Lua 为编程语言的框架只有更多的劣势，而不是优势。Ricardo 没有 Lua 的使用经验，他表示，如果他要用 Torch 的话，就必须先学习 Lua 语言才能使用Torch。就他个人来说，更倾向于熟悉的 Python、Matlab 或者 C++来实现。
（3）Mahout 目的是“为快速创建可扩展、高性能的机器学习应用程序而打造一个环境 ” ，主要特点是为可伸缩的算法提供可扩展环境、面向Scala/Spark/H2O/Flink 的新颖算法、Samsara（类似R 的矢量数学环境），它还包括了用于在 MapReduce 上进行数据挖掘的众多算法。
基于机器学习推荐引擎，不仅是淘宝、快手、抖音，运营商携号转网也可参考如
1、哪些人会离开公司？
2、对客户进行价值评估（高净值客户需要留下）；
3、挽留客户的措施（推荐引擎，若客户对现有服务不满意，是否有更好的服务可以推荐给客户

14.3 基本算法介绍【12 种算法，PPT 中只提供了 9 个，多选】

Q：请从下列选项中选择基本算法
A：回归算法、基于实例算法、正则化算法、决策树算法、贝叶斯算法、基于核的算法、聚类算法、关联规则算法、人工神经算法、深度学习、降低维度算法、集成算法。
(1) ❖ Association Algorithm 关联算法【牵手→谈恋爱】
(2) ❖ Clustering Algorithm 集群算法【杭州人→爱吃酸甜口】
(3) ❖ Decision Trees Algorithm 决策树算法
(4) ❖ Linear Regression Algorithm 线性回归算法
(5) ❖ Logistic Regression Algorithm 逻辑回归算法/对数几率回归算法
(6) ❖ Naive Bayes Algorithm 贝叶斯算法
(7) ❖ Neural Network Algorithm 神经网络算法
(8) ❖ Sequence Clustering Algorithm 序列聚类算法
(9) ❖ Time Series Algorithm 时间序列算法
#14.4 推荐引擎【开源】
国务院国资委：战略性新型数据平台采购与建设。去 IOE：IBM 小型机、oracle 数据库、EMC 存储设备。
在这里插入图片描述

1.数据采集：

爬虫-NUTCH
爬虫-SCRAPY
代理-SQUID
代理-MITM PROXY
负载均衡-Haproxy
负载均衡-Nginx

2.数据存储：

文件系统-HDFS： HDFS Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。HDFS 是一个高度容错性的系统，适合部署在廉价的机器上。HDFS 能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。
图计算-Neo4j： Neo4j 是一个高性能的，NOSQL 图形数据库，它将结构化数据存储在网络上而不是表中。自称“世界上第一个和最好的图形数据库”，“速度最快、扩展性最佳的原生图形数据库”，“最大和最有活力的社区”。用户包括 Telenor、Wazoku、ebay、必能宝（Pitney Bowes）、MigRaven、思乐（Schleich）和 Glowbl 等。
图计算-Titan： 分布式图数据库，支持高并发，NoSQL 中的一员，可构建知识图谱。
缓存、数据库-Redis ： Redis 是一个高性能的 key-value 存储系统，和Memcached 类似，它支持存储的 value 类型相对更多，包括string（字符串）、list（链表）、set（集合）和 zset（有序集合）。Redis 的出现，很大程度补偿了 memcached 这类 key/value 存储的不足，在部分场合可以对关系数据库起到很好的补充作用。队列-Kafka： Kafka 是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模网站中的所有动作流数据，目前已成为大数据系统在异步和分布式消息之间的最佳选择。
数据协同-Zookeeper： ZooKeeper 是一个分布式的应用程序协调服务，是Hadoop 和 Hbase 的重要组件。它是一个为分布式应用提供一致性服务的工具，让 Hadoop 集群里面的节点可以彼此协调。ZooKeeper 现在已经成为了Apache 的顶级项目，为分布式系统提供了高效可靠且易于使用的协同服务。
文档型存储-MongoDB：MongoDB 是一个基于分布式文件存储的数据库。由C++语言编写。旨在为 web 应用提供可扩展的高性能数据存储解决方案。介于关系数据库和非关系数据库之间的开源产品，是非关系数据库当中功能最丰富、最像关系数据库的产品。
海量存储-Cassandra：Cassandra 是一个混合型的非关系的数据库，类似于Google 的 BigTable，其主要功能比 Dynamo（分布式的Key-Value 存储系统）更丰富。这种 NoSQL 数据库最初由 Facebook 开发，现已被1500 多家企业组织使用，包括苹果、欧洲原子核研究组织（CERN）、康卡斯特、电子港湾、GitHub、GoDaddy、Hulu、Instagram、Intuit、Netfilx、Reddit 及其他机构。
海量存储-HBase：HBase 是 Hadoop 的数据库，一个分布式、可扩展、大数据的存储。是为有数十亿行和数百万列的超大表设计的，是一种分布式数据库，可以对大数据进行随机性的实时读取/写入访问。提供类似谷歌Bigtable的存储能力，基于 Hadoop 和 Hadoop 分布式文件系统（HDFS）而建。

3.分析计算：

计算框架-Storm：Storm 是一个分布式、高可用的实时计算框架，支持数据流式处理，计算速度快。
计算框架-Spark：Spark 是一个高速、通用大数据计算处理引擎。拥有HadoopMapReduce 所具有的优点，但不同的是 Job 的中间输出结果可以保存在内存中，从而不再需要读写 HDFS，因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。它可以与 Hadoop 和 Apache Mesos 一起使用，也可以独立使用。
数据挖掘-Mahout：Mahout 目的是“为快速创建可扩展、高性能的机器学习应用程序而打造一个环境”，主要特点是为可伸缩的算法提供可扩展环境、面向Scala/Spark/H2O/Flink 的新颖算法、Samsara（类似R 的矢量数学环境），它还包括了用于在 MapReduce 上进行数据挖掘的众多算法。
数据挖掘-R： R 语言是一种用于数据分析、统计、机器学习和数据可视化的开源语言。R 语言的一个主要优势是它有一个庞大的生态系统，包括许多用于数据挖掘的库和包。
数据挖掘-Weka：Weka 的全名是怀卡托智能分析环境（Waikato Environmentfor Knowledge Analysis），是一款免费的，非商业化（与之对应的是SPSS公司商业数据挖掘产品–Clementine）的，基于 JAVA 环境下开源的机器学习（machine learning）以及数据挖掘（data mining）软件。
机器学习-Caffe：Caffe 是最老的框架之一。Caffe 是加州大学伯克利分校视觉与学习中心（Berkeley Vision and Learning Center，BVLC)贡献出来的一套深度学习工具，使用 C/C++开发，上层提供 Python API。Caffe 同样也在走分布式路线，例如著名的 Caffe On Spark 项目。
机器学习-TensorFlow：Tensorflow 是 Google 开源的一款深度学习工具，使用 C++语言开发，上层提供 Python API。在开源之后，在工业界和学术界引起了极大的震动，因为 TensorFlow 曾经是著名的 Google Brain 计划中的一部分，Google Brain 项目的成功曾经吸引了众多科学家和研究人员往深度学习这个“坑”里面跳，这也是当今深度学习如此繁荣的重要原因。
机器学习-MLlib：MLlib 是 Spark 的机器学习库，旨在简化机器学习的工程实践工作，并方便扩展到更大规模的数据集。它提供了一组丰富的机器学习算法和工具，用于数据预处理、特征提取、模型训练和评估等任务。MLlib 是基于Spark的分布式计算引擎构建的，可以处理大规模数据集，并利用分布式计算的优势来加速机器学习任务的执行。MLlib 提供了丰富的算法实现，包括线性回归、逻辑回归、决策树、随机森林、梯度提升树、K-means 聚类等，以及用于特征提取、转换和选择的工具。此外，MLlib 还支持使用管道（Pipeline）API 将多个机器学习步骤组合成一个统一的流程，从而简化模型训练和调优的过程。

4.查询应用：

****加粗样式查询分析-Kylin：Kylin 是一个开源的分布式分析引擎，提供了基于Hadoop的超大型数据集（TB/PB 级别）的 SQL 接口以及多维度的OLAP 分布式联机分析。最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive 表。
查询分析-Zeppelin：Zeppelin是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档，并且支持多种语言，包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、Hive、Markdown、Shell 等。
信息检索-Solr：Solr 基于 Apache Lucene，是一种高度可靠、高度扩展的企业100搜索平台。知名用户包括 eHarmony、西尔斯、StubHub、Zappos、百思买、AT&T、Instagram、Netflix、彭博社和 Travelocity。
信息检索-Elastic Search：ES 是一个基于 Lucene 的搜索服务器。它提供了一个分布式、支持多用户的全文搜索引擎，基于 RESTful web 接口。Elasticsearch是用 Java 开发的，并作为 Apache 许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索、稳定、可靠、快速、安装使用方便。
对外接口-Thrift：Thrift 在 2007 年 facebook 提交Apache 基金会将Thrift作为一个开源项目，对于当时的 facebook 来说创造 thrift 是为了解决facebook系统中各系统间大数据量的传输通信以及系统之间语言环境不同需要跨平台的特性。
对外接口-ProtoBuf：Protocol Buffers 是一种与语言无关、平台无关、可扩展的序列化结构数据的方法，它可用于（数据）通信协议、数据存储等。ProtocolBuffers 是一种灵活，高效，自动化机制的结构数据序列化方法－可类比XML，但是比 XML 更小（3_{10倍、更快（20}100 倍）、更为简单。你可以定义数据的结构，然后使用特殊生成的源代码轻松地在各种数据流中使用各种语言进行编写和读取结构数据。你甚至可以更新数据结构，而不破坏由旧数据结构编译的已部署程序。

5.数据管理：

资源管理-Mesos/yarn：YARN 是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，解决了旧MapReduce 框架的性能瓶颈。它的基本思想是把资源管理和作业调度/监控的功能分割到单独的守护进程。Mesos 是由加州大学伯克利分校的 AMPLab 首先开发的一款开源群集管理软件，支持 Hadoop、ElasticSearch、Spark、Storm 和Kafka 等架构。对数据中心而言它就像一个单一的资源池，从物理或虚拟机器中抽离了CPU，内存，存储以及其它计算资源，很容易建立和有效运行具备容错性和弹性的分布式系统。
微服务管理-DCOS：DC/OS（Data Center Operating System）是以ApacheMesos 为分布式系统内核的分布式数据中心操作系统。DC/OS 可以使企业像使用一台主机一样使用分布式数据中心的多个集群资源，进行弹性地扩容与缩容。DC/OS 实现资源自动化管理、进程调度、方便内部进程通讯、简化分布式服务的安装和管理。DC/OS 提供网页界面和 CLI，方便对集群和其中的服务进行远程地管理和监控。
元数据管理-WhereHows：WhereHows:WhereHows 是LinkedIn 公司为了方便员工发现公司内部数据、跟踪数据集移动、查看各种内部工具和服务的动向，而开发的用于大数据发现和管理的工具。它从不同的源系统中采集元数据，并进行标准化和建模，从而作为元数据仓库完成血缘分析。
数据安全管理-Sentry：Apache Sentry 是一个安全管理框架，可以为Hadoop生态系统提供统一的权限管理和访问控制功能。Sentry 可以为HBase、HDFS、Hive、MapReduce 等组件提供访问控制，实现数据安全和合规。## 6.ETL：
KETTLE： Kettle 这是一个 ETL 工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。作为Pentaho 的一个重要组成部分，现在在国内项目应用上逐渐增多。
SQOOP：Sqoop 是一款开源的工具，主要用于在 Hadoop（Hive）与传统的数据库（MySQL、Postgresql…）间进行数据的传递，可以将一个关系型数据库（例如： MySQL ，Oracle ，Postgres 等）中的数据导进到Hadoop的HDFS 中，也可以将 HDFS 的数据导进到关系型数据库中。

7.运维监控：

工作流监控-Oozie：Oozie 是一个开源的工作流和协作服务引擎，基于ApacheHadoop 的数据处理任务。Oozie 是可扩展的、可伸缩的面向数据的服务，运行在 Hadoop 平台上。Oozie 包括一个离线的 Hadoop 处理的工作流解决方案，以及一个查询处理 API。
容器管理-Docker Swarm：Docker Swarm 是 Docker 官方提供的一款集群管理工具，和 Kubernetes 比较类似，但是更加轻，具有的功能也较Kubernetes更少一些。其本质是把若干台 Docker 主机抽象为一个整体。
持续集成-Gitlab：GitLab 是一个用于仓库管理系统的开源项目，使用Git 作为代码管理工具，并在此基础上搭建起来的 Web 服务。安装方法是参考GitLab在 GitHub 上的 Wiki 页面。Gitlab 是被广泛使用的基于git 的开源代码管理平台，基于 Ruby on Rails 构建，主要针对软件开发过程中产生的代码和文档进行管理，Gitlab 主要针对 group 和 project 两个维度进行代码和文档管理，其中group 是群组，project 是工程项目，一个 group 可以管理多个project，可以理解为一个群组中有多项软件开发任务，而一个project中可能包含多个branch，意为每个项目中有多个分支，分支间相互独立，不同分支可以进行归并。
日志收集-Flume：Flume 是 Cloudera 提供的一个高可用的、高可靠的、分布102式的海量日志采集、聚合和传输的系统。Flume 支持在日志系统中定制各类数据发送方，用于收集数据。同时，Flume 支持对数据进行简单处理，并写入各种数据接受方（可定制）。
集群监控-Hue：Hue 是一个开源的 Apache Hadoop UI 系统，最早是由Cloudera Desktop 演化而来，由 Cloudera 贡献给开源社区，它是基于PythonWeb 框架 Django 实现的。通过使用 Hue 我们可以在浏览器端的Web控制台上与 Hadoop 集群进行交互来分析处理数据，例如操作HDFS 上的数据，运行MapReduce Job 等等。

Q：Mahout 干嘛用的？
A：（主要关注）推荐引擎。

14.5 案例

Q：目前音频视频人工智能已有解决方案能够解决判断多少人进出入口、实现照片以图搜图，现在还需解决？
A：NLP 自然语言处理，有长足发展，但还不够成熟，未解决问题。

Q 哪些场景可能会有大数据杀熟的法律风险？购买机票、外卖、打车、购物等。

joewdc

关注

20
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
第十四章大数据和数据科学 10分单选2道、多选4道

DW/传统 BI 对已经发生的事情产生事后结论，数据科学是对未来发生事情的洞察和预见，规范性分析比预测性分析更全面（规范性，算命避祸）。数据科学是将数据挖掘、统计分析、及其学习与数据集成整合，结合数据建模能力，去构建预测模型、探索数据内容的模式。要有 1）丰富的数据源；2）信息对齐和分析；3）信息交付；4）数据发现及数据洞察展示。
复制链接

扫一扫