机器学习和大数据的基本介绍,两者之间有什么联系?

大数据的定义

大数据(bigdata),指无法在定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据是个笼统的概念暂未发现和准确的定义。

大数据的核心是利用数据的价值,机器学习是利用数据价值的关键技术,对于大数据而言,机器学习是不可或缺的。相反,对于机器学习而言,越多的数据会越可能提升模型的精确性,同时,复杂的机器学习算法的计算时间也迫切需要分布式计算与内存计算这样的关键技术。因此,机器学习的兴盛也离不开大数据的帮助。大数据与机器学习两者是互相促进,相依相存的关系。

机器学习与大数据紧密联系。但是,必须清醒的认识到,大数据并不等同于机器学习,同理,机器学习也不等同于大数据。大数据中包含有分布式计算,内存数据库,多维分析等等多种技术。单从分析方法来看,大数据也包含以下四种分析方法:

1.大数据,小分析:即数据仓库领域的OLAP分析思路,也就是多维分析思想。

2.大数据,大分析:这个代表的就是数据挖掘与机器学习分析法。

3.流式分析:这个主要指的是事件驱动架构。

4.查询分析:经典代表是NoSQL数据库。

也就是说,机器学习仅仅是大数据分析中的一种而已,尽管机器学习的一些结果具有很大的魔力,在某种场合下是大数据价值较好的说明。但这并不代表机器学习是大数据下的唯的分析方法。

机器学习的定义

从广义上来说,机器学习是种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说,机器学习是种通过利用数据,训练出模型,然后使用模型预测的种方法。

先,我们需要在计算机中存储历史的数据。接着,我们将这些数据通过机器学习算法进行处理,这个过程在机器学习中叫做“训练”,处理的结果可以被我们用来对新的数据进行预测,这个结果般称之为“模型”。对新数据的预测过程在机器学习中叫做“预测”。“训练”与“预测”是机器学习的两个过程,“模型”则是过程的中间输出结果,“训练”产生“模型”,“模型”指导“预测”。

人类在成长、生活过程中积累了很多的历史与经验。人类定期地对这些经验进行“归纳”,获得了生活的“规律”。当人类遇到未知的问题或者需要对未来进行“推测”的时候,人类使用这些“规律”,对未知问题与未来进行“推测”,从而指导自己的生活和工作。

机器学习中的“训练”与“预测”过程可以对应到人类的“归纳”和“推测”过程。通过这样的对应,我们可以发现,机器学习的思想并不复杂,仅仅是对人类在生活中学习成长的个模拟。由于机器学习不是基于编程形成的结果,因此它的处理过程不是因果的逻辑,而是通过归纳思想得出的相关性结论。

这也可以联想到人类为什么要学习历史,历史实际上是人类过往经验的总结。有句话说得很好,“历史往往不样,但历史总是惊人的相似”。通过学习历史,我们从历史中归纳出人生与国家的规律,从而指导我们的下步工作,这是具有莫大价值的。当代些人忽视了历史的本来价值,而是把其作为种宣扬功绩的手段,这其实是对历史真实价值的一种误用。

人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
四大机器学习编程语言对比:R、Python、MATLAB、Octave
http://www.duozhishidai.com/article-16728-1.html
人工智能,机器学习和深度学习之间,主要有什么差异?
http://www.duozhishidai.com/article-15858-1.html
干货:深度学习 vs 机器学习 vs 模式识别三种技术对比
http://www.duozhishidai.com/article-15119-1.html


多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台
  • 9
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
各⼤数据组件介绍 ⼀、zookeeper ZooKeeper是⼀个的,开放源码的协调服务,是的Chubby⼀个的实现,是Hadoop和Hbase的重要组件。它是⼀个为分布式应⽤提供⼀致 性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 ZooKeeper的⽬标就是封装好复杂易出错的关键服务,将简单易⽤的接⼝和性能⾼效、功能稳定的系统提供给⽤户。 ZooKeeper包含⼀个简单的原语集,[1] 提供Java和C的接⼝。 ZooKeeper代码版本中,提供了分布式独享锁、选举、队列的接⼝,代码在zookeeper-3.4.3\src\recipes。其中分布锁和队列有和C两个版 本,选举只有Java版本。(概述图⽚来源:[2] ) 那么Zookeeper能做什么事情呢,简单的例⼦:假设我们有20个的(每个负责总索引中的⼀部分的搜索任务)和⼀个总服务器(负责向这20个 搜索引擎的服务器发出搜索请求并合并结果集),⼀个备⽤的总服务器(负责当总服务器宕机时替换总服务器),⼀个web的cgi(向总服务器发 出搜索请求)。搜索引擎的服务器中的15个服务器提供搜索服务,5个服务器正在⽣成索引。这20个搜索引擎的服务器经常要让正在提供搜索 服务的服务器停⽌提供服务开始⽣成索引,或⽣成索引的服务器已经把索引⽣成完成可以提供搜索服务了。使⽤Zookeeper可以保证总服务 器⾃动感知有多少提供搜索引擎的服务器并向这些服务器发出搜索请求,当总服务器宕机时⾃动启⽤备⽤的总服务器。 ⼆、spark Apache Spark 是专为⼤规模数据处理⽽设计的快速通⽤的计算引擎。Spark是UC Berkeley AMP lab (加州⼤学伯克利分校的AMP实验 室)所开源的类Hadoop MapReduce的通⽤并⾏框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是—— Job中间输出结果可以保存在内存中,从⽽不再需要读写HDFS,因此Spark能更好地适⽤于数据挖掘与机器学习等需要迭代 的MapReduce的算法。 Spark 是⼀种与 相似的开源集群计算环境,但是两者之间还存在⼀些不同之处,这些有⽤的不同之处使 Spark 在某些⼯作负载⽅⾯表现得 更加优越,换句话说,Spark 启⽤了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代⼯作负载。 Spark 是在 语⾔中实现的,它将 Scala ⽤作其应⽤程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作 本地集合对象⼀样轻松地操作分布式数据集。 Spark 主要有三个特点[2] : ⾸先,⾼级 API 剥离了对集群本⾝的关注,Spark 应⽤开发者可以专注于应⽤所要做的计算本⾝。 其次,Spark 很快,⽀持交互式计算和复杂算法。 最后,Spark 是⼀个通⽤引擎,可⽤它来完成各种各样的运算,包括 SQL 查询、⽂本处理、机器学习等,⽽在 Spark 出现之前,我们⼀般 需要学习各种各样的引擎来分别处理这些需求。 三、kafka Kafka是由开发的⼀个开源流处理平台,由和编写。Kafka是⼀种⾼吞吐量的发布订阅消息系统,它可以处理消费者规模的⽹站中的所有动 作流数据。 这种动作(⽹页浏览,搜索和其他⽤户的⾏动)是在现代⽹络上的许多社会功能的⼀个关键因素。 这些数据通常是由于吞吐量 的要求⽽通过处理⽇志和⽇志聚合来解决。 对于像的⼀样的数据和离线分析系统,但⼜要求实时处理的限制,这是⼀个可⾏的解决⽅案。 Kafka的⽬的是通过的并⾏加载机制来统⼀线上和离线的消息处理,也是为了通过来提供实时的消费。 特性: 通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。 ⾼吞吐量 :即使是⾮常普通的硬件Kafka也可以⽀持每秒数百万的消息。 ⽀持通过Kafka服务器和消费机集群来分区消息。 ⽀持并⾏数据加载。 术语介绍: Broker Kafka集群包含⼀个或多个服务器,这种服务器被称为broker[5] Topic 每条发布到Kafka集群的消息都有⼀个类别,这个类别被称为Topic。(物理上不同Topic的消息分开存储,逻辑上⼀个Topic的消息虽然保 存于⼀个或多个broker上但⽤户只需指定消息的Topic即可⽣产或消费数据⽽不必关⼼数据存于何处) Partition Partition是物理上的概念,每个Topic包含⼀个或多个Partition. Producer 负责发布消息到Kafka broker Consumer 消息消费者,向Kafka broker读取消息的客户端。 Consumer Group 每个Co

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值