![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
编程语言
非科班大数据工程师
这个作者很懒,什么都没留下…
展开
-
大数据入门学习框架hadoop
一. Hadoop Yarn 是什么在古老的 Hadoop1.0 中,MapReduce 的 JobTracker 负责了太多的工作,包括资源调度,管理众多的 TaskTracker 等工作。这自然是不合理的,于是 Hadoop 在 1.0 到 2.0 的升级过程中,便将 JobTracker 的资源调度工作独立了出来,而这一改动,直接让 Hadoop 成为大数据中最稳固的那一块基石,而这个独...原创 2019-05-24 17:30:04 · 220 阅读 · 0 评论 -
python vs Java
作为程序员们的看家利器之编程语言,倘若技术开发者对其掌握得越深则对自身职业生涯越有益处,然随着技术的更新变革,我们在日常使用不单单只会用到一门编程语言,那么究竟该如何选择一门新的语言来上手?本文中,将以主流 Java 和 Python 为例,为大家详细地解析两者的优缺点以及应用场景。以下为译文:如今这个时代,科技进步在不断加速,你不能只学习一门编程语言。编程语言是计算机科学的基本,编程...原创 2019-06-01 13:16:31 · 2003 阅读 · 0 评论 -
Python虽然很火,为啥找工作这么难
知乎有人提了这么个问题,Python这么火,为啥找工作这么难呢?这两年因为第三波人工智能热潮让 Python火了一把,让中小学生、非程序员(产品经理、运营)都加入到了学习Python的行列,那之前Python火吗?虽然和Java、C这些大佬有差距, 但是它一直保持在前几位,并没有掉队,紧随大佬。而曾经很热门的 Perl、Ruby 似乎都淡出了我们的视线。跟经济一样,语言也有周期...转载 2019-05-30 21:59:47 · 9866 阅读 · 2 评论 -
Kafka的存储机制以及可靠性
目录 1.Kafka简介及安装配置 2.Kafka的存储机制以及可靠性 Kafka的存储机制以及可靠性 一、kafka的存储机制 kafka通过topic来分主题存放数据,主题内有分区,分区可以有多个副本,分区的内部还细分为若干个segment。 所谓的分区其实就是在kafka对应存储目录下创建的文件夹,文件夹的名字是主题名加上分区编号,编号从0开始。 1、segment...原创 2019-05-25 15:40:05 · 699 阅读 · 0 评论 -
老程序员告诉你大数据模型建立的6大技巧
数据建模是一门复杂的科学,涉及组织企业的数据以适应业务流程的需求。它需要设计逻辑关系,以便数据可以相互关联,并支持业务。然后将逻辑设计转换成物理模型,该物理模型由存储数据的存储设备、数据库和文件组成。 历史上,企业已经使用像SQL这样的关系数据库技术来开发数据模型,因为它非常适合将数据集密钥和数据类型灵活地链接在一起,以支持业务流程的信息需求。 不幸的是,大数据现在包含了很大比例的管理数...原创 2019-05-25 15:30:43 · 2669 阅读 · 0 评论 -
基于Hadoop的大数据平台实施架构的规划
大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星。我们暂不去讨论大数据到底是否适用于您的公司或组织,至少在互联网上已经被吹嘘成无所不能的超级战舰。好像一夜之间我们就从互联网时代跳跃进了大数据时代!关于到底什么是大数据,说真的,到目前为止就和云计算一样,让我总觉得像是在看电影《云图》——云里雾里的感觉。或许那些正在向你推销大数据产品的公司会对您描绘一幅乌托邦似的美丽画面,但是您至...原创 2019-05-25 15:19:37 · 621 阅读 · 0 评论 -
大数据挖掘技术全方位介绍轻松易懂
大数据如果想要产生价值,对它的处理过程无疑是非常重要的,其中大数据分析和大数据挖掘就是最重要的两部分。在前几期的科普中,小编已经为大家介绍了大数据分析的相关情况,本期小编就为大家讲解大数据挖掘技术,让大家轻轻松松弄懂什么是大数据挖掘技术。 什么是大数据挖掘? 数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有...原创 2019-05-25 15:19:41 · 535 阅读 · 0 评论 -
Spring Boot、微服务架构和大数据治理三者之间的故事
微服务的诞生并非偶然,它是在互联网高速发展,技术日新月异的变化以及传统架构无法适应快速变化等多重因素的推动下诞生的产物。互联网时代的产品通常有两类特点:需求变化快和用户群体庞大,在这种情况下,如何从系统架构的角度出发,构建灵活、易扩展的系统,快速应对需求的变化;同时,随着用户的增加,如何保证系统的可伸缩性、高可用性,成为系统架构面临的挑战。 如果还按照以前传统开发模式,开发一个大型而全的系统已...原创 2019-05-25 15:19:45 · 176 阅读 · 0 评论 -
大数据系统计算的概念全面解析
1 引言 大数据是新一代信息技术的核心方面和竞争前沿,也是制约大数据产业快速发展的关键瓶颈。大数据技术创新能力已经成为后信息时代衡量国家竞争力的重要指标。与传统信息产业的发展过程相似,大数据必将逐渐形成一个相对独立、体系完善的产业形态,完成传统信息产业的升级换代。互联网和云计算的发展过程与趋势已经证明,大数据未来的产业形态将是以服务为核心的新型产业形态,大数据产业体系的各个环节将提供极为丰...原创 2019-05-25 15:19:48 · 5531 阅读 · 0 评论 -
大数据框架Hadoop和Spark对比优势
每年,市场上都会出现种种不同的数据管理规模、类型与速度表现的分布式系统。在这些系统中,Spark和hadoop是获得最大关注的两个。然而该怎么判断哪一款适合你? 如果想批处理流量数据,并将其导入HDFS或使用Spark Streaming是否合理?如果想要进行机器学习和预测建模,Mahout或MLLib会更好地满足您的需求吗? 为了增加混淆,Spark和Hadoop经常与位于HDFS,H...原创 2019-05-25 15:19:52 · 2903 阅读 · 0 评论 -
大数据学习如何选择合适的编程语言
有一个大数据项目,你知道问题领域(problem domain),也知道使用什么基础设施,甚至可能已决定使用哪种框架来处理所有这些数据,但是有一个决定迟迟未能做出:我该选择哪种语言?(或者可能更有针对性的问题是,我该迫使我的所有开发人员和数据科学家非要用哪种语言?)这个问题不会推迟太久,迟早要定夺。 分享之前我还是要推荐下我自己创建的大数据学习交流Qun458345782无论是大牛还是想转行...原创 2019-05-24 18:46:58 · 1541 阅读 · 0 评论 -
入门学大数据需要了解的大数据相关的技术
大数据技术指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据相关的十大技术 1、Java编程技术 Java编程技术是大数据学习的基础,Java是一种强类型语言,拥有极高的跨平台能力,可以编写桌面应用程序、Web应用程序、分布式系统和嵌入式系统应用程序等,是大数据工程师...原创 2019-05-24 17:30:00 · 387 阅读 · 0 评论 -
大数据十大应用领取未来发展趋势
1.了解和定位客户 这是大数据目前最广为人知的应用领域。很多企业热衷于社交媒体数据、浏览器日志、文本挖掘等各类数据集,通过大数据技术创建预测模型,从而更全面地了解客户以及他们的行为、喜好。 利用大数据,美国零售商Target公司甚至能推测出客户何时会有Baby;电信公司可以更好地预测客户流失;沃尔玛可以更准确的预测产品销售情况;汽车保险公司能更真实的了解客户实际驾驶情况。...原创 2019-05-24 17:29:58 · 1020 阅读 · 0 评论 -
大数据常用的软件工具有哪些?
首先,对于传统分析和商业统计来说,常用的软件工具有Excel、SPSS和SAS。 Excel是一个电子表格软件,相信很多人都在工作和学习的过程中,都使用过这款软件。Excel方便好用,容易操作,并且功能多,为我们提供了很多的函数计算方法,因此被广泛的使用,但它只适合做简单的统计,一旦数据量过大,Excel将不能满足要求。 SPSS和SAS都是商业统计才会用到的软件,为我们提...原创 2019-05-24 17:30:02 · 4985 阅读 · 0 评论 -
Python 分析谁才是《权力的游戏第八季》真正的C位?
上个礼拜《权力的游戏第八季》放出大结局,最终的结果「布兰」登上了铁王座。这个结果确实是大家没有想到的。原本想着如果不是「龙妈」,那么就该是「雪诺」。怎么就轮到「布兰」了呢。一个可以随时随地监视别人的人坐上了铁王座,细思极恐...《权力的游戏》系列从2011年4月17日开播直到最后一集5月19日,一共历时九年,终于落下了帷幕。也算是陪伴了一些人的青春,看看上图里的「小...转载 2019-06-03 14:20:43 · 221 阅读 · 0 评论