大数据
文章平均质量分 66
@轻流
这个作者很懒,什么都没留下…
展开
-
生活,真叫人头秃!
人生难得一知己,别人都不懂搞程序的我在想什么~终于有一天,我在山顶上与我的蓝颜知己相遇了。他光着头,穿着僧衣,莫名的,我两心心相惜。我对他说:我放不下一些事,放不下一些人。他说:这个世界上没有什么是放不下的。我说:可我偏偏放不下。他说:依我看,无非是你存储空间不足,要学会内部虚拟化,自然放得下。我惊呼了,急忙问道:大师,你怎么这么懂。他叹了一口气说:当初我就是不懂得内部虚拟...原创 2018-12-21 22:30:55 · 807 阅读 · 1 评论 -
hadoop3.0新特性介绍
hadoop3.0新特性介绍1. 基于jdk1.8(最低版本要求) 2. mr采用基于内存的计算,提升性能(快spark 10倍) 3. hdfs 通过最近black块计算,加快数据获取速度(块大小:256M) 4. 支持多NameNode(实现了更加可靠的HA) 5. 引入EC纠删码技术(EC:Erasure Coding) 存储空间节省50% 6....原创 2019-07-16 09:30:00 · 714 阅读 · 0 评论 -
推荐系统的架构图
推荐系统的架构 本文从互联网收集并整理了推荐系统的架构,其中包括一些大公司的推荐系统框架(数据流存储、计算、模型应用),可以参考这些资料,取长补短,最后根据自己的业务需求,技术选型来设计相应的框架。后续持续更新并收集。。。 图1 界面UI那一块包含3块东西:1) 通过一定方式展示推荐物品(物品标题、缩略图、简介等);2) 给的推荐理由;3) 数据反馈...原创 2019-03-28 15:43:43 · 19387 阅读 · 1 评论 -
算法——贝叶斯公式的推导过程
全概率公式,贝叶斯公式推导过程(1)条件概率公式 设A,B是两个事件,且P(B)>0,则在事件B发生的条件下,事件A发生的条件概率(conditional probability)为: P(A|B)=P(AB)/P(B)(2)乘法公式 1.由条件概率公式得: ...原创 2019-03-28 15:31:53 · 2594 阅读 · 0 评论 -
做了十年程序员的苏明哲被裁掉的真正原因!
作为一个程序员,在看《都挺好》这部剧的时候可能关注的点不太一样。别人关注的是家长里短和每个人的好坏,我却更关注做了十年程序员被开除的名校毕业生苏明哲。 清华斯坦福双名校加持《都挺好》剧中介绍,苏明哲本科是清华毕业,研究生考上了美国的斯坦福,是全球排名第七的顶尖高校,毕业之后做了程序员,学习的是计算机专业,在这个学校这个专业学习的人里面有27位图灵奖(计算机最高奖)获得者,谷歌两位创始...原创 2019-03-28 15:21:16 · 2118 阅读 · 0 评论 -
如今的大数据究竟发展到了什么阶段
大数据时代,大数据分析与应用大肆盛行。越来越多的大公司大企业大集团,都越来越重视大数据的影响和作用。可以说,谁想抢得大数据的一手可靠资料,谁就在未来的业务发展和拓宽中占据优势,谁就会在相关领域首先拔得头筹。但是,大数据发展前景现在到底如何,大数据的可靠性由谁说了算,大数据的真实性有谁可以保证?甚至还可以再倒退一点点来问问,如今的大数据究竟发展到了什么阶段?我想,应该很少人能够清楚地知...原创 2019-03-27 14:28:00 · 1281 阅读 · 0 评论 -
大数据时代,你的信息安全谁负责?
数据时代的来临,各项社会活动全面启动数字化进程,对应的技术应用背后,其信息安全风险也越发突出。脸书数据门作为脸书Facebook的合作伙伴之一,一家名为“剑桥分析公司”的数据分析企业,创建了一个问答应用“这是你的数字化生活”,并获得了约30万人安装。由于当时脸书是开放广告API接口的,这让这家公司可以在这些用户好友不知情的情况下,获取他们的数据,最终有5000万用户数据被泄漏,这是自“...原创 2019-03-27 14:25:25 · 1462 阅读 · 0 评论 -
BATJ原来是这样玩大数据的!
为什么国内的大数据应用,只有几个互联网巨头取得成就呢?是因为它们拥有最多的用户、流量和数据吗?去年5月笔者曾撰文阐述百度、阿里和腾讯这三个互联网巨无霸开始挖掘大数据。一年过去,拥有海量数据的公司已在多个领域尝试对掌握的数据进行利用,大数据意识和能力进步飞快,体系和工具日趋成熟。大数据应用实践,硕果累累百度在大数据方面让人印象深刻的有百度迁徙这样的公益项目,应用在民生和新闻等领域。最...原创 2019-03-19 13:50:50 · 484 阅读 · 0 评论 -
用大数据算法得出当代移动互联网人群图鉴
《美国队长2》中,九头蛇利用算法推算出潜在威胁到自己的敌人。而在移动互联网时代背景下,大数据根据用户的过去行为来分析&预测用户偏好。在此种环境中被不断浸染的情况下,结合你对移动互联网人群兴趣变化特征的了解,能否一眼辨别他们在不同场景的身份呢?比如下面这些人,结合你的数据认知和人生经验能猜出正确答案吗?高能预警!题图中隐藏多个烟雾弹,请各位保持警惕!不要被糖衣炮弹迷惑!(部分场景纯属娱乐...原创 2019-03-13 16:11:44 · 346 阅读 · 0 评论 -
大数据岗位最新面试题~3.18
随着互联网时代的不断发展,现在越来越多的人都选择从事IT行业,然而能够在这个行业十几年,中间只换过两三次公司,那也算是行业界的一股清流,然而现在的公司并没有那么好做,都想进入BATJ,但是发现自己硬是差了很多,就连普通的企业都困难,这是为什么呢?难就难在面试题!下面分享我一个朋友在面试大数据岗位的时候所做的面试题,可以先看看:JAVA相关 List与Set的区别? HashMa...原创 2019-03-18 16:32:09 · 1550 阅读 · 0 评论 -
大数据分析的5个方面
越来越多的应用涉及到大数据,不幸的是所有大数据的属性,包括数量,速度,多样性等等都是描述了数据库不断增长的复杂性。那么大数据给我们带来了什么好处呢?大数据最大的好处在于能够让我们从这些数据中分析出很多智能的,深入的,有价值的信息。下面我总结了分析大数据的5个方面。1. Analytic Visualizations(可视化分析)不管是对数据分析专家还是普通用户,数据可视化是数据分析工...原创 2019-03-25 10:16:30 · 1125 阅读 · 0 评论 -
阿里正式向 Apache Flink 贡献 Blink 源码
如同我们去年12月在 Flink Forward China 峰会所约,阿里巴巴内部 Flink 版本 Blink 将于 2019 年 1 月底正式开源。今天,我们终于等到了这一刻。阿里资深技术专家大沙,将为大家详细介绍本次开源的Blink主要功能和优化点,希望与业界同仁共同携手,推动Flink社区进一步发展。Blink on GitHubBlink简介Apache Fl...原创 2019-02-18 17:18:31 · 252 阅读 · 0 评论 -
最新数据显示:2025年中国将拥有世界最大数据圈
国际数据公司(IDC)2月21日发布的报告预测,中国数据圈在2025年增至48.6ZB字节,占全球27.8%,成为最大数据圈。IDC昨天发布了《数字化世界—从边缘到核心》和《IDC:2025年中国将拥有全球最大的数据圈》两份白皮书。报告预计,中国的数据圈从2018年至2025年将以30%的年平均增长速度领先全球,比全球高出3%。此外,从2015年到2025年,中国数据圈以14倍的速度扩...原创 2019-02-23 11:12:44 · 1240 阅读 · 0 评论 -
分享几个大数据相关岗位的职责和面试问题
现在大数据行业如此火爆,国家和企业都需要发展大数据技术,但是人才高度稀缺,企业用人难!而大学生们有出现这样的问题:就业难。有的岗位可能面临着几百个人竞争的情况,今天小编带大家来看看大数据相关岗位的职责和面试问题有哪些489034603根据业务的不同,岗位职责大概分为:1、平台搭建类· 数据计算平台搭建,基础算法实现,当然,要求支持大样本量、高维度数据,所以可能还需要底层开发...原创 2019-02-23 10:51:22 · 798 阅读 · 0 评论 -
大数据之Spark教程
Apache Spark是一个集群计算设计的快速计算。它是建立在Hadoop MapReduce之上,它扩展了 MapReduce 模式,有效地使用更多类型的计算,其中包括交互式查询和流处理。这是一个简单的Spark教程,介绍了Spark核心编程的基础知识。 工业公司广泛的使用 Hadoop 来分析他们的数据集。其原因是,Hadoop框架是基于简单的编程模型(MapReduce),并且它使...原创 2019-01-15 15:18:22 · 507 阅读 · 0 评论 -
大数据之HBase教程
自1970年以来,关系数据库用于数据存储和维护有关问题的解决方案。大数据的出现后,好多公司实现处理大数据并从中受益,并开始选择像 Hadoop 的解决方案。Hadoop使用分布式文件系统,用于存储大数据,并使用MapReduce来处理。Hadoop擅长于存储各种格式的庞大的数据,任意的格式甚至非结构化的处理。Hadoop的限制Hadoop只能执行批量处理,并且只以顺序方式访问数据。这意...原创 2019-01-15 15:15:20 · 279 阅读 · 0 评论 -
大数据之Hadoop教程
Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。“90%的世界数据在过去的几年中产生”。由于新技术,设备和类似的社交网站通信装置的出现,人类产生的数据量每年都在迅速增长。美国从一开始的时候到2003年产生的数据量为5十亿千兆字节。如果以堆放的数据磁盘的形式,它可以...原创 2019-01-15 15:13:25 · 350 阅读 · 0 评论 -
nutch爬虫原来是这样操作的!
一、nutch简介nutch是大名鼎鼎的Doug Cutting发起的爬虫项目,nutch孵化了现在大数据处理框架Hadoop。在nutch V 0.8.0 版本之前,Hadoop是nutch的一部分,从nutch V0.8.0开始,HDFS和MapReduce从nutch中剥离出成为Hadoop。v0.8.0之后,nutch就完全构建在Hadoop的基础之上了。Nutch是一个开源的网络...原创 2019-01-15 15:03:29 · 9349 阅读 · 0 评论 -
基于Flume的美团日志收集系统-----架构和设计
问题导读:1.Flume-NG与Scribe对比,Flume-NG的优势在什么地方?2.架构设计考虑需要考虑什么问题?3.Agent死机该如何解决?4.Collector死机是否会有影响?5.Flume-NG可靠性(reliability)方面做了哪些措施?美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流。美团的日志收集...原创 2019-08-23 15:09:43 · 405 阅读 · 0 评论