自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

程序之道的博客

专注Java、大数据知识干货及相关领域动态分享,请多多关注哦

原创 数据及大数据的本质到底是什么?

最近几年,数据问题进入哲学视野。对于哲学家们探索的数据本质特征,我们可以从以下几个方面来把握。 数据与大数据 技术进步,主要是计算机、网络和各种类型的传感器以及云技术、分布式计算与存储等海量存储技术的广泛应用和运算能力极速进步,使得数据概念被大数据概念取代。数据量增加速度之快,大致可以这样...

2019-02-22 17:43:23 5540 0

原创 数据中心常见的问题有哪些?你知道吗?

虽然数据中心运营商的冷却管理比十年前要好得多,但许多设施仍然面临着容量不能充分被利用及浪费能源等问题。专家表示,气流管理的最终目标是更好地控制IT进气口的冷却温度设定值,同时使得传送至数据大厅的空气量最小化。 数据中心那些常见的问题 数据中心那些常见的问题,以下是数据中心中最常见的一些问题...

2019-02-21 16:28:57 7098 1

原创 大数据工具千千万,到底谁才是最强王者?

外面有成千上万的大数据工具。它们都承诺可以为你节省时间和资金,并帮助发掘之前从来见过的业务洞察力。虽然确实如此,可是面对那么多的选择,想理清这么多的工具谈何容易。 哪一种工具适合你的技能组合?哪一种工具适合你的项目? 为了替你节省一点时间,并帮助你首次选对工具,我们列出了我们青睐的几款数据工具,涉...

2019-01-05 17:38:30 4485 22

原创 Flink实战教程:如何计算实时热门商品

实战案例介绍 本案例将实现一个“实时热门商品”的需求,我们可以将“实时热门商品”翻译成程序员更好理解的需求:每隔5分钟输出最近一小时内点击量最多的前 N 个商品。 将这个需求进行分解我们大概要做这么几件事情: 抽取出业务时间戳,告诉 Flink 框架基于业务时间做窗口 过滤出点击行为数据...

2019-06-05 19:54:17 500 0

原创 一文带你了解Java Agent

Java Agent这个技术,对于大多数同学来说都比较陌生,但是多多少少又接触过,实际上,我们平时用的很多工具,都是基于Java Agent实现的,例如常见的热部署JRebel,各种线上诊断工具(btrace, greys),还有阿里最近开源的arthas。 其实Java Agent一点都不神秘,...

2019-06-05 14:14:05 111 0

转载 docker之开发课程EdgeService

课程的edgeService依赖于课程服务的dubbo服务,对外提供的restAPI,跟用户的EdgeService有点类似,只是一个调用的是thrift,一个调用的是dubbo,比较特殊的是课程的EdgeService需要用户登录后才可以访问,如果没有登录的话,需要跳转到登录系统才可以访问。 ...

2019-06-04 16:23:35 67 0

原创 JProfiler性能分析工具详解

1.简介 JProfiler 是一个商业授权的 Java剖析工具,用于分析Java EE和Java SE应用程序. 2.JVMTI JDK 本身定义了目标明确并功能完善的JNI( Java Native Interface ) 与虚拟机直接进行交互,这些 API 能很方便的进行...

2019-06-03 17:12:44 745 0

原创 Spring Aop之Jdk代理实现原理详解

Jdk代理,也称为动态代理,其代理目标对象的方式是生成一个与目标对象实现同一个接口的类,该类的构造函数中会传入一个 InvocationHandler 类型的对象。因为 InvocationHandler 对象是用户自定义的织入了切面逻辑的类,因而在需要使用...

2019-06-03 14:47:59 89 0

原创 华为系统早已开始研发,为何现在才准备推出?

华为在近年来的发展一直朝着更好的方向前进,作为一个中国自主研发比较出色的一个企业,华为掌握了全球最多的5G专利技术,还自己研发了处理器芯片,就手机行业上来说,现在华为的位置已经可以坐到全球出货量前二的位置。种种的事迹都表明了现在的华为实力越来越强大。 2018年4月份,美国下达的一纸“禁...

2019-05-23 14:59:16 352 0

转载 前端面试要注意哪几个点?

不管是刚毕业踏入社会的还是在职场久经奋战的,都经历过被面这一环节。当然也有很多同学开始在面人,为自己的团队选择优秀的血液。而我也是属于这一类,这些年都有在帮公司或朋友的团队物色人才和面试同学。今年在手淘也一样,在给同学面试过程中,让我开始在思考,而且思考了很久,所以这几天静下来写了这篇文章,希望这...

2019-05-09 16:30:07 84 0

原创 WEB前端学习如何分清主次和优先级?

学习前端从未停止过,本文只是对知识的重要程度和精力分配说下自己的观点。具体来说,前端方面的知识从重要程度来排,私以为应该先后学这些: 1,api学习,系统地学,可以看看这个方面的书,不要只零散地看网上文章,这个书钱要舍得花。前端领域,这个方面我推荐看看《javascript高级程序设计》和《htm...

2019-05-08 17:45:55 141 0

原创 怎样实现H5+CSS3手指滑动切换图片

包含3个文件:html、slider-H5.js、jquery.js。在html中可配置滑动参数。具体代码如下: HTML代码: <!DOCTYPE HTML> <html> <head> <meta charset=&q...

2019-04-30 17:48:30 333 0

原创 运用这招,让 Spark 提速 45 倍!

Apache Spark已逐渐俨然成为下一代大数据处理工具的典范。通过借鉴开源算法,并将处理任务分布到计算节点集群上,无论在它们在单一平台上所能执行的数据分析类型方面,还是在执行这些任务的速度方面,Spark和Hadoop这一代框架都轻松胜过传统框架。Spark利用内存来处理数据,因而速度比基于磁...

2019-04-29 16:56:40 297 0

原创 到底多大的数据才叫大数据?大数据的商机有哪些?

大数据是什么?多大的数据叫大数据? 很多没有接触过大数据的人,都很难清楚地知道,究竟多大的数据量才可以称之为大数据。那么,根据数据收集的端口,企业端与个人端之间,大数据的数量级别是不同的。 企业端(B端)数据近十万的级别,就可以称为大数据;个人端(C端)的大数据要达到千万级别。收集渠道没有特定...

2019-04-29 15:29:52 547 0

原创 分享一些关于Hadoop的面试题及答案

Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算,下面看看一般情况下,关于Hadoop的面试是会问哪些问题,以及该怎么回答。 1. 简单描述如何安装配置一个apache...

2019-04-28 21:21:22 247 0

转载 作为数据分析师怎样选择适合你的分析工具?

不管是数据分析,统计分析,数据挖掘、商业智能都需要在学习的时候掌握各种分析手段和技能,特别是要掌握分析软件工具!我曾经说过,学习方法,一般是先学软件开始,再去应用,再学会理论和原理。没有软件工具的方法就不要去学了,因为学了也不能做,除非你自己会编程序。 那么在数据分析领域,都有哪些软件分析工具呢...

2019-04-27 19:48:38 100 0

转载 全面解析腾讯数据库TDSQL架构

腾讯计费平台部托管着公司90%以上的虚拟账户,如QB、Q点、包月服务、游戏的二级账户等,为了保证能顺畅支撑公司各大业务的实时在线交易,并且在各种灾难场景下数据是一致并且可用的,对系统的可用性、一致性切换要求非常高,因此计费团队历来都非常重视高一致性存储系统的建设。 到目前为止,计费高一致性存储层...

2019-04-16 14:47:53 642 0

原创 一个成熟的程序员必会技能:赚钱

我经常在这个公众号里收到一些读者留言,大多数是一些年轻读者,迷茫,焦虑,工资明明还不错,但攒不下钱,买不了房。高学历,985,硕士,努力了很多年也赶不上那些轻松的富二代……看着可怜又可气。 我觉得这种心态的读者,毛病都出在比较上,而比又没比对地方。你嫌超市的菜不好吃,别的人还吃不上蔬菜呢。北京最近...

2019-04-15 13:59:00 220 0

原创 Web全栈工程师应该会什么

一个Web开发过程有三层架构: 表示层:表示层也被称为网站的前端部分。它处理网站的用户界面相关问题。业务逻辑层:业务逻辑层也被称为网站的后端层,负责数据验证和动态处理。数据库层:最后是数据访问层,利用API为网站提供数据。 以上三层共同称为全栈web开发。以前,每当需要开发一个网站时,前端开发人...

2019-04-15 13:58:30 1303 1

原创 vue使用插槽分发内容slot的用法

这篇文章主要介绍了vue使用插槽分发内容slot的用法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧 将父组件的内容放到子组件指定的位置叫做内容分发 //在父组件里使用子组件 <son-tmp> <...

2019-04-15 13:57:46 97 0

原创 BAT资深web前端工程师总结:未来5年前端发展四大趋势前瞻

经过近5年的快速发展,目前前端开发技术栈已经进入成熟期。在React和Vue等框架出现后,前端在代码开发方面的复杂度已经基本得到解决,再加上Node解决前后端分离,前端技术栈本身其实已经非常成熟。因此业内人士普遍认为,未来几年前端本身的开发技术应该不会有大的方向变化,但是将会呈现出四大发展趋势: ...

2019-04-15 13:57:10 108 0

原创 大数据分析师常见的面试题解答

1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采...

2019-04-15 10:23:55 6203 0

转载 全面解析腾讯大数据计算引擎——Shuffle

腾讯分布式数据仓库(Tencent distributed Data Warehouse, 简称TDW)基于开源软件Hadoop和Hive进行构建,并且根据公司数据量大、计算复杂等特定情况进行了大量优化和改造,目前单集群最大规模达到5600台,每日作业数达到100多万,已经成为公司最大的离线数据处...

2019-04-12 15:55:01 149 0

原创 大数据扫盲:详解Hadoop与Spark之间的关系

我们刚刚搞懂服务器,数据库,C++,java等基础语言是个什么东西的时候,大数据时代来了,科技界又玩起Hadoop,HDFS,MapReduce,Common,Spark,Mahout,HBase,NoSQL,Cassandra,GFS, MapReduce, BigTable,Hive,Pig…...

2019-04-11 17:10:00 655 0

转载 揭秘大众点评的大数据实时计算

实时计算在点评的使用场景 类别一:Dashboard、实时DAU、新激活用户数、实时交易额等 ♦Dashboard类:北斗(报表平台)、微信(公众号)和云图(流量分析)等 ♦实时DAU:包括主APP(Android/iPhone/iPad)、团APP、周边快查、PC、M站 ♦新激活用户数:...

2019-04-11 14:39:09 331 0

原创 大数据工程师常用的优化方法

优化人员工作时免不了要接触到大数据量的问题,下面就将平时收集的一些关于大数据量的优化方法整理记录一下,也是和大家一起共享。 1. 应尽量避免在 where 子句中对字段进行 null值判断,否则将导致引擎放弃使用索引而进行全表扫描,如: select id from t where nu...

2019-04-10 17:04:04 126 0

原创 微博广告推荐中有关Hadoop的那些事

一、背景 微博,一个DAU上亿、每日发博量几千万的社交性产品,拥有庞大的数据集。如何高效得从如此规模的数据集中挖掘出有价值的信息,以增强用户粘性,提高信息传播速度,就成了重中之重。因此,引入了hadoop分布式计算平台,对用户数据和内容数据进行分析和挖掘,作为广告推荐的基础。 二、问题及解决方...

2019-04-10 15:07:35 112 0

原创 全面解析基于Hadoop模型的数据分析平台框架

本文主要讲解以下两个方面: ♦Hadoop MapReduce与Hive技术研究 ♦数据分析平台框架设计与环境配置 Hadoop MapReduce与Hive技术研究 一、Hadoop框架工作机制 Hadoop框架定义:Hadoop分布式文件系统(HDFS)和Mapreduce...

2019-04-10 10:43:33 181 0

原创 揭秘阿里互联网金融的关系数据库

时至今日,“Big data”(大数据)时代的来临已经毋庸置疑,尤其是在电信、金融等行业,几乎已经到了“数据就是业务本身”的地步。这种趋势已经让很多相信数据之力量的企业做出改变。为了应对大数据的冲击,淘宝将以前的Oracle、小型机、高端存储模式转变到现今的MySQL、OceanBase、Hbas...

2019-04-09 17:52:09 119 0

原创 淘宝算法总监解读——淘宝搜索算法现状

淘宝搜索排序的目的是帮助用户快速的找到需要的商品。从技术上来说,就是在用户输入关键词匹配到的商品中,把最符合用户需求的商品排到第一位,其它的依次排在后续相应的位置。为了更好的实现这个目标,算法排序系统基本按三个方面来推进: 一、算法模型 当用户输入关键词进行搜索的时候,系统依据算法模型来给...

2019-04-09 13:56:43 953 0

原创 如何高效的阅读Hadoop源代码?

个人谈谈阅读hadoop源代码的经验。 首先,不得不说,hadoop发展到现在这个阶段,代码已经变得非常庞大臃肿,如果你直接阅读最新版本的源代码,难度比较大,需要足够的耐心和时间,所以,如果你觉得认真一次,认真阅读一次hadoop源代码,一定要有足够的心理准备和时间预期。 其次,需要注意,阅读...

2019-04-09 10:38:11 129 0

原创 大数据技术未来发展前景及趋势分析

流大数据分析 Storm: Apache Storm是一种开源的分布式实时计算系统。Storm加速了流数据处理的过程,为Hadoop批处理提供实时数据处理。 Spark: Spark是一个兼容Hadoop数据源的内存数据处理平台,运行速度相比于HadoopMapReduce更快。Spark适合...

2019-04-08 17:21:25 1800 0

原创 全面解析电商数据挖掘之关联算法

所谓关联,反映的是一个事件和其他事件之间依赖或关联的知识。当我们查找英文文献的时候,可以发现有两个英文词都能形容关联的含义。第一个是相关性relevance,第二个是关联性association,两者都可以用来描述事件之间的关联程度。其中前者主要用在互联网的内容和文档上,比如搜索引擎算法中文档之间...

2019-04-08 16:46:59 731 0

原创 解密Facebook的实时Hadoop系统

Facebook 在 SIGMOD 上发表了一篇名为“Apache Hadoop Goes Realtime at Facebook”的会议论文 ,介绍了 Facebook 为了打造一个实时的 HBase 系统使用到的独门秘技。由于该论文提到的应用场景与我负责的系统要解决的问题域有相似之处,因而抽...

2019-04-08 15:06:05 146 0

原创 流式大数据处理的三种框架对比分析

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。 Apache Storm 在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(m...

2019-04-03 17:56:20 1782 0

原创 全面解析大数据解决方案的架构层

大数据解决方案的逻辑层可以帮助定义和分类各个必要的组件,大数据解决方案需要使用这些组件来满足给定业务案例的功能性和非功能性需求。这些逻辑层列出了大数据解决方案的关键组件,包括从各种数据源获取数据的位置,以及向需要洞察的流程、设备和人员提供业务洞察所需的分析。 大数据解决方案的逻辑层 逻辑层...

2019-04-03 16:10:35 412 0

原创 大数据分析:机器学习算法实现的演化

传统的机器学习和数据分析的工具,包括SAS,IBM的SPSS,Weka以及R语言。它们可以在小数据集上进行深度分析——工具所运行的节点的内存可以容纳得下的数据集。 第二代机器学习工具,包括Mahout,Pentaho,以及RapidMiner。它们可以对大数据进行我称之为粗浅的分析。基于Hado...

2019-04-03 13:51:56 313 0

原创 新手sqlserver数据库dba需要注意的小细节

►1.在创建db的时候自增长建议设置成按MB(M)增长,步长根据业务量来设置,一般情况建议设置100-200M(见图片),还有就是尽量别改初始大小,这个默认就好。 如果按照数据文件(mdf)按照默认的1m增长,同时db的业务写入比较频繁,那数据库就会频繁的向磁盘请求空间,会造成不必要的io消耗,...

2019-04-02 21:19:55 112 0

原创 如何挑选合适的大数据或Hadoop平台?

IBM、Oracle、SAP、甚至Microsoft等几乎所有的大型软件提供商都采用了Hadoop。然而,当你已经决定要使用Hadoop来处理大数据时,首先碰到的问题就是如何开始以及选择哪一种产品。本文讨论了不同的选择,并推荐了每种选择的适用场合。 Hadoop平台的多种选择 下图展示了Had...

2019-04-02 17:08:43 205 0

原创 详解大数据清洗工具

在进行数据分析和可视化之前,经常需要先“清洗”数据。这意味着什么?可能有些词条列表里是“New York City”,而其他人写成“New York, NY”。然而,你在看到某些模式前得将各种各样的输入词汇标准化。又或者,出现一些数值输入错误,错别字什么的。 有很多工具都可以实现你想要的功能,但...

2019-04-02 16:03:10 1724 0

提示
确定要删除当前文章?
取消 删除