大数据
文章平均质量分 91
数据饕餮
高级数据产品专家,人工智能等前沿技术领域探索者,15年+一线IT行业经验,主要从事金融、互联网广告和电商行业数据产品建设。
展开
-
大数据应用之双色球算奖平台总体设计历史数据存储篇
大数据应用之双色球算奖平台总体设计历史数据存储篇作者:张子良版权所有,转载请注明出处1.1 引子:文件OR数据库 历史期次的双色球选注数据的存储,采用什么样的格式比较好呢?这需要重点从三个方面考虑,一、文件访问方便吗?二、文件服务器空间够用吗?三、软硬件故障环境下,如何保障数据的可用性。基于这几个方面的考虑,到底是采用文件存储还是采用数据库存储呢?本文,从传统和前沿技术两个角度给原创 2013-07-18 09:13:42 · 2549 阅读 · 0 评论 -
胖子哥的大数据之路(五)- 数据资源-垄断的壁垒
垄断的背景,带来的结果自然是数据的壁垒,曾经基于大数据做金融行业做微贷风险评估的行业应用被我否决,就是因为我们无法打通跨行情况下,客户营收明细数据的汇聚。大数据环境下,数据壁垒的制约,必将成为大数据行业应用的关键性屏障。当然这一切对于拥有垄断资源的企业都不成问题,数据就在他们手里,无须仰人之鼻息。原创 2014-02-23 08:58:12 · 2251 阅读 · 0 评论 -
胖子哥的大数据之路(一)-数据仓库也需要大数据
最近在处理一个商业银行的大数据项目,旨在构建大数据资源池,项目边界确认过程中,针对项目的定位出现了两种不同的观点,对大数据的在传统行业的应用有了新的启发。观点一、大数据作为操作数据历史库,存储操作数据库数据,提供历史数据长周期,快速检索的历史数据存储和快速查询服务。观点二、大数据作为数据仓库的的历史库,解决数据仓库历史数据存储的问题,构建一个大容量,高可用的数据存储平台,为全量数据分析和知识挖掘提供服务。作为操作数据库的历史库,已经完成了项目的实施,但是作为数据仓库的历史库之前的定位一直是取代,基于大数据做原创 2014-02-14 12:29:11 · 2862 阅读 · 2 评论 -
胖子哥的大数据之路(二)- 大数据结构化数据存储应用模式
大数据在结构化数据存储方面的第一种模式:实时查询数据库;大数据在结构化数据数据存储方面的第二种模式:大数据仓库;思考题:1.实时查询数据库能否替换实时操作数据库吗?2.大数据仓库可以替代数据仓库吗?原创 2014-02-14 12:26:10 · 2898 阅读 · 0 评论 -
Hadoop专业解决方案-第12章 为Hadoop应用构建企业级的安全解决方案
企业级应用的安全考量认证授权机密性完整性审计对于企业应用, Hadoop安全机制不提供什么?面向数据的访问控制差异性隐私加密静态数据企业安全集成保护使用Hadoop的企业应用的方法利用Accumulo的访问控制保护加密静态数据网络隔离和分离方法总结原创 2014-02-18 19:06:48 · 2585 阅读 · 0 评论 -
胖子哥的大数据之路(三)- 大数据仓库的需求分析该怎么做
提供统一的数据数据导入工具,数据可视化工具、数据校验工具、数据导出工具和公共的数据查询接口服务管理工具才是大数据作为数据仓库发展的方向。也许这就是探索者的苦恼吧。原创 2014-02-20 08:04:25 · 3094 阅读 · 0 评论 -
胖子哥的大数据之路(7)- 传统企业切入核心or外围
一、引言 昨天和一个做互联网大数据(零售行业)的朋友交流,关于大数据传统企业实施的切入点产生了争执,主要围绕两个问题进行了深入的探讨: 问题1:对于一个传统企业而言什么是核心业务,什么是外围业务? 问题2:大数据传统企业实施切入点到底是从核心开始还是该从外围介入? 两个问题有关联关系,如果界定不了核心与外围的边界,那么第二个问题也就无从回答。在此与大家共享,希望更多的人能参原创 2014-04-02 08:23:25 · 2047 阅读 · 0 评论 -
胖子哥的大数据之路(9)- 数据仓库金融行业数据逻辑模型FS-LDM
FS-LDM 金融11个主题模型原创 2014-04-18 08:32:09 · 4028 阅读 · 0 评论 -
胖子哥的大数据之路(8)- 数据仓库命名规范
从对大数据的狂热到理性的回归,项目实施起到了醍醐灌顶的作用,大数据技术只能作为一种IT基础架构(存储+运算),而实际的工程化实施,还是要回归到IT传统技术,最近在整合大数据时代的数据仓库框架,希望能有更多的人参与进来。数据仓库实施数据模型的组织,需要引入更多的规则,下面要谈的就是数据仓库数据内容的组织方式。来自TD,可以借鉴到大数据时代的数据仓库建设。原创 2014-04-14 10:45:38 · 2657 阅读 · 0 评论 -
胖子哥的大数据之路(12)-三张图告诉你大数据安全方案设计
最近一直很忙,在做一个全国性项目的IT架构,所以一直没有更新,好在算是告一段落,继续努力吧。项目沟通中过程客户反复在强调,大数据的安全性,言下之意,用了大数据,就不安全了,就有漏洞了。所以花了些时间,针对大数据的安全设计做了一个总结,算是阶段性的成果吧,分享给大家。原创 2014-06-25 20:36:58 · 2314 阅读 · 0 评论 -
胖子哥的大数据之路(15):互联网企业数据战略运营规划之总决式
一、总决 “天下武功唯快不败”,数据化运营战略在不同的行业、不同的企业之间是不同的,但是亦有其共性,即:快速的数据就绪和响应能力。完美主义者适合生活在保温箱里,唯有实践者才是真英雄。二、纵向打通:数据价值链 通则不痛,纵向打通的是底层数据到上层业务应用之间的通路。数据来源于业务,而终将反馈到业务。业务数据化和数据业务化,殊途同归,其目的都在于数据价原创 2016-03-14 16:44:35 · 1271 阅读 · 0 评论 -
胖子哥的大数据之路(14):数据价值链模型
一、模型示意图 二、模型解读 Knowledge is also defined using taxonomy, with levels describing data, information, knowledge and wisdom. Briefly, data is defined as a fact. Information is a fact wi原创 2016-03-14 22:31:24 · 1959 阅读 · 0 评论 -
胖子哥的大数据之路(16):大数据采集标准-我们到底需要什么样的数据?
我们讨论的问题聚焦到,要想实现业务目标,我们到底需要什么采集(此处不区分自有,还是外部采买)什么样的用户数据,才能支撑我们的业务目标,即数据采集标准的问题。原创 2016-04-07 17:57:23 · 2965 阅读 · 0 评论 -
胖子哥的大数据之路(13):破题,或从数据整合开始
一、前言 这是关于互联网上一篇文章的读后感,原文标题《大数据成变量,BAT入口生态或生变局》。读这篇文章既有醍醐灌顶之顿悟,亦有如履薄冰之恐惧,阿里好强,动作好快。其实,最近一直在思考当代企业信息化架构EA框架的调整,基本的一个思路是数据上提,与业务架构平齐,不再只是作为业务系统的功能支撑,而是自成一片天地,独立运营。至于数据化运营与现有业务的关系,则可一分为二:其一、可进,进可开疆辟土,基...原创 2018-03-13 09:51:08 · 535 阅读 · 0 评论 -
业务运营指标体系(转载)
数据的一大价值就是建立业务指标体系,用以监控业务日常运营,并预警业务问题,定位问题原因,这算是数据的最早应用形式,前期BI都主要是做指标体系和相应平台的工作。同时,业务的各类人员都应该了解业务的指标体系,这样才能更好的利用指标开展工作,进行数据化运营。 运营指标体系一定是结构化的,而不是零散的,结构化的好处主要有两个:一是当指标发生异常时,能够通过结构化的指标体系来定位问题;二是当...转载 2018-12-25 13:15:19 · 15800 阅读 · 1 评论 -
大数据企业战略规划高级培训课程
本课程是大数据高级培训课程,主要面向企业中层及以上管理人员,IT战略规划部门。理论联系实际,就大数据的应用方向,演进路线和企业大数据战略规划,结合完整的大数据项目实施案例,进行讲解。旨在帮助企业IT战略决策部门解决大数据时代,企业大数据战略面临的各种问题。原创 2014-01-18 10:18:28 · 2167 阅读 · 2 评论 -
Heritrix3.x自定义扩展Extractor
Heritrix3.x与Heritrix1.x版本差异比较大,全新配置模式的引入+扩展接口的变化,同时由于说明文档的匮乏,给Heritrix的开发者带来困惑,前面的文章已经就Heritrix的配置部署和运行做了说明,本文就Heritrix3.x版本就Extractor扩展做出实例说明。原创 2013-12-27 07:33:57 · 1514 阅读 · 0 评论 -
大数据应用之双色球算奖平台总体设计数据规模估算篇
到底什么是大数据呢?选择双色球算奖作为大数据应用的切入点是否合适呢?然后就是让我诧异的1分钟理论很是吓了我一跳的。 说一下自己的理解吧,大数据是指那些很大的数据集,大到传统的数据库软件工具已经无法采集、存储、管理和分析。大数据既有存储规模方面的考虑,同时也涉及到分析计算规模的考虑。之所以选择双色球算奖平台作为大数据应用的案例,也正是考虑到这两个方面的问题。其一,历史投注明细信息的存储,如果采用传统的关系型数据库,肯定是不合适,无论是分区还是分表,都无法解决根本问题。其二、当前投注规模的情况下,进行快速算原创 2013-07-18 09:26:11 · 3000 阅读 · 0 评论 -
大数据应用之双色球算奖平台总体设计大纲篇一
引子:双色球延期开奖,你Hold住了吗 福利彩票走进百姓生活,每期的500w大奖吸引了千万彩民的眼球和关注,备受争议的双色球延期开奖也成了争议的焦点,成为继12306之后,又一个站在风口浪尖的悲催儿。黑幕说,红会说,各种说甚嚣尘上。IT人只做技术事,至于类似美美卡里究竟几个零,一套内衣值几多银子的问题,还是交给干爹们去撕扯吧。当然福彩中心是不是红会,还是交给时间来证明吧。一 概述原创 2013-07-18 09:48:38 · 1811 阅读 · 0 评论 -
大数据应用电子商务之精准推广
平面广告有没有?铺天盖地的电视广告有没有?狂轰滥炸的网络营销有没有?海量群发的电子邮件有没有?百度竞价排名有没有?传统的营销推广方式用可以用四个字来概括:简单、粗暴。而真实效果呢,评价起来也可以提炼出四个字:高价、低效。不考虑目标对象的感受的结果就是垃圾箱、回收站和永久屏蔽的网络站点。这就好比高射炮打蚊子,不仅仅是方向有问题,打出去的炮弹也是成本呢?原创 2013-07-18 09:09:13 · 2205 阅读 · 1 评论 -
大数据应用日志采集之Scribe 安装配置指南
Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用。它能从各种日志源收集日志,存储到一个中央存储系统上,便于进行集中统计分析处理。它为日志的”分布式收集,统一处理”提供了一个可扩展的,高容错的方案。scribe代码很简单,但是安装配置却很复杂,本文记录了作者实际的一次安装的过程,感觉真是不一般的琐原创 2013-07-23 08:49:09 · 1655 阅读 · 0 评论 -
大数据应用日志采集之Scribe演示实例完全解析
Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用。它能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理。它为日志的“分布式收集,统一处理”提供了一个可扩展的,高容错的方案。当中央存储系统的网络或者机器出现故障时,scribe会将日志转存到本地或者另一个位置,当中央存储系统恢复后,scribe会将转存的日志重新传输给中央存储系统。其通常与Hadoop结合使用,scribe用于向HDFS中push日志,而H原创 2013-07-25 10:10:54 · 1828 阅读 · 0 评论 -
大数据应用之:MongoDB从入门到精通你不得不知的21个为什么?
互联网的发展和电子商务平台的崛起,催生了大数据时代的来临,作为大数据典型开发框架的MongoDB成为了No-sql数据库的典型代表。MongoDB从入门到精通你不得不知的21个为什么专为大数据时代,大数据应用系统系统分析、架构设计和平台开发人员而准备。希望能够为大家起到提纲挈领,指明大家学习目标和方向的作用。原创 2013-10-07 19:54:33 · 1847 阅读 · 0 评论 -
大数据应用之HBase数据插入性能优化实测教程
大数据应用之HBase数据插入性能优化实测教程原创 2013-10-09 09:35:29 · 5066 阅读 · 0 评论 -
一张图测试你的Hadoop能力-Hadoop能力测试图谱
大数据是一种信仰,我们一起努力吧。相信这两张图,能改变很多Hadoop从业者的命运。好文要顶,看贴要回,动手测一次吧,这是一次可以改变你命运的机会,张开双臂,让我来迎接大数据时代吧。--谨以此文,献给那些真正懂得大数据的人!原创 2013-10-30 12:45:36 · 1629 阅读 · 0 评论 -
Hadoop专业解决方案之构建Hadoop企业级应用
1.传统应用的基础设施是基于传统数据库访问模式设计的,它不支持Hadoop;2.数据存储在Hadoop之上,实时访问集群中部分数据是可行的;3.Hadoop大数据存储能力使得你可以存储数据集的多个版本,来挑战传统覆写数据方式。原创 2013-11-23 08:27:29 · 1866 阅读 · 0 评论 -
互联网已死-大数据的未来在哪里?
1.互联网已死。2.大数据应用演进路线图。3.传统行业的数据优势。4.大数据的落地实施。大数据必须走一条与传统行业相结合的道路,具体涉及到实施和项目落地,最为关键的一点,就是要一个大数据技术思维+传统行业的业务思维来做实施。结合和改进传统BI的思维方式。大数据的实施,不走寻常路,只是因为脚崴了;回归现实才是天使,无论她是脸着地,还是脚着地,她都是天使。原创 2013-11-26 07:22:41 · 1798 阅读 · 0 评论 -
开源中文分词框架分词效果对比smartcn与IKanalyzer
中文分词一直是自然语言处理的一个痛处,早在08年的时候,就曾经有项目涉及到相关的应用(Lunce构建全文搜索引擎),那时的痛,没想到5年后的今天依然存在,切分效果、扩展支持、业务应用等方面依然不甚理想。收费的版本不提了,原因自不必言表,开源版本中,发现之前曾经活跃的版本,大多已经没落(好几年没更新了),存活下来的寥寥无几。我是一个守旧的人,评估版本的选择有些保守,至少目前为止,只看1.0正式版本之后的版本,0.XX的不在考虑范围之内,用了一个周末的时间,对比了十多款的样子,个人感觉源于中科院ICTCLAS的原创 2013-12-09 15:55:25 · 2693 阅读 · 0 评论 -
断篇-大数据金融行业企业应用几点思考
一、数据挖掘的价值体现 任何数据分析或者挖掘的项目都不会直接产生经济价值和意义,分析出的数据结果既不能给企业直接带来一个客户,也不能帮助企业卖出一件产品。数据分析的价值体现在于业务部门根据分析结果制定相关的经营策略并贯彻执行。二、大数据之困-通道 大数据之困-如何打通底层数据存储到上层数据服务的通道问题,讲成为制约大数据发展的关键因素。当越来越多的人意识到大数据的未来在应用的时候,原创 2013-12-17 07:43:42 · 1044 阅读 · 0 评论 -
大数据挖掘算法篇之K-Means实例
一、引言 K-Means算法是聚类算法中,应用最为广泛的一种。本文基于欧几里得距离公式:d = sqrt((x1-x2)^+(y1-y2)^)计算二维向量间的距离,作为聚类划分的依据,输入数据为二维数据两列数据,输出结果为聚类中心和元素划分结果。输入数据格式如下: 1 18 2 2 3 2 4 0.0 0.0 5 1.0 0.0 6 0.0 1.0 7 2.0原创 2013-12-19 12:00:23 · 2960 阅读 · 0 评论 -
大数据工具篇之Hive与HBase整合完整教程
最近的一次培训,用户特意提到Hadoop环境下HDFS中存储的文件如何才能导入到HBase,关于这部分基于HBase Java API的写入方式,之前曾经有过技术文章共享,本文就不再说明。本文基于Hive执行HDFS批量向HBase导入数据,讲解Hive与HBase的整合问题。这方面的文章已经很多,但是由于版本差异,可操作性不大,本文采用的版本均基于以下版本说明中的版本。原创 2014-01-02 16:31:10 · 1525 阅读 · 0 评论 -
大数据导论之为何需要引入大数据
最近各种客户咨询项目中,往往涉及大数据引入必要性和价值意义的深层次挖掘,用后有数据,有平台,但是不知到底要不要上大数据,为何要上大数据和大数据可以带来哪些价值和意义。本文关于大数据的必要性进行阐述,来源实际项目,算是分享吧。原创 2014-01-07 11:24:09 · 1417 阅读 · 0 评论 -
Apache Atlas元数据管理从入门到实战(1)
一、前言 元数据管理是数据治理非常重要的一个方向,元数据的一致性,可追溯性,是实现数据治理非常重要的一个环节。传统数据情况下,有过多种相对成熟的元数据管理工具,而大数据时代,基于hadoop,最为成熟的,与Hadoop兼容性最好的元数据治理平台则是Apache Atlas。本文是《Apache Atlas元数据管理从入门到实战》系列博文的第1篇。相关内容配套视频课程,已发布在CSDN学院:《...原创 2019-04-14 11:16:22 · 6047 阅读 · 0 评论