大数据
半吊子全栈工匠
半吊子全栈工匠一枚
展开
-
浅析dashboard的10个实现原则
不论是一般的运营/运维系统,还是大/小数据分析,最后的一个环节一般都是数据洞见的可视化。而仪表盘(dashboard)是有关数据可视化的首选工具。但要构...原创 2020-03-21 14:06:03 · 1221 阅读 · 0 评论 -
ES的一知半解
一个互联网应用(例如网上商城),搜索功能基本上是必备的。搜索的解决方案要快,最好有一个零配置和完全免费的搜索模式,能够简单地使用JSON通过HTTP的索引数据。搜索服务器始终可用,并能够从一台扩展到数百台,搜索的实时性要好......Elasticsearch(简称ES)不仅可以解决这些问题,而且可以做更多的事情。ES 是什么ES是基于Lucene的实时搜索和分析引擎,可以用来做全...原创 2019-01-21 08:58:00 · 1160 阅读 · 0 评论 -
知新温故,从知识图谱到图数据库
说到人工智能技术,首先会联想到深度学习、机器学习技术;谈到人工智能应用,很可能会马上想起语音助理、自动驾驶等等。实际上,人工智能要在行业中得到应用的先决条件是首先要对行业建立起认知,只有理解了行业和场景,才能真正智能化。简单的说,就是要建立行业知识图谱,才能给行业AI方案。机器通过人工智能技术与用户的互动,从中获取数据、优化算法,更重要的是构建和完善知识图谱,认知和理解世界,进而服务于这个...原创 2019-01-14 09:09:00 · 18977 阅读 · 1 评论 -
从冯诺伊曼结构看AI
AI, Artificial Intelligence, 人工智能。就像每个人眼中都有一个自己的哈姆雷特一样,每一个看AI 都是不一样的。作为一个老程序员....“什么是AI?”以及AI 和 大数据,机器学习,神经网络,自然语言处理等诸多名词到底有什么关系呢?......原创 2017-09-17 22:28:30 · 1284 阅读 · 0 评论 -
基于AWS使用深度学习的10个Linux命令
在AWS上执行大规模的深度学习处理是一个廉价而且有效的学习和开发方式。花少量的钱就可以使用数十GB的内存,数十个CPU,多个GPU,这是值得推荐的。如果你是使用EC2或者Linux 命令的新人,在云端执行深度学习脚本的时候, 这些命令是非常有效的。翻译 2017-09-04 21:56:53 · 2064 阅读 · 0 评论 -
7行Python代码的人脸识别
随着去年alphago 的震撼表现,AI 再次成为科技公司的宠儿。AI涉及的领域众多,图像识别中的人脸识别是其中一个有趣的分支。百度的BFR,Face++的开放平台,汉王,讯飞等等都提供了人脸识别的API,对于老码农而言,自己写一小段代码,来看看一张图片中有几个人,没有高大上,只是觉得好玩,而且只需要7行代码。原创 2017-03-20 08:41:57 · 77099 阅读 · 19 评论 -
10行python代码的词云
关于词云wordcloud什么是词云呢?词云又叫文字云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思。现在,可以从网络上找到各种各样的词云,下面一图来自沈浩老师的微博:从百度图片中可以看到更多制作好的词云,例如词云制作有很多工具…..从技术上来看,词云是一种有趣的数据可视化方法,互联网上有很多的现成的工具原创 2017-03-06 10:22:56 · 18550 阅读 · 2 评论 -
全栈必备 面向数据的架构
数据是系统的核心,在面向服务的架构之外,可以考虑面向数据的架构方式。面向数据的服务架构需要支持多数据源异构,支持动态数据和静态数据,既支持公有云部署又支持私有云部署,提供多种数据应用和数据产品......原创 2016-11-30 20:49:43 · 5016 阅读 · 1 评论 -
大数据道场(HDP SandBox) 初探
这里的大数据道场是以HDP sandbox 为基础的,安装好了virtual box,导入了sandbox镜像之后,启动虚拟机,来看看我们的大数据道场吧。访问方式......文件传输......两句话简述hadoop 中的各种服务......原创 2016-09-27 20:39:51 · 7835 阅读 · 0 评论 -
代码世界中的Lambda
Lambda表达式基于数学中的λ演算得名,可以看作是匿名函数,可以代替表达式,函数,闭包等,也支持类型推论,可以远离匿名内部类。Lambda的目的是让程序员能够对程序行为进行抽象,把代码行为看作数据。Java、Python和大数据云计算中的Lambda分别是什么样的?原创 2016-09-23 20:28:38 · 3975 阅读 · 0 评论 -
地铁译:Spark for python developers ---Spark流式数据处理
列举了流式处理架构应用的基础,描述了他们的挑战,约束,和优势。深入了解了Spark Streaming 的内部工作原理包括如何Spark Core 适用,以及与Spark SQL 和 Spark MLlib对话, 通过TCP sockets 解释了流处理概念。使用Kafka最大限度地增加了流处理架构的弹性,讨论了上下行数据与消费者之间的解耦合。 还讨论了Flume—这个可靠,灵活,伸缩性数据摄取和传输的流水线系统。翻译 2016-06-15 09:22:28 · 23497 阅读 · 1 评论 -
大数据架构的典型方法和方式
NoSQL 技术为应用提供了缓存和搜索特性,但既然是处理数据,就需要定义一种方法来处理各种数据流,以便能够给用户输出见解或数据服务。通过审视被IT组织使用广泛的数据架构来定义处理的拓扑结构。当考虑服务水平SLA时 需要进行结构分割。最后,讨论一个特殊种类的架构, lambda这一多种类型架构的结合体。原创 2016-06-04 15:15:30 · 31765 阅读 · 2 评论 -
地铁译:Spark for python developers ---Spark处理后的数据可视化
数据可视化能够提取数据的结论见解和趋势。快速浏览Python 生态系统中的可视化工具,重点把Bokeh 作为渲染和展示大数据集的强劲工具。 Bokeh 是Python Anaconda 生态系统的一部分......翻译 2016-06-25 11:31:50 · 10329 阅读 · 1 评论 -
地铁译:Spark for python developers ---Spark的数据戏法
聚焦在 Twitter 上关于Apache Spark的数据, 这些是准备用于机器学习和流式处理应用的数据。 重点是如何通过分布式网络交换代码和数据,获得 串行化, 持久化 , 调度和缓存的实战经验 。 认真使用 Spark SQL, 交互性探索结构化和半结构化数据. Spark SQL 的基础数据结构是 Spark dataframe, Spark dataframe 受到了翻译 2016-05-21 20:31:30 · 16023 阅读 · 0 评论 -
架构大数据分析应用
这是《Scalable Big Data Architecture》一书的翻译笔记和读书札记,融入自己的部分观点 ….典型使用场景....大数据生态系统.....原创 2016-05-18 21:19:50 · 17561 阅读 · 3 评论 -
地铁译:Spark for python developers ---Spark与数据的机器学习
机器学习可以从数据中得到有用的见解. 目标是纵观Spark MLlib,采用合适的算法从数据集中生成见解。对于 Twitter的数据集, 采用非监督集群算法来区分与Apache Spark相关的tweets . 初始输入是混合在一起的tweets。 首先提取相关特性, 然后在数据集中使用机器学习算法 , 最后评估结果和性能.翻译 2016-05-30 09:11:27 · 12911 阅读 · 1 评论 -
大数据时代的企业管理——读《量化》的随手札记
量化分析是组织发展计划的基石,也是解决重要组织问题的工具。1. 数据时最简单的信息形式,通常是数字或常量2. 指标将真正有关的数据的分组,使数据的含义更清晰3. 信息添加了上下文,使指标更好理解4. 量化分析做完整的描述,全面解答根本问题,其中要用到数据,指标,信息及其他分析手段原创 2014-09-14 16:03:21 · 2711 阅读 · 0 评论 -
大数据技能修炼的个人道场
大数据技术火热而且火爆,学习大数据的课程和资料也泛滥如潮,而大数据研发环境又不是随便就可以搭建起来的,如何有一个自己随时可用的大数据修炼道场呢?网上有很多hadoop单机版的搭建教程,但大多是基础组件,如果想窥探Hadoop 的整个生态系统,并建立一个人的大数据环境,从而修炼大数据的各种技术,我觉得非 HDP 的Sandbox 莫属了......原创 2016-02-14 20:28:12 · 3227 阅读 · 2 评论 -
NoSQL 与大数据
概览一下大数据项目中可以使用的数据存储技术,展示如何使用以及它们的区别。先理解一下NoSQL领域中各种不同的技术:key/value, 列存储,文档型和graph 图存储,然后聚焦于Couchbase 和 ElasticSearch,原创 2016-05-25 22:17:59 · 36918 阅读 · 2 评论