大数据
文章平均质量分 91
dumbbellyang
具有5年J2EE web及Spring boot微服务架构应用维护开发设计经验,7年移动应用后端服务整合集成开发设计经验,9年大型制造业工管,品管数据仓库及生管SCM开发设计经验的老程序员和资深架构设计师。
展开
-
DT大数据梦工厂 蘑菇云行动前传 学习笔记之一
虽然在几年前学习BI时就开始关注大数据领域,也下载了大数据相关资料,购买了《大数据云图》的书籍,但是真正下决心学习大数据,并作为自己未来几年的努力方向,却是在今年换了工作,偶然下载大数据视频,与DT大数据梦工厂结缘之后。 当时下载到王家林老师的Spark纯实战公益大讲坛的视频, 观看之后觉得深入浅出,非常容易上手,就决定要开始学习Scala语言,研究Spark技术,未来原创 2016-07-31 16:26:03 · 974 阅读 · 0 评论 -
Spark 大数据中文分词统计(三) Scala语言实现分词统计
Java版的Spark大数据中文分词统计程序完成之后,又经过一周的努力,把Scala版的Spark大数据中文分词统计程序也搞出来了,在此分享给各位想学习Spark的朋友。 如下是程序最终运行的界面截图,和Java版差别不大: 如下是Scala工程结构: 当你在工程主类文件WordCounter.scala上单击右原创 2016-08-21 00:43:44 · 12830 阅读 · 4 评论 -
Spark 大数据中文分词统计 (一) 开发环境搭建
几年前搞BI项目时就听说过大数据技术,当时也买了书,可惜没有认真去学。几年5月份开始,报名参加王家林老师的大数据蘑菇云行动,才算真正开始学习Spark,学习大数据技术。 网上很多Spark的例子都是经典的WordCount example,可惜都是拿那个英文的readme文件,分行分词统计,对于中文其实并不适用。所以便想着写一个能处理中文的WordCount,对一原创 2016-08-13 10:07:13 · 4652 阅读 · 1 评论 -
Spark 大数据中文分词统计(二) Java语言实现分词统计
上一篇文章中完成了Windows环境下Spark开发环境的搭建,这一篇来谈一下使用Java语言,基于纯Java语言、使用MapReduce模式以及Spark框架进行中文分词统计的编程实践。 进行中文处理,中文分词是首先要考虑的。这里选用了IKAnalyzer,因为原来做论文时用过,接口简单,使用方便,而且开源,也很好设定。 下载地址为:htt原创 2016-08-13 12:13:57 · 8226 阅读 · 0 评论 -
基于Spark1.6使用Spark SQL和sqlite数据库进行诗歌查询及自动集句
基于Spark1.6框架,采用SparkSQL和sqlite数据库,把唐诗三百首,宋诗三百首和元明清诗精选导入数据库,使用Scala语言,实现了基于来源、体裁、作者和内容的浏览检索,并对依据平仄和韵律进行自动集句进行了初步尝试。原创 2017-10-15 18:53:00 · 2486 阅读 · 1 评论 -
Windows 7平台利用Vmware Workstation 11虚拟机搭建Hadoop 2.7.4基于Ubuntu kylin 14.04集群环境
本文总结记录了在Windows 7平台上,使用Vmware Workstation 11,基于Ubuntu kylin 14.04的版本,搭建hadoop 2.7.4集群的详细步骤,包括虚拟机的SSH配置,和hadoop的设置。原创 2017-11-12 11:41:08 · 447 阅读 · 0 评论 -
基于Vmware Workstation上的hadoop集群搭建Spark集群
在本博客中,总结了如何在前一篇博客在Windows 7上利用Vmware Workstation搭建Ubuntu kylin 14.04的hadoop集群成功的基础上,安装Scala,部署Spark,配置Spark搭建Spark集群的详细步骤。原创 2017-11-13 20:31:50 · 1392 阅读 · 0 评论