大数据
hyperminer
主要从事机器学习,如推荐算法,数据挖掘算法,深度学习等研究,同时会运用大数据框架如hadoop,hive,spark等来存储/计算
展开
-
hadoop笔记
hadoop shell 命令:https://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html给用户授权: hdfs dfs -chmod -R 755 /修改所有者权限:hdfs dfs -chown -R larry /hdfs很多个小文件上传,压缩的好处:namenode中存储了各个文件所在block的位置(该信息原创 2016-11-17 15:10:49 · 800 阅读 · 0 评论 -
OLAP
OLAP又是什么鬼?参考:数据挖掘与数据统计、OLAP之间不同之处是什么? 大数据的OLAP技术OLAP(On-line Analytical Processing,联机分析处理)是在基于数据仓库多维模型的基础上实现的面向分析的各类操作的集合。说人话就是我们的交易数据包含很多信息(属性),我们需要从不同的视角去分析和解读数据:以外卖业务来说,一条交易数据里就包含了很多数据属原创 2016-11-18 11:12:03 · 684 阅读 · 0 评论 -
Cassandra笔记
简介:WIKI :https://zh.wikipedia.org/wiki/CassandraApache Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布式架构于一身。Facebook于2008将 Cassandra 开源,此后,由原创 2016-11-18 11:04:48 · 1663 阅读 · 0 评论 -
spark-job-server
spark rest api包括:livy: http://livy.io/index.htmlspark-job-server: https://github.com/spark-jobserver/spark-jobserverspark运行在yarn上,查看运行进度:>yarn application -list | grep SPARKA原创 2016-11-17 15:23:00 · 4868 阅读 · 0 评论 -
spark安装及入门笔记
spark介绍Spark是个通用的集群计算框架,通过将大量数据集计算任务分配到多台计算机上,提供高效内存计算。如果你熟悉Hadoop,那么你知道分布式计算框架要解决两个问题:如何分发数据和如何分发计算。Hadoop使用HDFS来解决分布式数据问题,MapReduce计算范式提供有效的分布式计算。类似的,Spark拥有多种语言的函数式编程API,提供了除map和reduce之外更多的运算符,这些原创 2016-11-17 15:21:49 · 4645 阅读 · 0 评论 -
hive解析树
Hive的ParseDriver类中,通过antlr生成的语法树AST。例子:Select name,ip from zpc where age > 10 and area in (select area from city)(TOK_QUERY (TOK_FROM (TOK_TABREF (TOK_TABNAME zpc))) (TOK_INSER原创 2016-11-17 15:19:09 · 2956 阅读 · 0 评论 -
HiveQL整理总结
下面是一些常用操作的语句,其他的可以去hive官网查看。grant create to user aaa;//create不需要on database 或者tablegrant drop on database test to user aaa;//drop需要指定database或者tableshow grant user datajingdo_m原创 2016-11-17 15:18:07 · 2248 阅读 · 0 评论 -
Hive安装笔记
Hive安装部署 Hive:数据仓库。存储在hdfs上,使用mR计算。数据以文本形式如txt存储在hdfs上,用户通过hive可以使用传统的sql来对hdfs上的数据文件进行相关操作,并且hive可以将sql转化为MR代码来进行分布式计算。Hive:解释器(将脚本HiveQL解释成java代码,成为mp程序) 编译器(编译java代码),优化器。Hive数据存储在hd原创 2016-11-17 15:16:41 · 519 阅读 · 0 评论 -
Hbase笔记
官方网站:http://hbase.apache.org/programming guide: http://hbase.apache.org/book.html#quickstartHBase 以列为单位聚合数据,基于“对于特定查询,不是所有列的值都是必须的”的假设。列式存储更有利于压缩。比较适合键值对或者有序数据的存放。HBase源于google的BigTable论文。原创 2016-11-17 15:14:54 · 358 阅读 · 0 评论 -
Hbase安装笔记
HBase简介参考:http://www.oschina.net/p/hbase HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBa原创 2016-11-17 15:14:23 · 644 阅读 · 0 评论 -
cassandra笔记
简介:WIKI :https://zh.wikipedia.org/wiki/CassandraApache Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布式架构于一身。Facebook于2008将 Cassandra 开源,此后,由原创 2016-11-17 15:13:25 · 2401 阅读 · 0 评论 -
yarn
yarnApache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。 YARN的基本思想将JobTracker的两个主要功能(资源管理和作业调度原创 2016-11-17 15:12:19 · 1704 阅读 · 0 评论 -
参数服务器笔记
主要用于对分布式机器学习算法/深度学习算法参数优化。简介:http://sanwen8.cn/p/174rUaE.html原理介绍:http://blog.csdn.net/cyh_24/article/details/50545780李沐和陈天奇等国内英才成立的DMLC深度学习项目组:github: https://github.com/d原创 2016-11-18 11:18:44 · 2267 阅读 · 0 评论