大数据笔记
文章平均质量分 69
XUXU_dragon
开始工作了
展开
-
Hive 笔记
在Hive 中创建表时,默认情况下Hive 负责管理数据。这意味着Hive 把数据移入 它的"仓库目录" (warehouse directory) 。另一种选择是创建一个"外部表" (external table) 加载数据到托管表时, Hive 把数据移到仓库目录。例如: CREATE TABlE managed_table (dummy STRING); lOAD DATA I...原创 2015-10-15 14:03:13 · 152 阅读 · 0 评论 -
HBase笔记
HBase 是一个在HDFS 上开发的面向列的分布式数据库。如果需要实时地随机读/ 写超大规模数据集,就可以使用HBase 这- Hadoop 应用。 应用把数据存放在带标签的表中。表囱行和列组成。表格"单元格" (cell)一一由行 和列的坐标交叉决定一一是有版本的。默认情况下,版本号自动分配,是HBase 插 入单元格时的时间戳。单元格的内容是未解释的字节数组。 表中行的键也是字...原创 2015-10-21 18:22:18 · 220 阅读 · 0 评论 -
Sqoop笔记
Sqoop 是一个开掘工具,它允许用户将数据从关系型数据库抽取到 Hadoop 中,用于进一步的处理。抽取出的数据可以被MapReduce 程序使用,也可 以被其他类似于Hive 的工具使用。一旦形成分析结果, Sqoop 便可以将这些结果 导回数据库,供其他客户端使用。 Sqoop 的import 工具会运行一个MapReduce 作业, ì主作业会连接MySQL 数据库 井读取表中的...原创 2015-11-02 18:26:50 · 175 阅读 · 0 评论