hadoop
文章平均质量分 79
zhangxiaomei1952
统计、数据、python、spss,r
展开
-
hive 解析日志常用的几个函数
大家都知道日志的形式偏非结构化,有很多特殊的字符等等,现总结一些日志中常用或者易用到的函数便于日志数据的提取、解析。 1.get_json_object,底层日志经常会被储存为json字符串的形式,如果想获得各个维度的值,往往需要这个函数把对应的值取出来,具体用法为:get_json_object(action,'$.evt_id') 取出1111027379533此处假设需要解析的字段叫act原创 2017-03-16 23:25:50 · 743 阅读 · 0 评论 -
初识hadoop
hadoop 提供了一个可靠的共享存储和分析系统,hdfs实现存储,mapreduce 实现分析处理,这两部分是它的核心。mapreduce和关系型数据库的区别 1. 关系型数据库处理GB级别数据大小的任务,mapreduce处理PB级别数据大小的任务 2. 关系型数据库处理结构化的数据,mapreduce处理非结构化或者半结构化数据非常有效,因为处理数据时才对数据进行解释 3. 关系型数据往往原创 2017-05-21 21:41:37 · 262 阅读 · 0 评论