hadoop
文章平均质量分 81
xiangjinqi
这个作者很懒,什么都没留下…
展开
-
hadoop mapreduce 测试 mock htable
例一: public class MergePcProfileMapper extends Mapper<LongWritable, Text, Text, Text> { protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedE...原创 2014-05-27 15:35:16 · 184 阅读 · 0 评论 -
hbase coprocessor 应用实践
应用场景,在很多情况下我们只希望复杂的逻辑来过滤数据,得到的数据可能只有1M,但是数据源可能会达到1T,譬如需要知道对iphone比较感兴趣的用户有哪些。 需要过滤里面的字段品牌和相应的权重, 如果全部将数据读入mapreduce意味着较多的IO开销。 下面附上本人的代码 JobTask jobTask = new JobTask(null, new Path("/user/pms/x...原创 2014-09-23 15:22:04 · 97 阅读 · 0 评论 -
数据平台之sqoop实践
sqoop目前用的比较多的是数据仓库的建立,在很多数情况下,同步一个表,需要些sqoop脚本,来同步表,有的时候执行成功与否,数据量多少,数据源表是否更新,都不清楚,而且脚本文件不便于管理。 本次介绍的数据平台具有专业的管理功能。 下面是表的设计 DROP TABLE IF EXISTS task_info; CREATE TABLE task_info(task_id INT,datab...原创 2014-09-23 15:37:14 · 93 阅读 · 0 评论 -
storm 实时
首先创建一个Topology主类, 然后spout是从kafka就收的数据流 KafkaSpout, 第一个bolt会从前面的spout接收数据,做一些初步的处理,传输给下一个bolt 不适应重量级的计算。 j实时UI无法准确的查看数据的执行情况,准确的性能调优存在一定困难。 所以在这里创建了一个抽象类继承BaseBasicBolt ,然后其他的bolt会继承创建的这个抽象类。 可...原创 2014-10-30 16:03:54 · 91 阅读 · 0 评论