【hive】在hive中实现WordCount算法

这里以词频统计为例:

1、准备好自己需要词频统计的文件

我这里以《西游记》为例

2、启动hive                hive

     查看所有数据库           show databases;

     使用想要使用的数据库               use hive;

     查看数据库hive下有哪些数据表和视图        show tables;

3、创建一个表docs            create table docs(line string);

      将西游记这个文件中的数据装载进docs表中

load data local inpath '/home/yqb/hadoop_class/xiyouji_data/xiyouji.txt' overwrite into table docs;

      (这里最重要的就是别把路径弄错了,有时候报错可能是需要自己手动需要把上面的单引号在命令行中改一下)

4、最后一步,将各词汇装进word_count表中,以空格划分(直接复制以下命令即可)

create table word_count as
      select word, count(1) as count from
      (select explode(split(line,' '))as word from docs) w
      group by word
      order by word;

     执行完成后,用select语句查看结果如下

     select * from word_count;



 另加:如果要统计每个字出现的次数,只需要把 order by word; 改成 order by count;

create table word_count as
      select word, count(1) as count from
      (select explode(split(line,' '))as word from docs) w
      group by word
      order by count;

    用select语句查看结果如下

         select * from word_count;

(欢迎大佬指点)

 

  • 7
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小易同学go

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值