hadoop
文章平均质量分 70
EA7 随风远航!
这个作者很懒,什么都没留下…
展开
-
Flink初级编程实践
在idea中创建FlinkTest项目,在Java包中编写WordCountData.java,WordCountTokenizer.java,WordCount.java。在Linux系统中安装IntelliJ IDEA,然后使用IntelliJ IDEA工具开发WordCount程序,并打包成JAR文件,提交到Flink中运行。6通过打包成JAR包部署到Flink中运行,想查看输出结果,在浏览器中查看的时候,一直打不开,在百度是看到要使用8081端口,修改后完美解决。原创 2023-05-23 12:00:00 · 813 阅读 · 1 评论 -
hadoop分布式系统框架
指定了表名为“user_table”,并定义了五个列族:“user_id”,“item_id”,“behavior_type”,“user_geohash”和“time”。验流程需要用到两个数据集,先用小数据集small_user.csv进行测试,测试成功后再用大规模数据集raw_user.csv进行最终测试。记录数量:raw_user.csv包含2000万条记录,small_user.csv包含30万条记录,本次使用的是uid不重复的数据。通过以下网站任意选择其中的一个数据集,作为本次项目的分析对象。原创 2023-04-25 23:19:04 · 450 阅读 · 0 评论 -
数据集从HDFS读入HBase
Dimporttsv.columns=HBASE_ROW_KEY,info:user_id,info:item_id,info:bahaviour_type,info:user_geohash,info:time 指定 CSV 文件中各列数据的映射关系。这里指定了 HBase 表中的列簇和列族。该命令将从 ./small_user.csv 文件中读取数据,将数据按照指定的列簇和列族导入到 user_table 表中。./small_user.csv:指定要导入的 CSV 文件的路径和文件名。原创 2023-04-25 23:15:47 · 582 阅读 · 1 评论