自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 Flink初级编程实践

在idea中创建FlinkTest项目,在Java包中编写WordCountData.java,WordCountTokenizer.java,WordCount.java。在Linux系统中安装IntelliJ IDEA,然后使用IntelliJ IDEA工具开发WordCount程序,并打包成JAR文件,提交到Flink中运行。6通过打包成JAR包部署到Flink中运行,想查看输出结果,在浏览器中查看的时候,一直打不开,在百度是看到要使用8081端口,修改后完美解决。

2023-05-23 12:00:00 802 1

原创 hadoop分布式系统框架

指定了表名为“user_table”,并定义了五个列族:“user_id”,“item_id”,“behavior_type”,“user_geohash”和“time”。验流程需要用到两个数据集,先用小数据集small_user.csv进行测试,测试成功后再用大规模数据集raw_user.csv进行最终测试。记录数量:raw_user.csv包含2000万条记录,small_user.csv包含30万条记录,本次使用的是uid不重复的数据。通过以下网站任意选择其中的一个数据集,作为本次项目的分析对象。

2023-04-25 23:19:04 447

原创 数据集从HDFS读入HBase

Dimporttsv.columns=HBASE_ROW_KEY,info:user_id,info:item_id,info:bahaviour_type,info:user_geohash,info:time 指定 CSV 文件中各列数据的映射关系。这里指定了 HBase 表中的列簇和列族。该命令将从 ./small_user.csv 文件中读取数据,将数据按照指定的列簇和列族导入到 user_table 表中。./small_user.csv:指定要导入的 CSV 文件的路径和文件名。

2023-04-25 23:15:47 571 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除