Sprak搭建微博实时流数据UA监控-PRD

效果图:
在这里插入图片描述

1. 项目说明

根据采集工程师实时爬取到的微博数据,实时传输到数据接收服务平台,形成微博博文数据,构建,基于该微博平台实时数据的相应数据仓库,同时做好相应的数据监控工作,用于及时发现数据潜在问题,例如数据暴增骤减等情况,以及其他潜在数据开发需求

具体需求说明

  1. 构建实时数据流仓库
    以小时为单位,构架小时级的实时数流数据仓库
  2. 数据监控工作
    以天和小时数据为维度,来做数据记录数据维度的分钟级,小时级,天级监控,最后通过echarts进行实时变化的曲线图,进行可视化展示

Product Requirement Docunment
从业务逻辑角度,讲清楚,如何做,
持续提供具有时间连续性,时间有序性的数据流,文章总数不低于100w条,实际给出2.2亿条数据
数据格式:csv
在这里插入图片描述

将数据流纳入实时数据流疫情处理分析,得到如上需求所需要的数据源
将实时数据流落地,攻坚hive微博小时级实时数据仓库
并对试试数据流进行分钟级,小时级别,天级别的监控,将数据实时上报到关系型数据库
将数据推送到mysql/hbase指定表格中
搭建java web项目,在前段页面中调用后端数据接口,将数据返回到前端中
在前段调用绘图插件,并展示
明确阶段目标和验收标准
风险控制与过程管理

2.需求说明书

在这里插入图片描述

3.技术方案

在这里插入图片描述

4.技术栈总结

Java base64(apach-commen)
Java KafkaAPI
Hadoop Hive
Spring-boot
Scala SparkStreaming API
Sbt
Echarts&ajax动态传参
Java Hbase API
Java Redis API(HrepLogLog)
Sparkstreaming&Kafka 结合
Linux:技术栈

  1. curl 无头浏览器

  2. awk编程 |awk -F ‘\001’ {‘print $x’} 如果有按照规则切分则 $x为第几个变量,如果没有切分则$0就是全部本行输出

  3. ${变量❌x}变量截取字符串

  4. 循环读取控制台输出:while read line;do echo $line done

  5. 判断文件是否存在: if [ -f “./data.txt” ];then fi
    在这里插入图片描述

  6. 输出重定向
    “>” :输出重定向的一个文件,覆盖原来的文件
    “>>”:输出重定向到一个文件,追加到原来的文件
    标准 输出 重定向
    1> 等于 >
    当输入的命令是错误的日志时,不会重定向到指定文件
    错误输出重定向:
    2> :把错误的输出日志重定向到指定文件里,正确的不会
    输出到黑洞
    ls >/dev/null

  7. awk -F {‘print$0’} | while read line;do xxx done
    awk不能和while read line连用,因为awk用来处理linux中的行,管道后,输出是一行,而while read line遍历每行读取,怎么会有结果?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值