2021年01月_帅气多汁你天哥

原创 Sprak搭建微博实时流数据UA监控-PRD

效果图:1. 项目说明根据采集工程师实时爬取到的微博数据,实时传输到数据接收服务平台,形成微博博文数据,构建,基于该微博平台实时数据的相应数据仓库,同时做好相应的数据监控工作,用于及时发现数据潜在问题,例如数据暴增骤减等情况,以及其他潜在数据开发需求具体需求说明构建实时数据流仓库以小时为单位,构架小时级的实时数流数据仓库数据监控工作以天和小时数据为维度,来做数据记录数据维度的分钟级,小时级,天级监控,最后通过echarts进行实时变化的曲线图,进行可视化展示Product Requir

2021-01-09 22:22:56 318

原创 Java IO实现文件管理,改名,删除,移动,复制粘贴等

import java.io.File;import java.io.FileNotFoundException;import java.util.ArrayList;import java.util.Collection;import java.util.Collections;import java.util.Date;import java.util.List;import java.util.regex.Matcher;import java.util.regex.Pattern;

2021-01-29 22:36:23 233

原创 Boss爬虫&数据分析ETL&BI数据可视化展示&Echarts

项目网址:http://47.242.82.87:8089/项目效果图:全国的岗位供需项目说明首先着眼于当下严峻的就业形势,我们需要知道各个行业的供需关系以及薪酬范围.大到全国薪酬,小到城市平均薪酬,细致到每个公司历史招聘数据都要保留并加以分析技术栈爬虫:webmagic框架+selenium爬取动态页面Springboos数据交互Dom4j解析数据IO流递归读取文件Linux shell命令Html.css.js流程3.1首先使用爬虫实现动态页面的

2021-01-09 23:17:33 451

原创 Sbt打包出现依赖异常问题

依赖冲突管理ThisBuild / scalaVersion := "2.11.11"ThisBuild / organization := "com.wtx.job014"libraryDependencies ++= Seq( "org.apache.spark" %% "spark-sql" % "2.3.2" % "provided", "org.apache.spark" %% "spark-core" % "2.3.2" % "provided", "or

2021-01-09 22:17:50 636

原创 Echarts&Ajax动态传递数据

控制类@Controllerpublic class HbaseControllor { HbaseReadeTable hbaseReadeTable=new HbaseReadeTable() ; @RequestMapping("getData4Hbase2Echarts") public String getData4Hbase2Echarts(Model model) throws Exception{ JSONArray arr=new JSONArray(); JSON

2021-01-09 22:16:58 407

原创 task not Serializable 集群分布式环境下RDD对jedis对象序列化的要求

首先复习一下知识点:Java 如何序列化对象类要实现Serializable接口,类内外部依赖同样需要实现如果一个属性或者对象不想被序列化,那么就是用transient关键字修饰那么在Java中,什么类型对象不能被序列化线程对象不能被序列化:独立线程外部无法访问,并且线程是为了进行任务的执行,而不是储存链接对象不能被序列化(jdbc):端口用来传输数据,这种链接对象是没有办法序列化的RDD的概念是什么RDD (Resilient Distributed DataSet)弹性分布式数据集，是对

2021-01-09 22:14:44 237 1

原创 key算法问题

2012-01-02 00:23:03首先我们需要两个算法算法1:输入: 2012-01-02 00:23:03输出: 201201020023算法2:输入: 2012 ,1 ,2输出:当天全部2012010200xx key的集合算法1的实现:Scala streaming RDD代码: messages.foreachRDD(x => { x.foreach(part => { val colArray = UrlBase64Util.de

2021-01-09 22:13:23 495

原创 sparkStreaming消费到数据后,Redis的key设计问题

首先,需要确保监控的实时性,stream滑动窗口5秒滑动一次,当stream获取到数据后,需要存到redis的hll数据结构中,那么k-v形式的数据库,k的设计就很关键,如何设计?2012-01-02 00:23:03数据流中存在这样格式的时间,那么按照每5分钟一次的间隔存储数据,可以保证监控的时效以及对集群的负载的一个平衡,那么key的原则每5分钟一次,第5分钟算作前一个,例如 05:00算作00分钟的数据,而05:01算作05的数据这样显而易见的清晰那么同步数据的窗口一定要大于5分钟才可以,我们可

2021-01-09 22:12:25 100

原创搭建Spark实时数据流爬坑指南

为什么要搭建实时数据流?首先不管什么公司,只要是hadoop搭建实时数据项目,那么就要实现第一步,搭建实时数据流,那么不挂你是谁,都不可能直接访问后端组的kafka或者说,集群是公司最核心的东西,需要解耦给你访问那么一般解决方式就是使用springboot搭建实时数据流,让公司其他业务部门,或者采集工程师的数据通过给定的api发送过来springboot就不多说了,来说说实践中遇到的坑技术问题1.Linux curl :简易无头浏览器,使用curl + url地址直接请求2.http get和

2021-01-09 21:56:22 193

原创 Spark-core &Spark-sql &SparkStreaming复习总结

SparkCore架构设计图名词解释1.RDD(Resilient Distributed DataSet)弹性分布式数据集,是对数据集在spark储存和计算过程中的一种抽象是一组只读可分区的分布式数据集合一个RDD包含多个分区Partition(类似mapreduce中的inputSplit,文件大小超过128mb时,默认切分),分区是按照一定规则,将具有相同规则的属性数据放在一起横向上可切分并行计算,以分区partition为切分后的最小储存和计算单元纵向上可以进行内存/外存切换使用,

2021-01-09 21:47:04 242 1

原创 SparkStreaming消费kafka时遇到消费元数据时报错的问题

[2021-01-08 00:21:25,094] WARN [Producer clientId=console-producer] Error while fetching metadatawith correlation id 1 : {wtxKafkaTestls=LEADER_NOT_AVAILABLE} (org.apache.kafka.clients.NetworkClient)之前的topic已经创建过多次,不知道是什么原因,现在正在排错...

2021-01-08 00:26:43 448

原创 sbt-包依赖管理

sbt解决包依赖问题:那个包下的类冲突了就删除就可以,这里删除的spark下的unusedstubclassassemblyMergeStrategy in assembly := {case PathList(“org”,“apache”,“spark”,“unused”,“UnusedStubClass.class”) => MergeStrategy.discardcase x =>val oldStrategy = (assemblyMergeStrategy in assem.

2021-01-07 20:20:50 582

原创 Spring排错总结-找了两个小时的大坑!!!!!!!!!tm的-sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

org.springframework.web.util.NestedServletException: Request processing failed; nested exception is org.thymeleaf.exceptions.TemplateProcessingException: Exception evaluating SpringEL expression: "exception.message" (error) at org.springframework.web.se..

2021-01-03 16:28:07 1851

原创搭建实时数据仓库-微博博文实时数据分析项目说明书PRD以及问题疑难问题解决思路

项目说明根据采集工程师实时爬取到的微博数据,实时传输到数据接收服务平台,形成微博博文数据,构建,基于该微博平台实时数据的相应数据仓库,同时做好相应的数据监控工作,用于及时发现数据潜在问题,例如数据暴增骤减等情况,以及其他潜在数据开发需求具体需求说明构建实时数据流仓库以小时为单位,构架小时级的实时数流数据仓库数据监控工作以天和小时数据为维度,来做数据记录数据维度的分钟级,小时级,天级监控,最后通过echarts进行实时变化的曲线图,进行可视化展示Product Requirement D.

2021-01-02 15:30:25 424

原创 Boss爬虫prd文档

Boss数据分析项目说明首先着眼于当下严峻的就业形势,我们需要知道各个行业的供需关系以及薪酬范围.大到全国薪酬,小到城市平均薪酬,细致到每个公司历史招聘数据都要保留并加以分析技术栈爬虫:webmagic框架+selenium爬取动态页面Springboos数据交互Dom4j解析数据IO流递归读取文件Linux shell命令Html.css.js流程3.1首先使用爬虫实现动态页面的数据捕获3.2 输出流将元数据保存成文件3.3读取数据文件3.4 数据结构化3.5 数据持久化

2021-01-02 02:13:53 226

weixin_49139876的博客