![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 73
一只楠喃
一只大数据路上的程序媛️BUT目前处于自动驾驶仿真行业
展开
-
面试中的项目介绍怎么介绍?从哪些方面介绍?一文搞明白(大数据方向,其他方向可借鉴)
面试中,我们肯定会被问到的一个问题就是,你介绍一下你的项目,那到底怎么描述才是面试官满意的呢,我这里整理了几个问题通用问题大家的项目肯定是不一样的,但是这些问题就是可以共同使用,用于项目介绍1、介绍一下你们的项目主要就是从项目背景、目的、以及业务的大的需求方向入手,简要说明项目做了什么,为什么做,怎么做的2、数仓架构是什么? 用到了哪些技术介绍项目中用到了哪些的技术,重点技术要说明选择的原因。技术的架构是什么?数仓架构?(粗略回答)3、你们的数仓分了几层?根据项目的数仓回答即可4、每层.原创 2022-05-02 08:30:51 · 2468 阅读 · 0 评论 -
如何设计好数仓?数仓到底是什么?---详解
这一篇看完还不会数仓?我不信!原创 2021-12-17 14:52:15 · 2514 阅读 · 2 评论 -
数据仓库各层到底在做什么?(ODS,DWD,DWM,DWS,ADS)
一只搞不明白数据仓库么??看这个详解你就一定懂了原创 2021-12-16 15:31:34 · 3960 阅读 · 0 评论 -
❤️常用Linux命令(分类详解!!)❤️
Linux常用命令一、文件与目录操作1.1 ls/ll命令1.2 rm命令1.3 cd命令1.4 pwd命令1.5 tree树形结构1.6 mkdir命令1.7 mv命令1.8 cp命令1.9 ln命令1.10 touch命令1.11 find命令1.12 whereis命令二、关机三、系统(信息及日志位置)3.1 系统信息3.2系统日志放置位置四、文件内容4.1 查看文件内容4.2 内部搜索4.3 修改文件内容4.4 终止当前操作4.5 grep命令4.6 sed 命令4.7 sort 命令4.8 c..原创 2021-09-29 20:03:39 · 767 阅读 · 1 评论 -
大数据实时+离线项目架构----智慧物流大数据平台(超流行框架!)
智慧物流大数据平台文章目录智慧物流大数据平台一、项目背景二、逻辑架构三、解决方案技术亮点:数据流转四、项目的技术选型4.1流式处理平台4.2 分布式计算平台4.3 海量数据存储框架软件版本总结一、项目背景本项目基于一家大型物流公司研发的智慧物流大数据平台。该物流公司是国内综合性快递、物流服务商,并在全国各地都有覆盖的网点。经过多年的积累、经营以及布局,拥有大规模的客户群,日订单达上千万。如此规模的业务数据量,传统的数据处理技术已经不能满足企业的经营分析需求。公司需要基于大数据技术构建数据中心,从而挖原创 2021-07-06 17:32:24 · 5215 阅读 · 4 评论 -
Spark(StructuredStreaming)从Mysql读取数据写入Mysql表(自增ID)
import java.sql.{Connection, DriverManager}import java.util.Propertiesimport org.apache.spark.sql.{DataFrame, DataFrameReader, SparkSession}import org.apache.spark.{SparkConf, SparkContext}class RWSpark { def main(args: Array[String]): Unit = { .原创 2021-07-05 17:02:40 · 857 阅读 · 1 评论 -
Flink1.12-End-to-End Exactly-Once一次性语义
流处理引擎通常为应用程序提供了三种数据处理语义:最多一次、至少一次和精确一次。如下是对这些不同处理语义的宽松定义(一致性由弱到强):At most noce < At least once < Exactly once < End to End Exactly onceAt-most-once-最多一次有可能会有数据丢失这本质上是简单的恢复方式,也就是直接从失败处的下个数据开始恢复程序,之前的失败数据处理就不管了。可以保证数据或事件最多由应用程序中的所有算子处理一次。这意味着如果原创 2021-07-02 15:51:51 · 526 阅读 · 0 评论 -
Flink1.12之双流Join详解
双流Join是Flink面试的高频问题:Join大体分类只有两种:Window Join和Interval Join。Window Join又可以根据Window的类型细分出3种:Tumbling Window JoinSliding Window JoinSession Widnow JoinWindows类型的join都是利用window的机制,先将数据缓存在Window State中,当窗口触发计算时,执行join操作。interval join也是利用state存储数据再处理,区别在于原创 2021-06-29 17:57:09 · 890 阅读 · 1 评论 -
Flink1.12-四大基石详解
Flink之所以能这么流行,离不开它最重要的四个基石:Checkpoint、State、Time、Window。Flink-Window在流处理应用中,数据是连续不断的,有时我们需要做一些聚合类的处理,例如:在过去的1分钟内有多少用户点击了我们的网页。在这种情况下,我们必须定义一个窗口(window),用来收集最近1分钟内的数据,并对这个窗口内的数据进行计算。1.1 按照time和count分类time-window:时间窗口:根据时间划分窗口,如:每xx分钟统计最近xx分钟的数据...原创 2021-06-29 11:47:32 · 753 阅读 · 0 评论 -
Flink1.12流批一体API
Flink1.12流批一体API Flink 的核心 API 最初是针对特定的场景设计的,尽管 Table API / SQL 针对流处理和批处理已经实现了统一的 API,但当用户使用较底层的 API 时,仍然需要在批处理(DataSet API)和流处理(DataStream API)这两种不同的 API 之间进行选择。鉴于批处理是流处理的一种特例,将这两种 API 合并成统一的 API。Flink 应用程序结构主要包含三部分,Source、Transformation、Sink。1、Flink的数原创 2021-06-24 08:17:03 · 415 阅读 · 2 评论 -
大数据三种主流架构(Lambda、Kappa、IOTA)
数据湖内的数据在利用的时候一般会遵循Lambda架构或者Kappa架构或IOTA架构等数据处理的架构思想为指导。 当然,不遵循这两种架构思想也是可以的,如果你有自己的想法去做设计也是没问题的。只是,一般Lambda架构和Kappa架构作为成熟的大数据分析架构,用在处理数据湖内的数据也是很适合的。原创 2021-06-23 21:29:02 · 7668 阅读 · 2 评论 -
吐血整理50家企业真实大数据面试题!!学长实测,真实面试!!快收藏!
文章目录前言京东面试题58面试题新浪面试题搜狐面试题360面试题小米面试题顺丰面试题OPPO面试题VIVO面试题华为面试题boss直聘面试题搜狗金融面试题瓜子二手车面试题猎豹移动面试题作业盒子面试题每日优鲜美团面试要求快手面试题学长2新美互通面试题金山云面试题图新瀚合面试题中创软件面试题清华同方面试题柠檬微趣面试题量化派面试题天阳科技面试题泰康保险面试题软通动力面试题乐元素面试题北京国信博飞面试题知因智慧面试题考满分公司面试题亿联银行(石景山瑞达广场)面试题洋葱科技面试题北京卓越讯通面试题环信面试题e代驾面原创 2021-06-21 17:21:20 · 3115 阅读 · 0 评论 -
大数据面试题--最真实面试总结!!BAT等一线大厂,学长们实测!!
今年我们大三的学长学姐要找实习了,大概整理了一下他们的面试题,问出来的!!!!抓紧收藏!!准备要校招的学长学姐!一定要码好!!这一篇是一部分普通企业和BAT大厂的面试,后续还有京东、58、搜狐、小米等等公司的,等我整理好!!后续我会把这些面试进行综合的总结并附答案,等我啊!这些是普通的公司学长11)技术框架部分:(1)面试官会根据面试者简历上的技能点进行考察。(注意技能点描述用词,不要随便用熟悉,觉得特别熟的可以说熟练使用)(2)常用的大数据框架是肯定会问的,比如hive、spark、kafk原创 2021-06-21 14:35:30 · 1877 阅读 · 2 评论 -
SQL异常:java.sql.SQLException: No value specified for parameter 1
运行Spark程序写入Mysql表时报java.sql.SQLException: No value specified for parameter 1异常原因:没有置SQL语句中占位符的值源代码:原创 2021-06-08 20:29:38 · 1322 阅读 · 0 评论 -
Json转换Bean太过复杂?试试阿里巴巴的FastJSON
阿里巴巴的JSON和BEAN的快速转化库FastJSONFastJSON阿里巴巴JSON库:fastJson,既能解析JSON为Bean对象,又能转换Bean对象为JSON字符串]()为什么使用fastJson解析??fastJson解析Json字符串时,使用起来比较简单,此外库基于Java语言开发,对JavaBean对象支持非常的好,对Scala语言支持不好,所以MessageBean使用Java语言定义的,没有使用Scala语言。JSON转Bean转换JSON为Bean对象:JSON.par原创 2021-05-27 16:16:00 · 567 阅读 · 0 评论 -
Scala面向对象类的定义
Scala面向对象类的定义Scala面向对象类的定义类的定义关键字:class普通的类,通过new来构建类的实例全局多例的:在一个程序中可以构建多个实例成员属性的定义直接在类的内部声明每个成员属性,可以为var类型也可以为val类型注意:Scala中会自动为每个成员属性构建getter and setter方法,不用自己申明var有get and setval只有get,因为val不可变成员方法的定义与Java中定义普通的方法时一致的只需要根据语法定义即原创 2021-04-12 11:40:21 · 151 阅读 · 0 评论 -
Scala数组、集合、元组
Scala数组、集合、元组数组与集合的分类Scala中的集合和数组的分类**可变:mutable可变指的是元素的值或者长度是可变的不可变:immutable不可变的指的是元素的值或者长度是不可变的推荐使用不可变工作场景经常需要做可变的集合实现的时候初始化:构建一个可变的处理完成以后:转换为一个不可变的可变数组和可变集合可变:mutable,指的是数组或集合中的元素的值可变或者长度可变库 scala.collection.mut原创 2021-04-09 16:50:49 · 296 阅读 · 0 评论 -
scala方法与函数
scala方法与函数方法的定义及语法规则方法与函数的区别Java:不区分函数和方法,因为Java是面向对象的 public 返回值 方法名(参数){ 方法体 }方法:由方法名、参数、方法体构成,一般指的是类中定义的函数即为方法函数:由函数名、参数、函数体构成,一般指的是可以独立构建的称为函数Scala中定义方法的语法def funcName(args1:Type1,args2:Type2……):ResultType = { //方法体}栗子:定义一个原创 2021-04-08 09:38:06 · 124 阅读 · 0 评论 -
scala基础语法
scala基础语法基础语法:变量及常量变量的定义语法及测试*功能:定义一个值可变的变量语法var 变量名称:数据类型 = 值Java中的写法:String name = “djn”测试scala> var a:String = "djn"a: String = djnscala> println(a)djnscala> a = "sky"a: String = skyscala> println(a)skyscala&原创 2021-04-08 09:30:14 · 134 阅读 · 0 评论 -
Scala入门及安装
Scala入门及安装Scala的介绍Scala的官网:https://www.scala-lang.org/在这里插入图片描述Scala是一门集成了面向对象编程和面向函数式编程的高级语言Scala通过静态类型避免复杂程序中的bugScala基于JVM可以实现简单的访问高性能的JVM生态圈Scala的定义Scala是一个基于JVM的多范式编程语言多范式:面向对象 + 函数式编程基于JVM:可移植性非常好所写的代码最终也是编译为.class文件放在JVM中运行Scala可以原创 2021-04-08 09:16:40 · 183 阅读 · 0 评论 -
Cloudera Manager安装教程
ClouderaManager环境安装前准备准备三台虚拟机,其中一台作为我们的主节点,安装我们的ClouderaManager Server与ClouderaManager agent,另外两台作为我们的从节点只安装我们的clouderaManager agent机器规划如下1.1、搭建3台服务器搭建3台服务器(克隆或者新建)1.2、修改网卡vim /etc/udev/rules.d/70-persistent-net.rules1.3、修改ip地址vim /etc/sysconfi原创 2020-12-18 10:16:30 · 1116 阅读 · 5 评论 -
Linux下载慢,切换国内端
发现下载过慢的时候cd /etc/yum.repos.d/mv CentOS-Base.repo CentOS-Base.repo.backupwget http://mirrors.163.com/.help/CentOS6-Base-163.repomv CentOS6-Base-163.repo CentOS-Base.repoyum clean all原创 2020-12-02 11:42:05 · 186 阅读 · 0 评论 -
Hive的优化
Hive的优化1、Fetch的抓取当set hive.fetch.task.conversion=none;简单查询会转化为Mapreduce程序,查询较慢当set hive.fetch.task.conversion=more;简单查询不会转化为Mapreduce程序,查询较快2、本地模式计算任务在提交任务的节点上(本地)执行,不会提交到yarn在少量数据的前提下,开启本地模式,Mapreduce任务不提交到Yarn,任务不提交到Yarn,任务的执行省去了Yarn的调度时间,可以加快查询效率原创 2020-11-25 20:39:43 · 341 阅读 · 1 评论 -
DataNode 的目录结构
DataNode 的目录结构一次写入,多次读出在/export/servers/hadoop2.6.0cdh5.14.0/hadoopDatas/datanodeDatas/current这个目录下查看版本号[root@node01 current]# cat VERSION #Thu Mar 14 07:58:46 CST 2019storageID=DS-47bcc6d5-c9b7-4c88-9cc8-6154b8a2bf39clusterID=CID-dac2e9fa-65d2-4963-a原创 2020-10-12 15:51:56 · 569 阅读 · 0 评论 -
多次格式化,datanode未能启动,出现IO异常,datanode无法启动
多次格式化,datanode未能启动,出现IO异常,datanode无法启动出现异常的原因解决办法出现异常的原因进行多次格式化:bin/hdfs namenode在主节点启动dfs发现主从节点启动dfs时datanode未能启动查看datanode的日志发现异常(/export/servers/hadoop-2.6.0-cdh5.14.0/logs/hadoop-root-datanode-node02.log)解决办法进入cd /export/servers/hadoop-2.6.0原创 2020-10-08 21:10:29 · 804 阅读 · 0 评论 -
集群:机架感知(连接到交换机)(文件找不到异常)
机架感知机架感知需要人为进行配置,编写Python脚本“RackAware.py”。内容为服务器IP与交换机的对应关系。(开源hadoop,使用RackAware.sh)#!/usr/bin/python #-*-coding:UTF-8 -*- import sys rack = { "12.12.3.1":"DW19-SW001", "12.12.3.2":"DW19-SW001", "12.12.3.3":"DW19-SW原创 2020-10-08 18:03:36 · 793 阅读 · 0 评论 -
hadoop安装部署
hadoop安装部署这里写目录标题hadoop安装部署安装流程1、Hadoop安装部署1、1Hadoop安装部署安装流程1、 上传软件包到管理节点,在管理节点解压并配置2、 将修改完的解压包,远程拷贝到所有的从节点3、 启动软件1、Hadoop安装部署1、1Hadoop安装部署1、 软件包上传并解压a) tar -zxvf hadoop-2.6.0-cdh5.14.0-with-centos6.9.tar.gz -C …/servers/2、 第二步查看hadoop支持的压缩方式以及本原创 2020-10-06 20:00:13 · 39123 阅读 · 0 评论