
大数据物流项目
文章平均质量分 92
出自IT教育大牌机构的真实企业项目 最新更新: 2022.1.3
优惠券已抵扣
余额抵扣
还需支付
¥69.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
AIMaynor
个人博客:maynor1024.live,ai网站: vlink.cc/maynorai
展开
-
物流项目面试题 整理终版
物流项目问题1、物流项目的背景介绍(行业、特点、案例、痛点)1)、行业背景介绍: 自从国内电商购物节开始以后,每年用户电商APP购买物品增加,快递数量指数级别增长。2)、物流行业特点:物流行业属于复合型产业,实时产生大量的业务数据,需要关联性分析处理。3)、项目背景介绍:基于上述诉求,需要将快递物流产生相关业务数据,存储到大数据平台引擎中,进行分析(离线报表和实时查询检索)。4)、物流大数据作用物流大数据应用对于物流企业来讲具有以下3个方面的重要作用提高物流的智能化水平降低物流成本提高用户原创 2021-07-05 11:34:28 · 1748 阅读 · 2 评论 -
Docker容器基本使用 | Note_Logistics_Day02
虚拟化(Virtualization),在Windows系统上安装VMWare虚拟化软件,可以将物理机器资源虚拟化到机器上(VM),在虚拟机上安装操作系统,运行应用程序。在计算机中,虚拟化(英语:Virtualization)是一种资源管理技术,是将计算机的各种实体资源,予以抽象、转换后呈现出来,打破实体结构间的不可切割的障碍,使用户可以比原来的组态更好的方式来应用这些资源。原创 2021-05-18 18:15:31 · 2523 阅读 · 0 评论 -
关于物流项目面试可能会被问到的20题总结
20题30min面试总结原创 2022-05-12 19:47:01 · 1448 阅读 · 0 评论 -
大数据物流项目:Structured Streaming(以结构化方式处理流式数据,底层分析引擎SparkSQL引擎)(十四)
集成Kafka之实时增量ETL(DSL)原创 2021-07-15 21:21:28 · 596 阅读 · 3 评论 -
大数据物流项目:Structured Streaming(内置数据源、自定义Sink(2种方式)和集成Kafka)(十三)
SparkStreaming 不足 。。。。。 StructuredStreaming 设计思想原创 2021-07-15 21:14:06 · 598 阅读 · 1 评论 -
大数据物流项目:Docker 入门使用(二)
Docker 容器是什么安装及常用命令讲解原创 2021-07-04 15:21:46 · 579 阅读 · 0 评论 -
对于一般大数据物流项目的面试题(问题+答案)
1、数据采集如何完成OGG 不要涉及,Oracle DBA完成Canal数据采集,一定知道高可用HA集群模式2、数据量大小Kafka topic 数据存储生命周期(多久)Kafka Topic 个数及分区数和副本Kafka 集群规模及机器配置3、实时增量ETL程序开发,为什么选择使用StructuredStreaming??重点知识点4、消费Kafka数据几种方式及区别,如何保存偏移量?SparkStreaming Checkpoint或自己管理StructuredStreaming原创 2021-08-02 16:42:00 · 1553 阅读 · 0 评论 -
十年项目经验面试官亲传大数据面试__大数据面试独孤九剑
> 大家好,我是**ChinaManor**,直译过来就是中国码农的意思,俺希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。 面试之前,需要针对每个大数据项目,整理一套属于自己基础知识,必须熟记于心原创 2021-06-11 15:38:26 · 2319 阅读 · 15 评论 -
大数据物流项目:概述及Docker入门(一)
技术选型原创 2021-07-01 17:27:44 · 1246 阅读 · 0 评论 -
大数据物流项目:业务服务器和大数据服务器(三)
业务服务器数据库 物流系统Logistics:Oracle数据库,运行在Docker容器 客户关系管理系统CRM:MySQL 数据库,运行在Docker容器原创 2021-07-04 15:25:53 · 470 阅读 · 0 评论 -
大数据物流项目:业务服务器和大数据服务器(四)
如何将业务系统(仅仅以物流系统Logistics和客户关系管理系统CRM为例)实时增量采集数据到分布式消息队列Kafka(1个业务系统存储1个Topic:一对一)。MySQL数据库(CRM系统):使用`Canal`框架实时采集原创 2021-07-04 15:32:12 · 580 阅读 · 0 评论 -
大数据物流项目:Kudu 操作命令(六)
存储引擎`Kudu`,类似HBase数据库,由Cloudera公司开发,目的取代HDFS和HBase框架,原创 2021-07-11 10:15:45 · 633 阅读 · 0 评论 -
大数据物流项目:实时增量ETL存储Kudu(七)开发环境初始化
Kudu 存储引擎,类似HBase数据库,存储数据,诞生目的:取代HDFS和HBase,既能够实现随机读写数据,又能够批量加载.原创 2021-05-25 19:48:23 · 1503 阅读 · 0 评论 -
大数据物流项目:实时增量ETL存储Kudu(八)
无论是OGG采集数据还是Canal采集数据,JSON数据各式字段,基本一致,所以定义JavaBean,分别解析封装数据到JavaBean对象1)、OGG采集JSON数据:7个字段2)、Canal采集JSON数据:12个字段1)、定义 Bean 对象基类table,因此将该属性作为公共属性进行提取,抽象成基类。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zmcLPflD-1652014600916)(1616053553019.)]/**原创 2021-05-26 18:54:04 · 1280 阅读 · 0 评论 -
大数据物流项目:实时增量ETL存储Kudu代码开发(九)
1、完善业务数据(物流系统和CRM)ETL转换 对51张表数据进行转换POJO对象2、将ETL后数据,保存“save”到Kudu表 insert 插入更新数据 update delete 删除数据原创 2021-05-27 14:26:14 · 1258 阅读 · 1 评论 -
大数据物流项目:主题及指标开发之如何对Kudu表数据分析【离线报表分析(1个主题)】(十)
Logistics_Day10:主题及指标开发 主要讲解:实时ETL转换开发,编写结构化流(StructuredStreaming)程序,实时从Kafka消费数据,进行ETL转换处理,最终保存到Ku.原创 2021-05-28 16:31:28 · 1284 阅读 · 1 评论 -
大数据物流项目:主题及指标开发之即席查询引擎Impala(分布式内存计算)(十一)
即席查询(Ad Hoc)是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。 即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是由用户自定义查询条件的。原创 2022-01-03 14:39:25 · 1198 阅读 · 0 评论 -
大数据物流项目:主题及报表开发(十二)
主要讲解:离线报表数据分析(2个主题:运单主题(讲解)和仓库主题(作业))。原创 2021-06-01 20:20:45 · 404 阅读 · 2 评论 -
Note_Logistics_Day14 ClickHouse 快速入门
ClickHouse是一个面向列的数据库管理系统(DBMS),用于在线分析处理查询(OLAP)。官网:https://clickhouse.tech/文档:https://clickhouse.tech/docs/en/、https://clickhouse.tech/docs/zh/logo 图标:表示数据为列式存储,红色部分表示要查询数据[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-t2AqM3du-1622726121443)(/img/logo.svg)]原创 2021-06-03 21:15:33 · 422 阅读 · 1 评论 -
Logistics_Day15:ClickHouse 存储引擎
ClickHouse提供了多种不同的表引擎,表引擎可以简单理解为不同类型的表。表引擎(即表的类型)决定了:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B5VQFSQv-1641169977011)(/img/1616662005733-1622626089308.png)]文档:https://clickhouse.tech/docs/zh/engines/table-engines/1)、MergeTree引擎(合并树及系列引擎)原创 2022-01-03 08:33:30 · 664 阅读 · 0 评论 -
Note_Logistics_Day16:ClickHouse API 使用
ClickHouse提供JDBC方式访问数据库,进行DDL和DML操作。原创 2021-06-07 22:53:26 · 442 阅读 · 0 评论 -
Logistics_Day17:自定义外部数据源ClickHouse
从Spark 1.3版本开始,提供一套完整外部数据源接口(External DataSource Interface)(第一代API)。比如SparkSQL内置数据源:JDBC、JSON、CSV等都是基于DataSource API V1实现功能。自定义外部数据源实现从HBase表批量加载load和保存save数据可以参考提供【06.扩展】提供代码实现,以及视频讲解。接口实现非常简单;能够满足大部分的使用场景;扩展能力有限,难以下推其他算子;缺乏对列式存储读取的支持;写操作不支持事务;原创 2022-01-03 10:25:53 · 1230 阅读 · 0 评论 -
大数据必知必会系列__面试官问能不能徒手画一下你们的项目架构[新星计划]
文章目录引言一.ETL架构及Kudu框架二.OGG及Canal数据同步架构图总结引言大家好,我是ChinaManor,直译过来就是中国码农的意思,俺希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,一个平凡而不平庸的人。学习大数据差不多一年了,笔者最近在整理大数据学习的笔记资料,这个系列就是整理的一些大数据必知必会的知识。一.ETL架构及Kudu框架二.OGG及Canal数据同步架构图总结徒手画项目结构也是面试时经常被问到的,有时间可以用笔画一画,加深对项目的印象~原始原创 2021-05-22 14:08:07 · 1734 阅读 · 9 评论 -
Note_Logistics_Day18(数据服务接口开发)
Logistics_Day18:数据服务接口开发网址:https://smart.jdwl.com/jh_demo.html01-[复习]-上次课程内容回顾 主要实现自定义外部数据源:按照SparkSQL提供DataSource API V2实现ClickHouse数据源,可以批量从ClickHouse数据库加载load和保存save数据,以及流式数据保存。在SparkSQL中,从2.3版本开始,提供DataSource API V2(使用Java语言开发接口)版本,继承结构示意图如下所示:原创 2021-07-01 17:11:09 · 446 阅读 · 0 评论 -
客快物流项目的一些Bug
Please set your HADOOP_HOME variable to the absolute path of | | the directory that contains the hadoop distribution(参考哲学三问)数据是什么,数据从哪里来,到哪里去 有离线业务、也有实时业务(Lambda 架构) 基于Docker搭建异构数据源,还原企业真实应用场景 以企业主流的Spark生态圈为核心技术(SQL和Streaming) Azkaban定时调度主题及指标原创 2021-07-13 12:54:43 · 646 阅读 · 0 评论 -
[新星计划]Kudu底层数据模型图
以上便是Kudu底层数据模型图,愿你读过之后有自己的收获,如果有收获不妨一键三连一下~原创 2021-06-04 19:55:14 · 2531 阅读 · 7 评论 -
大数据课后作业:从零搭建canal实时采集数据
作业:从零搭建canal实时采集数据1、Linu操作系统安装5.6、5.7、8.x也行安装MSQL数据库2、采用 Docker容器部署安装Cana1,并且配置5 Docker容器部署 Canal3、搭建 Kafka单机版JDK、 Zookeeper和 Kafka4、联动测试向MSQL表中写入数据,Cana实时采集到, Kafka分布式消息队列...原创 2021-05-20 22:04:55 · 1706 阅读 · 2 评论