大数据
文章平均质量分 89
全网最详细的大数据知识栏目,轻松带你从入门到精通,该栏目长期更新,汇总知识分享
Lansonli
CSDN大数据领域博客专家,InfoQ写作社区2022年度影响力作者、华为云社区2022年度十佳博主、华为云享专家、阿里云专家博主、腾讯云开发者社区2022年度最佳作者、腾云先锋(TDP)核心成员、51CTO专家博主,全网二十万多粉丝,知名互联网公司大数据高级开发工程师
展开
-
大数据精品栏目介绍
一、大数据入门核心技术大数据入门核心技术栏目里集合等大数据必学的核心技术。初学者选择这个栏目,可以快速了解大数据知识体系,为后面的扩展性的深度学习大数据打下坚实的基础。二、数据湖基础+湖仓一体电商项目数据湖是一个集中式的存储库,允许你以任意规模存储多个来源、所有结构化和非结构化数据,可以按照原样存储数据,无需对数据进行结构化处理,并运行不同类型的分析对数据进行加工,例如:大数据处理、实时分析、机器学习,以指导做出更好地决策。在大数据中属于很火的技术,学会它让你大数据项目里游刃有余。原创 2022-10-11 21:00:22 · 3940 阅读 · 51 评论 -
数据仓库中常见的名词解释
比如最近七天的订单量,一个促销活动的购买转化率等。一个指标具体到计算实施,主要有以下几部分组成:指标加工逻辑,比如count ,sum, avg维度,比如按部门、地域进行指标统计,对应sql中的group by业务限定/修饰词,比如以不同的支付渠道来算对应的指标,微信支付的订单退款率,支付宝支付的订单退款率。对应sql中的where。原创 2024-07-03 09:00:20 · 396 阅读 · 0 评论 -
做减法才是真本事,别以为你很能学,做加法一点都不难
大多数人不懂,不会,不做,才是你的机会,你得行动,不能畏首畏尾大数据等于趋势,一个向上趋势的行业会让你赚得比其他行业多做减法,才是真本事。想知道一个人是菜鸟还是高手,就看他到底是做加法还是做减法。世界上没有白吃的午餐,无非是舍弃哪个换取哪个,想什么都揽到怀里,注定会一事无成。懂得舍弃才是大智慧,懂得放弃的,才是高手。你观察所有的新人,无一不是在做加法,生怕漏掉一点点。一个刚学做饭的厨师,恨不得把所有的调料都给你加进去;一个刚摸相机的摄影师,生怕漏掉任何一个细节;一个初学美工的新人,做出来的一定是花花绿绿一闪原创 2022-10-30 17:00:21 · 5745 阅读 · 127 评论 -
竞争不是内卷,用头脑学习,而非时间
大多数人不懂,不会,不做,才是你的机会,你得行动,不能畏首畏尾大数据等于趋势,一个向上趋势的行业会让你赚得比其他行业多。原创 2022-10-23 11:30:21 · 4873 阅读 · 112 评论 -
你就想这样一辈子躺平,还是改变这个世界?
武林高手将自己毕生绝学刻在山洞里,几百年后,一个年轻人路过,学了山洞里的绝学,横空出世成为武林中一位高手。绝顶聪明的商人自己写一本书,将自己毕生的智慧和经验都总结在书里面。通过出版社将书卖到全世界,每个购买书的年轻人,看了那本书都有不少收获。其中还有不少人受到启发,总结成自己一套体系理论,横空出世成为有名气有钱的企业家。整个社会也因为大家的成长,经济和生产率提高不少。原创 2022-10-16 12:28:11 · 8132 阅读 · 216 评论 -
躺平不可取,躺赢不可能,最好的时代躺平,是最差的生存策略
学习是一整套体系,它由三个点组成,忽略任何一点,结果都会大打折。第一点,框架。学习的前提,就是先不要急着学习,玩游戏的前提,就是先不要去急着打打杀杀。你进入任何一个行业,首先要研究的,是框架和规则。看懂了游戏规则,你才能尽可能地玩到通关。否则这个门后面是什么,地上有没有陷阱,那个怪兽的弱点在哪儿,你统统不知道,那你一定会出问题。这就是框架的作用。很多人为什么一直在学习,到最后也不知道学了什么?因为他们太急着学,学会就急着想赚钱,他们意识不到框架的重要性,他们只是想得到一个答案,到底学什么能来钱快。原创 2022-10-12 21:08:20 · 6470 阅读 · 143 评论 -
大数据OLAP技术体系学习框架
利用框架的力量,看懂游戏规则,才是入行的前提大多数人不懂,不会,不做,才是你的机会,你得行动,不能畏首畏尾选择才是拉差距关键,风向,比你流的汗水重要一万倍,逆风划船要累死人的上面这些看似没用,但实际很重要,这里就不再具体说明,感兴趣的同学可以看看我的学习框架的重要性我是怎么坚持学习的怎么确定学习目标本栏目为缺少OLAP技术体系的同学全面整理的体系学习知识,内容是按不同的技术体系整理的,带你丰富大数据OLAP技术知识体系,想学会就得自律加坚持,赶快行动吧。原创 2022-10-10 23:41:41 · 2078 阅读 · 52 评论 -
客快物流大数据项目学习框架
利用框架的力量,看懂游戏规则,才是入行的前提大多数人不懂,不会,不做,才是你的机会,你得行动,不能畏首畏尾选择才是拉差距关键,风向,比你流的汗水重要一万倍,逆风划船要累死人的上面这些看似没用,但实际很重要,这里我就不再具体说明,感兴趣的同学可以看看我的学习框架的重要性我是怎么坚持学习的怎么确定学习目标这个栏目为缺少项目的同学全面整理的客快物流大数据项目逻辑,内容是按基础环境搭建到项目架构设计,带你从基础到架构实战,想学会就得自律加坚持,赶快行动吧。一、项目简介。原创 2022-10-10 00:15:00 · 2244 阅读 · 38 评论 -
数据湖及湖仓一体化项目学习框架
利用框架的力量,看懂游戏规则,才是入行的前提大多数人不懂,不会,不做,才是你的机会,你得行动,不能畏首畏尾选择才是拉差距关键,风向,比你流的汗水重要一万倍,逆风划船要累死人的上面这些看似没用,但又很重要,这里我就不在详述作用,有兴趣的同学可以看看我的学习框架的重要性我是怎么坚持学习的怎么确定学习目标这个栏目为初学者全面整理数据湖必学知识,内容是按照体系划分的,带你从基础知识到项目实战,想学会就得自律加坚持,赶快行动吧。1、数据湖技术Hudi。原创 2022-10-09 06:40:09 · 3903 阅读 · 61 评论 -
大数据趣味学习探讨(一):学习框架的重要性
因为读书并不能改变命运,它只能改变你的信息量,读是一个输入的操作,以前是个小学字典,读多了变成了新华字典,但只要你没有进一步的处理,它就永远是字典,毫无价值,真正的知识是有机的体系,而不是杂乱的堆积,想把信息转化知识,就一定要把无机变成有机,而关键点就是减熵,所谓的熵就是混乱度,一个报废的停车场,哪怕你有再多的轮胎,再多的方向盘,再多的仪表大灯离合器也毫无价值。我的框架是针对性的解决上面的问题,也就是说别人讲的是规则,而我跟你讲元规则,别人讲的是操作方法,而我告诉你的是方法中的方法,别人是教你怎么学习吧?原创 2022-09-23 20:17:08 · 3672 阅读 · 217 评论 -
大数据趣味学习探讨(二):我是怎么坚持学习的
2.1、调研日前,北京大数据研究院联合大数据分析与应用技术国家工程实验室、北京治数科技有限公司共同发布了《2022年中国大数据产业发展指数报告》。研究团队在2020年、2021年连续发布大数据产业发展指数的基础上,深入调研了各地大数据政策环境、大数据产业和企业发展状况,基于自身企业库中收录的 7472 家大数据企业数据和相关合作方数据,对全国 31 个省级行政区(不包含港澳台地区)和 150个 重点城市的大数据产业发展情况进行综合评估。原创 2022-09-29 07:30:00 · 15647 阅读 · 200 评论 -
大数据趣味学习探讨(三):怎么确定学习目标
战点就是战斗的机会根本轮不到你奋斗有一个真相,年轻人必须明白,而且越早明白越好,那就是拼命不可怕,加班不可怕,辛苦也不可怕,真正可怕的是根本轮不到你去拼命。肩膀脱臼不可怕,绷带上场不可怕,单场跑动16公里也不可怕,真正可怕的是直到哨声响起,你都没有等到一次上场的机会啊。你准备了一辈子,却发现根本没有证明自己的机会,你想去拼尽全力,却发现赛场从头到尾根本不需要你,这个才是要命。日本文学当中有一个词叫战点,什么意思呢?就是战斗的机会。你知道日本人的平均战点是多少岁?原创 2022-10-04 20:07:13 · 4607 阅读 · 162 评论 -
大数据学习指南从入门到精通
利用框架的力量,看懂游戏规则,才是入行的前提大多数人不懂,不会,不做,才是你的机会,你得行动,不能畏首畏尾选择才是拉差距关键,风向,比你流的汗水重要一万倍,逆风划船要累死人的为什么选择学习大数据开发,不选择Java开发?借棋弈做比喻,智商高的不要选择五子琪,要选择围棋,它能长久地吸引你。不都是在棋盘上一颗黑子一颗白子地下吗?因为围棋更复杂,能够掌握如此复杂的技艺、产生稳定输出的棋手、让我们更佩服。选择学习大数据开发也如此,能让你的职业生涯走得更远,少走弯路。原创 2022-05-21 15:57:40 · 19900 阅读 · 183 评论 -
进阶大数据架构师学习路线
每个人学习需要给自己一个路线图,如何学习大数据,相信下面的学习路线图能对你有帮助。关注公众号【三帮大数据】回复“大数据” 可领取高清的进阶大数据架构师学习路线图。原创 2022-05-13 04:00:00 · 2788 阅读 · 19 评论 -
腾讯云数据库TDSQL——博客数据库迁移实践
腾讯云数据库TDSQL——博客数据库迁移实践原创 2022-04-21 15:27:58 · 2663 阅读 · 10 评论 -
全网最详细大数据常见端口汇总
目录大数据常见端口汇总一、Hadoop二、Zookeeper三、Hbase四、Hive五、Spark六、Kafka七、Flink八、Flume九、Redis十、CDH十一、HUE前言2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习。大数据常见端口汇总一、Hadoop50070:HDFS WEB UI端口8020 : 高可用的HDFS RPC端口900...原创 2021-07-20 23:22:17 · 3787 阅读 · 12 评论 -
女友问粉丝过万如何庆祝,我发长文《保姆级大数据入门篇》感恩粉丝们支持,学姐|学弟看了就懂
2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习。有对大数据感兴趣的可以关注微信公众号:三帮大数据原创 2021-06-19 18:57:36 · 6299 阅读 · 184 评论 -
深夜凌晨女朋友问什么是数据仓库,我的回答让她惊讶,然后发现。。。
事情是这样的晚上,正在聚精会神写代码突然,收到女朋友给我发来的消息不懂代码的她又向提出这么专业性名词,我当场惊呆了,于是决定写一篇详细的数据仓库介绍,然后发现我写完了,她就睡着了。。。目录历史文章前言数据仓库的介绍一、数据仓库的基本概念二、数据仓库的主要特征1.主题性2.集成性3.稳定性4.时变性三、数据仓库与数据库区别1、数据库2、数据仓库3、两者区别4、数据仓库分层架构.原创 2021-06-09 00:26:23 · 3200 阅读 · 62 评论 -
百度、阿里、腾讯平台架构都熟悉,小米大数据平台架构OLAP架构演进是否了解
小米大数据平台OLAP架构 演进一、数据仓库1、离线数据仓库的架构数据仓库一般架构分析型系统进行联机数据分析,一般的数据来源是数据仓库,而数据仓库的数据来源为可操作型系统,可操作型 系统的数据来源于业务数据库中,那么我们常用的数据仓库的组成和架构一般如下图所示...原创 2021-06-01 00:43:50 · 7944 阅读 · 118 评论 -
女朋友问阿里双十一实时大屏如何实现,我惊呆一会,马上手把手教她背后的大数据技术
女朋友问阿里双十一实时大屏如何实现,不懂技术的她居然好奇问这个,身为程序员的我只能用毕生所学开始跟她讲大数据技术。全网最详细的大数据文章系列,强烈建议收藏加关注!目录历史文章前言阿里双十一实时大屏 背后的大数据技术一、大数据相关概念剖析1、什么是大数据?2、数据分析基础概念3、人工智能基础概念4、人工智能+大数据分析场景案例5、相亲场景用户画像分析场景案例二、双十一面临的技术挑战双11---世界级互联网技术超级工程!三、阿里双11大数据技术解决方案.原创 2021-05-29 09:17:01 · 11695 阅读 · 151 评论 -
大数据环境搭建(二):分布式环境搭建
使用完全分布式,实现namenode高可用,ResourceManager的高可用集群运行服务规划node1node2node3zookeeperzkzkzkHDFSNameNodeNameNodeZKFCZKFCDataNodeDataNodeDataNodeYARNMapReduce。原创 2021-05-23 10:49:28 · 2274 阅读 · 21 评论 -
大数据环境搭建(一):Hadoop编译
准备一台linux环境,内存4G或以上,硬盘40G或以上,我这里使用的是Centos7.7 64位的操作系统(注意:一定要使用64位的操作系统),需要虚拟机联网,关闭防火墙,关闭selinux,安装好JDK8。这里使用maven3.x以上的版本应该都可以,不建议使用太高的版本,强烈建议使用3.0.5的版本即可。根据以上需求,只需要将node1再克隆一台即可,命名为node4,专门用来进行Hadoop编译。编译完成之后我们需要的压缩包就在下面这个路径里面,生成的文件名为。解压maven的仓库。原创 2021-05-23 09:19:40 · 1865 阅读 · 14 评论 -
大数据基础(五):分布式技术
从分布式系统的概念中我们知道,各个主机之间通信和协调主要通过网络进行,所以,分布式系统中的计算机在空间上几乎没有任何限制,这些计算机可能被放在不同的机柜上,也可能被部署在不同的机房中,还可能在不同的城市中,对于大型的网站甚至可能分布在不同的国家和地区。因为面对的问题很简单。如果3个系统A的实例还是满足不了大量请求,例如双十一,可以申请增加服务器,双十一过后,新增的服务器闲置,成了摆设,于是小明决定尝试云计算,在云端可以轻松的创建,删除虚拟的服务器,那样就可以轻松的随着用户的请求动图的增减服务器了。原创 2021-05-22 22:12:04 · 1651 阅读 · 12 评论 -
大数据基础(四):大数据业务分析基本步骤
明确数据分析目的以及确定分析思路,是确保数据分析过程有效进行的先决条件,它可以为数据的收集、处理及分析提供清晰的指引方向。目的是整个分析流程的起点。目的不明确则会导致方向性的错误。即思考:为什么要开展数据分析,通过这次数据分析要解决什么问题?当明确目的后,就要校理分析思路,并搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体开展数据分析,需要从哪几个角度进行分析,采用哪些分析指标。只有明确了分析目的,分析框架才能跟着确定下来,最后还要确保分析框架的体系化,使分析更具有说服力。原创 2021-05-22 21:52:35 · 3902 阅读 · 14 评论 -
大数据基础(三):大数据应用场景
目前,交通的大数据应用主要在两个方面:一方面通过对车流量等海量数据的收集,估算,预测该路段一定时间内的车流量情况,给用户提供便利,合理进行道路规划;精准广告位,通过对用户的浏览行为,点击行为等进行大数据采集,分析,挖掘用户的二层三层喜欢,扩大产出。智慧营业厅,通过对用户当前的行为习惯、偏好,节假日的相应数据变化,调节自身业务结构,做到按需分配。人脸识别,通过人脸识别,--匹配,存储用户数据,结合人工智能,分析及甄别用户行为,预防犯罪行为发生。原创 2021-05-22 19:27:40 · 2431 阅读 · 9 评论 -
大数据基础(二):大数据的特点(5v)
如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,存在大量不相关信息。而如何通过强大的机器算法更迅速地完成数据的价值提炼,是大数据时代亟待解决的难题。数据增长速度快,处理速度也快,获取数据的速度也要快。根据IDC的“数字宇宙”的报告,到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。数据的采集,计算,存储量都非常的庞大。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。数据的准确性和可信赖度,即数据的质量。原创 2021-05-22 16:58:19 · 3076 阅读 · 7 评论 -
大数据基础(一):大数据概念
这些新技术推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB来衡量。大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。数据是可以获取和存储的信息,直观而言,表达某种客观事实的数值是最容易被人们识别的数据(因为那是“数”)。当解决了海量数据的存储问题,接下来面临的。原创 2021-05-22 15:37:20 · 4516 阅读 · 7 评论 -
大数据环境命令(一):常用命令汇总
# 10.5.5.3.脚本一键启动# 启动HDFSstart-dfs.sh# 启动Yarnstart-yarn.sh# 启动历史任务服务进程mr-jobhistory-daemon.sh start historyserver# 快速重启和停止stop-all.sh start-all.sh# 停止集群stop-dfs.shstop-yarn.shmr-jobhistory-daemon.sh stop historyserver# 首先启动metastore服务,然后启动hi原创 2021-04-09 23:43:55 · 946 阅读 · 6 评论