自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(85)
  • 收藏
  • 关注

原创 Raft协议

相比于Paxos,Raft最大的特性就是易于理解(Understandable)。为了达到这个目标,问题分解:把共识算法分为三个子问题,分别是领导者选举(leader election)日志复制(log replication)安全性(safety)状态简化:对算法做出一些限制,减少状态数量和可能产生的变动。• 论文中对43个大学生做了个实验,让他们同时学习Paxos和Raft,结果显示,其中有33个人学习Raft的成绩好于学习Paxos的成绩在Cold,new。

2024-05-21 20:58:56 751

原创 weak_ptr如何解决share_ptr的循环引用

c++11的智能指针

2024-04-25 16:48:52 584

原创 Hot 100总结【leetcode】

leetcode hot100总结

2024-04-25 16:39:21 882

原创 leetcode刷题--贪心算法

七. 贪心算法文章目录七. 贪心算法1. 605 种花问题2. 121 买卖股票的最佳时机3. 561 数组拆分4. 455 分发饼干5. 575 分糖果6. 135 分发糖果7. 409 最长回文串8. 621 任务调度器9. 179 最大数10. 56 合并区间11. 57 插入区间13. 452 用最少数量的箭引爆气球14. 435 无重叠区间15. 646 最长数对链16. 406 按照身高重建队列17. 48 旋转图像18. 169 多数元素19. 215 数组中的第k个最大元素20. 75

2024-02-14 21:03:02 3342

原创 Pandas十大练习题,掌握常用方法

总结了十道pandas常用方法的练习题,适合pandas库的入门以及训练基础

2024-01-12 22:10:24 1550

原创 pandas库学习以及一些常见函数

本文主要对pandas库的一些常用功能函数进行总结,包括一些函数的参数以及实例和运行结果

2024-01-12 15:46:03 493

原创 numpy100练习题,包含相应使用函数解释

numpy100题目的答案以及相关函数的使用

2024-01-09 21:45:34 1123

原创 numpy库的一些常用函数

numpy的一些常用函数随笔

2024-01-09 21:42:08 886

原创 多元线性回归案例--客户价值模型

再来观察P值,可以发现大部分特征变量的P值都较小,的确与目标变量(即“客户价值”)显著相关,而“性别”这一特征变量的P值达到了0.951,即与目标变量没有显著相关性,这个结论也符合经验认知,因此,在之后的建模中可以舍去“性别”这一特征变量。本案例是在已知客户价值的前提下进行建模,如果在不知道客户价值(即不知道目标变量)的前提下进行建模,则属于非监督式机器学习的范畴,此时不能直接预测客户价值,不过可以利用数据聚类对客户进行分群,后面我们会具体讲解。

2024-01-04 15:13:48 451

原创 逻辑回归简单案例分析--鸢尾花数据集

Iris也称鸢尾花卉数据集,是常用的分类实验数据集,由R.A. Fisher于1936年收集整理的。其中包含3种植物种类,分别是山鸢尾(setosa)变色鸢尾(versicolor)和维吉尼亚鸢尾(virginica),每类50个样本,共150个样本。该数据集包含4个特征变量,1个类别变量。iris每个样本都包含了4个特征:花萼长度,花萼宽度,花瓣长度,花瓣宽度,以及1个类别变量(label)。我们需要建立一个分类器,分类器可以通过这4个特征来预测鸢尾花卉种类是属于山鸢尾,变色鸢尾还是维吉尼亚鸢尾。

2024-01-04 15:12:39 789

原创 机器学习常用算法模型总结

一些常用的机器学习算法模型

2024-01-03 17:10:16 602

原创 leetcode刷题--哈希表

题目分类 题目编号哈希表的查找、插入及删除 217、633、349、128、202、500、290、532、205、166、466、138哈希表与索引 1、167、599、219、220哈希表与统计 594、350、554、609、454、18哈希表与前缀和 560、523、525。

2023-12-26 10:25:56 904

原创 云服务器搭建flink集群

YARN上部署的过程是:客户端把Flink应用提交给Yarn的ResourceManager,Yarn的ResourceManager会向Yarn的NodeManager申请容器。运行 Flink job 的集群一旦停止,只能去 yarn 或本地磁盘上查看日志,不再可以查看作业挂掉之前的运行的 Web UI,很难清楚知道作业在挂的那一刻到底发生了什么。-d:分离模式,如果你不想让Flink YARN客户端一直前台运行,可以使用这个参数,即使关掉当前对话窗口,YARN session也可以后台运行。

2023-11-06 17:47:08 488

原创 云服务器安装Hbase

在 HBase 中 HMaster 负责监控 HRegionServer 的生命周期,均衡 RegionServer 的负载,如果 HMaster 挂掉了,那么整个 HBase 集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。如果大量的数据已经存放在 HBase 上面,需要对已经存在的数据进行数据分析处理,那么 Phoenix 并不适合做特别复杂的 SQL 处理,此时可以使用 hive 映射 HBase 的表格,之后写 HQL 进行分析处理。因为编码会导致Pheonix的表无法和HBase映射。

2023-10-30 20:29:51 231

原创 云服务器安装Hive

另外,Hive 也会读入 Hadoop 的配置,因为 Hive是作为 Hadoop 的客户端启动的,Hive 的配置会覆盖 Hadoop 的配置。配置文件的设定对本机启动的所有 Hive 进程都有效。命令行参数方式启动 Hive 时,可以在命令行添加-hiveconf param=value 来设定参数。

2023-10-30 20:28:29 203

原创 云服务器搭建Spark集群

参数 3 含义:指定保存 Application 历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,这个是内存中的应用数,而不是页面上显示的应用数。需要注意的是,增加保留的应用程序数量将会增加 Spark 历史服务器的磁盘和内存使用量,因为它需要存储更多的元数据和日志信息。因此,在增加这个值时,你需要确保你的系统有足够的资源来支持这么做。参数 3 含义:指定保存 Application 历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,这个是内存中的应用数,而不是页面上显示的应用数。

2023-10-28 19:21:51 440

原创 云服务器搭建Zookeeper集群

Server1和Server2分别投自己一票并交换选票信息:此时Server1发现Server2的maid(服务器编号,唯一)比自己目前投票选举的(Server1)大,因此Server1更改选票为推选Server2.此时Server1的票数是0票,而Server2的票数是2票,没有半数以上结果,选举无法完成,此时Server1和Server2都保持LOOKING状态。Server1投自己一票,此时Server1的票数1票,不够半数以上(3票),选举无法完成,Server1的状态保持为LOOKING;

2023-10-28 15:05:56 345

原创 C++ 的int*p[]和int(*p)[]的区别

的,因此对于int*p[3]来说,首先解读到的是p[3],是这个一维的数组,数组中有三个元素,都是int*,即int类型的指针。因此,如上述解释的,*p是可以看成一个二维指针,其中每个维度的类型为int*[3]类型的指针;因此,这说明,这个指针指向的元素是一个长度为3的数组,并且*p表示的数组中第一个元素的地址。因此,p[0]指向的就是{1,2,3}组成的大小为3的数组类型的首元素地址;即*p一定指向的是一维数组的地址,**p才指向二维数组的地址。因此,其说明其实对于。假设对于一个二维数组。

2023-10-27 22:18:31 655

原创 云服务器搭建Hadoop分布式

首先排查pid是否为自己设置的pid地址,由于默认的pid是在/tmp目录下,但是tmp目录下的东西是会定期清理的,因此在hadoop-env.sh和yarn-env.sh中配置了新的pid地址,为$HADOOP_HOME/pid。还是建议将服务器的防火墙暂时关闭,因为hadoop的节点之间的网络通信涉及了太多复杂的端口,原先按照开放端口的方式不足以应对通信过程中可能产生的端口号,导致运行MR程序卡顿。1.检查了服务器之间的ip和主机名的映射,各个服务器主机之间通过主机名可以ping通,说明映射没有问题,

2023-10-22 22:47:08 1825

原创 大数据应用概览(林子雨慕课课程)

什么是推荐系统?推荐系统可以创造全新的商业和经济模式,帮助实现长尾商品的销售长尾理论:冷门商品累计的总销售额也许会超过热门商品推荐方法专家推荐基于统计的推荐基于内容的推荐协同过滤推荐:通过与用户A相似的用户B对商品的评价,从而推导出用户A是否喜欢这个商品混合推荐:多种推荐算法组合推荐系统模型推荐系统的应用。

2023-10-13 17:54:53 82

原创 图计算(林子雨慕课课程)

图计算是专门针对图数据结构的处理许多大数据都是以大规模图或者网络的形式出现许多非图结构的大数据,也常常会被转换为图模型后进行分析图数据结构很好地表达了数据之间的关联性关联性计算是大数据计算的核心—通过获得数据的关联性,可以从噪音很多的海量数据中抽取有用的信息图的应用实例购物者之间进行建模,可以得到兴趣比较相似的用户,为用户实时推荐商品图结构计算可以发现传播关系中的意见领袖,如热门话题讨论传统的图计算算法存在的典型问题常常表现出比较差的内存访问局限性针对单个顶点的处理工作过少。

2023-10-13 17:49:20 692

原创 流计算概述(林子雨慕课课程)

静态数据和流数据静态数据用一个非常形象的比喻,就是三峡水库里面蓄的水一样静止不动例如:数据仓库中的数据存入数仓后就维持不变,是典型的静态数据流数据:近年来,在Web应用、网络监控、传感检测等领域,兴起的一种新的数据密集型应用–流数据,即数据以大量、快速、时变的流形式持续到达其数据产生方式是实时产生,并且实时不断地像流水一样到达,所以称为流数据流数据特征数据快速持续到达,潜在大小也许是无穷无尽的数据来源众多,格式复杂数据量大,但是不十分关注存储,一旦经过处理,要么被丢弃,要么被归档存储。

2023-10-13 17:47:31 299

原创 Flink(林子雨慕课课程)

企业的处理架构已经由传统数据处理架构和大数据Lamda架构向流处理架构演变Flink实现了Goole Dataflow模型,具有高吞吐,高性能,低延迟的特点同时支持批处理和流处理批流一体化精密的状态管理事件时间支持精确一次的状态一致性保障Flink不仅支持在YARN、Mesos、Kubernetes多种资源管理框架之上,也支持在裸机集群上独立部署再启用高可用选项后,它不存在单点失效问题Flink可以扩展到数千核心,状态可以达到TB级别,仍然能够达到高吞吐、低延迟的特性。

2023-10-13 17:39:59 536

原创 Spark(林子雨慕课课程)

Spark最初由美国加州伯克利大学 ( UC Berkeley )的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序2013年Spark加入Apache孵化器项目后发展迅猛,如今己成为Apache软件基金会最重要的三大分布式计算系统开源项目之一 ( Hadoop、Spark、 Storm )运行速度快:使用DAG执行引擎以支持循环数据流与内存计算。

2023-10-12 11:03:30 1139

原创 数据仓库Hive(林子雨课程慕课)

Hive特点传统的数据仓库既是数据存储产品也是数据分析产品传统的数据仓库能同时支持数据的存储和处理分析Hive本身并不支持数据存储和处理其实只是提供了一种编程语言其架构于Hadoop之上,Hadoop有支持大规模数据存储的组件HDFS,以及支持大规模数据处理的组件MapReduceHive借助于这两个组件,完成数据的存储和处理其依赖分布式文件系统HDFS存储睡依赖分布式并行计算系统MapReduce处理数据借鉴SQL语言设计了新的查询语言HiveQLHive总结。

2023-10-12 10:54:49 1740 1

原创 Hadoop2.0探讨

hadoop

2023-10-10 21:40:19 563

原创 MapReduce(林子雨慕课课程)

MapReduce是一种分布式并行编程框架数据处理能力提升的两条路线:单核CPU到双核到四核到八核分布式并行编程MapReduce包含两大函数:Map和ReduceMapReduce策略:采用分而治之的做法MapReduce理念计算向数据靠拢,而不是数据向计算靠拢什么事数据向计算靠拢?即完成一次数据分析时,选择一个计算节点,把运行数据分析的程序放在计算节点上运行然后把它所涉及的数据,全部从各个不同的节点上面拉过来,传输到计算发生的地方MapReduce采用计算向数据靠拢的方式。

2023-10-10 21:38:05 752

原创 云数据库(林子雨慕课课程)

云数据库应用

2023-10-10 21:32:35 315 1

原创 NoSQL数据库(林子雨慕课课程)

NoSQL

2023-10-10 21:29:11 1427 1

原创 分布式数据库HBase(林子雨慕课课程)

HBase简要介绍

2023-10-08 22:34:19 949

原创 分布式文件系统HDFS(林子雨慕课课程)

HDFS就是解决海量数据的分布式存储问题​为什么会出现分布式文件系统?计算机集群基本架构每个机架由若干个节点构成机架的内部之间是通过光纤交换机进行连接,机架与机架通过带宽更高的光纤交换机进行连接分布式文件系统的存储结构主节点存储相关的元数据服务:目录存储服务,从节点需要完成相关的数据存储任务HDFS是非常流行的一个分布式存储系统HDFS实现的目标兼容廉价的硬件设备实现流数据读写支持大数据集支持简单的文件模型。

2023-10-08 22:31:32 590

原创 Hadoop(林子雨慕课课程)

Hadoop可以支持多种编程语言:c,c++,java,pythonHadoop用java语言开发,具有跨平台特性Hadoop两大核心:HDFS+MapReduce 分别解决了海量数据的分布式存储和分布式处理问题2003年,谷歌发布了分布式文件系统GIS,2004年Hadoop将其纳入自己平台下开源实现2004年,谷歌发布了分布式的并行编程框架MapReduceHadoop具有很高的可靠性:多台机器构成集群,部分机器发生故障,剩余机器可以继续对外提供服务。

2023-10-08 22:29:14 808

原创 大数据概述(林子雨慕课课程)

大数据的四大特点:大量化、快速化、多样化、价值密度低。

2023-10-08 22:28:06 479

原创 mac docker部署hadoop集群

默认是放在bridge的网段的,默认是联通的,但是为了和其他不相关的容器区分开,建议还是创建一个新的网段让三台容器自己相连。在启动了hdfs和yarn之后,其HDFS的Yarn的webUI的界面地址:其不是容器的ip地址!但是,在启动容器的时候,我们设置了端口的映射关系,就可以通过物理机的ip地址来访问容器内端口。注意:创建的容器进入之后root之后@的是容器id,在容器内使用。容器启动之后会有唯一的容器id,通过如下命令查看正在运行的容器。注意这里本容器的公钥也需要拷贝,以上命令需要在三个容器中都执行。

2023-09-28 01:48:44 1180 4

原创 leetcode刷题--链表

用 head 表示原始链表的头节点,新的链表的第二个节点,用 newHead 表示新的链表的头节点,原始链表的第二个节点,则原始链表中的其余节点的头节点是 newHead.next。我们可以使用栈保存最后的节点,当我们遇到有孩子的节点,如果该节点的next不为空,则将next节点如栈,当遍历到next节点为空了,即看栈中有无节点,栈中的节点是原本node的next节点,和扁平化后的last相连。解法:正常的删除链表中的元素需要知道上一个节点的位置,但是题目中只给出了删除的节点,因此不能使用一般的做法。

2023-09-22 11:10:14 172

原创 李沐机器学习入门

机器学习分类监督学习:在有标签的基础上去预测标签半监督学习:数据有标签和没标签,根据有标签的数据训练去预测没标签数据的标签无监督学习:对于所有没标签的数据强化学习:类似人类的一种学习,不断的和环境进行交互,根据反馈去调整自己的行为监督学习首先关注的是模型本身,这个模型的输入以及对应的输出是什么损失函数Loss:模型的预测值和真实值之间的差别目标函数Objective:就是在模型训练中的尽可能的优化,比如讲模型的损失和最小。

2023-09-17 17:01:21 245

原创 Excel相关操作

Excel操作

2023-09-17 16:54:42 420

原创 数据分析全貌

数据分析的全貌

2023-09-17 16:47:39 1450

原创 2.数据分析报告制作

分析报告制作

2023-09-17 16:45:59 71

原创 认识数据分析

那么企业需要建立自己的大规模数据仓库,处理不断增长的数据资产,数据仓库技术占到数据分析实现所用技术的70%以上。数据分析只是分析的一种,能对碎片化的信息加以抽象和整合,不过度依赖量化,才是真正的分析能力。机器可处理:数据是少数人和机器都能理解和处理的信息,人可以借助机器高效处理数据的各种信息。量化:量化的数据,可以利用数学原理进行各种精密的计算,得出更多价值的结果。随着数据系统的晚上,如果企业的数据汇总超过了Excel的存储上线。跨库查询:数据存储在不同服务器中,无法实现业务级的垮库查询。

2023-09-13 21:11:02 1599

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除