zhangqw1013-CSDN博客

原创【系统学习Hive常用知识】

Hive是由Facebook开源，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。创建数据库创建表（1）内部表与外部表Hive中默认创建的表都是的内部表，有时也被称为管理表。对于内部表，Hive会完全管理表的元数据和数据文件。创建内部表id int,创建外部表id int,删除表时，内部表会将hdfs的数据文件一并删除，外部表不会。(1)

2024-01-08 21:59:43 1110 1

原创【k8s-PV与PVC挂载外部目录】

k8s中镜像内部数据与外部需要建立管理，对于k8s集群，每个pod节点需要共享文件目录，因此，nfs文件系统主要用于文件同步，通过nfs实现数据的同步。PV持久卷（Persistent Volume），将应用需要持久化的数据保存到指定位置，主要用于创建pv池供pvc绑定。PVC：持久卷申明（Persistent Volume Claim），申明需要使用的持久卷规格。

2024-01-08 21:57:29 851 1

原创【大数据-Flume】

Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构，灵活简单。Flume最主要的作用就是，实时读取服务器本地磁盘的数据，将数据写入到HDFS。

2023-12-27 16:01:59 1105 1

MapReduce是一个分布式运算程序的编程框架，MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。（1）分布式的运算程序往往需要分成至少2个阶段。（2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。（3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。

2023-12-20 17:24:15 900 1

原创【Hadoop-HDFS分布式文件系统】

本篇详细介绍了HDFS的工作原理，看完这篇文章对HDFS能够有非常深刻的理解与应用。随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；

2023-12-19 11:38:08 1071 1

原创【机器学习-聚类算法k-means】

k-meas聚类简单容易理解随机指定k值，容易陷入局部最优解。

2023-12-18 14:18:52 980

原创【Boosting深度学习算法】

GBDT梯度提升决策树算法是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来作为最终的答案。GBDT = 梯度下降+Boosting+决策树。

2023-12-15 16:25:47 180

原创【深度学习-随机森林】

随机森林是属于集成学习，其核心思想就是集成多个弱分类器以达到三个臭皮匠赛过诸葛亮的效果。随机森林采用Bagging的思想，所谓的Bagging就是：（1）每次有放回地从训练集中取出 n 个训练样本，组成新的训练集；（2）利用新的训练集，训练得到M个子模型；（3）对于分类问题，采用投票的方法，得票最多子模型的分类类别为最终的类别；对于回归问题，采用简单的平均方法得到预测值。

2023-12-11 17:54:45 656

原创【决策树-泰坦尼克数据案例】

基于泰坦尼克数据进行决策树分析，考过特征值、目标值提取，样本数据分割，特征工程，模型训练等过程。数据主要根据年龄、性别、舱位等级等特征值预测是否生还。

2023-12-11 17:43:03 138

原创【云原生-K8S简介与集群部署】

云控制器管理器允许您链接集群到云提供商的应用编程接口中，并把和该云平台交互的组件与只和您的集群交互的组件分离开。Kubernetes 可以使用 DNS 名称或自己的 IP 地址公开容器，如果进入容器的流量很大， Kubernetes 可以负载均衡并分配网络流量，从而使部署稳定。当容器指定了资源请求时，Kubernetes 可以做出更好的决策来管理容器的资源。控制平面的组件对集群做出全局决策(比如调度)，以及检测和响应集群事件（例如，当不满足部署的 replicas 字段时，启动新的 pod）。

2023-12-05 23:00:28 131

原创【云原生-Docer安装与常用命令】

第一章 Docker部署。

2023-12-05 22:35:29 79

原创【深度学习-基尼值与基尼系数增益构建决策树】

在决策树排序过程中，可以根据基尼值和基尼系数增益来确定哪些特征需要先决策、哪些后决策，构建一棵最有的决策树。本文主要介绍了如果使用基尼系数增益来构建决策树，针对相同系数增益的特征可以随意选择一种特征，当特征选择完成之后，需要根据已经重新分类的特征重新计算基尼系数，最终基于所有特征完成决策树的构建。

2023-12-05 17:14:34 4479

原创【深度学习-信息熵与信息增益】

熵的应用主要是在决策树方面，信息熵主要用于计算信息增益，信息增益的大小决定了再进行决策树构建时，哪些特征先决策。一般情况，选择信息增益的大的特征先决策，信息增益小的特征后决策.

2023-12-05 14:51:46 3813

原创【深度学习-分类评估方法】

提示：以下是本篇文章正文内容，下面案例可供参考。

2023-12-01 14:42:11 145 1

原创【深度学习-逻辑回归】

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。机器学习的一种分类模型，用于解决分类问题。主要使用场景：广告点击率、是否为垃圾邮件、是否虚假账号等，主要解决二分类问题。逻辑回归的输入就是线性回归的输出。本文主要介绍了深度学习中逻辑回归的介绍与原理，并通过sklearn进行逻辑回归案例代码实现。

2023-12-01 11:55:43 190 1