急急黄豆-CSDN博客

（例如决策树、支持向量机、k近邻算法），只能得到两个(R,P)点，无法直接画出完整的PR曲线，只能通过计算该情况下的fβ度量来衡量哪个算法好。（例如，通过逻辑回归或朴素贝叶斯分类器得到的概率估计），那么可以通过改变不同的阈值点来利用这些预测结果画出PR曲线。如果得到的是一组样本在两个算法上的。如果得到的是一组样本在两个算法上的。，其中每个样本都被赋予了一个为正样本的。，其中输出结果是每个样本的。

2024-06-11 21:00:59 685

原创【西瓜书】大题

思路：先计算每个算法测试结果的混淆矩阵，再根据混淆矩阵计算查准率和查全率，最后计算P和R的调和平均F1指标，我们希望的算法的P和R双高，也就是F1高，F1高的算法性能好。思路：y=wx+b，w为一维数组，求均方误差MSE，对w和b分别求偏导为0得到关于w和b的闭式求解。预测第十年的代入y=wx+b求解即可。

2024-06-10 16:02:20 601 1

原创【西瓜书】6.支持向量机

3.1.分类问题：0/1损失函数、hinge损失、指数损失、对率损失。3.2.回归问题：不敏感损失函数、平方。1.2.非线性可分——核函数。3.软间隔——松弛变量。

2024-06-09 21:37:03 544

若对m个样本聚类，分成了k个簇，两两样本比较，可组为m(m-1)/2组，每组要么位于相同簇(1)要么位于不同簇(0)，对参考模型做同样操作，我们希望两个模型对于m(m-1)/2组样本组合划分的结果都为1或都为0的尽可能多，则分为如下三个外部指标（由核心对象出发，找到与该核心对象密度可达的所有样本形成一个聚类簇。，然后在算法运行的每一步中找出距离最近的两个簇进行合并，直至达到预设的簇的数量。2.1.连续属性：具有非负性、直递性、对称性、同一性。内部指标：内部簇间距离大，簇内距离小。(eps的一个分界点)

2024-06-09 20:35:49 1020

原创【西瓜书】4.决策树

划分选择的各种准则虽然对决策树的尺寸有较大影响，但对泛化性能的影响很有限；如果剪枝后的树>未剪枝的树则剪枝，否则不剪，当正确率相等时不做操作，一方面是防止欠拟合，一方面是剪枝也会有一定的开销。（2）若某一个类别比其他类别多，则该结点为该类别，如结点中的样本“好瓜”>“坏瓜”，则该结点为好瓜。（3）若所有类别样本数一样，或为空集，则取其父节点的类别作为该结点的类别。（1）若全为一个类别，则该结点为该类别，如全为“好瓜”，则该结点为好瓜。有属性，但是在属性上划分的结果都一样。（1）结点包含样本全为同一类别。

2024-06-06 21:15:10 1200

原创【西瓜书】2.模型评估与选择

3.3.分类任务：查准率/准确率、查全率/召回率（关心查出来的有多少比例是好的）泛化误差的评估方法，即将测试误差作为泛化误差的近似。3.2.分类任务：错误率与精度（关心查的有几个是对的）欠拟合好克服，过拟合无法彻底避免。注意：测试样本不要出现在训练集中。性能度量是评估模型泛化能力的标准。（2）误差：训练误差/经验误差、泛化误差。3.1.回归任务：均方误差。（3）过拟合、欠拟合。（4）调参与最终模型。

2024-06-06 17:45:31 538

原创【西瓜书】1.绪论

（4）假设空间大小：sum(属性的取值数+1)+1，第一个+1表示取通配符*，第二个+1表示∅这种极端情况。（2）根据偏好选择比如特殊的、一般的、或根据领域知识决定某个属性取某某的（与特征选择不同）。（3）原则：奥卡姆剃刀（选简单的平滑的）、没有免费的午餐（具体问题具体分析）（5）搜索假设空间：自顶向下（一般到特殊）、自底向上（特殊到一般）（2）表头不带最后一列：属性/特征，属性空间/特征空间/（4）学习任务：分类(二分类/多分类)、回归、聚类。演绎：一般到特殊（特化）（1）归纳：特殊到一般（泛化）

2024-06-04 22:17:08 397 1

原创【西瓜书】3.线性模型

*归纳偏好和正则化项补充LDA是一种监督降维技术，通过最大化类间差异和最小化类内差异来找到最具判别力的投影方向，然后将原始数据投影到这些方向上，投影后的数据维度d'会远小于原始属性数d，得到降维后的特征，这样的空间分布有利于分类器更好地区分不同的类别，提高分类的准确性。参数的优化方法：矩阵论、广义瑞利商。

2024-06-04 17:50:21 520

原创【西瓜书】5.神经网络

在神经网络中，我们对样本进行训练，对于训练得到的结果，我们通过损失函数计算调整权重和阈值，在这个过程中，不管是感知机还是多层前馈网络使用的都是梯度下降策略，希望找到损失函数在某个参数（权重或阈值）方向上的是极小值的点，也就是寻找损失函数在某参数上偏导为0的点，若不为0，则调整该参数使得在损失函数上的取值向最低点靠近。（1）无监督逐层训练：预训练（训练时将上一层隐层结点的输出作为输入）+微调（一般使用BP算法），可以先找到局部看起来比较好的设置, 然后再基于这些局部较优的结果联合起来进行全局寻优。

2024-06-03 22:17:27 1380

原创 Latex控制三线表宽度且内容居中

解决方法是限制中间栏的宽度（这一列字最多，如果不限制就会写在一行变得特别长），使用的代码如下，第一个c代表第一列居中，第二个p给出第二列长度为4.5cm，p前面加入的语句代表居中，第三个c代表第三列居中，注意要在文章最前面导入array包。1.宽度不能超过左侧栏宽度影响到右边；

2024-05-21 13:59:04 3615 2

原创项目管理重点及笔记【太原理工大学24年】

1、项目概念：资源和需求的限制+为实现某种目标+一次性+工作任务（给选项能判断出哪个是项目）2、特征：明确的目标+独特性+时限性IT项目的特征：以上三点+目标渐进性+创新性+高风险+智力密集型3、项目管理：一次性（短期中期）、独特性、微观性战略管理：长远性、宏观性日常管理：重复性、连续性**项目经常被作为实现组织战略计划的一种手段，组织的战略计划是决定项目投资的主要因素。项目被称为企业战略的“奠基石”。

2024-05-16 10:04:10 1271

原创【西瓜书机器学习】第五章神经网络

参考进行自我复习整理，侵删！

2024-05-07 21:17:33 574

原创大数据技术原理与技术简答

1、HDFS中名称节点的启动过程当要访问数据时，客户端首先在自己的缓存中查找是否有所需region的位置信息，若有则直接前往访问，若没有则三级寻址：首先访问 ZooKeeper，获取-ROOT表的所在Region服务器的位置信息，然后访的-ROOT-表，获得.META.表所在Region服务器的信息，接着访问.META.表，找到所需的 Region 具体位于哪个 Regio服务器，最后到该 Region 服务器读取数据。**读写数据：读：先在memstore查找，没有找到再去storefile查找。

2024-05-07 19:36:35 1104

原创 Spark运行流程及架构设计

【代码】Spark运行流程及架构设计。

2024-05-01 15:07:51 1160 2

原创 HDFS存取策略联系

这个过程是并行进行的，也就是在第一个DataNode在接收到数据后，会立即开始将数据写入本地存储，并且几乎同时，它也会将数据转发给下一个DataNode（即第二个DataNode）。5.写毕：当最后一个DataNode完成写入后，它会沿着列表逆序发送数据写完毕信号，通知客户端和整个流水线中的数据节点，表示该数据块已成功复制到所有目标节点。因此，可以说HDFS数据块的复制和存放是一个协同进行的过程，它们相互依赖、相互促进，共同保证了数据在HDFS中的可靠存储和高效访问。

2024-04-28 14:33:37 405 2

原创 Impala系统架构理解

这些执行任务的Impalad实例会根据查询的执行计划，直接在HDFS上读取数据并进行计算。用于跟踪Impala集群中所有Impalad实例的健康状态和位置信息，确保Impala能够了解集群中各个Impalad的状态，从而能够选择合适的Impalad来执行查询任务。这也就意味着一个Impalad进程可能不仅作为协调者分发任务，还可能作为接受者接收并执行来自其他Impalad的任务，这取决于集群的负载和任务的分布。，以便选择最靠近数据所在DataNode的那个节点上的Impalad来执行任务。

2024-04-26 18:38:06 798 3

原创 MapReduce相关知识

每个Reduce任务都会生成自己的输出文件，它们的输出是独立的，并且在作业完成后，多个Reduce任务之间不会直接合并它们的结果，你可能需要其他的工具或步骤来合并或进一步处理这些输出文件。（1）Map任务的数量：由输入数据的大小决定的，如文件数量和大小、HDFS块大小以及FileInputFormat的设置等。- 分区逻辑在Map任务执行过程中应用，而Shuffle过程的归并是在所有Map任务完成之后进行的，用于合并和排序相同分区的输出。这样，每个Map任务的输出都是按分区排序的。

2024-04-06 22:12:18 874

原创 hdfs操作java API

6.FileStatus类：封装了文件系统中文件和目录的元数据，包括文件的长度、块大小、备份数、修改时间、所有者以及权限等信息。5.BufferedReader类：读文件，FSDataOutputStream之上。4.FSDataOutputStream类：FileSystem之上。4.FSDataOutputStream类：FileSystem之上。2.FileSystem类——fs对象。（2）读文件d.readLine()（2）hdfs文件是否存在。（3）本地文件是否存在。

2024-03-30 08:25:40 546

原创【项目管理——时间管理】【自用笔记】

（2—6）为规划过程组，7为监控过程组。

2024-03-22 18:45:42 287

原创【TD3思路及代码】【自用笔记】

td3

2024-03-20 21:51:49 3426

原创 Hbase实战

操作，如创建表、删除表、修改表结构、获取表描述符等。这些操作通常涉及到HBase元数据的变化，比如修改表的schema信息。对象封装了与HBase表进行交互所需的所有数据操作方法，如。接口提供了管理HBase集群状态所需的方法和工具。，如读取、写入数据等。对象以进行数据访问时，你会通过。

2024-03-19 14:51:12 376

原创【自用笔记】单词

cognitive 认知 formulation 阐述方式 nonlinear 非线性 nonconvex 非凸，无最优解 cumulative return 累计回报

2024-03-17 15:37:35 209

原创【自用笔记】论文框架

8 相关变量。

2024-03-15 13:36:38 266

原创人工智能导论2知识表示与知识图谱

一个非真即假的陈述句（1）对应于1.4知识特性之相对不确定性：命题+条件——唯一真值- 一个命题不能同时又真又假，但可在一种条件下为真，在另一种条件下为假（2）用大写英语字母表示P、Q（3）

2024-03-11 15:50:38 1230

原创如何在overleaf使用中文指定字体

overleaf中文

2024-03-10 14:03:08 11755 4

原创【自用笔记】DQN

返回能够获得最大Q值的动作A，表中为S-A的对应关系。格子游戏中的每一个格子就是一个状态，但在现实生活中，很多状态并不是。所以：Qlearning和DQN并没有根本的区别。只是DQN用神经网络，也就是一个函数替代了原来Qtable而已。将离散格子变为函数F(S) = A，这样我们就可以不用查表了，而且还有个好处，函数允许。2.1 Q-Learning是用状态S下Q值最大的动作A的Q值代替S状态的V值。适合离散状态，当我们输入状态S，我们通过。2 与Q-Learning关系。

2024-03-09 21:53:29 248

原创【自用笔记】Q—learning

也就是用下一步的V值更新这一步的V值（蒙特卡洛（所有Q取期望）的变体）（把下一步的V转化为Q=r+αV，再把Q平均到V中）- Qlearning 选择的是能够产生最大Q值的动作的Q值（最大Q值）。所以：由TD公式也就可以变形出SARSA公式，只不过是由V值更新V值变为了Q值更新Q值。所以虽然V不等于Q，但人们认为有个可能的动作产生的Q值能够一定程度代表V。S到A有多种选择，所以V值是Q值的期望（平均），Q值是。**注意：St选At的策略和St+1选At+1是。的动作At+1的Q值作为V(St+1)的替代。

2024-03-09 19:16:21 323 1

原创【自用笔记】MEC

*无线信号的强度通常会随着距离的增加而迅速衰减，这通常遵循一种与距离的平方成反比的规律。当距离增加时，信号增益（或信号强度）会减小，这反映了无线信号随距离衰减的特性。4.1 mec100：信道增益-50db，无噪声-100dbm，有噪声-80dbm，转为W。4.3 ue_leo=1e-8 #卫星和地面设备之间的信道增益用一个常数代替g，参考。1 circle/s 等于 1 Hz，因为1圈每秒就是1次每秒的振动或旋转。若全部卸载+限制范围（1000m）+无遮挡时卸载有遮挡是本地:89s左右。

2024-03-08 17:42:42 396 1

原创 vim命令、认识linux路径及hdfs路径

1 vim进入文件后开始编辑，esc退出编辑，输入:wq保存并退出，有可能权限不够要在root下进行操作，提前su进入root模式。原文链接：https://blog.csdn.net/feosun/article/details/73196299。③：终端输入 source .bashrc（这一步可省略，直接重启终端）:w file 将修改另外保存到file中，不退出vi。不保存文件，强制退出vi。强制保存，不推出vi。:w 保存文件但不退出vi。:wq 保存文件并退出vi。:q 不保存文件，退出vi。

2024-03-07 10:30:08 348

空空如也

空空如也