行坐亦念-CSDN博客

原创 CNN卷积神经网络

卷积神经网络（CNN）是深度学习领域的重要算法，特别适用于处理具有网格结构的数据，比如说图像和音频。它起源于二十世纪80至90年代，但真正得到快速发展和应用是在二十一世纪，随着深度学习理论的兴起和计算能力的提升。CNN通过模拟生物的视知觉机制，利用卷积核的参数共享和层间连接的稀疏性，实现了对图像等数据的平移不变分类和特征学习，而无需进行繁琐的特征工程。这些特性使得CNN在计算机视觉、自然语言处理等领域取得了显著成果，成为现代人工智能应用的关键技术之一。什么是卷积？在泛函分析中，卷积。

2024-06-06 21:58:28 758

原创 FastDFS分布式文件系统

FastDFS是一款由国人余庆开发的轻量级开源分布式文件系统，它对文件进行管理，功能包括：文件存储、文件同步、文件访问（文件上传、文件下载）等，主要解决大容量文件存储和高并发访问问题，通过纯C语言实现并支持多种UNIX系统。特别适合以文件为载体的在线服务，如相册网站、视频网站等等。它采用专有API进行文件存取，不支持POSIX接口和挂载使用，属于应用级分布式文件存储服务。

2024-06-05 15:46:30 884

原创【用户画像】用户偏好购物模型BP

推荐系统是一种利用电子商务网站、社交媒体平台等向用户提供个性化商品、内容或服务建议的系统。它通过分析用户的行为、兴趣、历史记录等信息，帮助用户快速找到符合其需求的物品，提高用户体验和满意度。推荐引擎，作为网站不可或缺的后台智能核心，高度依赖用户行为日志。这些日志不仅是用户兴趣与偏好的宝贵记录，更是网站实现个性化服务的关键数据。通过深度分析用户的行为日志，推荐引擎能够精确捕捉每个用户的独特需求，并据此为用户呈现定制化的页面和信息。

2024-06-03 18:24:54 1091

原创集成学习算法笔记

随机森林（Random Forest）是一种集成学习方法，它基于决策树，通过构建多个决策树并将它们的预测结果结合起来，从而提高了预测的准确性和稳定性。在随机森林中，“随机”和“森林”两个词都有其特定的含义。“随机”的含义对于每一棵决策树，都从原始数据集中随机有放回地抽取一部分样本作为该决策树的训练集。这种做法称为自助法（bootstrap sampling），它允许训练集中有重复的样本，同时也可能有一些样本没有被选中。通过这种方法，每棵决策树都基于一个略有不同的训练集进行训练，从而提高了整个模型的泛化能力。

2024-06-02 20:47:01 1065

原创用户购物性别模型标签（USG）之决策树模型

在USG模型中，ML Pipeline（机器学习流水线）为使用决策树算法构建和评估模型提供了一个系统化的流程，确保了整个模型开发过程的一致性和可重复性。交叉验证通过将数据集划分为不同的子集，并轮流使用这些子集进行训练和测试，为模型提供了更为准确和可靠的性能评估。这有助于我们发现并避免过拟合，调整模型参数以达到最佳性能，以及在不同算法和特征集合中选择最佳模型。

2024-06-01 21:42:30 1055

原创【机器学习】随机梯度下降算法以及优化

全梯度下降算法稳定但计算量大，适用于小数据集；随机梯度下降算法速度快，适用于大数据集但更新不稳定；小批量梯度下降则在这两者间找到了平衡。动量法通过引入动量项加速收敛并减少震荡，而Adam算法则通过自适应调整学习率实现高效计算，是目前广泛应用的优化算法，但其性能对参数选择较为敏感。

2024-05-27 20:03:59 1078

原创【机器学习】支持向量机（SVM）

支持向量机（SVM）的功能强大，通过不同类别的数据点以最大间隔的超平面来实现分类，适用性也很普遍，区分硬间隔与软间隔以及非线性支持向量机，硬间隔也就是数据点是线性可分的情况下优化出的结果，软间隔则是硬间隔的基础上多了几个混乱的数据点，根据计算这些混乱数据点的影响则是引入了松弛变量（我叫它损失函数），非线性支持向量则是当数据点无法进行分类时候将数据从原始空间映射到一个更高维的特征空间从而实现分类。

2024-05-24 19:37:04 2269 1

原创图计算与ID-Mapping

在ID-Mapping的过程中，可以利用图计算技术来找到各种ID标识之间的关联关系，从而识别出哪些ID标识属于同一个人或实体。通过构建包含各种ID的图结构，并应用图算法进行迭代处理，可以获取图数据中隐藏的重要信息，从而实现实现用户画像的构建、精准营销、个性化推荐等功能。（以上为自学笔记，侵删。

2024-05-22 21:47:35 829 1

原创【用户画像】RFM客户价值模型

使用KMeans聚类算法构建RFM客户价值模型是一种有效的客户细分方法，可以帮助企业准确识别不同价值的客户群体，并据此制定针对性的营销策略。但是需要人为设置K值，K值的选择又跟预测结果以及组建的模型有着很大的关系，不过在Sprak中KMeans可以设置算法底层实现K-Means || 算法，以便拿到更好的聚簇中心点。

2024-05-21 16:20:32 1013 1

原创【机器学习】朴素贝叶斯算法

朴素贝叶斯分类在实际应用中具有一定的参考价值，它的算法逻辑简单，易于实现，分类过程中对时间空间的开销也较小。理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。（以上为学习资料，侵删。

2024-05-19 21:26:37 818 1

原创机器学习之常用算法与数据处理

使用数据集训练模型的步骤大差不差，都需要加载数据后对数据进行一系列处理（过滤与基本转换），然后构建特征工程，选择算法（有的算法要输入参数）得到模型，最后进行评估预测此模型是否可用（值得信任），可以的话就进行保存以便下次再用。

2024-05-18 22:12:44 2039

原创推荐系统之——ALS交替最小二乘法建立推荐模型

ALS交替最小二乘法作为一种高效的矩阵分解算法，在推荐系统中具有广泛的应用前景。通过交替优化U和V矩阵，ALS算法可以逼近原始评分矩阵，从而实现对未评分物品的预测和个性化推荐。同时，ALS算法还具有缓解冷启动问题和可扩展性等优点，使得其在大数据环境下更具优势。

2024-05-16 22:44:07 720

原创用户画像——标签模型开发之自定义外部数据源

自定义类，除了继承TableScan和，此外实现序列化接口 Serializable ，所有类声明如下，其中实现 Serializable 接口为了保证对象可以被序列化和反序列化。// 连接接HBase数据库的属性名称/*** 自定义外部数据源：从HBase表加载数据和保存数据值HBase表*/// 连接HBase数据库的属性名称/*** SQLContext 实例对象* @return*//*** DataFrame 的 schema 信息* @return*//**

2024-05-15 22:01:15 517

原创物联网协议——MQTT协议与EMQX

随着 5G 时代的来临，万物物联的伟大构想正在成为现实。联网的物联网设备在 2018 年已经达到了 70 亿，在未来两年，仅智能水电气表就将超过10亿海量的设备接入和设备管理对网络带宽、通信协议以及平台服务架构都带来了很大挑战。对于物联网协议来说，必须针对性地解决物联网设备通信的几个关键问题：其网络环境复杂而不可靠、其内存和闪存容量小、其处理器能力有限，MQTT协议应运而生。EMQX 是一款开源的大规模分布式 MQTT 消息服务器，功能丰富，专为物联网和实时通信应用而设计。

2024-05-14 16:59:42 2440

原创用户画像——使用模板方法（Template Pattern）构建标签抽象类AbstractModel

Scala语言开发用户画像

2024-05-13 22:08:53 716

原创大数据框架——Hbase（笔记）

Hbase作为一个基于Hadoop之上的NoSQL数据库，它比Hive更适合做一些高速查询随机访问非结构化数据的场景，而Hive则更偏向于分析，做为数据仓库。Hbase依靠其列式存储、高可靠性、高性能和实时读写直至今日依旧受到人们的喜爱。

2024-05-13 16:42:14 1103 2

原创决策树算法笔记

ID3的算法其实就是简单直观易理解，符合人的思维模式，C4.5算法使用信息增益率能够更为准确的衡量特征以及其重要性，C4.5还引入了剪枝而避免出现过拟合现象，但由于是多叉树效率没有二叉树高，有大量耗时的对数运算，当训练集过大内存无法容纳时会导致程序无法运行，CART可以处理连续型和离散型数据，使用基尼指数来更快地构建决策树，但是由于对异常值比较敏感可能构建的决策树不够稳定。

2024-05-12 22:04:14 980

原创浅谈Hive（分布式SQL计算工具）

在Hive诞生之前，大数据分析通常需要编写复杂的MapReduce代码，这对非专业技术人员来说很困难。Hive的出现使得数据分析变得更加容易，开发人员可以使用类似于SQL的语言（HiveQL）进行查询和分析，而无需编写复杂的MapReduce代码。同时，Hive还提供了用于将查询转换为MapReduce任务的引擎，使得数据分析人员可以轻松地利用Hadoop集群的计算能力。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能。

2024-05-11 22:10:26 1069 3

原创什么是Hadoop？

HDFS（Hadoop Distributed File System）是Hadoop项目中的一个核心子项目，它是Hadoop分布式文件系统的简称。HDFS是一个高度容错性的分布式文件系统，旨在部署在廉价硬件上，并提供对数据的高吞吐量访问。HDFS设计用于存储非常大的数据集，并且这些数据集能够在集群中的多个节点上存储和管理。

2024-05-10 21:11:37 574

原创 Hadoop的安装以及使用

Hadoop的安装详解

2024-05-10 18:55:53 968

weixin_63260646的博客