数据挖掘
文章平均质量分 93
数据挖掘作为一门交叉学科,涉及数据库、人工智能、统计学、可视化等不同的学科和领域。本专题以python为基础,进行简单的nlp文本挖掘,再到传统数据挖掘实战。
是Yu欸
这里是我读博期间的笔记本,记录学习和成长,争取顺利毕业ing
展开
-
【Paddle】PCA线性代数基础 + 领域应用:人脸识别算法(1.1w字超详细:附公式、代码)
主成分分析(PCA,Principal Component Analysis)是一项在高维数据中,寻找最重要特征的降维技术,大大减少数据的维度,而不显著损失信息量。本文将通过实际的 Paddle 代码示例,来展示所提供的高效、灵活的线性代数API,如何简化了机器学习和深度学习中的数据处理和分析工作,为高维数据集的处理和分析提供了有效工具。将从以下两个板块展开介绍。- **PCA的算法原理**:介绍PCA的数学基础,如何从线性代数的角度理解PCA,以及PCA算法的步骤。- **PCA在人脸识别中原创 2024-04-30 19:41:38 · 4888 阅读 · 147 评论 -
社交网络分析(汇总)
社交网络分析,作为计算机科学和社会科学领域的交叉研究领域,一直以来都备受关注。在数字时代的今天,社交网络已经成为了人们生活中不可或缺的一部分,无论是社交媒体上的互动、信息传播、还是商业活动和政治运动,都离不开社交网络的影响和作用。为了更好地理解和利用社交网络,研究人员们开展了大量的工作,其中包括了各种各样的分析方法和技术。在本系列文章中,我们将深入探讨社交网络分析的多个方面,从起源和发展,到不同领域的应用,再到核心概念和前沿技术,希望能够帮助您深入了解社交网络分析领域的重要内容,为您在研究和实践中提供有原创 2023-12-21 17:09:16 · 3334 阅读 · 13 评论 -
社交网络分析7:社交网络舆情分析 、 社交网络舆情演化传播建模 、 社交网络舆情用户研究 意见领袖识别 情感分析 、结构洞 、 生命周期 、 舆情分析 知识图谱 主题图谱 、 异质平均场
在数字化时代,社交网络不仅重塑了我们的沟通方式,也深刻影响了舆情的形成与传播。从高校事件到政治竞选,从公共危机到品牌形象,舆情在社交网络的涟漪效应下,变得更加迅速而复杂。《社交网络分析7:社交网络舆情分析》旨在深入探讨这一现象,提供一个全面的视角来理解和分析社交网络中舆情的动态。在这一系列博文中,我们将探索舆情的定义和影响、研究现状、演化传播建模,以及在社交网络中舆情的特定用户研究。我们会深入探讨诸如知识图谱、异质平均场方法、淬火平均场方法等先进技术在舆情分析中的应用,同时也会触及到社交网络舆情的关键组原创 2023-12-20 09:13:49 · 8128 阅读 · 32 评论 -
社交网络分析6:社交网络不实信息传播分析 、 ILDR(Ignorant-Lurker-Disseminator-Removed)传播动力学模型 、 平衡点 、 平衡点的稳定性分析 、数值仿真
首先,我们将介绍不实信息传播的定义和背景,深入理解其传播途径和特点,以及当前的研究现状。特别地,我们聚焦于垃圾信息的ILDR(Ignorant-Lurker-Disseminator-Removed)传播动力学模型,这是一个创新的方法,用于模拟和分析社交网络上的信息流动。通过比较ILDR模型与传统病毒传播模型(如SIRS和SEIR)的不同,我们将揭示这种新模型在社交网络不实信息传播分析中的主要创新点。我们还将讨论ILDR模型的合理性和稳定性分析的重要性,解读其中涉及的关键概念,如平衡点和各种稳定性类型。原创 2023-12-20 09:12:32 · 2253 阅读 · 10 评论 -
社交网络分析5:社交网络信息传播动力学。信息传播 、传染病模型、博弈模型和物理系统模型 、传播动力学分析 、 未来发展趋势与展望
欢迎来到探索`社交网络信息传播动力学`的博客。随着社交网络在我们生活中扮演着越来越核心的角色,理解信息如何在这些复杂网络中传播变得至关重要。在这篇博客中,我们将深入挖掘信息传播的动力学原理,从基本的研究概述到复杂的数学模型,再到实际应用和未来发展的前景。我们将首先介绍信息传播的各个方面,包括传播、接收、发布和反馈的过程,以及如何预测和控制这些过程。接着,我们将深入研究社交网络信息传播的不同模型,包括传染病模型、博弈模型和物理系统模型,并探讨它们的特点和相互之间的比较。我们还会讨论新的物理学模型的提出原创 2023-12-18 12:25:23 · 3226 阅读 · 44 评论 -
社交网络分析4(下):社交网络链路预测分析、LightGBM框架、LLSLP方法(LightGBM 堆叠链路预测)、堆叠泛化 、社交网络链路预测分析的挑战
LightGBM(Light Gradient Boosting Machine)是一种创新的集成学习框架,旨在优化传统梯度提升决策树(GBDT)的性能和速度,现已成为机器学习领域的核心工具之一。Exclusive Feature Bundling (EFB)是LightGBM中的一个创新算法,旨在有效减少用于构建直方图的特征数量,从而降低计算复杂度,特别适用于特征中包含大量稀疏特征的场景。高效快速:LightGBM在速度方面具有显著优势,能够高效地进行模型训练和预测。内存占用少。原创 2023-12-18 11:26:47 · 2667 阅读 · 18 评论 -
社交网络分析4(上):社交网络链路预测分析、Logistic回归模型、LLSLP方法(LightGBM 堆叠链路预测)、正则化方法、多重共线性
在这个由连接驱动的数字时代,社交网络不仅仅是连接人与人的桥梁,它们还蕴含着深刻的社会、经济和技术洞见。从Facebook到LinkedIn,社交网络的每一个点击、每一条信息流,都构成了一个复杂且动态的网络结构。但是,这些看似简单的连接背后隐藏着什么秘密?如何预测未来可能形成的社交联系,从而揭示隐藏在数据背后的深层次模式和趋势?这就是社交网络链路预测分析的魅力所在。在这篇博客中,我们将深入探讨社交网络链路预测分析的核心,解析它的基本概念、重要性以及各种现代方法。我们将介绍从基于网络结构的传统方法到利用深度原创 2023-12-17 23:52:12 · 2947 阅读 · 32 评论 -
社交网络分析3:社交网络隐私攻击、保护的基本概念和方法 + 去匿名化技术 + 推理攻击技术 + k-匿名 + 基于聚类的隐私保护算法
欢迎阅读社交网络系列博客之《社交网络分析3(下)》。通过本篇博客,希望能提供一个较为全面的视角,以理解社交网络中的隐私保护问题、方法,以及这些领域的最新技术发展。社交网络,作为现代互联网时代的一个重要组成部分,不仅为我们提供了互相交流和分享的平台,也成为了大数据和情感分析的宝贵资源。然而,随着社交网络的日益普及和数据量的爆炸式增长,用户隐私保护成为了一个不可忽视的问题。本篇博客将从多个角度剖析社交网络中的隐私泄露问题,探讨其背后的原因、可能的攻击方式以及对策。- 社交网络隐私泄露在这个数字化时代原创 2023-12-17 21:11:56 · 3596 阅读 · 16 评论 -
2023年华为杯数学建模E题——代码复盘(第一问)
华为杯E题国二3、最优的技术组合下,随机森林、梯度提升树分类器、SVM三种方法进行网格调参。为了求解方便,代码长度缩小方便修改,因此上述代码不包含绘图。计算两个日期间的时间间隔,并间隔时间的单位,从s换算成h。2、对比三种数据缩放技术,过采样前后,选择最优的模型。原创 2023-11-14 21:04:00 · 5780 阅读 · 5 评论 -
matlab数学建模方法与实践 笔记汇总
快速从零入门matlab数学建模,从数据预览(绘制)、预处理、常用建模方法到机器学习、小波去噪等其他建模方法注:为书的阅读笔记《MATLAB数学建模方法与实践》(《MATLAB在数学建模中的应用》升级版),北航出版社,卓金武、王鸿钧编著. 代码在Cha2文件夹下原创 2023-10-08 10:00:30 · 5664 阅读 · 1 评论 -
2023高教杯数学建模2:DE题+参考论文、代码
所以我们又对 2013 年和 2012 年的猪市行情进行了调查,利用这两年的养殖成本和销售价格等数据对该养殖场的盈亏平衡点和母猪年均产仔量进行求解。母猪每年可以产两胎,每胎可以成活 9 只小猪,求使得该养殖场养殖规模达到饱和时,小猪选为种猪的比例和母猪的存栏数。问题3,问题2的模型,用于问题3求解,然后根据突变型、季节性等问题2的突变点来给监测方案(数据分析+文字建模)所建立的模型考虑到的因素比较全面,并详细的给出了经营策略,可以应用到实际规划中。问题1,折线图、热力图(相关性分析)、关联分析(可考虑)原创 2023-09-10 13:46:11 · 5650 阅读 · 0 评论 -
2023高教杯数学建模1:ABC题目+初步想法
一些数值优化库和软件包,如MATLAB中的fmincon,Python中的scipy.optimize等,提供了专门用于处理约束优化问题的优化器。附件 2 和附件 3 分别给出了该商超 2020 年 7 月 1 日至 2023 年 6 月 30 日各商品的销售流水明细与批发价格的相关数据;,并给出各蔬菜品类未来一周(2023 年 7 月 1-7 日)的。,这些数据对解决上述问题有何帮助,请给出你们的意见和理由。首先,附件1、附件2之间通过单品编码进行表连接。其中,df1为附件3,df2为附件2。原创 2023-09-08 21:55:54 · 8843 阅读 · 1 评论 -
遗传算法——基于Big Mart Sales数据集的TPOT库实现(python)
实际上,AML 是在 scikit-learn 中应用的网格搜索的扩展,而不是迭代这些值预先定义的集合和其组合,它通过搜索方法,特征,变换和参数值来获得最佳解决方案。因此,AML“网格搜索”不需要在可能的配置空间上进行详尽的搜索 - AML 有一个很赞的应用叫做 TPOT 包,其提供了像遗传算法这样的应用,可用来在某个配置中混合各个参数并达到最佳设置。该步骤是遗传算法中产生新的个体的主要操作过程,它用一定的交配概率阈值(pc,一般是0.4到0.99)来控制是否采取单点交叉,多点交叉等方式生成新的交叉个体。原创 2023-01-04 15:55:11 · 6097 阅读 · 7 评论 -
大数据导论考察论文:模拟建立测控全国COVID-19流行趋势的模型
由于技术等客观因素限制,我就疫情中政府基于大数据应用,第二个方面中,通过分析卫生部门所采取措施对疫情传播所造成的影响,复盘我国抗击COVID-2019取得阶段性胜利的原因。为此,我将初步筛选全国疫情发展态势统计结果,模拟建立测控全国COVID-19流行趋势的模型。原创 2022-11-12 19:22:11 · 7372 阅读 · 3 评论 -
数学建模1:lingo软件求解优化模型
本次数学建模学习笔记系列,以代码学习为主,附带建模及论文亮点记录由于队友为两位经济学小伙伴,因此以大数据类型题目为主要学习方向注:论文代码资料来源网络。原创 2022-09-13 09:01:01 · 7009 阅读 · 2 评论 -
数学建模2:评价类模型
关联系数写入到day_20_Coef.xls 其为行排列,转置即可对应180个比较因子。day_20.xls第一列为借车站点号,第二列为还车站点号,第三列为用车时常。参考因子与比较因子.xls中,第二行为参考因子,其余行为比较因子。其中第一列为站号,第二列为为最大值,第三列为最大值对应时段。原创 2022-09-13 09:00:38 · 5241 阅读 · 0 评论 -
数学建模3:2012A
目前的聚类算法都属于半监督算法, 还需要指定每次聚类过程中类别的数量, 所以对于该问题, 需要先确定最佳类别的数量。可以先用轮廓值对 K-means 方法得到的聚类结果进行评价, 这样就可以据此来确定最佳的类别数。通过检查数据质量发现,的确存在数据缺失现象,为此对于缺失的值,用同组的平均值来进行填充。经过这样的处理,就可以用程序来计算这些样品的 T 检验值了, 这样就可以用每组检验值的平均值来表示每组品酒师对红酒和白酒的显著性差异。可以用每组品酒师的得分对总体样本的方差,来表示各组品酒师评价结果的稳定性。原创 2022-09-13 16:28:49 · 5415 阅读 · 0 评论 -
数学建模:赛前准备
一开始负责论文写作的人立即着手去写问题重述,并给出论文的大体格式–即若干个大标题。模型检验与改进(模型验证,误差分析,灵敏度分析),模型评价(模型优缺点)论文 数据画像、找数据 论文撰写(指标构建、公式构建、思维导图)建模、代码 模型假设、问题分析、摘要、附录。求解问题分析,摘要,关键字,参考文献,附录。原创 2022-09-13 08:59:52 · 5232 阅读 · 0 评论 -
matlab数学建模方法与实践 笔记2:数据的准备
删除、插补(均值、回归、极大似然估计(期望值最大化))原始分布形态,了解大致分布中心、边界、数据集中度。选取某帧数图像进行图像层面的分析。回归、平滑、离群点分析、小波过滤。标准化、离散化、语义转换。相关性分析、主成分分析。原创 2022-09-13 17:22:17 · 5620 阅读 · 0 评论 -
实习踩过的那些坑1:数据抽取
这种操作类似关系数据库中sql语句的连接操作。参考:https://blog.csdn.net/weixin_43938251/article/details/108256073。参考:https://blog.csdn.net/weixin_40161254/article/details/104796953。参考:https://blog.csdn.net/weixin_41955821/article/details/110457849。例如匹配*这个字符则使用*,匹配\这个字符,使用\。原创 2022-11-12 17:46:35 · 5477 阅读 · 0 评论 -
NLP3:原始文本资料的读取与处理
实验三:原始文本资料的读取与处理实验目的:掌握如何使用Python获取网络和本地文本。掌握如何使用NLTK包和正则表达式对获取的原始文本进行处理。实验环境:Python 3NLTK包正则表达式实验内容:1. 使用HTML解析的方式提取任意网页文本(英文),并查找文章第一自然段的内容。(http://www.chinadaily.com.cn/a/202008/07/WS5f2cf95ca31083481725ef12.html)import nltk, re, pprintfro原创 2021-12-07 09:29:20 · 3369 阅读 · 0 评论 -
NLP6:stanford Parser中文分词
使用stanford Parser进行中文分词、命名实体识别与句法分析。学习使用stanford Parser工具包,通过可视化界面和API调用两种方式进行中文信息处理。原创 2021-12-07 08:18:05 · 4337 阅读 · 0 评论 -
NLP7:综合实验
实验要求完成对中文搜狗新闻语料库的LDA主题提取。实验内容一、训练关键词提取算法(1)加载已有的文档数据集。为了解决编码错误,将编码改为GB18030:能读取的文件数量从17678,增加到了17910。打印文件内容信息,检查是否正确。(2)加载停用词表。(3)对数据集中的文档进行分词。并根据停用词表,过滤干扰词。1.去除文本中的日期和时间Demo1:Demo2:由于还需去除文本中的数字和英文字符,因此对于2022年1月1日这种字符串,去除“年”、“月”、“日”、“时”、“原创 2022-01-21 17:37:38 · 3338 阅读 · 0 评论 -
NLP4:结巴分词
使用结巴分词工具进行分词、关键词提取与词性标注。原创 2021-12-07 08:55:09 · 3949 阅读 · 1 评论 -
NLP5:NLTK词性标注
使用NLTK和结巴分词完成词性标注。原创 2021-12-07 08:33:37 · 3734 阅读 · 0 评论 -
数据挖掘2.6——聚类 知识点整理
1.聚类分析概述2.基本聚类方法2.1 划分方法1.Kmeans算法2.k-modes算法3.KMeans++算法4.k-中心点2.2 层次方法2.3基于密度的方法3.聚类评估原创 2022-05-15 16:35:59 · 6768 阅读 · 1 评论 -
数据挖掘2.5——分类 知识点整理
1.基本概念2.描述分类的一般过程3.掌握朴素贝叶斯分类原理4.决策树分类4.1 Hunt算法5.模型的评价5.1 准确率的局限5.2 其他度量1.混淆矩阵2.广泛使用5.3 ROC曲线5.4 过拟合与欠拟合6.基于规则的分类原创 2022-05-15 16:05:58 · 5876 阅读 · 0 评论 -
数据挖掘2.4——关联规则挖掘 知识点整理
1.基本概念1.1定义2.频繁项挖掘算法2.1降低产生频繁顷集计算复杂度的算法2.2 Apriori2.3 FPGrowth2.4 产生关联规则3.关联分析的评估原创 2022-05-14 22:09:46 · 7572 阅读 · 0 评论 -
数据挖掘2.3——数据预处理 知识点整理
1.数据质量2.数据预处理方法3.数据特征构造原创 2022-05-14 15:31:38 · 5807 阅读 · 0 评论 -
数据挖掘2.2——认识数据 知识点整理
1.数据类型1.1数据对象1.2属性2.数据统计汇总2.1中心化趋势度量: 均值、 中位数和众数2.2 离散度度量2.3数据可视化3.数据相似性和相异性度量3.1度量数据的相似性和相异性3.2 标称属性的邻近性度量3.3 二值属性的邻近性度量3.4数值属性的邻近性度量3.5余弦相似性原创 2022-05-14 14:53:25 · 5927 阅读 · 0 评论 -
数据挖掘2.1——绪论 知识点整理
1.数据挖掘背景、 历史及发展2.数据挖掘定义2.1数据定义2.2数据挖掘定义3.数据挖掘过程4.数据挖掘任务关联规则挖掘5.数据挖掘应用5.1应用场景5.2存在的问题参考原创 2022-05-14 13:20:10 · 5606 阅读 · 0 评论 -
数据挖掘1——课后习题
第一章:引论1.31.41.5第二章:认识数据2.52.6第三章:数据预处理3.13.23.43.7第六章:挖掘频繁模式、关联和相关性6.66.14第八章:分类基本概念8.78.128.138.16第十章:聚类分析10.210.610.1210.13原创 2022-05-14 11:38:22 · 17008 阅读 · 4 评论