大数据项目案例
文章平均质量分 91
爱学习的数据喵
喵喵
展开
-
“泰迪杯”挑战赛 - 基于二部分图网络推荐算法
第一章 绪论1.1 选题背景与研究意义计算机技术的发展和互联网的不断普及,满足了用户在信息时代对信息的需求,但随着网络的迅速发展而带来的网络信息量的指数增长,使得用户在面对大量信息时无法从中快速获得对自己真正感兴趣或有用的那部分信息,对信息的使用效率反而降低了。在庞大且复杂无比的互联网信息库面前,用户所需的信息量是微乎其微,如何从中快速、准确地找到所需的信息,是许许多多的学者所关注的问题。个性化推荐系统正是解决这一问题的有效方法,它是根据用户的兴趣特点和历史行为,将用户感兴趣的信息、产品推荐给用户。和原创 2021-05-28 18:20:14 · 1495 阅读 · 0 评论 -
“泰迪杯”挑战赛 - 基于图像处理的道路缺陷类型自动识别
目 录研究目标分析方法与过程2.1. 总体流程2.2. 具体步骤2.3. 结果分析结论参考文献1. 挖掘目标本次建模目标是在缺陷类型的道路图像进行增强去噪等预处理、图像特征值的选择与提取的基础上,利用提取得到的真实数据,采用数据挖掘技术,分析各类道路图像特征值与缺陷类型之间的相互关系,训练自动分类算法,根据分类器的分类结果判断待识 别样本属于何种类别的缺陷,从而实现不同道路缺陷类型的自动识别。2. 分析方法与过程2.1. 总体流程本用例主要包括如下步骤:步骤一:缺陷道路图像预原创 2021-05-27 09:58:31 · 3284 阅读 · 1 评论 -
“泰迪杯”挑战赛 -通过数据挖掘来获取并分类航空客户信息
目录挖掘目标分析方法与过程2.1. 客户流失模型2.1.1. 数据样本2.1.2. Logistic 回归分析2.1.3. 结果分析2.2. 客户细分及客户价值评估2.2.1. 航空公司客户细分参数的确定2.2.2. 航空公司客户细分的具体步骤2.2.3. 结果分析结论参考文献1. 挖掘目标市场竞争异常激烈的今天,如何识别有价值的客户是企业营销策略的一个非常重要的环节。我们希望通过从大量的旅客乘机记录中对航空公司的客户进行行为分析,采用数据挖掘技术,达到以下目标:对客户进行原创 2021-05-25 17:57:23 · 1625 阅读 · 2 评论 -
“泰迪杯”挑战赛 - 通过数据挖掘预测肝癌手术治疗效果
目 录研究目标分析方法与过程2.1. 总体流程2.2. 具体步骤2.3. 结果分析结论参考文献1. 挖掘目标本次建模主要针对某医院 10 年来肝癌病例中的 20 个有代表性的样本,选取对预后有影响的 l0个指标进行统计分析;以预后影响作为评价标准,建立数据挖掘模型,实现对手术的治疗效果的自动分类和方案的优劣进行预测,从而为病人规划最佳的手术和治疗方案。2. 分析方法与过程2.1. 总体流程为了让建模更为清晰,结合该 20 个样本的特点,我们建模的主要步骤如下:一、 针对本数据集原创 2021-05-24 18:36:35 · 1634 阅读 · 0 评论 -
“泰迪杯”挑战赛 - 基于协同过滤的推荐算法研究与 GUI 设计
目录一、绪论1.1 研究背景1.2 推荐算法简述1.3 论文框架二、协同过滤算法2.1 基于用户的最近邻推荐2.1.1 算法简介2.1.2 算法表示2.1.3 代码分析2.2 基于物品的最近邻推荐2.3 Slop One 算法2.3.1 算法简介2.3.2 算法表示2.3.3 代码分析三、算法优化3.1 并行编程模式3.1.1 MapReduce 简介3.1.2 MapReduce 在 python 中的实现3.1.3MapReduce 的实际应用3.2 简化技术 S原创 2021-05-24 11:49:11 · 737 阅读 · 0 评论 -
“泰迪杯”挑战赛 - 通过Java实现中央空调系统的数据分析与控制策略
目 录录录录挖掘目标1.1 挖掘背景1.2 挖掘目标1.3 研究现状分析方法与过程2.1 流程分析2.1.1 总体流程2.1.2 变量分析2.1.3 中央空调结构分析2.2 具体步骤2.2.1 数据预处理2.2.2 符号说明2.2.3 数据规律分析2.2.4 基于回归分析的相关关系挖掘2.2.5 当决策变量为设备转速时的优化模型2.2.6 当决策变量为所有设备状态变量时的优化模型2.6.7 当决策变量为所有可控变量时的优化模型结论参考文献1. 挖掘目标1.1 挖原创 2021-05-21 14:37:06 · 2345 阅读 · 4 评论 -
“泰迪杯”挑战赛 - 构建数据模型分析航空客户忠诚度与价值
目 录研究目标分析方法与过程2.1. 总体流程2.2. 具体步骤2.3. 结果分析结论参考文献1. 挖掘目标本次建模目标是利用太普公司提供的 62988 个航空公司的样本数据,其中包括有 63 个属性,共8 个季度用户飞行的真实数据。对所有的数据样本进行预处理,除去缺失值的样本数据后,通过对传统客户保持管理的模型分析,结合数理统计中的一系列方法,从 63 个属性中筛选出对客户行为忠诚度影响高的因子,根据权衡忠诚度高影响的因子构建客户的忠诚度模型。同时,基于 RFM 客户价值量分析法,并原创 2021-05-20 15:38:53 · 1780 阅读 · 0 评论 -
“泰迪杯”挑战赛 - 基于Java的面向网络舆情的关联度分析(附算法代码)
目 录研究目标分析方法与过程2.1. 总体流程2.2. 具体步骤2.3. 结果分析结论参考文献1. 挖掘目标本次建模目标是利用网络爬虫工具采集的大量网络舆情信息,采用数据挖掘技术,给予用户信息中的关键词赋权,分析用户信息中不同权重大小的关键词与网络舆情信息间的关系,挖掘用户与网络舆情信息的关联规则,使用关键词加权评分系统构建反映与用户最相关的网络舆情信息。从而可以发挥网络对社会监督的巨大作用,以及及时有效的处理网络舆情突发事件。2. 分析方法与过程2.1. 总体流程本用例主要包括原创 2021-05-14 17:57:11 · 1537 阅读 · 7 评论 -
“泰迪杯”挑战赛-通过数据挖掘和监控分析网络舆情的关联度
目 录研究目标分析方法与过程2.1. 总体流程2.2. 具体步骤结论参考文献1. 挖掘目标本次建模的目的是利用通过网络爬虫工具从某些社区采集的网络舆情信息,采用数据挖掘技术,从资源集合中找出与指定的用户中存在关联的用户,利用用户各信息与用户之间不同的关联规则,计算求得这些用户与舆情资源集合的关联度,并进行关联度排序。2. 分析方法与过程2.1. 总体流程主要包括如下步骤:步骤一: 样本数据预处理步骤 2:为用户各属性设置不同的权重步骤 3:中文分词步骤 4:关键词词频统计原创 2021-05-13 17:56:53 · 1195 阅读 · 1 评论 -
“泰迪杯”挑战赛 - 通过数据挖掘技术实现道路缺陷自动识别
目 录挖掘目标分析方法与过程2.1. 总体流程2.2. 具体步骤2.2.1 缺陷图像预处理2.2.2 缺陷图像分割2.2.3 缺陷图像特征提取2.2.4 BP 神经网络模式识别2.3. 结果分析结论参考文献附 录1. 挖掘目标本次建模目标是利用附件所提供的道路缺陷图像,主要类型有:裂缝,龟裂,网裂,坑槽等缺陷。首先结合图形图像处理技术,对各类型图像进行特征提取和参数计算,并采用数据挖掘技术进行模式识别,以实现不同道路缺陷类别的自动识别。随着数字图像处理和模式识别技术的快速发展原创 2021-05-13 10:57:59 · 1460 阅读 · 3 评论 -
“泰迪杯挑战赛” - 项目和用户双重聚类的协同过滤推荐系统
目 录挖掘目标分析方法与过程2.1. 总体流程2.2. 具体步骤2.3. 结果分析结论参考文献1. 挖掘目标本文通过研究己有的协同过滤技术在电子商务推荐系统应用中面临的问题和挑战,以及现有的解决算法(主要为基于用户聚类的协同过滤和基于项目聚类的协同过滤),提出一种基于用户和项目双重聚类的协同过滤推荐算法。在进行项目聚类时,针对推荐系统数据集高维稀疏的特征,将评分数据的稀疏差异度引入到项目聚类算法中,然后将稀疏差异度和项目类别构造集合差异度相结合,对用户—项目评分矩阵进行项目聚类;而用户原创 2021-05-12 14:49:36 · 765 阅读 · 0 评论 -
“泰迪杯”挑战赛 - 面向网络舆情的关联度分析
目录研究目标分析方法与过程2.1.总体流程2.2.具体步骤2.3.结果分析结论参考文献1. 挖掘目标本次建模的目标是利用客户提供的 2013 年热点事件和用户信息表,采用中文分词技术,建立用户和事件的相互关系,通过计算人物属性(姓名,性别,住址)和每个事件中相对应的分词结果中相同的字数,得出用户和事件之间的关联度,通过 clementine软件,得出用户和用户的关联度。从而可以知道一个事件背后,这个人有多大关系,同时还能看出,这个人和其他人是否有关系。从而在一件事中,找出幕后操纵者和同原创 2021-05-10 16:35:07 · 846 阅读 · 1 评论 -
“泰迪杯”挑战赛 - 基于用户协同过滤算法的电影推荐系统(附算法代码)
目录第 1 章 绪论1.1、研究背景1.2、国际发展形势第 2 章 基于用户协同过滤推荐技术第 2 章 基于用户协同过滤推荐技术2.1 电子商务推荐系统概述2.2 协同过滤推荐技术第 3 章 基于用户的协同过滤推荐算法3.1 基于用户协同过滤算法的介绍3.2、基于用户喜好值推荐算法的思路3.2.1 建立用户模型3.2.2 寻找最近邻居余弦相似性(Cosine)相关相似性(Correlation)3.2.2 产生推荐项目3.3 算法的实现3.4 电影推荐系统界面实现3.4原创 2021-05-10 15:32:56 · 3265 阅读 · 0 评论 -
“泰迪杯”挑战赛 - 基于BP神经网络自动识别并分类道路缺陷
目 录研究目标分析方法与过程2.1. 总体流程2.2. 具体步骤2.3. 结果分析结论参考文献1. 研究目标1.1 研究意义和背景城市道路指的是城市内部的道路,它为车辆和行人提出交通往来的便利,在城市的经济发展和人们的衣食住行上都担任了不可或缺的作用。并且它能够连接城市的各个部分,扮演着城市枢纽的角色,是城市建设中至关重要的一环。改革开放以来,我国的城市建设的步伐越来越快,并提出了城乡一体化的目标,而要很好的实现这个目标就必须在道路建设上投入更大的资源。所以随着城市道路的需求量越来原创 2021-05-08 17:07:05 · 1998 阅读 · 2 评论 -
“泰迪杯”挑战赛 - 通过聚类方法对航空客运的客户进行细分
目 录挖掘目标分析方法与过程2.1. 总体流程2.2. 具体步骤• 步骤一:数据预处理• 步骤二:群体聚类• 步骤三:行为特征聚类2.3. 结果分析• 第一类:• 第二类:• 第三类:结论 …参考文献1. 挖掘目标...原创 2021-05-08 14:24:14 · 1665 阅读 · 1 评论 -
“泰迪杯”挑战赛 - 基于协同过滤的设备维修信息数据挖掘(详细数据及代码)
目录挖掘目标分析方法与过程2.1. 总体流程2.2. 具体步骤2.2.1. 维修数据集的特点分析 2.2.2. 维修数据集的预处理2.2.3. 关联分析2.3. 结果分析2.3.1 预处理的结果分析2.3.2 手机数据集基于 Clementine 结果分析2.3.3 基于推荐算法的手机数据集分析2.3.4 推荐算法的评价结论参考文献附件1. 挖掘目标本次建模目标是利用维修记录的海量真实数据,采用数据挖掘技术,分析手机各类故障与手机型号、手机各类故障与市场的相互关系,构建反原创 2021-05-07 11:44:08 · 1725 阅读 · 1 评论 -
“泰迪杯”挑战赛 - 通过 Logistic Lasso模型预测肝癌手术预后影响及因素
目 录研究目标分析方法与过程2.1. 总体流程2.2. 具体步骤2.3. 结果分析结论参考文献1. 研究目标本文目标为建立数据挖掘模型,研究肝癌手术预后影响(Y) (有或无)与食道静脉曲张 (X1)(X_1 )(X1) ,门脉癌栓 (X2)(X_2 )(X2) ,HbsAg (X3)(X_3 )(X3) , Anti-HCV (X4)(X_4 )(X4) ,肿瘤部位 (X5)(X_5 )(X5) ,肿瘤大小 (X6)(X_6 )(X6),肿瘤生长方式 (X7)(X_7原创 2021-05-06 13:55:37 · 1171 阅读 · 2 评论 -
“泰迪杯”挑战赛-通过图像处理和数据挖掘实现车辆检测与跟踪
目 录挖掘目标分析方法与过程2.1. 总体流程2.2. 具体步骤2.3. 结果分析结论参考文献1. 挖掘目标在建设平安城市的进程中,安全是政府日常管理工作中的重要任务。随着城市报警和监控系统的建设,对于监控数据的分析也日显重要。本次建模的目标:利用基于机器视觉的车辆检测、跟踪技术以及图像处理技术,对道路监测系统中车辆压双黄线的视频图像进行处理和综合分析,从中得到所需要的事件、信息及数据,实现对道路上突发的车辆压双黄线交通事件进行实时检测,减少交管部门人工排查违章投入。原创 2021-04-30 15:14:22 · 2446 阅读 · 2 评论 -
“泰迪杯”挑战赛-争对主流论坛(新浪,天涯,哇哈哈)进行正文提取
目 录挖掘目标全文脉络图爬虫技术简介3.1. 爬虫简介3.2. 正则表达式介绍具体步骤4.1. 解题思路4.2. 提取主题帖4.3. 提取回帖效果展示5.1. 哇哈体育论坛爬虫结果5.2. 新浪论坛爬虫结果5.3. 天涯论坛爬虫结果参考文献1. 挖掘目标在当今的大数据时代里,伴随着互联网和移动互联网的高速发展, 人们产生的数据总量呈现急剧增长的趋势,当前大约每六个月互联网中产生的数据总量就会翻一番。互联网产生的海量数据中蕴含着大量的信息, 已成为政府和企业的一个重要数据来原创 2021-04-29 14:57:56 · 413 阅读 · 0 评论 -
“泰迪杯”挑战赛 -利用非侵入式负荷检测进行高效率数据挖掘(完整数学模型)
目录1 研究背景与意义2 变量说明3 问题分析4 问题一4.1 数据预处理4.1.1 降噪处理4.1.2 数据变换4.2 负荷特征分析4.2.1 暂态特征4.2.2 稳态特征5 问题二5.1 相似度与权系数5.2 模型建立5.3 模型求解6 问题三6.1 事件检测算法6.2 模型建立6.3 模型求解7 问题四7.1 负荷识别决策树算法7.2 模型建立7.3 模型求解8 结论参考文献1 研究背景与意义与常规的连接在入户线上的电能表只能获得总能耗数据不同,电力原创 2021-04-28 15:21:02 · 2175 阅读 · 0 评论 -
“泰迪杯”挑战赛 - 基于非侵入式负荷检测与分解的电力数据挖掘(附详细数据及代码)
目录挖掘背景与目标1.1 挖掘背景1.2 挖掘目标问题分析2.1 问题 1 的分析2.2 问题 2 的分析2.3 问题 3 的分析2.4 问题 4 的分析基本假设及符号说明3.1 基本假设3.2 符号说明分析方法与过程4.1 问题 1 分析方法与过程4.1.1 稳态特征库4.1.2 暂态特征库4.1.3 实时用电量4.2 问题 2 分析方法与过程4.2.1 模型建立与求解4.2.2 结果分析4.2.3 实时用电量4.3 问题 3 分析方法与过程4.原创 2021-04-26 15:03:30 · 3664 阅读 · 16 评论 -
“泰迪杯”挑战赛 -利用收视记录定义用户画像(基于爬虫数据分析)
目录一、 引言1.1 背景1.2 研究内容1.3 研究思路二、数据预处理2.1 附件 1:用户收视信息2.1.1 用户收视信息2.1.2 用户回看信息2.1.3 用户点播信息2.1.4 用户单片点播信息2.2 附件 2:电视产品信息数据2.3 附件 3:用户基本信息三、研究方案及实施3.1 问题一3.1.1 基于用户的协同过滤3.1.2 基于电视产品的协同过滤3.1.3 方案实施及测试3.2 问题二3.2.1 构建用户标签体系(用户画像)3.3.2 构建产品标签体系原创 2021-04-25 11:39:16 · 1684 阅读 · 10 评论 -
“泰迪杯”挑战赛 - 利用网络爬虫提取通用论坛正文
目录一、引言二、实验方案2.1 初步方案设计(解题思路)2.2 方案具体分析2.2.1 方案一可行性分析2.2.2 方案二核心思想2.2.3 方案三可行性分析2.2.4 方案综合分析三、 实验过程3.1 前期准备3.1.1 样本统计分析3.1.2 论坛标签统计3.1.3 主回帖判断分析3.2 方案形成3.2.1 选择器规律汇总3.2.2 主回帖判断3.2.3 初步方案3.3 后期测试3.3.1 查准率测试3.3.2 查全率测试3.4 特殊论坛提取框架3.4.1 容原创 2021-04-23 14:02:40 · 705 阅读 · 0 评论 -
“泰迪杯” 挑战赛 - 基于市场资金流向分析的商品期货量化交易策略(附suibian代码)
目录基于市场资金流向分析的 Suibian 期货策略摘要1 问题重述1.1 问题重述2 符号说明及名字定义3 问题分析与求解3.1 资金流向指标的定义3.2 持仓量、成交量和价格的关系3.3 基于资金流模型的期货量化策略设计3.3.1 策略概况3.3.2 计算因子的构建3.3.3 入场条件3.3.4 加仓条件3.3.5 平仓(止盈止损)条件3.3.6 策略绩效4 参考文献5 附录摘要资金流向是一个成熟的技术指标,能帮助投资者透过价格涨跌的迷雾看到其他投资者的行为。而由于原创 2021-04-21 15:52:33 · 1503 阅读 · 2 评论 -
知语:一个基于知识与语义的高效深度文本匹配模型
1. 引言在大数据时代,智能阅读系统的需求日益增长,人们需要一款智能阅读软件来方便自己的生活,如电子书阅读,说明书阅读,都可以借由该技术简化。另一方面,随着数据的不断增多,以及深度学习在自然语言处理领域的发展,智能阅读模型也有了发展的基础,目前来看,智能阅读模型正处在方兴未艾的发展中。对于本次赛题给出的智能阅读模型系统,我们重新定义为文本匹配问题,也即给定两段文本,模型要正确判断文本是否匹配。目前主流的文本匹配模型有很多,大致可以分为两个主流。一方面是基于传统统计学特征的方法,比如tf −idf [1原创 2021-04-19 14:28:41 · 1337 阅读 · 1 评论 -
基于协同过滤算法为电视产品制订个性化推荐
1 绪论1.1 背景在互联网技术日益发展和进步的时代,各种数据呈现井喷式增长状态,仅2017 年“双十一”天猫旗下购买物品所产生的交易额最终定格在 1682 亿元,其中,无线成交额就占据了 90 个百分点。这部分数据十分庞大,但对于当今大数据时代所产生的数据总和来说,却只不过是冰山一角。并且互联网的发展还不仅局限于购物,它已经渗透到了生活的各个方面。那么,该如何在这海量的数据中为用户找到并推荐有价值的信息,这一问题已成为当今大数据时代面临的一个重大挑战。协同过滤(Collaborative Filte原创 2021-04-16 15:15:00 · 1289 阅读 · 1 评论 -
“泰迪杯”挑战赛 - 基于非侵入式负荷检测与分解针对日常电器的电力数据挖掘
目录1.挖掘目标2.分析方法与过程2.1 问题 1 分析方法与过程2.1.1 单个设备运行特征2.1.2 实时用电量计算2.2 问题 2 分析方法与过程2.2.1 流程图2.2.2 基于 SVM 的多分类判别模型2.2.3 基于最近邻的判别模型2.2.4 电流电压轨迹图可视化验证2.3 问题 3 分析方法与过程2.3.1 流程图2.3.2 设备类型分类2.3.3 不同运行状态下设备运行电流特征2.3,4 运用线性组合思想对设备组进行分析2.4 问题 4 分析方法与过程2.4原创 2021-04-15 11:51:11 · 2633 阅读 · 3 评论 -
“泰迪杯”挑战赛 - 利用双重注意力机制与Bi-LSTM 实现智能阅读系统
目录一、 简介1 . 1 挖掘意义1 . 2 挖掘目标1 . 3 挖掘流程二、 预处理2 . 1 分词2 . 2 去停用词2 . 3 word2vec三、 对回答候选集评分3 . 1 Bi-LSTM 层3 . 1 . 1 RNN 和 LSTM3 . 1 . 2 Bi-LSTM3 . 2 句嵌入层3 . 3 注意力层3 . 4 ATT-over-ATT 层3 . 5 注意力汇聚层3 . 6 总结四、 实验评估4 . 1 实验平台4 . 2 实验数据来源4 . 3 实验原创 2021-04-14 18:09:32 · 1870 阅读 · 1 评论 -
“泰迪杯”挑战赛 - 基于LSI和卷积神经网络实现智能阅读模型
目录一、 引言二、 模型框架三、 方案介绍3.1 数据分析与预处理3.1.1 数据分析3.1.2 数据预处理3.2 关键词匹配3.2.1 词频-逆向文件频率模型3.2.2 潜在语义索引模型3.3 精准匹配3.3.1 卷积神经网络3.3.2 模型设计四、 实验结果4.1 实验环境4.2 评价指标4.3 实验结果4.3.1 数据预处理阶段实验结果4.3.2 关键词匹配阶段实验结果4.3.3 精准匹配阶段实验结果五、 总结与展望5.1 总结5.2 展望5.2.1 改进原创 2021-04-14 16:23:19 · 1123 阅读 · 0 评论 -
“泰迪杯” 挑战赛 - 利用协同过滤与卷积神经网络为电视产品制订智能化营销推荐
目录问题重述模型假设数据预处理3.1 数据清洗3.1.1 数据缺失的分析和处理3.1.2 数据异常的分析和处理3.2 数据规约数据分析4.1 电视产品体系图4.2 收视用户体系图4.3 用户收视信息分析4.3.1 用户收视信息4.3.2 用户回看信息4.3.3 用户点播信息4.3.4 用户单片点播信息4.4 电视产品信息数据分析4.5 用户基本信息分析4.6 产品与用户画像4.7 评分体系推荐系统算法设计5.1 协同过滤算法5.1.1 基于用户的协同过滤算法5原创 2021-04-14 13:55:30 · 2486 阅读 · 4 评论 -
数据挖掘案例实战:利用LDA主题模型提取京东评论数据
数据挖掘案例实战:利用LDA主题模型提取京东评论数据网上购物已经成为大众生活的重要组成部分。人们在电商平台上浏览商品和购物,产生了海量的用户行为数据,其中用户对商品的评论数据对商家具有重要的意义。利用好这些碎片化、非结构化的数据,将有利于企业在电商平台上的持续发展,对这部分数据进行分析,依据评论数据来优化现有产品也是大数据在企业经营中的实际应用。本章主要针对用户在电商平台上留下的评论数据,对其进行分词、词性标注和去除停用词等文本预处理。基于预处理后的数据进行情感分析,并使用LDA主题模型提取评论关键信息原创 2020-09-28 13:48:55 · 25255 阅读 · 49 评论