- 博客(394)
- 资源 (97)
- 收藏
- 关注
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 【总目录】机器学习原理剖析、开源实战项目、全套学习指南(50篇合集)
相信不管此时的你是怀着好奇心打开这篇文章;还是偶然间刷到这篇博文;或者带有学习目的性走到这片领域,我都相信,面前的你一定会成功,因为你懂得投资和学习。学习是一个不断发展的过程,我们要用联系的眼光看待事物,也要用发展的眼光考虑未来,更要有适度的投资建设自己。不是每一次的遇见都是那么的巧合,也不是每一次的邂逅都会成就一段美好,所以你要相信,你和这篇文章的遇见也是更高层次的探索。机器学习算法知识、数据预处理、特征工程、模型评估——原理+案例+代码实战1、机器学习之Python开源教程——专栏介绍及理论知识概述。.
2022-08-24 00:01:39
3876
28
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 【全网首发】言简意赅的Python全套语法,内附详细知识点和思维导图!【强烈建议收藏!】
Python是近几年比较火热的编程语言,至于有多火热?偶尔打开微信公众号,页面下面弹出的是《Python训练营》,打开朋友圈发现有推荐学习Python的课程,打开CSDN,发现热榜第一又是Python推荐文章,不得不说Python的影响力在目前还是比较大的,这和Python社区的宣传力度有着密切的关系!目前学习Python的人有多少呢?那些人在学习Python呢?至于这个问题,我认为没有一个准确的答案,因为每一天学习Python的人都在增加,学习Python被越来越多的人注重,所以要回答这个问题,最好的
2021-04-16 13:21:46
50172
1435
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 上百种Python炫酷可视化案例珍藏版——看完掌握~一键三连~老板都想要给你升职加薪哟!
数据可视化是当下火热的大数据应用技术,很多新锐地大数据分析工具都注重开发数据可视化的功能模块。数据可视化及其技术研究和应用开发,已经从根本上改变了我们对数据和数据分析工具的理解,数据可视化对大数据发展的影响广泛而深入。数据可视化在近几年十分火热,但它到底是什么意思很多人却并不很清楚。从广义上来说,可视化无处不在, 打开浏览器, 网站就是个数据可视化, 背后是数据库密密麻麻的数据表, 到了你的浏览器就是浅显易懂的页面。帮助人更好的分析数据是数据可视化存在的意义,它对数据中所包含的意义进行分析,使分析结
2021-04-12 12:17:05
11661
74
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 80行快乐代码与你窥探爬虫的数据深渊——教你如何高效快速任意爬虫(附大量项目案例和语法解析文章)
前端工程师把数据和网页完美的结合在一起,他们以为这样是最美丽的契合,殊不知,后端的那些工程师宝宝们,一天没事干,把他们的老窝给惊扰了,爬虫给网站带来的危害是比较大的,如果一个服务器一般被很多用户访问,可能它会宕机,也可能会崩溃,那么一个机器通过编程手段来达到这个目的,一分钟的点击次数,同时点击所达到的次数,机器不会累,于是网站被他们端了。一切都要恰到好处,于是他们商量好了,礼貌的访问,隐隐约约的访问,悄悄咪咪的访问,有节制的去获取数据,慢慢的前端工程师和后端工程师关系越来也好了,最终他们诞生了幸福的结晶..
2021-04-09 14:40:19
12169
58
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 Python爬取热搜数据之炫酷可视化
可视化展示看完记得点个赞哟微博炫酷可视化音乐组合版来了!项目介绍背景现阶段、抖音、快手、哗哩哗哩、微信公众号已经成为不少年轻人必备的“生活神器”。在21世纪的今天,你又是如何获取外界的信息资源的?相信很多小伙伴应该属于下面这一种类型的:事情要想知道快,抖音平台马上拍;微博热搜刷一刷,聚焦热点不愁卖;闲来发呆怎么办, B 站抖音快手来;要是深夜无聊备,微信文章踩一踩;哈哈哈,小小的活跃一下气氛在这个万物互联的时代,已不再是那个“从前慢,车马慢....
2021-02-15 18:08:56
18562
76
原创 基于多种机器学习的51_job数据分析及薪资预测【前程无忧、智联招聘、BOOS直聘】
随着社会生产水平的持续提升和人们知识文化水平的不断进步,人才竞争在各行各业变得愈发激烈。在这种背景下,对于职场人士来说,理解自身优势和行业价值规律成为了迫切需求。本研究旨在通过科学的数据分析方法,提供就业市场的深入洞察,以助力职业发展。研究基于Python语言开发的网络爬虫技术,对国内大型招聘网站51job进行数据采集。
2024-07-26 15:23:15
475
原创 基于豆瓣音乐、豆瓣图书、豆瓣电影详情获取、长短评获取【豆瓣全家桶系列】
本项目旨在全面采集豆瓣平台上的电影、图书和音乐相关数据,通过精心设计的爬虫系统,实现了对这三大领域详情页面及用户评论的深度抓取。以下是项目的主要特点和成果总结:1. 多领域数据采集: 成功实现了对豆瓣电影、图书和音乐三大板块的全面数据采集,为后续分析提供了丰富多样的数据源。2. 详情页面深度抓取: 针对每个领域的详情页面,我们设计了专门的爬虫模块,确保准确获取如标题、评分、简介、创作者信息等核心数据。3. 评论数据全面采集: 项目不仅关注作品本身,还重点采集了用户的短评和长评。
2024-07-26 15:19:12
766
原创 基于Python的二手房价格分析与多种机器学习房价预测
二手房市场存在以下特点:二手房比起新房,虽有很多优势,但也存在着很多不足。比如与新房交易相比,由于政府政策的不断完善,手续也在更加复杂繁琐。此处略网络爬虫,也被称为网页蜘蛛或者网络机器人,更官方的名字叫数据采集,英文一般称作Spider[24]。这个软件或者脚本能够在一个特定的规则下,自动地捕捉和处理数据。网络爬虫的基本工作原理如图2.2所示。通用爬虫技术其实现过程如下:(1) 首先,获得原始 URL,分析目标网站,构建新的种子 URL。(2) 将新构建的 URL插入到要捕获的队列中。
2024-07-26 08:00:00
574
原创 基于hive的招聘数据分析与可视化之薪资预测
居然有 5 万多,一惊之下,查了下这家公司的招聘信息,可以看到该公司在招的都是高级岗,比如 集团片区总经理(副总裁级),这个岗位人数达到 20 人,岗位月薪 6 万,所以直接把平均薪资拉高了,而且工作地点也不在厦门。但是,为什么会是这样的情况呢,个人认为,有可能是 35 岁 以后的职场人士,沉淀更多,进入了更高级的职位,更稳定,所以流动性比较低,自然市场上空出来的需求也会变少了,更不用说还有一部分人变成了创业者。从岗位数来看,大部分岗位的学历要求为大专以上,换言之,在厦门,只要大专学历,就很好找工作了。
2024-07-25 18:30:00
561
原创 基于YOLOv8的火灾消防报警系统【基于YOLOV8的烟火识别系统】【可换多种权重训练】
本研究通过多种渠道收集了丰富的火灾相关数据集。主要来源包括:1. 杜伦大学公开数据库:该数据库提供了多样化的火灾场景图像,涵盖建筑物火灾、工业火灾、交通事故等紧急情况。数据集还包含无明显火势的紧急情况图像,以及具有类火特征(如日落)或红黄色物体的图像,增加了数据的多样性和难度。2. 训练集与测试集: - 训练集包含240张50×50像素的图像,其中80张为火灾图像,160张为非火灾图像。 - 测试集由226张不同分辨率的图像组成,119张含有火焰,107张不含火焰。3. 分割数据:数
2024-07-25 16:52:24
367
原创 基于Python的河南省天气数据分析与空气质量预测研究【含数据抓取与数据库自动存储】
【代码】基于Python的河南省天气数据分析与空气质量预测研究【含数据抓取与数据库自动存储】
2024-07-25 16:24:11
789
原创 基于多种机器学习的豆瓣电影评分预测与多维度可视化【可加系统】
在本研究中,我们采用Python编程语言,利用爬虫技术实时获取豆瓣电影最新数据。通过分析豆瓣网站的结构,我们设计了一套有效的策略来爬取电影相关的JSON格式数据。为减少对服务器的频繁请求,我们实施了基于正态分布的延迟策略。数据采集后,使用Python中的Pandas库进行初步处理,将无序信息转换为结构化数据,包括处理空值、字符串格式化和字段扩展。然后,我们将整理好的数据存储到MySQL数据库中,进行深入的数据挖掘。通过分析不同数据维度,我们深入探讨了电影流行趋势和观众喜好等多个方面。
2024-07-25 16:05:31
659
原创 基于Python与Flask的豆瓣电影海量数据分析与可视化系统
在信息化快速发展的今天,大数据已深入生活各个领域,并成为人们进行决策的关键因素。从影片制作到发行,再到市场销售,都会产生海量的数据。这些数据不仅包括影片的票房收入、观众评分等直接反映影片经济效益的指标,还涵盖观众画像、观影习惯、市场趋势等深层次信息。如何有效地收集、整理、分析和利用这些数据,对于提升电影产业的运营效率、优化资源配置、增强市场竞争力具有重要意义。与此同时,数据可视化技术作为数据处理和展示的一种直观、有效的手段,能够将复杂的数据以图表、图形等方式呈现出来,协助使用者在资料中迅速取得重要资讯。
2024-07-25 16:05:14
636
原创 罚函数的概念及内罚与外罚的理解与应用
罚函数(Penalty Function)是一种在优化算法中用来处理约束问题的方法。其基本思想是在目标函数中加入一个罚项(penalty term),以此来惩罚违反约束条件的解,从而引导算法寻找满足约束条件的最优解。从而将有约束的优化问题转化为无约束优化问题。在许多优化问题中,目标函数需要满足一些约束条件,如等式约束、不等式约束等。通过引入罚函数,可以构造一个新的无约束的优化问题,其目标函数包括原目标函数和罚函数两部分。
2024-06-20 11:15:46
918
原创 基于Hadoop的网上购物行为大数据分析及预测系统【flask+echarts+机器学习】前后端交互
研究首先利用Hadoop的HDFS存储系统存储数据,然后通过Flume组件自动加载数据到Hive数据库中进行分析。研究重点关注了电子商务关键指标,如PV、UV、跳失率、重复购买率等,并进行多维度透视分析以洞察用户行为和活跃度。此外,研究还详细分析了热销商品ID、商品类别和用户地理位置,以探索不同产品类别的销售业绩和电子商务指标。分析结果存储于Hive数据库后,通过Sqoop组件导出到MySQL,然后使用Python的Pyecharts可视化库进行结果展示。
2024-01-12 17:44:28
3307
6
原创 【万能代码+案例】详解SPC相关控制图原理及逻辑代码
每一种控制图都有其特定的用途和解读方式。比如,如果控制图显示数据点大多在控制限以内,这表明过程是稳定的。如果数据点超出控制限或呈现非随机模式,这可能表示过程有异常。
2023-12-11 13:43:17
2107
6
原创 基于Python的前程无忧、51job、智联招聘等招聘网站数据获取及数据分析可视化大全【代码+演示】
总的来说,这些分析揭示了网页等级排名和职位等级排名与职位的具体特征之间的关联。特定类型的职位、公司类型、规模和行业可能会影响它们在搜索结果中的可见度和优先级。综合来看,这些分析结果表明,不同搜索关键词下的职位在HR标签、薪资水平、公司类型和公司规模方面存在显著差异。综上所述,薪资发放次数不仅反映了薪资的发放频率,而且与薪资水平密切相关。更频繁的薪资发放(如包含年终奖的情况)通常意味着更高的总体薪资水平。这些分析为理解职位发布的时间模式提供了直观的视角,有助于求职者或招聘专家理解何时是职位市场最活跃的时段。
2023-12-09 19:40:59
3380
3
原创 【科学炼丹指南】机器学习最科学、最有效的参数优化全流程实现方法
机器学习模型都有很多超参数需要调整,比如神经网络的层数、节点数,树模型的最大深度、叶子节点数等。调参的目的是在限定的训练时间和计算资源内,通过调整这些超参数,使模型在验证集上的性能指标达到最优,如最小化预测误差,最大化准确率等。但是由于超参数组合数量极大,模式性能高度非凸,手工调参搜索空间巨大,效率低下。因此会使用一些调参策略与工具自动搜索,如网格搜索、随机搜索、贝叶斯优化等。还会使用技巧缩小搜索空间,降低调参难度,比如启发式初始化。但即便使用自动调参方法,调参过程也非常耗时,需要大量的计算资源。当数据集复
2023-12-08 17:23:03
1137
原创 回归模型中多重共线性问题——逐步回归法、方差膨胀因子(VIF)、因子分析【含代码与解释】
特征之间的多重共线性,是指在,自变量之间存在高度的线性相关性,导致回归系数的估计不准确,不稳定,甚至不可信的现象。多重共线性的存在会影响模型的解释能力和预测能力,增加模型的复杂度和不确定性,降低模型的泛化能力。举一个实际的例子,假设我们想用线性回归模型来预测房价,我们选择了以下几个自变量:房屋面积,房屋卧室数,房屋卫生间数,房屋所在地区,房屋建造年份等。因此,我们需要对多重共线性进行检测和处理,以提高模型的可靠性和有效性。
2023-12-06 11:55:26
4559
原创 机器学习中参数优化或交叉验证评估指标含义
在Scikit-Learn中,cross_val_score函数支持多种不同的评分标准(scoring参数)。这些评分标准各有其适用场景和特点。选择哪种评分标准取决于你的具体任务和模型评估的需求。例如,在回归任务中,如果你关心预测误差的大小,可以选择neg_mean_squared_error或neg_mean_absolute_error;而如果你关心模型解释的方差比例,可以选择r2。
2023-11-29 18:28:48
712
原创 【IQR与MAD】原理,一文带你玩转箱型图含详细解释与代码
IQR方法基于四分位数:使用数据的第一四分位数(25%)和第三四分位数(75%)来计算。对称:相对于中位数对称地考虑上下界。受极端值影响:如果数据中包含极端值,IQR可能会被拉得很大,导致异常值的检测不够敏感。MAD方法基于中位数:只考虑中位数和每个点的偏差。稳健:对异常值不敏感,特别适合于含有离群点的数据。非对称:只考虑偏离中位数的绝对偏差,因此不是关于中位数对称的。优点比较:对于含有离群点的数据集:MAD通常更优,因为它对异常值的敏感度低。
2023-11-28 16:48:08
1766
原创 【bug最新修复】findfont: Generic family ‘sans-serif‘ not found because none of the following
如果是mac os 和 linux系统按照以下方法百分之百能解决解决方案我的缓存文件夹是:/home/.matplotlib删除这个缓存文件夹:rm -r /home/.matplotlib/*2.下载SeiHei.ttf字体放入~/.fonts目录下。点击下载或者复制这个链接下载命令:如果没有就mkdir ~/.fonts(3)安装fc-cache命令。
2023-11-28 11:14:44
5124
6
原创 如何使用pytorch定义一个多层感知神经网络模型——拓展到所有模型知识
这是一个简单的方式来链接(组合)多个图像转换操作。它会按照提供的顺序执行列表中的每个转换。这个转换将PIL图像或NumPy的ndarray转换为FloatTensor。并且它将图像的像素值范围从0-255变为0-1。简言之,它为我们完成了数据类型和值范围的转换。这个转换标准化张量图像。给定的参数是均值和标准差。在这里,均值和标准差都是0.5。使用给定的均值和标准差,这会将值范围从[0,1]转换为[-1,1]。
2023-10-18 17:38:15
2338
原创 数据挖掘之贝叶斯优化——前反馈特征的参数,估计特征的最佳数值
传统的制造业或者实际厂家都是结合经验和数据进行,可能一个工艺表一直在沿用,但是随着设备和不同情况的更新迭代与出现,这种只依靠经验的规则无法适用于大规模的数据,一个工序只能一个人来调节,多个工序可能需要多个工艺师来互相配合,无法达到最优的结果。通过拿到问题我们都是采取机器学习的一些相关的回归算法进行,不管是神经网络模型还是各种基于概率还是树的模型,多个特征去预测一个特征是符合也是比较常见的一种建模思想,但是随着机器学习和深度学习的不断衍生,我们的需求也在越来越明确。实际上,数据的真实分布可能会有所偏差。
2023-10-16 15:33:00
1096
原创 机器学习之过拟合与欠拟合,K折交叉验证详解【含代码】
K折交叉验证不仅仅适用于多参数的网格搜索,也适用于单个参数的调优。其目的是为了提供对模型在未见数据上性能的一个更稳健的估计,从而帮助我们选择更好的参数。
2023-10-13 16:12:25
1866
2
原创 数据挖掘与统计分析——T检验,正态性检验和一致性检验——代码复现
T检验是一种参数检验,它的前提是数据近似于正态分布。它通过计算T统计量,并将其与特定分布(T分布)进行比较,来判断两个样本组的均值之间是否存在显著差异。
2023-10-11 17:42:58
3085
原创 【多思路附源码持续更新】2023年华为杯(中国研究生数学建模)竞赛C题
加上研究生的论文表达不到位,评审专家的视角不同,同一份作品的几位专家给出的成绩会有较大的差异(极差)。第二阶段评审仍然存在部分极差大的作品,因为是终审,误差可能影响获奖等级,因此对部分极差大的作品,需要复议调整极差(附件的数据中有记录,复议分就是该专家最后给的标准分,用来替换原来的标准分)。但在大规模创新类竞赛评审中,通常任意两位专家评审的作品只有小部分是共同的,绝大多数作品是不同的(见问题一),而且每位专家只看到作品集合的很小部分,因此标准分评审方案的假设可能不成立,需要探索新的评审方案。
2023-09-22 08:37:30
5408
原创 适合初学者快速入门的Numpy实战全集
NumPy(Numeric Python)提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。多为很多大型金融公司使用,以及核心的科学计算组织如:Lawrence Livermore,NASA用其处理一些本来使用C++,Fortran或Matlab等所做的任务。
2023-09-15 08:00:00
200
原创 【干货超全】国内外常见的Ai大模型汇总!!!
讯飞星火大模型由讯飞公司开发,采用了独特的融合计算框架,实现了语音与文本的深度融合,使对话更加自然流畅。它拥有超过1000亿参数,训练数据达到10000TB,覆盖了通用领域和垂直领域,可提供新闻聊天、心理咨询、医疗健康等服务。它的训练数据包括论文、新闻、社交媒体对话等,支持进行知识问答、文本创作、情感交流等。ChatGPT是OpenAI公司基于GPT模型系列研发的交互式聊天机器人,采用监督学习和强化学习相结合的方式进行训练,可进行多轮闲聊并具有一定的知识问答能力。紫东太初理解能力强,可进行多轮交互。
2023-09-14 20:02:31
2624
原创 【案例+源码】数据可视化之统计绘图-Seaborn全套教程
Matplotlib试着让简单的事情更加简单,困难的事情变得可能,而Seaborn就是让困难的东西更加简单。seaborn是针对统计绘图的,一般来说,seaborn能满足数据分析90%的绘图需求。Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图,应该把Seaborn视为matplotlib的补充,而不是替代物。
2023-09-14 17:15:55
2222
2
原创 【案例+操作+演示】20分钟带你入门Pandas,掌握数据分析科学模块,附带上百个案例练习题【含答案】
这个一篇针对pandas新手的简短入门,想要了解更多复杂的内容,参阅Cookbook。
2023-09-14 16:23:01
234
原创 【多思路附源码】2023高教社杯 国赛数学建模C题思路 - 蔬菜类商品的自动定价与补货决策
在生鲜商超中,一般蔬菜类商品的保鲜期都比较短,且品相随销售时间的增加而变差, 大部分品种如当日未售出,隔日就无法再售。因此, 商超通常会根据各商品的历史销售和需 求情况每天进行补货。由于商超销售的蔬菜品种众多、产地不尽相同,而蔬菜的进货交易时间通常在凌晨 3:00- 4:00,为此商家须在不确切知道具体单品和进货价格的情况下, 做出当日各蔬菜品类的补货 决策。蔬菜的定价一般采用“成本加成定价”方法, 商超对运损和品相变差的商品通常进行 打折销售。可靠的市场需求分析,对补货决策和定价决策尤为重要。
2023-09-08 02:19:05
11621
12
原创 【Bug解决】ERROR: Could not find a version that satisfies the requirement cython (from versions: none)
Windows安装时可能会提示Microsoft Visual C++ 14.0 is required,从而导致安装出错,请点击文章顶部,下载VC build tools安装再执行如下pip命令注意:安装完后,需要重新打开新的终端命令窗口。PaddleX依赖pycocotools包,如安装pycocotools失败,可参照如下方式安装pycocotools。然后就可以了,网上很多其他的教程安装之后都会报错,是因为没有安装GPU版本的,按照这个没有问题!解决问题才是学习的开始!
2023-07-17 12:37:00
2348
原创 基于激光雷达、视觉摄像头、IMU等的数据采集及播放实践
简单来说,当我们有小车环境的时候,我们的rosbag就是一个订阅者的模式,当我们的包录制好了,放到其他没有小车环境的下的时候,我们播放bag的时候,它就是一个发布者的模式,我们可以看到它的话题名称,以及可以通过rqt_graph进行展示其结点之间的关系,也可以通过rviz进行可视化展示。首先我们需要开启对应的激光雷达、视觉摄像头、IMU的ros结点,然后利用命令行进行录制和保存,在进行播放,在进行播放的时候我们可以查看话题名称,以及对应的消息格式,直观的展示可以通过rviz进行可视化的展示和播放。
2023-07-09 08:00:00
960
原创 基于卷积神经网络VGG的猫狗识别
!有需要本项目的实验源码的可以私信博主!摘要:随着大数据时代的到来,深度学习、数据挖掘、图像处理等已经成为了一个热门研究方向。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。这也是深度学习在当下备受欢迎的原因之一,本实验的研究目的是自动识别猫狗类型,采用的是基于数据挖掘的猫狗自动识别技术。本实验将具有外貌复杂的猫狗图像,其中训练集下各有猫狗数据1000张,验证集下各有猫狗500张,运用卷积神经网络训练,并挑选深度学习框架 TensorFlow以及计算能力强大的 GPU
2023-07-08 08:30:00
3148
8
原创 基于Python电商用户行为的数据分析、机器学习、可视化研究
数据预处理可以消除数据中的错误、缺失、异常和重复等问题,提高数据质量,减少误差,为后续数据分析提供更可靠的基础。通过用户所发生的行为数据,以及透视数据下的各种新增的维度字段,比如最近的购买次数,最近一次的购买时间,我们可以采用Kmeans聚类算法对用户群体进行聚类,根据得出的聚类数目,采用RFM模型对其进行深入的划。在检查完数据的缺失值和异常值之后,需要对数据有一个时间维度上的把控,因为本研究的一个重要的数据分析思维,就是通过时间上的一些指标探索不同时间下的行为,流量指标的分布等情况。
2023-07-07 08:30:00
4638
18
原创 基于招聘网站的大数据专业相关招聘信息建模与可视化分析
首先是利用collections库的Counter函数对数据的重复值进行查看,这边主要是对岗位的url进行了统计查看,可以通过结果看出,每个url都只出现了一次,也就是说,每条数据都只出现了一次,并未出现重复值,因此,不用对数据进行去重操作。根据占比率前十的职位类别统计,对职位类别进行环状扇形图的呈现。根据职位类别的数量统计,对所有职位类别进行词云图呈现,从词云图可以看出计算机软件、互联网、电子商务、计算机服务等职位类别对大数据专业相关岗位的需求比较大,求职者在求职的时候可以先考虑这些岗位类别的招聘。
2023-07-06 08:00:00
3203
7
原创 基于高校图书馆的用户画像、可视化、模型预测、推荐算法项目实现
本研究针对高校图书馆的借阅信息、馆藏图书信息、读者入馆信息、用户信息等多维度的数据表,采用Python的正则表达式模块和MySQL数据库对数据进行清洗和整合,并从图书借阅数据、馆藏数据、用户信息和入馆记录等维度表,挖掘不同字段之间的信息价值,并构建用户画像系统和群体画像系统,利用pyecharts进行前端的网页端展示,实现基于用户画像和群体画像的大屏可视化设计。第二步,对不同维度的数据表进行处理,保留有效的信息数据,并将处理好的数据表存入到另一个数据库中,以方便后续进行结构化分析和用户画像的设计。
2023-07-05 11:03:44
3653
7
研究生数学建模华为杯C题第一问含结果csv表格.rar
2023-09-22
【案例+操作+演示】20分钟带你入门Pandas,掌握数据分析科学模块,附带上百个案例练习题含答案
2023-09-14
【多思路附源码】2023高教社杯 国赛数学建模C题思路 - 蔬菜类商品的自动定价与补货决策
2023-09-08
豆瓣电影数据集【案例数据5000条】私信博主获取代码不限量获取数据
2023-09-05
全分布式集群Hadoop全套组件解压即可使用包含(Ubuntu-HDFS-HBASE-HIve-Sqoop-mysql....)
2023-03-06
目标检测 智能交通 国内交通标志数据集 - 标注完成 - 1W张数据实拍交通标志
2022-12-05
基于Hadoop豆瓣电影数据分析实验报告
2022-06-16
Hadoop豆瓣电影分析可视化源码
2022-06-16
自然语言处理之文本分类及文本情感分析资源大全(含代码及其数据,可用于毕设参考!)
2022-05-23
基于Word2Vec构建多种主题分类模型(贝叶斯、KNN、随机森林、决策树、支持向量机、SGD、逻辑回归、XGBoost...)
2022-05-22
智能词云算法(一键化展示不同类型的词云图)运行生成HTML文件
2022-05-22
协同过滤推荐系统资源(基于用户-物品-Surprise)等案例操作代码及讲解
2022-05-11
Python机器学习关联规则资源(apriori算法、fpgrowth算法)原理讲解
2022-05-11
旅游消费数据集——包含用户id,用户评分、产品类别、产品名称等指标,可以作为推荐系统的数据集案例
2022-05-11
机器学习-推荐系统(基于物品).ipynb
2022-05-11
pyecharts绘图案例模板大全(代码可作为模板)
2022-05-09
基于hadoop对某网站日志分析部署实践课程设计报告参考模板.doc
2022-05-09
Hadoop部署实践所需的安装包(Ubuntu下的安装包)
2022-05-09
hadoop实践项目-PPT演示步骤
2022-05-09
使用hadoop-streaming运行Python编写的MapReduce程序.rar
2022-05-09
hadoop实训课数据清洗py脚本(MapReduce python代码,可执行文件脚本,使用方法)
2022-05-09
大数据分析-网站日志数据文件(Hadoop部署分析资料)
2022-05-09
Python编写成绩计算系统
2022-04-07
数学建模论文万能模板(适用于大学生各类建模类竞赛论文参考)
2022-04-07
SEIR(SIR)新冠肺炎预测分析源码
2022-04-05
国家社科基金项目数据库-2022-3-27.xlsx
2022-03-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人