自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

迷茫与徘徊只会让你陷入绝境,欢迎私信博主,带你开始提升变现价值!

毕设指导、课程设计、代码辅导讲解、职业规划、商业合作等。 神奇的代码之旅-和你一同开启!希望技术的星星之火可以点燃我们对生活的激情向往!ヾ(◍°∇°◍)ノ゙

  • 博客(394)
  • 资源 (97)
  • 收藏
  • 关注

原创 【总目录】机器学习原理剖析、开源实战项目、全套学习指南(50篇合集)

相信不管此时的你是怀着好奇心打开这篇文章;还是偶然间刷到这篇博文;或者带有学习目的性走到这片领域,我都相信,面前的你一定会成功,因为你懂得投资和学习。学习是一个不断发展的过程,我们要用联系的眼光看待事物,也要用发展的眼光考虑未来,更要有适度的投资建设自己。不是每一次的遇见都是那么的巧合,也不是每一次的邂逅都会成就一段美好,所以你要相信,你和这篇文章的遇见也是更高层次的探索。机器学习算法知识、数据预处理、特征工程、模型评估——原理+案例+代码实战1、机器学习之Python开源教程——专栏介绍及理论知识概述。.

2022-08-24 00:01:39 3876 28

原创 【全网首发】言简意赅的Python全套语法,内附详细知识点和思维导图!【强烈建议收藏!】

Python是近几年比较火热的编程语言,至于有多火热?偶尔打开微信公众号,页面下面弹出的是《Python训练营》,打开朋友圈发现有推荐学习Python的课程,打开CSDN,发现热榜第一又是Python推荐文章,不得不说Python的影响力在目前还是比较大的,这和Python社区的宣传力度有着密切的关系!目前学习Python的人有多少呢?那些人在学习Python呢?至于这个问题,我认为没有一个准确的答案,因为每一天学习Python的人都在增加,学习Python被越来越多的人注重,所以要回答这个问题,最好的

2021-04-16 13:21:46 50172 1435

原创 上百种Python炫酷可视化案例珍藏版——看完掌握~一键三连~老板都想要给你升职加薪哟!

数据可视化是当下火热的大数据应用技术,很多新锐地大数据分析工具都注重开发数据可视化的功能模块。数据可视化及其技术研究和应用开发,已经从根本上改变了我们对数据和数据分析工具的理解,数据可视化对大数据发展的影响广泛而深入。数据可视化在近几年十分火热,但它到底是什么意思很多人却并不很清楚。从广义上来说,可视化无处不在, 打开浏览器, 网站就是个数据可视化, 背后是数据库密密麻麻的数据表, 到了你的浏览器就是浅显易懂的页面。帮助人更好的分析数据是数据可视化存在的意义,它对数据中所包含的意义进行分析,使分析结

2021-04-12 12:17:05 11661 74

原创 80行快乐代码与你窥探爬虫的数据深渊——教你如何高效快速任意爬虫(附大量项目案例和语法解析文章)

前端工程师把数据和网页完美的结合在一起,他们以为这样是最美丽的契合,殊不知,后端的那些工程师宝宝们,一天没事干,把他们的老窝给惊扰了,爬虫给网站带来的危害是比较大的,如果一个服务器一般被很多用户访问,可能它会宕机,也可能会崩溃,那么一个机器通过编程手段来达到这个目的,一分钟的点击次数,同时点击所达到的次数,机器不会累,于是网站被他们端了。一切都要恰到好处,于是他们商量好了,礼貌的访问,隐隐约约的访问,悄悄咪咪的访问,有节制的去获取数据,慢慢的前端工程师和后端工程师关系越来也好了,最终他们诞生了幸福的结晶..

2021-04-09 14:40:19 12169 58

原创 Python爬取热搜数据之炫酷可视化

可视化展示看完记得点个赞哟微博炫酷可视化音乐组合版来了!项目介绍背景现阶段、抖音、快手、哗哩哗哩、微信公众号已经成为不少年轻人必备的“生活神器”。在21世纪的今天,你又是如何获取外界的信息资源的?相信很多小伙伴应该属于下面这一种类型的:事情要想知道快,抖音平台马上拍;微博热搜刷一刷,聚焦热点不愁卖;闲来发呆怎么办, B 站抖音快手来;要是深夜无聊备,微信文章踩一踩;哈哈哈,小小的活跃一下气氛在这个万物互联的时代,已不再是那个“从前慢,车马慢....

2021-02-15 18:08:56 18562 76

原创 基于多种机器学习的51_job数据分析及薪资预测【前程无忧、智联招聘、BOOS直聘】

随着社会生产水平的持续提升和人们知识文化水平的不断进步,人才竞争在各行各业变得愈发激烈。在这种背景下,对于职场人士来说,理解自身优势和行业价值规律成为了迫切需求。本研究旨在通过科学的数据分析方法,提供就业市场的深入洞察,以助力职业发展。研究基于Python语言开发的网络爬虫技术,对国内大型招聘网站51job进行数据采集。

2024-07-26 15:23:15 475

原创 基于豆瓣音乐、豆瓣图书、豆瓣电影详情获取、长短评获取【豆瓣全家桶系列】

本项目旨在全面采集豆瓣平台上的电影、图书和音乐相关数据,通过精心设计的爬虫系统,实现了对这三大领域详情页面及用户评论的深度抓取。以下是项目的主要特点和成果总结:1. 多领域数据采集: 成功实现了对豆瓣电影、图书和音乐三大板块的全面数据采集,为后续分析提供了丰富多样的数据源。2. 详情页面深度抓取: 针对每个领域的详情页面,我们设计了专门的爬虫模块,确保准确获取如标题、评分、简介、创作者信息等核心数据。3. 评论数据全面采集: 项目不仅关注作品本身,还重点采集了用户的短评和长评。

2024-07-26 15:19:12 766

原创 基于YOLOv8的海上漂浮物垃圾识别检测系统【可换多种权重训练】

基于YOLOv8的海上漂浮物垃圾识别检测系统【可换多种权重训练】

2024-07-26 09:15:59 36

原创 基于Python的二手房价格分析与多种机器学习房价预测

二手房市场存在以下特点:二手房比起新房,虽有很多优势,但也存在着很多不足。比如与新房交易相比,由于政府政策的不断完善,手续也在更加复杂繁琐。此处略网络爬虫,也被称为网页蜘蛛或者网络机器人,更官方的名字叫数据采集,英文一般称作Spider[24]。这个软件或者脚本能够在一个特定的规则下,自动地捕捉和处理数据。网络爬虫的基本工作原理如图2.2所示。通用爬虫技术其实现过程如下:(1) 首先,获得原始 URL,分析目标网站,构建新的种子 URL。(2) 将新构建的 URL插入到要捕获的队列中。

2024-07-26 08:00:00 574

原创 基于hive的招聘数据分析与可视化之薪资预测

居然有 5 万多,一惊之下,查了下这家公司的招聘信息,可以看到该公司在招的都是高级岗,比如 集团片区总经理(副总裁级),这个岗位人数达到 20 人,岗位月薪 6 万,所以直接把平均薪资拉高了,而且工作地点也不在厦门。但是,为什么会是这样的情况呢,个人认为,有可能是 35 岁 以后的职场人士,沉淀更多,进入了更高级的职位,更稳定,所以流动性比较低,自然市场上空出来的需求也会变少了,更不用说还有一部分人变成了创业者。从岗位数来看,大部分岗位的学历要求为大专以上,换言之,在厦门,只要大专学历,就很好找工作了。

2024-07-25 18:30:00 561

原创 基于YOLOv8的火灾消防报警系统【基于YOLOV8的烟火识别系统】【可换多种权重训练】

本研究通过多种渠道收集了丰富的火灾相关数据集。主要来源包括:1. 杜伦大学公开数据库:该数据库提供了多样化的火灾场景图像,涵盖建筑物火灾、工业火灾、交通事故等紧急情况。数据集还包含无明显火势的紧急情况图像,以及具有类火特征(如日落)或红黄色物体的图像,增加了数据的多样性和难度。2. 训练集与测试集: - 训练集包含240张50×50像素的图像,其中80张为火灾图像,160张为非火灾图像。 - 测试集由226张不同分辨率的图像组成,119张含有火焰,107张不含火焰。3. 分割数据:数

2024-07-25 16:52:24 367

原创 基于Python的河南省天气数据分析与空气质量预测研究【含数据抓取与数据库自动存储】

【代码】基于Python的河南省天气数据分析与空气质量预测研究【含数据抓取与数据库自动存储】

2024-07-25 16:24:11 789

原创 基于多种机器学习的豆瓣电影评分预测与多维度可视化【可加系统】

在本研究中,我们采用Python编程语言,利用爬虫技术实时获取豆瓣电影最新数据。通过分析豆瓣网站的结构,我们设计了一套有效的策略来爬取电影相关的JSON格式数据。为减少对服务器的频繁请求,我们实施了基于正态分布的延迟策略。数据采集后,使用Python中的Pandas库进行初步处理,将无序信息转换为结构化数据,包括处理空值、字符串格式化和字段扩展。然后,我们将整理好的数据存储到MySQL数据库中,进行深入的数据挖掘。通过分析不同数据维度,我们深入探讨了电影流行趋势和观众喜好等多个方面。

2024-07-25 16:05:31 659

原创 基于Python与Flask的豆瓣电影海量数据分析与可视化系统

在信息化快速发展的今天,大数据已深入生活各个领域,并成为人们进行决策的关键因素。从影片制作到发行,再到市场销售,都会产生海量的数据。这些数据不仅包括影片的票房收入、观众评分等直接反映影片经济效益的指标,还涵盖观众画像、观影习惯、市场趋势等深层次信息。如何有效地收集、整理、分析和利用这些数据,对于提升电影产业的运营效率、优化资源配置、增强市场竞争力具有重要意义。与此同时,数据可视化技术作为数据处理和展示的一种直观、有效的手段,能够将复杂的数据以图表、图形等方式呈现出来,协助使用者在资料中迅速取得重要资讯。

2024-07-25 16:05:14 636

原创 基于Python的哔哩哔哩国产动画排行数据分析系统

另一方面也反映出,对于好看的动漫,观众是很愿意分享的。

2024-07-25 15:29:53 197

原创 罚函数的概念及内罚与外罚的理解与应用

罚函数(Penalty Function)是一种在优化算法中用来处理约束问题的方法。其基本思想是在目标函数中加入一个罚项(penalty term),以此来惩罚违反约束条件的解,从而引导算法寻找满足约束条件的最优解。从而将有约束的优化问题转化为无约束优化问题。在许多优化问题中,目标函数需要满足一些约束条件,如等式约束、不等式约束等。通过引入罚函数,可以构造一个新的无约束的优化问题,其目标函数包括原目标函数和罚函数两部分。

2024-06-20 11:15:46 918

原创 基于Hadoop的网上购物行为大数据分析及预测系统【flask+echarts+机器学习】前后端交互

研究首先利用Hadoop的HDFS存储系统存储数据,然后通过Flume组件自动加载数据到Hive数据库中进行分析。研究重点关注了电子商务关键指标,如PV、UV、跳失率、重复购买率等,并进行多维度透视分析以洞察用户行为和活跃度。此外,研究还详细分析了热销商品ID、商品类别和用户地理位置,以探索不同产品类别的销售业绩和电子商务指标。分析结果存储于Hive数据库后,通过Sqoop组件导出到MySQL,然后使用Python的Pyecharts可视化库进行结果展示。

2024-01-12 17:44:28 3307 6

原创 【万能代码+案例】详解SPC相关控制图原理及逻辑代码

每一种控制图都有其特定的用途和解读方式。比如,如果控制图显示数据点大多在控制限以内,这表明过程是稳定的。如果数据点超出控制限或呈现非随机模式,这可能表示过程有异常。

2023-12-11 13:43:17 2107 6

原创 基于Python的前程无忧、51job、智联招聘等招聘网站数据获取及数据分析可视化大全【代码+演示】

总的来说,这些分析揭示了网页等级排名和职位等级排名与职位的具体特征之间的关联。特定类型的职位、公司类型、规模和行业可能会影响它们在搜索结果中的可见度和优先级。综合来看,这些分析结果表明,不同搜索关键词下的职位在HR标签、薪资水平、公司类型和公司规模方面存在显著差异。综上所述,薪资发放次数不仅反映了薪资的发放频率,而且与薪资水平密切相关。更频繁的薪资发放(如包含年终奖的情况)通常意味着更高的总体薪资水平。这些分析为理解职位发布的时间模式提供了直观的视角,有助于求职者或招聘专家理解何时是职位市场最活跃的时段。

2023-12-09 19:40:59 3380 3

原创 【科学炼丹指南】机器学习最科学、最有效的参数优化全流程实现方法

机器学习模型都有很多超参数需要调整,比如神经网络的层数、节点数,树模型的最大深度、叶子节点数等。调参的目的是在限定的训练时间和计算资源内,通过调整这些超参数,使模型在验证集上的性能指标达到最优,如最小化预测误差,最大化准确率等。但是由于超参数组合数量极大,模式性能高度非凸,手工调参搜索空间巨大,效率低下。因此会使用一些调参策略与工具自动搜索,如网格搜索、随机搜索、贝叶斯优化等。还会使用技巧缩小搜索空间,降低调参难度,比如启发式初始化。但即便使用自动调参方法,调参过程也非常耗时,需要大量的计算资源。当数据集复

2023-12-08 17:23:03 1137

原创 回归模型中多重共线性问题——逐步回归法、方差膨胀因子(VIF)、因子分析【含代码与解释】

特征之间的多重共线性,是指在,自变量之间存在高度的线性相关性,导致回归系数的估计不准确,不稳定,甚至不可信的现象。多重共线性的存在会影响模型的解释能力和预测能力,增加模型的复杂度和不确定性,降低模型的泛化能力。举一个实际的例子,假设我们想用线性回归模型来预测房价,我们选择了以下几个自变量:房屋面积,房屋卧室数,房屋卫生间数,房屋所在地区,房屋建造年份等。因此,我们需要对多重共线性进行检测和处理,以提高模型的可靠性和有效性。

2023-12-06 11:55:26 4559

原创 机器学习中参数优化或交叉验证评估指标含义

在Scikit-Learn中,cross_val_score函数支持多种不同的评分标准(scoring参数)。这些评分标准各有其适用场景和特点。选择哪种评分标准取决于你的具体任务和模型评估的需求。例如,在回归任务中,如果你关心预测误差的大小,可以选择neg_mean_squared_error或neg_mean_absolute_error;而如果你关心模型解释的方差比例,可以选择r2。

2023-11-29 18:28:48 712

原创 【IQR与MAD】原理,一文带你玩转箱型图含详细解释与代码

IQR方法基于四分位数:使用数据的第一四分位数(25%)和第三四分位数(75%)来计算。对称:相对于中位数对称地考虑上下界。受极端值影响:如果数据中包含极端值,IQR可能会被拉得很大,导致异常值的检测不够敏感。MAD方法基于中位数:只考虑中位数和每个点的偏差。稳健:对异常值不敏感,特别适合于含有离群点的数据。非对称:只考虑偏离中位数的绝对偏差,因此不是关于中位数对称的。优点比较:对于含有离群点的数据集:MAD通常更优,因为它对异常值的敏感度低。

2023-11-28 16:48:08 1766

原创 【bug最新修复】findfont: Generic family ‘sans-serif‘ not found because none of the following

如果是mac os 和 linux系统按照以下方法百分之百能解决解决方案我的缓存文件夹是:/home/.matplotlib删除这个缓存文件夹:rm -r /home/.matplotlib/*2.下载SeiHei.ttf字体放入~/.fonts目录下。点击下载或者复制这个链接下载命令:如果没有就mkdir ~/.fonts(3)安装fc-cache命令。

2023-11-28 11:14:44 5124 6

原创 如何使用pytorch定义一个多层感知神经网络模型——拓展到所有模型知识

这是一个简单的方式来链接(组合)多个图像转换操作。它会按照提供的顺序执行列表中的每个转换。这个转换将PIL图像或NumPy的ndarray转换为FloatTensor。并且它将图像的像素值范围从0-255变为0-1。简言之,它为我们完成了数据类型和值范围的转换。这个转换标准化张量图像。给定的参数是均值和标准差。在这里,均值和标准差都是0.5。使用给定的均值和标准差,这会将值范围从[0,1]转换为[-1,1]。

2023-10-18 17:38:15 2338

原创 数据挖掘之贝叶斯优化——前反馈特征的参数,估计特征的最佳数值

传统的制造业或者实际厂家都是结合经验和数据进行,可能一个工艺表一直在沿用,但是随着设备和不同情况的更新迭代与出现,这种只依靠经验的规则无法适用于大规模的数据,一个工序只能一个人来调节,多个工序可能需要多个工艺师来互相配合,无法达到最优的结果。通过拿到问题我们都是采取机器学习的一些相关的回归算法进行,不管是神经网络模型还是各种基于概率还是树的模型,多个特征去预测一个特征是符合也是比较常见的一种建模思想,但是随着机器学习和深度学习的不断衍生,我们的需求也在越来越明确。实际上,数据的真实分布可能会有所偏差。

2023-10-16 15:33:00 1096

原创 机器学习之过拟合与欠拟合,K折交叉验证详解【含代码】

K折交叉验证不仅仅适用于多参数的网格搜索,也适用于单个参数的调优。其目的是为了提供对模型在未见数据上性能的一个更稳健的估计,从而帮助我们选择更好的参数。

2023-10-13 16:12:25 1866 2

原创 数据挖掘与统计分析——T检验,正态性检验和一致性检验——代码复现

T检验是一种参数检验,它的前提是数据近似于正态分布。它通过计算T统计量,并将其与特定分布(T分布)进行比较,来判断两个样本组的均值之间是否存在显著差异。

2023-10-11 17:42:58 3085

原创 【多思路附源码持续更新】2023年华为杯(中国研究生数学建模)竞赛C题

加上研究生的论文表达不到位,评审专家的视角不同,同一份作品的几位专家给出的成绩会有较大的差异(极差)。第二阶段评审仍然存在部分极差大的作品,因为是终审,误差可能影响获奖等级,因此对部分极差大的作品,需要复议调整极差(附件的数据中有记录,复议分就是该专家最后给的标准分,用来替换原来的标准分)。但在大规模创新类竞赛评审中,通常任意两位专家评审的作品只有小部分是共同的,绝大多数作品是不同的(见问题一),而且每位专家只看到作品集合的很小部分,因此标准分评审方案的假设可能不成立,需要探索新的评审方案。

2023-09-22 08:37:30 5408

原创 适合初学者快速入门的Numpy实战全集

NumPy(Numeric Python)提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。多为很多大型金融公司使用,以及核心的科学计算组织如:Lawrence Livermore,NASA用其处理一些本来使用C++,Fortran或Matlab等所做的任务。

2023-09-15 08:00:00 200

原创 【干货超全】国内外常见的Ai大模型汇总!!!

讯飞星火大模型由讯飞公司开发,采用了独特的融合计算框架,实现了语音与文本的深度融合,使对话更加自然流畅。它拥有超过1000亿参数,训练数据达到10000TB,覆盖了通用领域和垂直领域,可提供新闻聊天、心理咨询、医疗健康等服务。它的训练数据包括论文、新闻、社交媒体对话等,支持进行知识问答、文本创作、情感交流等。ChatGPT是OpenAI公司基于GPT模型系列研发的交互式聊天机器人,采用监督学习和强化学习相结合的方式进行训练,可进行多轮闲聊并具有一定的知识问答能力。紫东太初理解能力强,可进行多轮交互。

2023-09-14 20:02:31 2624

原创 【案例+源码】数据可视化之统计绘图-Seaborn全套教程

Matplotlib试着让简单的事情更加简单,困难的事情变得可能,而Seaborn就是让困难的东西更加简单。seaborn是针对统计绘图的,一般来说,seaborn能满足数据分析90%的绘图需求。Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图,应该把Seaborn视为matplotlib的补充,而不是替代物。

2023-09-14 17:15:55 2222 2

原创 【案例+操作+演示】20分钟带你入门Pandas,掌握数据分析科学模块,附带上百个案例练习题【含答案】

这个一篇针对pandas新手的简短入门,想要了解更多复杂的内容,参阅Cookbook。

2023-09-14 16:23:01 234

原创 【多思路附源码】2023高教社杯 国赛数学建模C题思路 - 蔬菜类商品的自动定价与补货决策

在生鲜商超中,一般蔬菜类商品的保鲜期都比较短,且品相随销售时间的增加而变差, 大部分品种如当日未售出,隔日就无法再售。因此, 商超通常会根据各商品的历史销售和需 求情况每天进行补货。由于商超销售的蔬菜品种众多、产地不尽相同,而蔬菜的进货交易时间通常在凌晨 3:00- 4:00,为此商家须在不确切知道具体单品和进货价格的情况下, 做出当日各蔬菜品类的补货 决策。蔬菜的定价一般采用“成本加成定价”方法, 商超对运损和品相变差的商品通常进行 打折销售。可靠的市场需求分析,对补货决策和定价决策尤为重要。

2023-09-08 02:19:05 11621 12

原创 【Bug解决】ERROR: Could not find a version that satisfies the requirement cython (from versions: none)

Windows安装时可能会提示Microsoft Visual C++ 14.0 is required,从而导致安装出错,请点击文章顶部,下载VC build tools安装再执行如下pip命令注意:安装完后,需要重新打开新的终端命令窗口。PaddleX依赖pycocotools包,如安装pycocotools失败,可参照如下方式安装pycocotools。然后就可以了,网上很多其他的教程安装之后都会报错,是因为没有安装GPU版本的,按照这个没有问题!解决问题才是学习的开始!

2023-07-17 12:37:00 2348

原创 基于激光雷达、视觉摄像头、IMU等的数据采集及播放实践

简单来说,当我们有小车环境的时候,我们的rosbag就是一个订阅者的模式,当我们的包录制好了,放到其他没有小车环境的下的时候,我们播放bag的时候,它就是一个发布者的模式,我们可以看到它的话题名称,以及可以通过rqt_graph进行展示其结点之间的关系,也可以通过rviz进行可视化展示。首先我们需要开启对应的激光雷达、视觉摄像头、IMU的ros结点,然后利用命令行进行录制和保存,在进行播放,在进行播放的时候我们可以查看话题名称,以及对应的消息格式,直观的展示可以通过rviz进行可视化的展示和播放。

2023-07-09 08:00:00 960

原创 基于卷积神经网络VGG的猫狗识别

!有需要本项目的实验源码的可以私信博主!摘要:随着大数据时代的到来,深度学习、数据挖掘、图像处理等已经成为了一个热门研究方向。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。这也是深度学习在当下备受欢迎的原因之一,本实验的研究目的是自动识别猫狗类型,采用的是基于数据挖掘的猫狗自动识别技术。本实验将具有外貌复杂的猫狗图像,其中训练集下各有猫狗数据1000张,验证集下各有猫狗500张,运用卷积神经网络训练,并挑选深度学习框架 TensorFlow以及计算能力强大的 GPU

2023-07-08 08:30:00 3148 8

原创 基于Python电商用户行为的数据分析、机器学习、可视化研究

数据预处理可以消除数据中的错误、缺失、异常和重复等问题,提高数据质量,减少误差,为后续数据分析提供更可靠的基础。通过用户所发生的行为数据,以及透视数据下的各种新增的维度字段,比如最近的购买次数,最近一次的购买时间,我们可以采用Kmeans聚类算法对用户群体进行聚类,根据得出的聚类数目,采用RFM模型对其进行深入的划。在检查完数据的缺失值和异常值之后,需要对数据有一个时间维度上的把控,因为本研究的一个重要的数据分析思维,就是通过时间上的一些指标探索不同时间下的行为,流量指标的分布等情况。

2023-07-07 08:30:00 4638 18

原创 基于招聘网站的大数据专业相关招聘信息建模与可视化分析

首先是利用collections库的Counter函数对数据的重复值进行查看,这边主要是对岗位的url进行了统计查看,可以通过结果看出,每个url都只出现了一次,也就是说,每条数据都只出现了一次,并未出现重复值,因此,不用对数据进行去重操作。根据占比率前十的职位类别统计,对职位类别进行环状扇形图的呈现。根据职位类别的数量统计,对所有职位类别进行词云图呈现,从词云图可以看出计算机软件、互联网、电子商务、计算机服务等职位类别对大数据专业相关岗位的需求比较大,求职者在求职的时候可以先考虑这些岗位类别的招聘。

2023-07-06 08:00:00 3203 7

原创 基于高校图书馆的用户画像、可视化、模型预测、推荐算法项目实现

本研究针对高校图书馆的借阅信息、馆藏图书信息、读者入馆信息、用户信息等多维度的数据表,采用Python的正则表达式模块和MySQL数据库对数据进行清洗和整合,并从图书借阅数据、馆藏数据、用户信息和入馆记录等维度表,挖掘不同字段之间的信息价值,并构建用户画像系统和群体画像系统,利用pyecharts进行前端的网页端展示,实现基于用户画像和群体画像的大屏可视化设计。第二步,对不同维度的数据表进行处理,保留有效的信息数据,并将处理好的数据表存入到另一个数据库中,以方便后续进行结构化分析和用户画像的设计。

2023-07-05 11:03:44 3653 7

研究生数学建模华为杯C题第一问含结果csv表格.rar

交叉分发的目的:保证每个作品都被不同的评审专家评审,且这些评审专家之间有足够的交集,以确保评审的可比性。 评审负载均衡:每位评审专家都应有大致相同数量的作品进行评审。 交叉的最大化:确保每份作品都被不同的评审专家评审,并且尽可能多的作品之间有交集。 交叉的均匀分布:确保交集在所有评审专家之间均匀分布,以提高可比性。 问题一 在每个评审阶段,作品通常都是随机分发的,每份作品需要多位评委独立评审。为了增加不同评审专家所给成绩之间的可比性,不同专家评审的作品集合之间应有一些交集。但有的交集大了,则必然有交集小了,则可比性变弱。请针对3000支参赛队和125位评审专家,每份作品由5位专家评审的情况,建立数学模型确定最优的“交叉分发”方案,并讨论该方案的有关指标(自己定义)和实施细节。 结果: ,Reviewer_1,Reviewer_2,Reviewer_3,Reviewer_4,Reviewer_5 Work_1,5,18,24,32,99 Work_2,42,45,57,62,105 Work_3,6,67,74,87,96 Work_4,3,7,46,65,82 Work_5

2023-09-22

2023年华为杯题目.rar

2023年华为杯题目.rar

2023-09-22

【案例+操作+演示】20分钟带你入门Pandas,掌握数据分析科学模块,附带上百个案例练习题含答案

Pandas练习题目录 1.Getting and knowing - Chipotle - Occupation - World Food Facts 2.Filtering and Sorting - Chipotle - Euro12 - Fictional Army 3.Grouping - Alcohol Consumption - Occupation - Regiment 4.Apply - Students - Alcohol Consumption - US_Crime_Rates 5.Merge - Auto_MPG - Fictitious Names - House Market 6.Stats - US_Baby_Names - Wind_Stats 7.Visualization - Chipotle - Titanic Disaster - Scores - Online Retail - Tips 8.Creating Series an

2023-09-14

【多思路附源码】2023高教社杯 国赛数学建模C题思路 - 蔬菜类商品的自动定价与补货决策

【多思路附源码】2023高教社杯 国赛数学建模C题思路 - 蔬菜类商品的自动定价与补货决策

2023-09-08

豆瓣电影数据集【案例数据5000条】私信博主获取代码不限量获取数据

movie_id,movie_name,director,yanyuanData,juqing,country,language,push_time,movie_long,pingfen,pingjiarenshu,conver_img,describe 26671361,喜丧,张涛,"['郁凤云', '王士兰', '李宝明', '阮凤鸣']",剧情, 中国大陆 , 汉语普通话,2015-12-05(青年导演海上影展),108分钟,8.8,28475,https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2361586020.jpg,鲁南张庄,86岁老人林郭氏,身体硬朗,在农村老宅独自生活。林郭氏突发脑血栓,身体状况逐渐恶化。子女积极为老人操作敬老院入住事宜。敬老院床位紧张,只有等待敬老院有老人去世,按照老人的意愿,开始了到子女家轮流居住的短暂旅程。这一过程中,林郭氏中风摔倒,脑神经损伤,得了笑病。敬老院终于有老人亡故,空出床位。却在去敬老院的前夕,林郭氏怀揣着全家福老照片溘然长逝。按照老风俗,儿孙们给她办了一场轰轰烈烈

2023-09-05

Prescan相关资料文档及安装教程和配套包

Prescan相关资料文档及安装教程和配套包

2023-05-14

全分布式集群Hadoop全套组件解压即可使用包含(Ubuntu-HDFS-HBASE-HIve-Sqoop-mysql....)

1.集群配置,包含三个结点,主节点控制所有的子节点 2.集群已经搭建好了,解压之后直接可以使用Finalshell和VMware连接 3.包含全套组件:hdfs,hbase,hive,sqoop,mysql,pig,spark等大数据组件 4.如果不知道如何使用,或者需要做Hadoop项目可以私信博主

2023-03-06

超方便深度学习Pytorch框架环境部署包

解压之后直接激活使用,不需要自己配置深度学习环境【超便捷】

2022-12-05

目标检测 智能交通 国内交通标志数据集 - 标注完成 - 1W张数据实拍交通标志

1.实拍交通标志已标注数据集1万张——内含txt版本。 2.本数据集含有45类标志,有关联ID。 3.数据集适合yolo系统算法使用,内部已经把txt信息都转换好了,看个人需求使用。 4.数据集多为实拍,精度够,并且本人亲自训练过后,检测精度可以达到98%(50轮)。 有需要指导可私信博主;包含深度学习框架和训练好的文件分享 采集的真实场景的数据,标注后可以用于交通标志物检测 手工标注范围良好,适合高精度目标识别 可以直接用于YOLO系列的交通灯目标检测检测;数据场景丰富

2022-12-05

机器学习配套资源.rar

机器学习配套资源.rar

2022-08-24

Hadoop电影数据集,包含字段说明

Hadoop电影数据集,包含字段说明

2022-06-17

Hadoop豆瓣电影数据分析(Hadoop)操作源码

Hadoop豆瓣电影数据分析(Hadoop)操作源码

2022-06-16

基于Hadoop豆瓣电影数据分析实验报告

豆瓣用户每天都在对“看过”的电影进行“很差”到“力荐”的评价,豆瓣根据每部影片看过的人数以及该影片所得的评价等综合数据,通过算法分析产生豆瓣电影 Top 250。 为了分析电影产业的发展趋势,本次实验需要对这些信息做统计分析。 注意:豆瓣网站的数据形式为文本文件(必须将导入到hive中做处理)。也可以为CSV文件,例如下图: 针对本次实验,我们需要用到Hadoop集群作为模拟大数据的分析软件,集群环境必须要包括,hdfs,hbase,hive,flume,sqoop等插件,最后结合分析出来的数据进行可视化展示,需要用到Python(爬取数据集,可视化展示)或者echarts等可视化工具。

2022-06-16

Hadoop豆瓣电影分析可视化源码

针对本次实验,我们需要用到Hadoop集群作为模拟大数据的分析软件,集群环境必须要包括,hdfs,hbase,hive,flume,sqoop等插件,最后结合分析出来的数据进行可视化展示,需要用到Python(爬取数据集,可视化展示)或者echarts等可视化工具。 豆瓣用户每天都在对“看过”的电影进行“很差”到“力荐”的评价,豆瓣根据每部影片看过的人数以及该影片所得的评价等综合数据,通过算法分析产生豆瓣电影 Top 250。 为了分析电影产业的发展趋势,本次实验需要对这些信息做统计分析。 注意:豆瓣网站的数据形式为文本文件(必须将导入到hive中做处理)。也可以为CSV文件,例如下图:

2022-06-16

自然语言处理之文本分类及文本情感分析资源大全(含代码及其数据,可用于毕设参考!)

包含自然语言处理下的文本分词、构建词向量、以及文本分类;主题分类;情感分析模型代码,可以作为毕业设计参考代码,你可以阅读作者的代码案例,将其换成自己的数据进行构架,如此可以进一步的增强代码的逻辑性! 值得下载!整理和测试不易! 包含多种模型案例 文章专栏代表: 机器学习之自然语言处理——中文分词jieba库详解(代码+原理) https://blog.csdn.net/weixin_47723732/article/details/124907474?spm=1001.2014.3001.5501

2022-05-23

基于Word2Vec构建多种主题分类模型(贝叶斯、KNN、随机森林、决策树、支持向量机、SGD、逻辑回归、XGBoost...)

基于Word2Vec构建多种主题分类模型: 贝叶斯、KNN、随机森林、决策树、支持向量机、SGD、逻辑回归、XGBoost、lightgbm,通过网格搜索进行参数优化,最终迭代出每个模型的最佳参数和准确率,最终返回一个最佳模型。 利用测试数据进行测试,分类模型的效果如何! 1. 有监督学习:读取文本内容(->X)和文本分类标签(->y) 2. 文本内容 -> 分词 (用户字典,停用词) -> 空格连接的字符串 或者 词列表 3. 特征提取/向量化 -> X - 空格连接的字符串 -> CountVectorizer,TfidfVectorizer - 词列表 -> Word2Vec,Doc2Vec 4. 分类标签编码 -> LabelEncoder 5. 构建训练集测试集 6. 构建模型 7. 训练模型 8. 调参和评估 9. 模型的应用

2022-05-22

基于Word2Vec向量化的新闻分本分类.ipynb

基于Word2Vec向量化的新闻分本分类.ipynb

2022-05-22

智能词云算法(一键化展示不同类型的词云图)运行生成HTML文件

点击运行提示用户输入文本路径:注意路径是txt文件的路径,所以如果是Word的,首先需要将其放在TXT文件中。 其次运行之后,会弹出一个功能选项卡,你可以根据选项来生成自己的词云,智能词云程序,小白也可以使用,不需要任何的编程基础!

2022-05-22

协同过滤推荐系统资源(基于用户-物品-Surprise)等案例操作代码及讲解

如果毕业设计做推荐系统可以参考这个资源!!!!!!!!! 资源包括: 1、包含基于物品,基于用户的协同过滤底层算法(Python实现) 2、基于python第三库Surprise实现的推荐系统(机器学习类似原理) 3、基于电影进行推荐系统的设计 4、包含大量的数据集(电影数据集)

2022-05-11

Python机器学习关联规则资源(apriori算法、fpgrowth算法)原理讲解

1、包含apriori算法的代码操作和讲解以及原理的文档PPT 2、包含fpgrowth算法的代码操作和讲解以及原理的文档PPT 3、关联规则的PPT 4、通过这些可以理解到关联规则的运用实际代码 5、值得推荐! 6、下载中之后有问题可以私信博主!!!(必回)

2022-05-11

旅游消费数据集——包含用户id,用户评分、产品类别、产品名称等指标,可以作为推荐系统的数据集案例

旅游消费数据集——包含用户id,用户评分、产品类别、产品名称等指标,可以作为推荐系统的数据集案例

2022-05-11

机器学习-推荐系统(基于用户).ipynb

机器学习-推荐系统(基于用户).ipynb

2022-05-11

机器学习-推荐系统(基于物品).ipynb

基于用于的推荐系统代码,直接可以运行,只需要替换掉你的数据即可! 如果有需要做推荐系统案例的小伙伴,可以私信博主,留言即可! 第一步:发现用户的偏好 第二步:找到相似的用户或物品 第三步:计算推荐

2022-05-11

pyecharts绘图案例模板大全(代码可作为模板)

1、包含53类图表项目,几百种pyecharts可视化模板 2、直接可以运行HTML即可展示画面,也可以直接在网页上修改数据 3、有问题可以私信博主 4、另外100种大屏可视化模板可以私信博主,前端展示,可以修改数据即可! 5、参考专栏:https://blog.csdn.net/weixin_47723732/category_10599682.html 让数据变得灵动炫酷起来,给数据赋予灵魂和价值,从可视化切入,介绍pyecharts、matplotlib、echarts、R语言绘图,Excel绘图等其他绘图,包含专业标准以及企业报表,让可视化不在单一乏味!

2022-05-09

基于hadoop对某网站日志分析部署实践课程设计报告参考模板.doc

基于Hadoop部署实践对网站日志分析 1. 项目概述 本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖。至此,我们通过Python网络爬虫手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)保存为两个日志文件,由于文件大小超出我们一般的分析工具处理的范围,故借助Hadoop来完成本次的实践。 2. 总体设计 2.1 Hadoop插件安装及部署 第一步:Hadoop环境部署和源数据准备 安装好VMware(查看) 第二步:使用python开发的mapper reducer进行数据处理。 第三步:创建hive数据库,将处理的数据导入hive数据库 第四步:将分析数据导入mysql 3. 详细实现步骤操作纪要 3.1 hadoop环境准备 首先开启Hadoop集群:start-all.sh:开启所有的Hadoop所有进程,在主节点上进行 NameNode它是Hadoop 中的主服务器,管理文件系统名称空间和对集群中存储的文件的访问。 Secondary NameNode.....

2022-05-09

Hadoop网站日志分析源码(hive命令).txt

Hadoop网站日志分析源码(hive命令).txt

2022-05-09

Hadoop部署实践所需的安装包(Ubuntu下的安装包)

1、apache-hive-2.3.5-bin.tar.gz 2、hadoop-2.7.3.tar.gz 3、jdk-8u162-linux-x64.tar.gz 4、mysql-connector-java-5.1.24.tar.gz 5、sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz

2022-05-09

hadoop实践项目-PPT演示步骤

实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖。至此,我们通过Python网络手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)保存为两个日志文件,由于文件大小超出我们一般的分析工具处理的范围,故借助Hadoop来完成本次的实践。

2022-05-09

hive安装资料手册.rar

hive安装资料手册.rar

2022-05-09

使用hadoop-streaming运行Python编写的MapReduce程序.rar

使用hadoop-streaming运行Python编写的MapReduce程序.rar

2022-05-09

hadoop实训课数据清洗py脚本(MapReduce python代码,可执行文件脚本,使用方法)

可以作为大数据预处理的MapReduce代码的参考!!! -执行脚本文件: cd /home/hadoop/logfiles/ source format_run_2013_o5_30.sh source format_run_2013_o5_31.sh 执行我们的脚本文件,可以用source或者./

2022-05-09

大数据分析-网站日志数据文件(Hadoop部署分析资料)

本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖。至此,我们通过Python网络爬虫手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)保存为两个日志文件,由于文件大小超出我们一般的分析工具处理的范围,故借助Hadoop来完成本次的实践。 使用python对原始数据进行清洗,以便后续进行统计分析; 使用Hive对清洗后的数据进行统计分析; 使用Sqoop把Hive产生的统计结果导出到mysql中; 两个日志文件,一共有200MB,符合大数据量级,可以作为推荐系统数据集和hadoop测试集。

2022-05-09

Python原生词云(自定义各类参数)

运行根据提示输入文本路径和背景图路径。颜色,停用词,大小,词频等多个参数

2022-04-18

Python编写成绩计算系统

利用Python语言编写成绩管理系统,具体解释参考博主文章: https://blog.csdn.net/weixin_47723732/article/details/107946288

2022-04-07

数学建模论文万能模板(适用于大学生各类建模类竞赛论文参考)

格式排版已经完善,曾有小伙伴用此模板加上自己的建模功底,获得省部级一等奖数学建模! 改模板包含数学建模相关论文必要的流程和解题步骤,并且Word内有批注,对每一个板块应该如何书写,如何注意论文的一些格式,以及参考案例等! 以及按照标准论文排版OK了,建议写作的时候直接按照这个模板进行内容的填充,并且将相关术语进行整合! 例如: 简单的描述一下问题求解的大体思路,首段简明扼要,言简意赅。例如本文基于如何的问题背景,进行如何的建模,有怎样的经济实用效果,得出如何的策略等。主要是简短背景加实际效应的结合 针对问题一,此处描述对于问题一要求解进行大致的思路,利用了什么样的方法,有什么样的思路想法,最终通过怎么样的模型算法进行问题的建模,所得出的直接效果,例如一些模型的准确度和参数,可以加入说明。最终通过该求解方法,能够达到如何的效果,把问题求解实际化。这里该给出的加粗,需要加粗。 针对问题二,同样的效果描述和步骤,这里唯一需要注意的就是,如果问题是层层递进,就需要说明基于问题一所求解的结果,应用到问题二当中。 针对问题三,具体的过程如上,这里不光是对本问题的描述,可以适当.......

2022-04-07

SEIR(SIR)新冠肺炎预测分析源码

博客案例:https://blog.csdn.net/weixin_47723732 截止 2021 年 4 月 27 日, 全球新增确诊病例连续 9 周增加,新增死亡病例连续 6 周增加。 世卫组织总干事谭德塞指出,虽然一些地区的新增确诊病例和死亡人数出现小幅下降,但许多国家疫情仍在密集传播,印度等国的情况尤其令人揪心。 中国政府已决定在全国进行全人群的新冠病毒疫苗接种,以建立最大规模的国民群体新冠免疫屏障。 请你们根据现有的知识和搜集相关数据,利用数学建模的方法,解决如下问题: 1. 建立传染病毒群体免疫屏障的数学模型,说明疫苗接种率的控制对构筑免疫屏障的作用。在此基础上考虑疫苗的有效性问题和病毒的变异问题对免疫屏障的可能影响。讨论免疫屏障和物理隔离对于整个社会的代价及收益的异同。 2. 以中国为例,考虑采取怎样的步骤、需要多大成本、多长时间可完成群体免疫屏障的建立。 3. 试分析导致印度新冠疫情急剧恶化的原因,给出印度疫情对周边国家疫情影响的预测分析和防控建议。 4. 根据你所建立的免疫屏障模型,提出能够有效遏制印度疫情蔓延的方案,并预测实施方案后印度疫情的走向 源码及分析

2022-04-05

国家社科基金项目数据库-2022-3-27.xlsx

1、国家社科基金项目数据库-2022-3-27.xlsx ①包含20个维度字段:项目批准号,项目类别,学科分类,项目名称,立项时间,项目负责人,专业职务,工作单位,单位类别,所在省区市,所属系统,成果名称,成果形式,成果等级,结项时间,结项证书号,出版社,出版时间,作者,获奖情况 2、国家社科基金项目数据库,截止2022年3月27日重新更新数据集,包含最新的立项项目。 包括里面的所有项目资源信息,如果不懂软件分析的小伙伴,直接在Excel里面也可以进行筛选和数据分析哟,数据量约110000条左右。 3、数据量较大,可以推荐做数据分析的案例和模板,Hadoop也可练练手哟,资源信息非常全,欢迎科研宝宝下载哟!

2022-03-27

MySQL多表操作.xmind

MySQL多表操作.xmind

2022-03-15

MySQL基本查询-DQL

MySQL基本查询-DQL

2022-03-14

MySQL约束案例总结

1:主键约束 2:自增长约束 3:非空约束 4:唯一约束 5:默认约束 6:零填充约束

2022-03-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除