![](https://img-blog.csdnimg.cn/56bb7cd478fd481a91516681a1cad192.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
(持续更新)数据分析实战项目100例
文章平均质量分 94
本专栏以数据分析实战项目为主,包含大数据分析案例、机器学习项目、数据分析项目、预处理、可视化、数据库等实际应用项目、其中项目来源于:毕设选题、课程设计、业务需求、专业辅导1V1项目、日常接单、专业书籍案例项目等,项目来源于生活。旨在通过大量的实战,快速上手并应用于工作开发,为工作提供大量经验!
王小王-123
【私信必回】CSDN博客专家、内邀精英签约作者,CSDN年度优秀创作者,华为云享专家,阿里云专家博主、腾讯云、简书、InfoQ、51CTO等开源社区创作者。左手诗情画意,右手代码人生,欢迎一起探讨技术的诗情画意!
展开
-
基于YOLOv8的火灾消防报警系统【基于YOLOV8的烟火识别系统】【可换多种权重训练】
本研究通过多种渠道收集了丰富的火灾相关数据集。主要来源包括:1. 杜伦大学公开数据库:该数据库提供了多样化的火灾场景图像,涵盖建筑物火灾、工业火灾、交通事故等紧急情况。数据集还包含无明显火势的紧急情况图像,以及具有类火特征(如日落)或红黄色物体的图像,增加了数据的多样性和难度。2. 训练集与测试集: - 训练集包含240张50×50像素的图像,其中80张为火灾图像,160张为非火灾图像。 - 测试集由226张不同分辨率的图像组成,119张含有火焰,107张不含火焰。3. 分割数据:数原创 2024-07-25 16:52:24 · 259 阅读 · 0 评论 -
基于Python的河南省天气数据分析与空气质量预测研究【含数据抓取与数据库自动存储】
【代码】基于Python的河南省天气数据分析与空气质量预测研究【含数据抓取与数据库自动存储】原创 2024-07-25 16:24:11 · 319 阅读 · 0 评论 -
基于Python与Flask的豆瓣电影海量数据分析与可视化系统
在信息化快速发展的今天,大数据已深入生活各个领域,并成为人们进行决策的关键因素。从影片制作到发行,再到市场销售,都会产生海量的数据。这些数据不仅包括影片的票房收入、观众评分等直接反映影片经济效益的指标,还涵盖观众画像、观影习惯、市场趋势等深层次信息。如何有效地收集、整理、分析和利用这些数据,对于提升电影产业的运营效率、优化资源配置、增强市场竞争力具有重要意义。与此同时,数据可视化技术作为数据处理和展示的一种直观、有效的手段,能够将复杂的数据以图表、图形等方式呈现出来,协助使用者在资料中迅速取得重要资讯。原创 2024-07-25 16:05:14 · 289 阅读 · 0 评论 -
基于多种机器学习的豆瓣电影评分预测与多维度可视化【可加系统】
在本研究中,我们采用Python编程语言,利用爬虫技术实时获取豆瓣电影最新数据。通过分析豆瓣网站的结构,我们设计了一套有效的策略来爬取电影相关的JSON格式数据。为减少对服务器的频繁请求,我们实施了基于正态分布的延迟策略。数据采集后,使用Python中的Pandas库进行初步处理,将无序信息转换为结构化数据,包括处理空值、字符串格式化和字段扩展。然后,我们将整理好的数据存储到MySQL数据库中,进行深入的数据挖掘。通过分析不同数据维度,我们深入探讨了电影流行趋势和观众喜好等多个方面。原创 2024-07-25 16:05:31 · 473 阅读 · 0 评论 -
基于Python的哔哩哔哩国产动画排行数据分析系统
另一方面也反映出,对于好看的动漫,观众是很愿意分享的。原创 2024-07-25 15:29:53 · 117 阅读 · 0 评论 -
基于hive的招聘数据分析与可视化之薪资预测
居然有 5 万多,一惊之下,查了下这家公司的招聘信息,可以看到该公司在招的都是高级岗,比如 集团片区总经理(副总裁级),这个岗位人数达到 20 人,岗位月薪 6 万,所以直接把平均薪资拉高了,而且工作地点也不在厦门。但是,为什么会是这样的情况呢,个人认为,有可能是 35 岁 以后的职场人士,沉淀更多,进入了更高级的职位,更稳定,所以流动性比较低,自然市场上空出来的需求也会变少了,更不用说还有一部分人变成了创业者。从岗位数来看,大部分岗位的学历要求为大专以上,换言之,在厦门,只要大专学历,就很好找工作了。原创 2024-07-25 18:30:00 · 231 阅读 · 0 评论 -
【多思路附源码】2023高教社杯 国赛数学建模C题思路 - 蔬菜类商品的自动定价与补货决策
在生鲜商超中,一般蔬菜类商品的保鲜期都比较短,且品相随销售时间的增加而变差, 大部分品种如当日未售出,隔日就无法再售。因此, 商超通常会根据各商品的历史销售和需 求情况每天进行补货。由于商超销售的蔬菜品种众多、产地不尽相同,而蔬菜的进货交易时间通常在凌晨 3:00- 4:00,为此商家须在不确切知道具体单品和进货价格的情况下, 做出当日各蔬菜品类的补货 决策。蔬菜的定价一般采用“成本加成定价”方法, 商超对运损和品相变差的商品通常进行 打折销售。可靠的市场需求分析,对补货决策和定价决策尤为重要。原创 2023-09-08 02:19:05 · 11604 阅读 · 12 评论 -
基于卷积神经网络VGG的猫狗识别
!有需要本项目的实验源码的可以私信博主!摘要:随着大数据时代的到来,深度学习、数据挖掘、图像处理等已经成为了一个热门研究方向。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。这也是深度学习在当下备受欢迎的原因之一,本实验的研究目的是自动识别猫狗类型,采用的是基于数据挖掘的猫狗自动识别技术。本实验将具有外貌复杂的猫狗图像,其中训练集下各有猫狗数据1000张,验证集下各有猫狗500张,运用卷积神经网络训练,并挑选深度学习框架 TensorFlow以及计算能力强大的 GPU原创 2023-07-08 08:30:00 · 3148 阅读 · 8 评论 -
基于Python电商用户行为的数据分析、机器学习、可视化研究
数据预处理可以消除数据中的错误、缺失、异常和重复等问题,提高数据质量,减少误差,为后续数据分析提供更可靠的基础。通过用户所发生的行为数据,以及透视数据下的各种新增的维度字段,比如最近的购买次数,最近一次的购买时间,我们可以采用Kmeans聚类算法对用户群体进行聚类,根据得出的聚类数目,采用RFM模型对其进行深入的划。在检查完数据的缺失值和异常值之后,需要对数据有一个时间维度上的把控,因为本研究的一个重要的数据分析思维,就是通过时间上的一些指标探索不同时间下的行为,流量指标的分布等情况。原创 2023-07-07 08:30:00 · 4634 阅读 · 18 评论 -
基于招聘网站的大数据专业相关招聘信息建模与可视化分析
首先是利用collections库的Counter函数对数据的重复值进行查看,这边主要是对岗位的url进行了统计查看,可以通过结果看出,每个url都只出现了一次,也就是说,每条数据都只出现了一次,并未出现重复值,因此,不用对数据进行去重操作。根据占比率前十的职位类别统计,对职位类别进行环状扇形图的呈现。根据职位类别的数量统计,对所有职位类别进行词云图呈现,从词云图可以看出计算机软件、互联网、电子商务、计算机服务等职位类别对大数据专业相关岗位的需求比较大,求职者在求职的时候可以先考虑这些岗位类别的招聘。原创 2023-07-06 08:00:00 · 3203 阅读 · 7 评论 -
基于高校图书馆的用户画像、可视化、模型预测、推荐算法项目实现
本研究针对高校图书馆的借阅信息、馆藏图书信息、读者入馆信息、用户信息等多维度的数据表,采用Python的正则表达式模块和MySQL数据库对数据进行清洗和整合,并从图书借阅数据、馆藏数据、用户信息和入馆记录等维度表,挖掘不同字段之间的信息价值,并构建用户画像系统和群体画像系统,利用pyecharts进行前端的网页端展示,实现基于用户画像和群体画像的大屏可视化设计。第二步,对不同维度的数据表进行处理,保留有效的信息数据,并将处理好的数据表存入到另一个数据库中,以方便后续进行结构化分析和用户画像的设计。原创 2023-07-05 11:03:44 · 3653 阅读 · 7 评论 -
基于Python的Django出租车大数据分析系统实现
提取出租车的经纬度,通过地图可视化工具Folium绘制出出租车载客热点区域,可以看出在杭州市的拱墅区、西湖区、上城区、滨江区和萧山国际机场出租车行驶主要分布在这些地方,其中最集中的是拱墅区,因此在这些区域打车的人数可能比较多。通过数据清洗,可以去除不必要的数据,去除重复的数据,并且去除那些不符合分析目标的数据,从而有效地提取出有价值的信息。通过提取出租车运行的时间和速度,对采用的杭州市出租车数据,绘制一个平均速度可视化折线图如图4-2所示。(2)选取晚上10点以后的出租车位置,绘制了散点图。原创 2023-07-04 08:30:00 · 886 阅读 · 0 评论 -
基于Hadoop的MapReduce网站日志大数据分析(含预处理MapReduce程序、hdfs、flume、sqoop、hive、mysql、hbase组件、echarts)
Hadoop的网站日志大数据分析方法。本项目首先将网站日志上传到HDFS分布式文件系统,然后使用MapReduce进行数据预处理。通过使用Hive进行大数据分析,我们能够对网站的PV、独立IP、用户注册数和跳出用户数等重要指标进行统计分析。最后,我们使用Sqoop将分析结果导出到MySQL数据库,并使用Python搭建可视化界面,以方便用户对分析结果进行更直观的理解。通过使用Hadoop分布式计算框架,本项目可以高效地处理大量的网站日志数据。原创 2023-07-04 08:00:00 · 11270 阅读 · 14 评论 -
基于MapReduce框架的医疗大数据分析
近年来,大数据解决方案与大数据分析工具开始被广泛运用于医疗卫生领域。通过数据,可以把医学专家积累的宝贵经验,转化成标准化的知识基础,做到数据驱动医疗服务,因此从而大大提高服务能力和效率,解决中国医疗领域存在的诸多需求。通过进行医疗数据分析,有利于提高临床决策的准确性,有利于实现个性化医疗,还可以进行医疗服务水平的评估,可以大幅度提升医院的运营效率,也可以对药物的市场和销售策略进行辅助,除此之外,制药厂家和医疗器材研发机构可以获悉各种疾病及相关治疗费用的发展趋势,为研发资源的优化配置提供参考。原创 2023-07-03 08:00:00 · 1373 阅读 · 0 评论 -
hive基于新浪微博的日志数据分析——项目及源码
本系统旨在对新浪微博日志进行大数据分析,探究用户行为、内容传播、移动设备等多个方面的特征和趋势,为企业和个人的营销策略、产品设计、用户服务等提供有益的参考和支持。系统基于Hive平台,能够对大规模的微博数据进行处理和分析,输出有关用户量、微博转发量、用户发布微博数量、带图片微博数据等多个方面的统计信息。根据对数据的处理和分析,系统得出以下结论:新浪微博作为国内最大的社交媒体平台之一,具有非常广泛的用户群体和内容覆盖面。其中,有些用户的微博转发量非常高,具有很高的影响力和传播力;同时也有些用户发布的微博数量非原创 2023-07-02 08:15:00 · 2889 阅读 · 8 评论 -
基于Hadoop的网上购物行为分析设计与实现
sink3指定了一个名为sink3的数据输出端,使用了hive模式,hive的metastore地址为thrift://hadoop:9083,数据库名称为taobao,表名为taobao_data,数据格式为DELIMITED,分隔符为逗号,字段名称为user_id、item_id、behavior_type、user_geohash、item_category、date、hour,每次提交数据的批量大小为90。然后,将分析结果存储到hive数据库中,并导出到MySQL数据库,便于数据的存储和分析展示。原创 2023-07-01 08:15:00 · 9146 阅读 · 34 评论 -
基于Hadoop的疫情信息分析与可视化研究——包含大屏可视化及预测算法
基于Hadoop的疫情信息分析与可视化研究在国内外都有较为广泛的应用。国外研究主要集中在疫情数据的处理和分析,以及疫情预测模型的构建。而国内研究则主要集中在疫情数据的可视化和知识图谱的构建。未来,基于Hadoop的疫情信息分析与可视化研究还有很大的发展空间,可以进一步提高对疫情的监测和预警能力,为政府部门和医疗机构提供更加准确的数据支持和决策依据。另外,未来可以将Hadoop技术与人工智能、机器学习等技术相结合,开发更加智能化、自适应的疫情信息分析和预测模型。原创 2023-06-30 09:30:00 · 4142 阅读 · 4 评论 -
基于yolov5的交通标志牌的目标检测研究——源码及文档
随着智能交通系统的不断发展,交通标志牌在路面上扮演着越来越重要的角色。交通标志牌能够指示车辆、行人等交通参与者正确、安全地行驶,遵守交通规则,减少交通事故的发生。然而,由于各种原因,交通标志牌的摆放、损坏、覆盖、污染等情况时有发生,这些情况会给交通参与者带来困扰,也可能导致交通事故的发生。因此,对交通标志牌的及时发现、识别和管理是智能交通系统中一个非常重要的研究方向。传统的交通标志牌检测方法通常基于手工设计的特征提取器和分类器。原创 2023-06-29 08:15:00 · 3503 阅读 · 2 评论 -
基于yolov5的交通标志牌的目标检测研究设计——思路及概念
首先这里需要准备我们需要打标注的数据集。之后就要去修改一下data下的yaml文件,这个里面的参数也比较的重要,对应的就是我们的数据集的路径,分别为训练集和测试集,以及验证集,其中包括的45类的交通标识,所对应的ID,因为这里的ID所对应的目标含义有的比较长,且不好展示出来,所以我就按照其ID给他进行一个对应,其对应表在上面的数据标注的部分。(5)硬件设备不足,由于电脑的性能或者环境的部署,深度学习的环境部署比较麻烦,需要对其进行详细的部署,这里需要安装好Pytorch的深度学习环境,是可能比较困难的。原创 2023-06-27 20:22:04 · 5422 阅读 · 2 评论 -
基于Hadoop的豆瓣电影的数据抓取、数据清洗、大数据分析(hdfs、flume、hive、mysql等)、大屏可视化
有需要整个项目的可以私信博主,提供部署和讲解,对相关案例进行分析和深入剖析环境点击顶部下载本研究旨在利用Python的网络爬虫技术对豆瓣电影网站进行数据抓取,并通过合理的数据分析和清洗,将非结构化的数据转化为结构化的数据,以便于后续的大数据分析。具体而言,我们通过分析豆瓣网站的网页结构,设计出规则来获取电影数据的JSON数据包,并采用正态分布的延时措施对数据进行大量获取,从而避免IP被禁。在数据清洗方面,我们进行了空值检测与处理、字符串约束、字段值扩充等操作,使得数据变得更加准确和可靠。原创 2023-06-30 08:15:00 · 17233 阅读 · 30 评论 -
基于Python的海量豆瓣电影、数据获取、数据预处理、数据分析、可视化、大屏设计项目(含数据库)
有需要本项目的代码或文档以及全部资源,或者部署调试可以私信博主!!!!!!!!!!本文基于Python的网络爬虫手段对豆瓣电影网站进行数据的抓取,通过合理的分析豆瓣网站的网页结构,并设计出规则来获取电影数据的JSON数据包,采用正态分布的延时措施对数据进行大量的获取。并利用Python的Pandas数据分析库,对获取的数据进行预处理,将非结构化的数据清洗为干净的数据,便于后续的大数据分析,分别对数据进行空值检测与处理,字符串的约束,字段值的扩充,以及数据的清洗。原创 2023-06-27 15:05:11 · 18639 阅读 · 24 评论 -
基于Hadoop的电商广告点击数的分析与可视化(Shell脚本执行与大屏可视化设计)
本项目需要部署的可以私信博主!!!!!!!!!本文介绍了基于Hadoop的电商广告点击数的分析与可视化,以及相应的Shell脚本执行和大屏可视化设计。首先,我们介绍了Hadoop的基本原理和使用方法,包括如何安装和配置Hadoop集群。然后,我们介绍了如何使用Hadoop MapReduce框架对电商广告点击数据进行分析和处理,包括数据的清洗、转换和统计。接下来,我们使用Hadoop集成的可视化工具对数据进行可视化分析,展示了广告点击数量的趋势和分布等信息。原创 2023-03-06 22:52:18 · 5989 阅读 · 36 评论 -
站在上帝的角度挖掘数据——Python抓取10W+社科基金项目并可视化分析
Python爬取国家社科基金项目数据库资源,并按照一定的数据分析原则进行数据分析,然后利用pyecharts进行可视化展示。文章内部附有相关的代码合集和解释,同时有配套资源下载。我们发现在日常的生活中,总是有很多的繁琐的事情,但是又不知道如何去改善和解解压,小王在这里给大家提一个小小的建议:多听听音乐,可能就是不一样的心情啦。生活不只有眼前的苟且,还要有未来的诗和远方。原创 2021-02-21 15:10:41 · 5269 阅读 · 48 评论 -
80行快乐代码与你窥探爬虫的数据深渊——教你如何高效快速任意爬虫(附大量项目案例和语法解析文章)
前端工程师把数据和网页完美的结合在一起,他们以为这样是最美丽的契合,殊不知,后端的那些工程师宝宝们,一天没事干,把他们的老窝给惊扰了,爬虫给网站带来的危害是比较大的,如果一个服务器一般被很多用户访问,可能它会宕机,也可能会崩溃,那么一个机器通过编程手段来达到这个目的,一分钟的点击次数,同时点击所达到的次数,机器不会累,于是网站被他们端了。一切都要恰到好处,于是他们商量好了,礼貌的访问,隐隐约约的访问,悄悄咪咪的访问,有节制的去获取数据,慢慢的前端工程师和后端工程师关系越来也好了,最终他们诞生了幸福的结晶..原创 2021-04-09 14:40:19 · 12169 阅读 · 58 评论 -
Python爬取全网文字并词云分析(全程一键化!)
前景引入最近Python很火,确实很火,好像一直都比较火,哈哈哈哈。如果你也觉得很火,那么就请看完这篇文章吧,看看Python的热度到底能不能使我这篇文章火起来。那么作为后起之秀的编程语言——Python,它到底能够做些什么了,网上一直在“炒作”Python:一键化办公,学好Python薪资翻一番,让你的生活多一点money,让你的老板对你刮目相看,让你从此找到自信!这不是吹捧,也不是浮夸。从云计算、大数据到人工智能,Python无处不在,百度、阿里巴巴、腾讯等一系列大公司都在使用Python完成各种任原创 2020-12-29 22:56:49 · 7035 阅读 · 10 评论 -
上百种Python炫酷可视化案例珍藏版——看完掌握~一键三连~老板都想要给你升职加薪哟!
数据可视化是当下火热的大数据应用技术,很多新锐地大数据分析工具都注重开发数据可视化的功能模块。数据可视化及其技术研究和应用开发,已经从根本上改变了我们对数据和数据分析工具的理解,数据可视化对大数据发展的影响广泛而深入。数据可视化在近几年十分火热,但它到底是什么意思很多人却并不很清楚。从广义上来说,可视化无处不在, 打开浏览器, 网站就是个数据可视化, 背后是数据库密密麻麻的数据表, 到了你的浏览器就是浅显易懂的页面。帮助人更好的分析数据是数据可视化存在的意义,它对数据中所包含的意义进行分析,使分析结原创 2021-04-12 12:17:05 · 11656 阅读 · 74 评论 -
机器学习分类算法之XGBoost(集成学习算法)
目录走进XGBoost什么是XGBoost?XGBoost树的定义XGBoost核心算法正则项:树的复杂程度XGBoost与GBDT有什么不同XGBoost需要注意的点XGBoost重要参数详解调参步骤及思想XGBoost代码案例相关性分析n_estimators(学习曲线)max_depth(学习曲线)调整max_depth 和min_child_weight调整gamma调整subsample 和colsample_bytree调整正则原创 2022-02-14 10:46:47 · 75681 阅读 · 79 评论 -
机器学习分类算法之LightGBM(梯度提升框架)
目录走进LightGBM什么是LightGBM?XGBoost的缺点LightGBM的优化LightGBM的基本原理Histogram 算法直方图加速 LightGBM并行优化代码实践参数详解 代码实操最优模型及参数(数据集1000)模型调参每文一语走进LightGBM什么是LightGBM?在上一篇的文章里,我介绍了XGBoost算法,它是是很多的比赛的大杀器,但是在使用过程中,其训练耗时很长,内存占用比较大。在2017年年..原创 2022-02-17 09:00:00 · 4060 阅读 · 28 评论 -
机器学习分类算法之随机森林(集成学习算法)
目录什么是集成学习?随机森林随机森林的生成算法随机森林的随机性随机森林的优势随机森林的参数详解随机森林模型提高方法最大特征数(max_features)子树的数量(n_estimators)最重要的最大深度(max_depth)内部节点再划分所需最小样本数(min_samples_split)叶子节点最少样本数(min_samples_leaf)叶子节点最小的样本权重(min_weight_fraction_leaf)最大叶子节点数(max_leaf.原创 2022-02-11 21:25:13 · 7077 阅读 · 31 评论 -
基于Hadoop部署实践对网站日志分析(大数据分析案例)
本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖。至此,我们通过Python网络爬虫手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)保存为两个日志文件,由于文件大小超出我们一般的分析工具处理的范围,故借助Hadoop来完成本次的实践。原创 2022-05-09 10:59:10 · 8019 阅读 · 39 评论 -
淘宝数据可视化大屏案例(Hadoop实验)
身处大数据时代,每一天都在产生数据,对于数据的应用是每一个行业的最基本的要求,也是他们立足于商业的必要手段。项目简介项目条件1.首先要准备数据集2.准备环境,Hadoop集群,需要hdfs,hive,Fiume,sqoop等插件,需要提前自己安装项目步骤1.启动Hadoop集群并查看start-all.shjps2.配置表支持事务(十分重要)2.1 改配置文件hive-site.xml 或者 临时设置参数 命令行<property> <name&原创 2020-12-05 00:12:47 · 19205 阅读 · 26 评论 -
淘宝大数据分析案例
项目介绍本次结合的是一份淘宝大数据数据,数据集的大小共177MB,数据一共有3182261份(三百多万份数据集),一般的软件是无法计算和分析的,比如Excel,MySQL,Python这些都无法较好的完成相关数据分析。1.Excel一般是一万多行的数据就不可以了。2.Python与MySQL虽然可以,但是查询的效率却不敢保证,容易出现电脑死机或者卡死,这个与电脑本身的配置有关,所以对于大数据的数据集,我们提供了Hadoop,伪分布式的储存机制,这样的结构与特点让我们的数据集,可以容纳到TB级以上,较有原创 2021-01-01 23:55:17 · 12033 阅读 · 30 评论 -
基于surprise模块快速搭建旅游产品推荐系统(代码+原理)
实验项目本实验提供收集自互联网公开渠道的 2018 年至 2021 年广东省某市的旅游产业用户评论及评分数据:数据包含以下字段: 用户ID 数据包含对旅游产品进行过评价的1000名用户的编号(2019443) 产品分类 旅游产品的分类,包含“景点”,“酒店”和“餐饮”三大类 产品名称 被评论产品的名称,即酒店名称、景点名称和餐饮名称 产品评分原创 2022-05-12 09:48:03 · 1470 阅读 · 27 评论 -
【自然语言实战】机器学习之基于评论内容的主题分类模型
朴素贝叶斯法通过训练数据集学习到联合概率分布P(X, Y),为得到联合概率分布,需得知先验概率分布以及条件概率分布,而条件概率分布具有指数级数量的参数,如果全部统计估计是不具有实际可行性的,所以朴素贝叶斯法对条件概率分布作了条件独立性的假设,这样会损失信息,牺牲分类准确性,但是让实际的操作具有了可操作性。:全称是Term Frequency,即词频(单词出现的频率),也就是一个单词在文档中出现的次数,次数越多越重要。单词的TF-IDF 值可以描述一个单词对文档的重要性,TF-IDF 值越大,则越重要。原创 2022-08-24 00:20:16 · 1425 阅读 · 2 评论 -
【项目实战】机器学习基于物品的旅游产品推荐系统
的基本思想是如果用户A喜欢物品a,用户B喜欢物品a、b、c,用户C喜欢a和c,那么认为用户A与用户B和C相似,因为他们都喜欢a,而喜欢a的用户同时也喜欢c,所以把c推荐给用户A。这些都已经成为游客出行考虑的问题,前期做大量的旅游攻略,不仅浪费时间,而且容易造成审美疲劳,导致厌倦,最终造成消费不佳,消费动力不足,间接地影响到国民旅游的良性发展。一个大型的电子商务推荐系统一般有非常多的物品,用户可能买的其中不到1%的物品,不同用户之间买的物品重叠性较低,导致算法无法找到一个用户的邻居,即偏好相似的用户。原创 2022-08-24 00:19:55 · 881 阅读 · 0 评论 -
机器学习推荐算法之协同过滤(基于物品)【案例+代码】
目录协同过滤算法(基于物品)案例解说总结代码实操每文一语协同过滤算法(基于物品)基于用户的协同过滤,适用于物品较少,用户也不太多的情况。如果用户太多,针对每个用户的购买情况来计算哪些用户和他品味类似,效率很低下。如果商品很多,每个用户购买的商品重合的可能性很小,这样判断品味是否相似也就变得比较困难了。消费者每天都在买买买,行为变化很快,但是物品每天虽然也有变化,但是和物品总量相比变化还是少很多。这样,就可以预先计算物品之间的相似程度,然后再利用顾客实际购买的情况找出相..原创 2022-04-11 00:30:00 · 2821 阅读 · 2 评论 -
机器学习推荐算法之协同过滤(基于用户)【案例+代码】
目录兴趣度计算电影推荐案例协同过滤算法欧式距离案例计算推荐基于用户协同过滤的缺点代码实操每文一语兴趣度计算前面学习了关联规则的相关知识,接下来我们来学习协同过滤。什么是协同过滤呢?我们以一个简单的问题来了解一下:如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么好看的电影推荐。朋友有很多,每一个都去问吗?不是,我们一般更倾向于从口味比较类似的朋友那里得到推荐。协同过滤是利用集体智慧的一种方法,但又稍有..原创 2022-04-10 01:15:00 · 3308 阅读 · 2 评论 -
《全网首发》基于SEIR(SIR)对新冠肺炎的分析和预测
截止 2021 年 4 月 27 日, 全球新增确诊病例连续 9 周增加,新增死亡病例连续 6 周增加。 世卫组织总干事谭德塞指出,虽然一些地区的新增确诊病例和死亡人数出现小幅下降,但许多国家疫情仍在密集传播,印度等国的情况尤其令人揪心。 中国政府已决定在全国进行全人群的新冠病毒疫苗接种,以建立最大规模的国民群体新冠免疫屏障。请你们根据现有的知识和搜集相关数据,利用数学建模的方法,解决如下问题:1. 建立传染病毒群体免疫屏障的数学模型,说明疫苗接种率的控制对构筑免疫屏障的作用。在此基础上考虑原创 2021-06-28 19:29:30 · 27067 阅读 · 38 评论 -
Exce快速l统计所有行中标红数据的个数【教学常用】
假设现在有一份Excel的数据表,该数据表的行列维度都比较的大(列比较多,行也比较多),我们常见的Excel方法已经无法满足我们的业务和教学分析需求了,下面教你如何快速的应用,解决生活中的难题。给定一个数据表格如下所示,我们需要将已经用颜色填充好的单元格,按照每一行进行列数的数量统计,最终显示在我们的数据表中。首先将有颜色填充额单元格中的数据字体,变成红色使用快捷键:Ctrl+H,从单元格中选定填充格式当然,这里也可以格式进行灵活的应用,假设我们原始表没有给标注,只有数据,那么我们可以根据数据的范围,文本原创 2022-07-13 14:20:18 · 6170 阅读 · 0 评论 -
机器学习之自然语言处理——基于TfidfVectorizer和CountVectorizer及word2vec构建词向量矩阵(代码+原理)
目录理论知识准备构造文本特征向量TF-IDF 值sklearn中TfidfVectorizer代码实例CountVectorizer()代码实操Word2Vec代码案例总结每文一语理论知识准备前期我们对分词进行了详细的讲解,那么分词之后,哪些关键词对一个文档才是重要的?比如可以通过单词出现的次数,次数越多就表示越重要。构造文本特征向量Count (文档:空格连接的字符串)TFIDF (文档:空格连接的字符串)Word2Vec (文档:分词列表)TF-IDF 值单词的TF-I原创 2022-05-23 08:00:00 · 1632 阅读 · 0 评论