(持续更新)数据分析实战项目100例
文章平均质量分 94
本专栏以数据分析实战项目为主,包含大数据分析案例、机器学习项目、数据分析项目、预处理、可视化、数据库等实际应用项目、其中项目来源于:毕设选题、课程设计、业务需求、专业辅导1V1项目、日常接单、专业书籍案例项目等,项目来源于生活。旨在通过大量的实战,快速上手并应用于工作开发,为工作提供大量经验!
王小王-123
【私信必回】CSDN博客专家、内邀精英签约作者,CSDN年度优秀创作者,华为云享专家,阿里云专家博主、腾讯云、简书、InfoQ、51CTO等开源社区创作者。左手诗情画意,右手代码人生,欢迎一起探讨技术的诗情画意!
展开
-
【多思路附源码】2023高教社杯 国赛数学建模C题思路 - 蔬菜类商品的自动定价与补货决策
在生鲜商超中,一般蔬菜类商品的保鲜期都比较短,且品相随销售时间的增加而变差, 大部分品种如当日未售出,隔日就无法再售。因此, 商超通常会根据各商品的历史销售和需 求情况每天进行补货。由于商超销售的蔬菜品种众多、产地不尽相同,而蔬菜的进货交易时间通常在凌晨 3:00- 4:00,为此商家须在不确切知道具体单品和进货价格的情况下, 做出当日各蔬菜品类的补货 决策。蔬菜的定价一般采用“成本加成定价”方法, 商超对运损和品相变差的商品通常进行 打折销售。可靠的市场需求分析,对补货决策和定价决策尤为重要。原创 2023-09-08 02:19:05 · 11426 阅读 · 12 评论 -
基于卷积神经网络VGG的猫狗识别
!有需要本项目的实验源码的可以私信博主!摘要:随着大数据时代的到来,深度学习、数据挖掘、图像处理等已经成为了一个热门研究方向。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。这也是深度学习在当下备受欢迎的原因之一,本实验的研究目的是自动识别猫狗类型,采用的是基于数据挖掘的猫狗自动识别技术。本实验将具有外貌复杂的猫狗图像,其中训练集下各有猫狗数据1000张,验证集下各有猫狗500张,运用卷积神经网络训练,并挑选深度学习框架 TensorFlow以及计算能力强大的 GPU原创 2023-07-08 08:30:00 · 3132 阅读 · 8 评论 -
基于Python电商用户行为的数据分析、机器学习、可视化研究
数据预处理可以消除数据中的错误、缺失、异常和重复等问题,提高数据质量,减少误差,为后续数据分析提供更可靠的基础。通过用户所发生的行为数据,以及透视数据下的各种新增的维度字段,比如最近的购买次数,最近一次的购买时间,我们可以采用Kmeans聚类算法对用户群体进行聚类,根据得出的聚类数目,采用RFM模型对其进行深入的划。在检查完数据的缺失值和异常值之后,需要对数据有一个时间维度上的把控,因为本研究的一个重要的数据分析思维,就是通过时间上的一些指标探索不同时间下的行为,流量指标的分布等情况。原创 2023-07-07 08:30:00 · 4443 阅读 · 18 评论 -
基于招聘网站的大数据专业相关招聘信息建模与可视化分析
首先是利用collections库的Counter函数对数据的重复值进行查看,这边主要是对岗位的url进行了统计查看,可以通过结果看出,每个url都只出现了一次,也就是说,每条数据都只出现了一次,并未出现重复值,因此,不用对数据进行去重操作。根据占比率前十的职位类别统计,对职位类别进行环状扇形图的呈现。根据职位类别的数量统计,对所有职位类别进行词云图呈现,从词云图可以看出计算机软件、互联网、电子商务、计算机服务等职位类别对大数据专业相关岗位的需求比较大,求职者在求职的时候可以先考虑这些岗位类别的招聘。原创 2023-07-06 08:00:00 · 3185 阅读 · 7 评论 -
基于Python的Django出租车大数据分析系统实现
提取出租车的经纬度,通过地图可视化工具Folium绘制出出租车载客热点区域,可以看出在杭州市的拱墅区、西湖区、上城区、滨江区和萧山国际机场出租车行驶主要分布在这些地方,其中最集中的是拱墅区,因此在这些区域打车的人数可能比较多。通过数据清洗,可以去除不必要的数据,去除重复的数据,并且去除那些不符合分析目标的数据,从而有效地提取出有价值的信息。通过提取出租车运行的时间和速度,对采用的杭州市出租车数据,绘制一个平均速度可视化折线图如图4-2所示。(2)选取晚上10点以后的出租车位置,绘制了散点图。原创 2023-07-04 08:30:00 · 865 阅读 · 0 评论 -
基于Hadoop的MapReduce网站日志大数据分析(含预处理MapReduce程序、hdfs、flume、sqoop、hive、mysql、hbase组件、echarts)
Hadoop的网站日志大数据分析方法。本项目首先将网站日志上传到HDFS分布式文件系统,然后使用MapReduce进行数据预处理。通过使用Hive进行大数据分析,我们能够对网站的PV、独立IP、用户注册数和跳出用户数等重要指标进行统计分析。最后,我们使用Sqoop将分析结果导出到MySQL数据库,并使用Python搭建可视化界面,以方便用户对分析结果进行更直观的理解。通过使用Hadoop分布式计算框架,本项目可以高效地处理大量的网站日志数据。原创 2023-07-04 08:00:00 · 10913 阅读 · 14 评论 -
基于MapReduce框架的医疗大数据分析
近年来,大数据解决方案与大数据分析工具开始被广泛运用于医疗卫生领域。通过数据,可以把医学专家积累的宝贵经验,转化成标准化的知识基础,做到数据驱动医疗服务,因此从而大大提高服务能力和效率,解决中国医疗领域存在的诸多需求。通过进行医疗数据分析,有利于提高临床决策的准确性,有利于实现个性化医疗,还可以进行医疗服务水平的评估,可以大幅度提升医院的运营效率,也可以对药物的市场和销售策略进行辅助,除此之外,制药厂家和医疗器材研发机构可以获悉各种疾病及相关治疗费用的发展趋势,为研发资源的优化配置提供参考。原创 2023-07-03 08:00:00 · 1362 阅读 · 0 评论 -
hive基于新浪微博的日志数据分析——项目及源码
本系统旨在对新浪微博日志进行大数据分析,探究用户行为、内容传播、移动设备等多个方面的特征和趋势,为企业和个人的营销策略、产品设计、用户服务等提供有益的参考和支持。系统基于Hive平台,能够对大规模的微博数据进行处理和分析,输出有关用户量、微博转发量、用户发布微博数量、带图片微博数据等多个方面的统计信息。根据对数据的处理和分析,系统得出以下结论:新浪微博作为国内最大的社交媒体平台之一,具有非常广泛的用户群体和内容覆盖面。其中,有些用户的微博转发量非常高,具有很高的影响力和传播力;同时也有些用户发布的微博数量非原创 2023-07-02 08:15:00 · 2865 阅读 · 8 评论 -
基于Hadoop的网上购物行为分析设计与实现
sink3指定了一个名为sink3的数据输出端,使用了hive模式,hive的metastore地址为thrift://hadoop:9083,数据库名称为taobao,表名为taobao_data,数据格式为DELIMITED,分隔符为逗号,字段名称为user_id、item_id、behavior_type、user_geohash、item_category、date、hour,每次提交数据的批量大小为90。然后,将分析结果存储到hive数据库中,并导出到MySQL数据库,便于数据的存储和分析展示。原创 2023-07-01 08:15:00 · 8982 阅读 · 34 评论 -
基于Hadoop的疫情信息分析与可视化研究——包含大屏可视化及预测算法
基于Hadoop的疫情信息分析与可视化研究在国内外都有较为广泛的应用。国外研究主要集中在疫情数据的处理和分析,以及疫情预测模型的构建。而国内研究则主要集中在疫情数据的可视化和知识图谱的构建。未来,基于Hadoop的疫情信息分析与可视化研究还有很大的发展空间,可以进一步提高对疫情的监测和预警能力,为政府部门和医疗机构提供更加准确的数据支持和决策依据。另外,未来可以将Hadoop技术与人工智能、机器学习等技术相结合,开发更加智能化、自适应的疫情信息分析和预测模型。原创 2023-06-30 09:30:00 · 4096 阅读 · 4 评论 -
基于yolov5的交通标志牌的目标检测研究——源码及文档
随着智能交通系统的不断发展,交通标志牌在路面上扮演着越来越重要的角色。交通标志牌能够指示车辆、行人等交通参与者正确、安全地行驶,遵守交通规则,减少交通事故的发生。然而,由于各种原因,交通标志牌的摆放、损坏、覆盖、污染等情况时有发生,这些情况会给交通参与者带来困扰,也可能导致交通事故的发生。因此,对交通标志牌的及时发现、识别和管理是智能交通系统中一个非常重要的研究方向。传统的交通标志牌检测方法通常基于手工设计的特征提取器和分类器。原创 2023-06-29 08:15:00 · 3450 阅读 · 2 评论 -
基于yolov5的交通标志牌的目标检测研究设计——思路及概念
首先这里需要准备我们需要打标注的数据集。之后就要去修改一下data下的yaml文件,这个里面的参数也比较的重要,对应的就是我们的数据集的路径,分别为训练集和测试集,以及验证集,其中包括的45类的交通标识,所对应的ID,因为这里的ID所对应的目标含义有的比较长,且不好展示出来,所以我就按照其ID给他进行一个对应,其对应表在上面的数据标注的部分。(5)硬件设备不足,由于电脑的性能或者环境的部署,深度学习的环境部署比较麻烦,需要对其进行详细的部署,这里需要安装好Pytorch的深度学习环境,是可能比较困难的。原创 2023-06-27 20:22:04 · 5347 阅读 · 2 评论 -
基于Hadoop的豆瓣电影的数据抓取、数据清洗、大数据分析(hdfs、flume、hive、mysql等)、大屏可视化
有需要整个项目的可以私信博主,提供部署和讲解,对相关案例进行分析和深入剖析环境点击顶部下载本研究旨在利用Python的网络爬虫技术对豆瓣电影网站进行数据抓取,并通过合理的数据分析和清洗,将非结构化的数据转化为结构化的数据,以便于后续的大数据分析。具体而言,我们通过分析豆瓣网站的网页结构,设计出规则来获取电影数据的JSON数据包,并采用正态分布的延时措施对数据进行大量获取,从而避免IP被禁。在数据清洗方面,我们进行了空值检测与处理、字符串约束、字段值扩充等操作,使得数据变得更加准确和可靠。原创 2023-06-30 08:15:00 · 17020 阅读 · 30 评论 -
基于Python的海量豆瓣电影、数据获取、数据预处理、数据分析、可视化、大屏设计项目(含数据库)
有需要本项目的代码或文档以及全部资源,或者部署调试可以私信博主!!!!!!!!!!本文基于Python的网络爬虫手段对豆瓣电影网站进行数据的抓取,通过合理的分析豆瓣网站的网页结构,并设计出规则来获取电影数据的JSON数据包,采用正态分布的延时措施对数据进行大量的获取。并利用Python的Pandas数据分析库,对获取的数据进行预处理,将非结构化的数据清洗为干净的数据,便于后续的大数据分析,分别对数据进行空值检测与处理,字符串的约束,字段值的扩充,以及数据的清洗。原创 2023-06-27 15:05:11 · 18050 阅读 · 24 评论 -
基于Hadoop的电商广告点击数的分析与可视化(Shell脚本执行与大屏可视化设计)
本项目需要部署的可以私信博主!!!!!!!!!本文介绍了基于Hadoop的电商广告点击数的分析与可视化,以及相应的Shell脚本执行和大屏可视化设计。首先,我们介绍了Hadoop的基本原理和使用方法,包括如何安装和配置Hadoop集群。然后,我们介绍了如何使用Hadoop MapReduce框架对电商广告点击数据进行分析和处理,包括数据的清洗、转换和统计。接下来,我们使用Hadoop集成的可视化工具对数据进行可视化分析,展示了广告点击数量的趋势和分布等信息。原创 2023-03-06 22:52:18 · 5951 阅读 · 36 评论 -
站在上帝的角度挖掘数据——Python抓取10W+社科基金项目并可视化分析
Python爬取国家社科基金项目数据库资源,并按照一定的数据分析原则进行数据分析,然后利用pyecharts进行可视化展示。文章内部附有相关的代码合集和解释,同时有配套资源下载。我们发现在日常的生活中,总是有很多的繁琐的事情,但是又不知道如何去改善和解解压,小王在这里给大家提一个小小的建议:多听听音乐,可能就是不一样的心情啦。生活不只有眼前的苟且,还要有未来的诗和远方。原创 2021-02-21 15:10:41 · 5261 阅读 · 48 评论 -
80行快乐代码与你窥探爬虫的数据深渊——教你如何高效快速任意爬虫(附大量项目案例和语法解析文章)
前端工程师把数据和网页完美的结合在一起,他们以为这样是最美丽的契合,殊不知,后端的那些工程师宝宝们,一天没事干,把他们的老窝给惊扰了,爬虫给网站带来的危害是比较大的,如果一个服务器一般被很多用户访问,可能它会宕机,也可能会崩溃,那么一个机器通过编程手段来达到这个目的,一分钟的点击次数,同时点击所达到的次数,机器不会累,于是网站被他们端了。一切都要恰到好处,于是他们商量好了,礼貌的访问,隐隐约约的访问,悄悄咪咪的访问,有节制的去获取数据,慢慢的前端工程师和后端工程师关系越来也好了,最终他们诞生了幸福的结晶..原创 2021-04-09 14:40:19 · 12166 阅读 · 58 评论 -
Python爬取全网文字并词云分析(全程一键化!)
前景引入最近Python很火,确实很火,好像一直都比较火,哈哈哈哈。如果你也觉得很火,那么就请看完这篇文章吧,看看Python的热度到底能不能使我这篇文章火起来。那么作为后起之秀的编程语言——Python,它到底能够做些什么了,网上一直在“炒作”Python:一键化办公,学好Python薪资翻一番,让你的生活多一点money,让你的老板对你刮目相看,让你从此找到自信!这不是吹捧,也不是浮夸。从云计算、大数据到人工智能,Python无处不在,百度、阿里巴巴、腾讯等一系列大公司都在使用Python完成各种任原创 2020-12-29 22:56:49 · 7023 阅读 · 10 评论 -
上百种Python炫酷可视化案例珍藏版——看完掌握~一键三连~老板都想要给你升职加薪哟!
数据可视化是当下火热的大数据应用技术,很多新锐地大数据分析工具都注重开发数据可视化的功能模块。数据可视化及其技术研究和应用开发,已经从根本上改变了我们对数据和数据分析工具的理解,数据可视化对大数据发展的影响广泛而深入。数据可视化在近几年十分火热,但它到底是什么意思很多人却并不很清楚。从广义上来说,可视化无处不在, 打开浏览器, 网站就是个数据可视化, 背后是数据库密密麻麻的数据表, 到了你的浏览器就是浅显易懂的页面。帮助人更好的分析数据是数据可视化存在的意义,它对数据中所包含的意义进行分析,使分析结原创 2021-04-12 12:17:05 · 11647 阅读 · 74 评论 -
机器学习分类算法之XGBoost(集成学习算法)
目录走进XGBoost什么是XGBoost?XGBoost树的定义XGBoost核心算法正则项:树的复杂程度XGBoost与GBDT有什么不同XGBoost需要注意的点XGBoost重要参数详解调参步骤及思想XGBoost代码案例相关性分析n_estimators(学习曲线)max_depth(学习曲线)调整max_depth 和min_child_weight调整gamma调整subsample 和colsample_bytree调整正则原创 2022-02-14 10:46:47 · 74494 阅读 · 79 评论 -
机器学习分类算法之LightGBM(梯度提升框架)
目录走进LightGBM什么是LightGBM?XGBoost的缺点LightGBM的优化LightGBM的基本原理Histogram 算法直方图加速 LightGBM并行优化代码实践参数详解 代码实操最优模型及参数(数据集1000)模型调参每文一语走进LightGBM什么是LightGBM?在上一篇的文章里,我介绍了XGBoost算法,它是是很多的比赛的大杀器,但是在使用过程中,其训练耗时很长,内存占用比较大。在2017年年..原创 2022-02-17 09:00:00 · 4042 阅读 · 28 评论 -
机器学习分类算法之随机森林(集成学习算法)
目录什么是集成学习?随机森林随机森林的生成算法随机森林的随机性随机森林的优势随机森林的参数详解随机森林模型提高方法最大特征数(max_features)子树的数量(n_estimators)最重要的最大深度(max_depth)内部节点再划分所需最小样本数(min_samples_split)叶子节点最少样本数(min_samples_leaf)叶子节点最小的样本权重(min_weight_fraction_leaf)最大叶子节点数(max_leaf.原创 2022-02-11 21:25:13 · 7025 阅读 · 31 评论 -
基于Hadoop部署实践对网站日志分析(大数据分析案例)
本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖。至此,我们通过Python网络爬虫手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)保存为两个日志文件,由于文件大小超出我们一般的分析工具处理的范围,故借助Hadoop来完成本次的实践。原创 2022-05-09 10:59:10 · 7975 阅读 · 39 评论 -
淘宝数据可视化大屏案例(Hadoop实验)
身处大数据时代,每一天都在产生数据,对于数据的应用是每一个行业的最基本的要求,也是他们立足于商业的必要手段。项目简介项目条件1.首先要准备数据集2.准备环境,Hadoop集群,需要hdfs,hive,Fiume,sqoop等插件,需要提前自己安装项目步骤1.启动Hadoop集群并查看start-all.shjps2.配置表支持事务(十分重要)2.1 改配置文件hive-site.xml 或者 临时设置参数 命令行<property> <name&原创 2020-12-05 00:12:47 · 19148 阅读 · 25 评论 -
淘宝大数据分析案例
项目介绍本次结合的是一份淘宝大数据数据,数据集的大小共177MB,数据一共有3182261份(三百多万份数据集),一般的软件是无法计算和分析的,比如Excel,MySQL,Python这些都无法较好的完成相关数据分析。1.Excel一般是一万多行的数据就不可以了。2.Python与MySQL虽然可以,但是查询的效率却不敢保证,容易出现电脑死机或者卡死,这个与电脑本身的配置有关,所以对于大数据的数据集,我们提供了Hadoop,伪分布式的储存机制,这样的结构与特点让我们的数据集,可以容纳到TB级以上,较有原创 2021-01-01 23:55:17 · 11993 阅读 · 30 评论 -
基于surprise模块快速搭建旅游产品推荐系统(代码+原理)
实验项目本实验提供收集自互联网公开渠道的 2018 年至 2021 年广东省某市的旅游产业用户评论及评分数据:数据包含以下字段: 用户ID 数据包含对旅游产品进行过评价的1000名用户的编号(2019443) 产品分类 旅游产品的分类,包含“景点”,“酒店”和“餐饮”三大类 产品名称 被评论产品的名称,即酒店名称、景点名称和餐饮名称 产品评分原创 2022-05-12 09:48:03 · 1468 阅读 · 27 评论 -
【自然语言实战】机器学习之基于评论内容的主题分类模型
朴素贝叶斯法通过训练数据集学习到联合概率分布P(X, Y),为得到联合概率分布,需得知先验概率分布以及条件概率分布,而条件概率分布具有指数级数量的参数,如果全部统计估计是不具有实际可行性的,所以朴素贝叶斯法对条件概率分布作了条件独立性的假设,这样会损失信息,牺牲分类准确性,但是让实际的操作具有了可操作性。:全称是Term Frequency,即词频(单词出现的频率),也就是一个单词在文档中出现的次数,次数越多越重要。单词的TF-IDF 值可以描述一个单词对文档的重要性,TF-IDF 值越大,则越重要。原创 2022-08-24 00:20:16 · 1416 阅读 · 2 评论 -
【项目实战】机器学习基于物品的旅游产品推荐系统
的基本思想是如果用户A喜欢物品a,用户B喜欢物品a、b、c,用户C喜欢a和c,那么认为用户A与用户B和C相似,因为他们都喜欢a,而喜欢a的用户同时也喜欢c,所以把c推荐给用户A。这些都已经成为游客出行考虑的问题,前期做大量的旅游攻略,不仅浪费时间,而且容易造成审美疲劳,导致厌倦,最终造成消费不佳,消费动力不足,间接地影响到国民旅游的良性发展。一个大型的电子商务推荐系统一般有非常多的物品,用户可能买的其中不到1%的物品,不同用户之间买的物品重叠性较低,导致算法无法找到一个用户的邻居,即偏好相似的用户。原创 2022-08-24 00:19:55 · 879 阅读 · 0 评论 -
机器学习推荐算法之协同过滤(基于物品)【案例+代码】
目录协同过滤算法(基于物品)案例解说总结代码实操每文一语协同过滤算法(基于物品)基于用户的协同过滤,适用于物品较少,用户也不太多的情况。如果用户太多,针对每个用户的购买情况来计算哪些用户和他品味类似,效率很低下。如果商品很多,每个用户购买的商品重合的可能性很小,这样判断品味是否相似也就变得比较困难了。消费者每天都在买买买,行为变化很快,但是物品每天虽然也有变化,但是和物品总量相比变化还是少很多。这样,就可以预先计算物品之间的相似程度,然后再利用顾客实际购买的情况找出相..原创 2022-04-11 00:30:00 · 2815 阅读 · 2 评论 -
机器学习推荐算法之协同过滤(基于用户)【案例+代码】
目录兴趣度计算电影推荐案例协同过滤算法欧式距离案例计算推荐基于用户协同过滤的缺点代码实操每文一语兴趣度计算前面学习了关联规则的相关知识,接下来我们来学习协同过滤。什么是协同过滤呢?我们以一个简单的问题来了解一下:如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么好看的电影推荐。朋友有很多,每一个都去问吗?不是,我们一般更倾向于从口味比较类似的朋友那里得到推荐。协同过滤是利用集体智慧的一种方法,但又稍有..原创 2022-04-10 01:15:00 · 3307 阅读 · 2 评论 -
《全网首发》基于SEIR(SIR)对新冠肺炎的分析和预测
截止 2021 年 4 月 27 日, 全球新增确诊病例连续 9 周增加,新增死亡病例连续 6 周增加。 世卫组织总干事谭德塞指出,虽然一些地区的新增确诊病例和死亡人数出现小幅下降,但许多国家疫情仍在密集传播,印度等国的情况尤其令人揪心。 中国政府已决定在全国进行全人群的新冠病毒疫苗接种,以建立最大规模的国民群体新冠免疫屏障。请你们根据现有的知识和搜集相关数据,利用数学建模的方法,解决如下问题:1. 建立传染病毒群体免疫屏障的数学模型,说明疫苗接种率的控制对构筑免疫屏障的作用。在此基础上考虑原创 2021-06-28 19:29:30 · 26932 阅读 · 38 评论 -
Exce快速l统计所有行中标红数据的个数【教学常用】
假设现在有一份Excel的数据表,该数据表的行列维度都比较的大(列比较多,行也比较多),我们常见的Excel方法已经无法满足我们的业务和教学分析需求了,下面教你如何快速的应用,解决生活中的难题。给定一个数据表格如下所示,我们需要将已经用颜色填充好的单元格,按照每一行进行列数的数量统计,最终显示在我们的数据表中。首先将有颜色填充额单元格中的数据字体,变成红色使用快捷键:Ctrl+H,从单元格中选定填充格式当然,这里也可以格式进行灵活的应用,假设我们原始表没有给标注,只有数据,那么我们可以根据数据的范围,文本原创 2022-07-13 14:20:18 · 6111 阅读 · 0 评论 -
机器学习之自然语言处理——基于TfidfVectorizer和CountVectorizer及word2vec构建词向量矩阵(代码+原理)
目录理论知识准备构造文本特征向量TF-IDF 值sklearn中TfidfVectorizer代码实例CountVectorizer()代码实操Word2Vec代码案例总结每文一语理论知识准备前期我们对分词进行了详细的讲解,那么分词之后,哪些关键词对一个文档才是重要的?比如可以通过单词出现的次数,次数越多就表示越重要。构造文本特征向量Count (文档:空格连接的字符串)TFIDF (文档:空格连接的字符串)Word2Vec (文档:分词列表)TF-IDF 值单词的TF-I原创 2022-05-23 08:00:00 · 1628 阅读 · 0 评论 -
机器学习之自然语言处理——中文分词jieba库详解(代码+原理)
目录文本分类概述文本分类的应用文本分类的挑战文本分类的算法应用文本分类所需知识中文分词神器-jiebajieba分词的三种模式词性标注载入词典(不分词)词典中删除词语(不显示)停用词过滤调整词语的词频关键词提取基于TF-IDF算法的关键词提取基于 TextRank 算法的关键词抽取返回词语在原文的起止位置(论文常用算法)词频统计(附智能程序)每文一语文本分类概述文本分类的应用在大数据时代,网络上的文本数据日益增长。采用文本分类技术对海量数据进行科学地组织和管理显得尤为重要。文本作为分布最广、数据量最原创 2022-05-22 14:43:17 · 4362 阅读 · 49 评论 -
基于启发式算法与单目优化和马尔科夫模型的进出口公司的货物装运策略——整数线性规划 随机模拟
目录进出口公司的货物装运策略摘要一、问题的重述1问题的背景2问题的提出3目的及意义二、符号说明三、模型假设四、建模准备与问题分析4.1 线性整数规划4.2 三维空间分割启发式算法4.3 混合遗传模拟退火算法4.4 马尔科夫模型五、问题解决与模型求解5.1 问题15.2 问题1模型求解5.3 问题2解决5.4 问题2模型求解5.5 问题3解决5.6 问题3模型求解5.9 问题5解决5.8 问题5模型求解六、模型的评价与原创 2022-05-06 23:07:04 · 6047 阅读 · 3 评论 -
预测模型构建利器——基于logistic的列线图(R语言)
目录模型知识准备什么是列线图?如何看懂列线图?什么是校准曲线?模型搭建哑变量的设置列线图的绘制校准曲线的绘制每文一语模型知识准备什么是列线图?列线图(Alignment Diagram),又称诺莫图(Nomogram图),它是建立在多因素回归分析的基础上,将多个预测指标进行整合,然后采用带有刻度的线段,按照一定的比例绘制在同一平面上,从而用以表达预测模型中各个变量之间的相互关系。列线图的基本原理,简单的说,就是通过构建多因素回归模型(常用的回归模型,例原创 2022-05-01 23:49:25 · 4455 阅读 · 3 评论 -
机器学习推荐算法之关联规则Apriori与FP-Growth算法详解
目录Apriori算法介绍计算菜品间的关联度Apriori算法不足FP-Growth算法频繁项的挖掘关联规则兴趣度apriori代码案例fpgrowth代码案例结果每文一语Apriori算法介绍Apriori,中文是先验,开始的意思。这个算法为了规避前面说到的指数爆炸的问题,采取了提前剪枝的办法。核心是两条定律:定律一:如果一个集合是频繁项集,则它的所有子集都是频繁项集。定律二:如果一个集合不是频繁项集,则它的所有超集都不是频繁项集。Apri...原创 2022-04-10 00:00:00 · 2904 阅读 · 1 评论 -
机器学习推荐算法之关联规则(Apriori)——支持度;置信度;提升度
目录🍎走进关联规则🍊什么是关联规则?🍒关联规则的分类🍉关联规则的基本概念置信度的局限——错估某个关联规则的重要性提升度和零事务的关系先验原则实际案例代码实战频繁项集和支持度置信度调用文末资源推荐每文一语🍎走进关联规则🍊什么是关联规则?🐾🐾情景引入:🍺啤酒与尿布🍼在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直...原创 2022-03-03 19:20:58 · 47564 阅读 · 39 评论 -
【原理+代码】Python实现Topsis分析法(优劣解距离法)
综合评价法评价方法一般分为两类。一类是主观赋权法,多数采取综合咨询评分确定权重,如:综合指数法、模糊综合评价法、层次分析法、功效系数法等。另一类是客观赋权法,根据各指标之间的相关关系或各指标值变异程度来确定权数,如:主成分分析法、因子分析法、理想解法等。那么目前,主要使用的评价方法有:主成分分析法、因子分析法、TOPSIS法(本文详解)、秩和比法、灰色关联法、熵权法、层次分析法、模糊评价法、物元分析法、聚类分析法、价值工程法、神经网络法等。是不是感觉太多了,其实当你踏进机器学习和算法,以及建模的原创 2022-02-19 19:55:16 · 6321 阅读 · 12 评论 -
机器学习分类算法之Logistic 回归(逻辑回归)
目录什么是逻辑回归?Sigmoid 函数似然函数梯度下降判定边界损失函数逻辑回归优点逻辑回归缺点代码实现Logistic Regression参数详解正则化选择参数:penalty优化算法选择参数:solver其他参数代码案例结果显示每文一语什么是逻辑回归?逻辑回归算法是用来解决分类问题的。回归与分类的区别在于:回归所预测的目标量的取值是连续的(例如房屋的价格);而分类所预测的目标变量的取值是离散的(例如判断肿瘤大小是否为恶性)。.原创 2022-02-10 00:19:16 · 4752 阅读 · 42 评论