自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(237)
  • 资源 (2)
  • 收藏
  • 关注

原创 昭通天气数据分析与挖掘(三)- 昭通天气数据可视化分析

本文详细介绍了昭通天气数据的可视化分析过程。首先通过FineBI工具连接MySQL数据库,完成数据选取与字段设置,将英文字段转换为中文并规范数据类型。随后构建了包含气温变化趋势、天气类型分布、风力风向分布等8类可视化图表,最终整合为交互式分析大屏。该大屏支持区域筛选功能,可动态展示昭通、大关、威信等地的气象特征分析结果,直观呈现了当地以阴天为主、风力温和的气候特点。通过多维度数据可视化,为气象规律分析提供了清晰的数据支撑。

2025-12-22 22:49:21 754

原创 昆明天气数据分析与挖掘(三)- 昆明天气数据可视化分析

本文详细介绍了昆明天气数据的预处理与可视化分析过程。首先在FineBI中完成数据上传、字段设置等准备工作,将气温、风向等字段转换为中文并设置合适的数据类型。随后通过折线图、柱形图、饼图等多种可视化形式,对气温变化趋势、风向风力分布、天气类型等维度进行多角度分析,并构建了集成筛选功能的动态分析大屏。分析结果表明,昆明及下属区域气候特征存在差异:主城区气温波动平缓、风力温和,而东川区温差更大、风向集中性显著。该可视化系统有效呈现了区域气象规律,为气候分析提供了直观的数据支撑。

2025-12-20 23:32:06 1097

原创 曲靖天气数据分析与挖掘(二)- 曲靖天气数据预处理

本文以曲靖天气数据为例,详细介绍了数据预处理的全过程。首先配置Python环境并加载数据,初步探索数据基本情况。接着处理重复值、标准化日期格式并提取时间特征,将天气类型简化为晴、雨、雪等大类。通过代码实现数据清洗、特征工程等关键环节,为后续分析和建模提供高质量数据集。预处理后的数据消除了冗余信息,统一了格式,便于开展天气模式分析和预测任务。

2025-12-19 16:21:14 928

原创 昭通天气数据分析与挖掘(二)- 昭通天气数据预处理

本文以昆明天气数据为例,详细介绍了数据预处理的全过程。首先配置Python环境并加载数据,对68103条天气记录进行初步探索。随后通过去重处理消除3101条冗余记录,并对日期字段进行标准化转换和特征提取,衍生出年份、季节等时间维度特征。针对天气类型和风力等级等离散特征,采用分类合并和标准化处理方法,将复杂的原始描述简化为统一类别。预处理后的数据消除了原始数据中的质量问题,提取了有价值的特征,为后续分析和建模提供了高质量的数据基础。

2025-12-15 00:34:43 950

原创 昆明天气数据分析与挖掘(二)- 昆明天气数据预处理

本文介绍了昆明天气数据的预处理流程,包括数据加载、重复值处理、日期特征提取和天气类型简化等关键步骤。通过Python代码实现了数据质量检查、日期标准化(提取年/月/日/季节等特征)以及将复杂天气描述归类为"雨天""雪天"等标准类型。预处理后的数据集消除了冗余信息,结构更加清晰,为后续天气分析和建模提供了高质量的数据基础。整个处理过程注重可复用性,代码模块化设计便于应用于其他城市天气数据的预处理任务。

2025-12-14 21:17:05 916

原创 曲靖天气数据分析与挖掘(一)- 曲靖天气数据采集

本文介绍了使用Python爬取曲靖历史天气数据的方法。通过requests和BeautifulSoup库实现数据采集,从天气后报网站获取各行政区每日气象信息,包括温度、天气类型、风向风力等关键指标。程序采用随机延迟避免反爬,并通过异常处理确保稳定性。采集数据经解析后以CSV格式存储,便于后续分析应用。该方案为气象数据分析提供了可靠的数据源,适用于农业、旅游等领域的研究需求。

2025-12-14 15:32:01 1173

原创 昭通天气数据分析与挖掘(一)- 昭通天气数据采集

本文介绍了使用Python爬取昭通历史天气数据的方法,通过requests和BeautifulSoup库实现网页抓取与解析,将数据规范存储为CSV格式。项目采用模块化设计,包含网络请求、页面解析、数据处理等核心功能,并加入随机延迟避免反爬。程序可自动获取昭通各行政区天气数据,提取日期、昼夜温度、天气类型等关键信息,为后续分析提供高质量数据支持。技术选型注重实用性与健壮性,适合天气数据采集场景需求。

2025-12-13 18:15:41 1351

原创 昆明天气数据分析与挖掘(一)- 昆明天气数据采集

本文介绍了一个使用Python爬取昆明历史天气数据的项目。通过requests和BeautifulSoup库实现网页抓取与解析,提取日期、温度、天气类型和风向风力等关键信息,并使用pandas保存为CSV格式。项目采用模块化设计,包含网络请求工具、页面解析和数据处理等功能模块,确保数据采集的稳定性和完整性。该天气数据可为农业、旅游等领域的分析提供支持。

2025-12-13 15:39:41 1235

原创 聚类算法(一)- K-Means聚类

本文系统梳理 K-Means 聚类核心理论,包括基于误差平方和最小化的迭代原理、关键问题解决方案,详解 scikit-learn 中 KMeans 类的参数配置与评估指标。以鸢尾花数据集为实战案例,完整落地 “数据预处理→最优 k 值确定→模型构建与评估” 全流程。实验确定最优簇数 k=3,聚类结果与鸢尾花真实品种标签高度匹配,核心指标(轮廓系数 0.46、DBI 指数 0.834)验证了聚类有效性,清晰呈现不同簇的形态特征差异,为无监督聚类的理论应用与工程实践提供了可复用模板。

2025-12-03 00:29:35 1103

原创 分类与回归算法(六)-集成学习算法(随机森林、梯度提升决策树)

本文以威斯康星乳腺癌数据集为研究对象,基于随机森林算法开展肿瘤良恶性识别研究。先通过探索性数据分析挖掘细胞核特征与肿瘤性质的关联,筛选出高相关关键特征;采用分层抽样划分训练集与测试集,经网格搜索优化随机森林超参数;最终构建的模型在测试集上准确率达0.9561、AUC值0.9914,混淆矩阵显示误判样本极少。特征重要性分析表明,最差周长、最差半径等形态学特征对分类决策贡献最大,预测概率分布验证模型对两类样本区分度极高。该模型兼具高准确率与临床可解释性,可为乳腺癌辅助诊断提供参考。

2025-11-29 18:34:18 1107

原创 大白菜(一)- 大白菜安装教程

本文介绍了大白菜UEFI启动盘的下载与安装方法。首先通过官网下载V6.0装机版UEFI安装包(约1.37GB),解压后创建桌面快捷方式。启动软件后自动识别U盘,保持默认USB-HDD模式和NTFS格式即可制作启动盘。图文并茂地展示了从下载到安装的完整流程,适合新手快速上手操作。

2025-11-26 16:24:14 528

原创 Navicat安装与连接MySQL教程

Navicat是一款支持多种主流数据库的图形化管理工具,提供可视化界面简化数据库操作。本文介绍了Navicat的下载安装流程:从官网获取64位Windows安装包,按步骤完成安装配置,包括同意协议、选择路径和创建快捷方式等。安装完成后,详细演示了如何连接MySQL数据库:新建连接、填写参数、测试连接,并展示了执行SQL查询的基本操作。整个过程图文并茂,帮助用户快速掌握Navicat的核心使用流程。

2025-11-26 15:14:23 1607

原创 MySQL安装与配置教程(Windows上zip压缩包安装方式)

本文详细介绍了MySQL 8.0的Windows安装流程:从官网下载ZIP安装包,解压后创建data目录和my.ini配置文件;通过管理员命令提示符初始化MySQL并获取临时密码,安装为系统服务后启动;登录后修改root密码并验证;最后配置远程连接权限。整个过程包含关键配置参数说明和常见问题处理提示,适合开发者参考实现完整的MySQL环境部署。

2025-11-26 14:33:52 1417

原创 分类与回归算法(五)- 决策树分类

本文以威斯康星乳腺癌数据集为研究对象,基于决策树分类算法开展肿瘤良恶性识别研究。通过数据探索分析关键特征分布及相关性,筛选出与诊断结果高度相关的核心特征;采用网格搜索结合交叉验证优化决策树参数,融合预剪枝与后剪枝策略避免过拟合;从准确率、混淆矩阵、AUC 值等多维度评估模型性能。结果显示,最优模型准确率达 92.98%,AUC 值为 0.9408,核心特征为肿瘤最差周长、平均凹点等,模型可直观呈现分类逻辑,为乳腺肿瘤临床辅助诊断提供可靠支持,兼顾实用性与可解释性。

2025-11-25 22:51:49 1269

原创 分类与回归算法(六)- 集成学习(随机森林、梯度提升决策树、Stacking分类)相关理论

集成学习通过组合多个基学习器提升模型性能,主要包括并行式(Bagging)、串行式(Boosting)和混合式(Stacking)三类方法。随机森林作为Bagging的代表算法,通过Bootstrap重采样和特征随机选择构建多样化的决策树,再通过投票或平均获得最终预测结果,有效平衡了偏差和方差,具有更强的泛化能力和鲁棒性。集成学习的关键在于基学习器的多样性与一致性的平衡,能够适应不同类型的数据和任务场景。

2025-11-25 13:01:19 865

原创 JDK21安装与配置教程

本文介绍了 Windows 系统下 OpenJDK 21 的下载与环境配置流程,先通过华为云镜像下载适配 Windows x64 的openjdk-21_windows-x64_bin.zip,解压到C:\development目录完成安装;接着通过 “此电脑” 属性进入环境变量设置,新建JAVA_HOME变量(值为 JDK 路径),并在 Path 中添加%JAVA_HOME%\bin;最后通过 cmd 执行java -version,显示 OpenJDK 21 版本信息即验证配置成功,全程操作简洁易执行。

2025-11-24 14:08:23 3118

原创 MySQL(七) - 索引管理

本文围绕 MySQL 索引展开,先介绍索引本质、作用、特点、底层 B + 树结构及适用与不适用场景,再分类说明按功能、物理存储、字段数量划分的索引类型及选择建议。接着提供数据准备的 SQL 脚本,最后详细阐述索引管理操作,包括创建(建表时与建表后)、查看(SHOW INDEX 与 EXPLAIN 分析)、修改(删除旧索引重建新索引)和删除(单索引与批量删除)的语法、参数解释及实操示例,助力优化数据库查询性能,平衡读写效率。

2025-11-20 22:16:32 972

原创 分类与回归算法(四)- 最近邻分类

为实现乳腺肿瘤良恶性精准分类,本研究以威斯康星乳腺癌数据集为对象,构建基于KNN算法的分类模型。通过相关性分析与VIF共线性检验,从30个原始特征中筛选出worst_concavity、area_error、mean_radius 3个核心特征。结合肘部法与网格搜索+5折交叉验证,确定最优超参数:K=3、曼哈顿距离、均匀权重,交叉验证准确率达93.63%。测试集验证显示,模型准确率88.60%,AUC值0.9396,恶性样本召回率85.71%,良性样本精确率91.55%。

2025-11-19 18:08:45 786

原创 Seaborn(一) - Seaborn绘图方法介绍

Seaborn提供了系统化的数据可视化方法体系,主要涵盖六大类绘图功能:分布型绘图(如直方图、核密度图)用于探索变量分布特征;分类型绘图(如箱线图、小提琴图)专注于分类数据的组间比较;矩阵型绘图(如热力图、聚类图)展现变量间关联和数据结构;关系型绘图(如散点图、折线图)揭示变量间的相关模式;回归型绘图分析变量间的统计关系;多图网格系统(如分面网格、配对图)支持复杂数据的多维度对比分析。这些方法通过简洁的API实现了统计图形的高效创建,特别适合数据探索和结果展示。

2025-11-15 23:41:10 692

原创 MySQL(六) - 视图管理

MySQL视图是一种虚拟表,不存储实际数据,而是基于预定义的SELECT查询动态生成结果。它具备简化复杂查询、控制数据访问权限、保持接口兼容等特点,能够有效提升数据库操作的安全性和可维护性。在视图管理方面,支持通过CREATE VIEW创建视图,使用DESC查看结构,通过ALTER VIEW修改定义,以及使用DROP VIEW删除视图。在满足特定条件时,还可通过视图对基础表进行增删改操作。合理使用视图能够隐藏底层表结构,优化查询效率,是数据库管理中的重要工具。

2025-11-13 21:50:29 934

原创 分类与回归算法(三)- 逻辑回归

逻辑回归是一种广泛应用于二分类问题的监督学习算法,通过Sigmoid函数将线性输出转换为概率值实现分类。其核心优势包括模型可解释性强、训练效率高和预测稳定可靠。文章详细阐述了逻辑回归的理论基础,包括Sigmoid函数的作用、概率模型构建、损失函数设计(交叉熵损失),以及其典型应用场景如金融风控、医疗诊断和互联网用户行为预测等。最后以鸢尾花数据集为例,介绍了逻辑回归的实现步骤,展示其处理多分类问题的能力。该算法凭借简洁高效的特点,成为数据科学领域的基础工具之一。

2025-11-08 00:24:21 1474 1

原创 分类与回归算法(二) - 线性回归

线性回归是一种通过构建特征与目标值之间线性关系进行预测的模型,适用于房价预测、销售额分析等连续数值预测场景。其核心原理是通过损失函数(如均方误差MSE)衡量预测偏差,并利用优化算法(正规方程或梯度下降)求解最优权重和截距。实现步骤包括数据收集、预处理、模型训练与评估,适用于样本量适中、特征间呈线性关系的任务,但在高度非线性场景(如股价预测)中效果有限。

2025-11-04 21:04:12 1278

原创 分类与回归算法(一)- 模型评价指标

本文系统介绍了分类与回归算法的核心原理、适用场景及优缺点,重点分析了常用分类算法(逻辑回归、决策树、SVM、随机森林)和回归算法(线性回归、岭回归/Lasso回归、决策树回归、GBDT)。针对分类任务,详细阐述了基于混淆矩阵的评价指标体系,包括准确率、精确率、召回率和F1分数,通过数学公式说明其计算方法,并结合实际业务场景(如医疗诊断、金融风控)分析各指标的适用性与权衡关系。文章为机器学习模型选择与评估提供了全面的方法论指导。

2025-11-02 23:14:38 840

原创 MySQL(五) - 数据连接查询和子查询操作

本文先构建 test001 学生课程数据库,创建 student(学生)、course(课程)、student_course(选课)表,通过存储过程各插入 500 条数据并验证数量。接着解析 SQL 查询语法,涵盖基础查询及内连接、左外连接等 JOIN 连接查询的语法与特性。随后结合实例展示数据连接查询(如内连接查选课信息)、子查询(含标量、列、表子查询)、集合运算查询(UNION 等及 MySQL 替代方案)的具体应用,完整呈现学生课程场景下 SQL 查询的实操方法,为相关数据库操作提供参考。

2025-10-30 23:14:20 1008

原创 MySQL(四) - 数据查询操作

摘要:本文介绍了在MySQL数据库中创建学生选课系统的完整过程。首先在test001数据库中创建了三个表:学生表(student)、课程表(course)和选课关系表(student_course),并设置了主键、外键、唯一约束和检查约束等保证数据完整性。然后通过存储过程批量插入500条学生数据和500条课程数据,采用随机生成方式模拟真实场景。学生表包含学号、姓名、专业等基本信息,课程表包含课程编号、名称、学分等字段,选课表则建立学生与课程的多对多关系。整个系统设计规范,为后续查询操作提供了完整的数据基础。

2025-10-21 19:06:11 976

原创 MySQL(三) - 表中数据增删改操作

文章摘要: 本文详细介绍了MySQL中数据操作的两种核心语句:INSERT INTO 用于向表中添加数据,支持单条和多条记录插入;UPDATE 用于修改表中符合条件的记录,强调必须谨慎使用WHERE条件避免误操作。通过具体示例展示了如何插入学生、课程及选课数据,并演示了更新学生信息的方法。文中还总结了最佳实践,包括明确列名、批量插入、事务处理和数据验证等,帮助读者安全高效地进行数据库操作。

2025-10-12 23:03:36 867 2

原创 MySQL(二) - 数据表管理

本文介绍了MySQL数据类型和约束条件的关键内容。数据类型部分详细列出了数字、字符串、时间日期、二进制等类型的特点及使用场景,特别强调精确数值应使用DECIMAL、状态字段适合ENUM等实用建议。约束条件部分解析了主键、非空、唯一、外键等约束的作用机制,包括主键的自动索引、外键的引用完整性保障等核心功能。全文通过表格对比形式清晰呈现各类数据属性和约束规则,为数据库设计提供实用参考。

2025-10-10 17:47:07 1111 1

原创 Python解释器安装配置教程(Windows)

本文详细介绍了Python解释器的下载、安装、验证和卸载全流程。主要内容包括:1)从华为云镜像下载指定版本Python;2)安装过程中的关键配置选项(如添加环境变量、自定义安装路径等);3)通过命令行验证安装是否成功;4)查看已安装Python版本;5)通过控制面板卸载Python程序。文章配有详细操作截图,指导用户完成Python环境配置的全过程,适合Python初学者参考使用。

2025-09-09 16:42:45 1503

原创 Python网络爬虫(三) - 爬取动态网页数据

本文介绍了动态网页及Selenium技术,详细讲解了Selenium的安装与WebDriver配置流程。主要内容包括:1)动态网页与静态网页的区别,2)Selenium库的安装及验证方法,3)Chrome/Edge浏览器驱动的下载与配置指南,4)WebDriver的基本操作(启动/关闭浏览器、页面导航、窗口控制等)。通过代码示例演示了如何实现网页自动化操作,为动态网页爬虫开发提供了完整的技术解决方案。(150字)

2025-08-19 16:32:06 2072

原创 Python网络爬虫(二) - 解析静态网页

本文聚焦网页解析技术及 Python 解析库 Beautiful Soup 的应用。网页解析是爬虫核心,Beautiful Soup 凭借强容错性、直观操作和多解析器支持成为主流工具,文中对比了html.parser、lxml、html5lib等解析器的特点与安装方法。其使用流程为创建对象(传入网页内容与解析器)、获取标签(通过标签名、find()/find_all()方法及 CSS 选择器)、提取数据(借助text等文本属性和get()等属性方法)。

2025-08-14 23:47:33 3211

原创 Python网络爬虫(一) - 爬取静态网页

本文介绍了静态网页爬取技术及Requests库的使用方法。主要内容包括:1)静态网页概念及其特点;2)Requests库的安装步骤;3)发送GET和POST请求的方法详解,包含参数说明和示例代码。文章重点讲解了requests.get()和requests.post()的使用,涉及URL构建、请求头设置、参数传递等核心操作,并提供了豆瓣图书网页请求的实战案例。通过本文可以快速掌握使用Python Requests库进行静态网页数据抓取的基本技能。

2025-08-11 19:07:13 1831

原创 Fiddler 安装配置教程

本文详细介绍了Fiddler网络调试工具的下载、安装及配置方法。首先通过官网下载Fiddler Classic版本,完成安装并运行。随后对Fiddler界面功能进行说明,包括菜单栏、工具栏和主要功能面板区的作用。重点讲解了如何配置HTTPS抓包功能,包括信任Fiddler根证书和允许远程连接等设置,使Fiddler能够捕获并解密HTTPS流量。该教程为网络调试人员提供了完整的Fiddler使用指南。

2025-08-07 18:42:57 4687

原创 Matplotlib(六)- 坐标轴定制

本文详细介绍了Matplotlib中坐标轴(Axes)的核心概念和使用方法。主要内容包括:1)坐标轴的定义与组成要素,区分Axes与Axis的区别;2)坐标轴属性表,涵盖刻度、标签、标题等关键属性;3)axes()方法详解,展示如何创建常规、极坐标和3D坐标系;4)刻度系统的定制方法,包括多种内置定位器(MicrosecondLocator到YearLocator)的使用场景和参数说明,通过示例代码演示了多坐标系创建和刻度定制技巧。

2025-08-05 20:01:24 911

原创 Matplotlib(五)- 绘制子图

子图(Subplot)是数据可视化中高效展示多组数据的工具,通过将多个图表排布在同一画布实现对比分析。Matplotlib支持网格布局(规则排列)和自由布局(灵活排布)两种方式。网格布局通过plt.subplots()或plt.subplot()创建行列固定的子图,适合批量处理;自由布局用plt.axes()或Figure.add_axes()自定义位置和大小,灵活性更高。子图能有效提升空间利用率,适用于多数据对比、多维度分析和复杂图表整合。

2025-08-02 12:26:45 1321

原创 Matplotlib(四)- 图表样式美化

Matplotlib图表样式管理摘要(150字): Matplotlib提供灵活的图表样式配置功能,包括默认样式查看与修改方式。通过rc_params()可获取全局默认配置,涵盖字体、线条、坐标轴等参数。样式修改分为局部和全局两种:局部修改可通过绘图函数参数(如linewidth)或临时调整rcParams实现,仅影响当前图表;全局修改则需更新rcParams默认值。合理设置样式能提升图表可读性与美观度,适应不同展示场景需求。内置样式库和自定义配置功能为用户提供了高度的可视化控制能力。

2025-07-30 16:39:10 1523

原创 Matplotlib(三)- 图表辅助元素

图表辅助元素是数据可视化的关键组成部分,包括标题、坐标轴标签、图例、网格线等,它们能显著提升图表的可读性和信息完整性。本文详细介绍了Matplotlib中各类辅助元素的作用、使用场景及代码实现方法,重点讲解了坐标轴标签的设置(xlabel/ylabel)和刻度范围调整(xlim/ylim),并通过气温折线图案例展示了具体应用。掌握这些辅助元素的配置技巧,可以帮助开发者创建更专业、清晰的数据可视化图表。

2025-07-28 20:51:12 1293

原创 Matplotlib(二)- Matplotlib简单绘图

在 Matplotlib 的世界里,pyplot 模块就像是一把功能强大的绘图瑞士军刀,是我们进行数据可视化操作时最常用的接口。它提供了一套与 MATLAB 类似的绘图函数集合,让开发者能够以简单直观的方式创建各种类型的图表。​pyplot 模块的设计理念是将绘图过程分解为一系列简单的步骤,通过调用不同的函数来逐步构建图表。从创建画布、绘制图形元素,到设置坐标轴、添加标题和图例,再到保存或显示图表,每一个环节都有对应的函数可供使用。

2025-07-27 13:05:48 1091

原创 Anaconda3安装教程(Windows)

Anaconda是一款集成了Python/R语言及常用数据科学工具的开源发行版,内置conda包管理和虚拟环境功能。安装过程包括从清华镜像下载安装包,按步骤完成安装配置,建议勾选创建桌面快捷方式和添加环境变量。安装后提供Anaconda Navigator图形界面、命令行工具以及Jupyter Notebook等组件,其中Jupyter Notebook作为交互式计算环境,可通过浏览器访问其UI界面进行代码编写和数据分析。Anaconda能够快速搭建完整的数据科学开发环境,适合各类用户使用。

2025-07-13 14:01:19 1837

原创 Matplotlib(一)- 数据可视化与Matplotlib

本文介绍了数据可视化的基本概念与常用图表类型,并总结了Python中主流可视化工具库的特点。数据可视化通过图形化呈现数据规律与趋势,核心流程包括数据读取、图表选择、绘制与保存。常见图表如折线图、柱形图、散点图等各有适用场景,能直观展示趋势、对比、分布等不同数据特征。

2025-07-13 12:43:50 1070

原创 基于Pandas和FineBI的昆明职位数据分析与可视化实现(五) - 基于随机森林算法预测职位分类

基于随机森林的职位分类预测分析 摘要:本研究采用随机森林算法构建职位分类预测模型,处理昆明地区非结构化招聘文本数据。通过集成多维度特征(职位名称、公司信息、行业类别和技能要求),建立高准确度的分类预测系统。分析流程包括数据加载、预处理、特征工程、模型训练与评估等环节,综合运用准确率、精确率、召回率等指标评估性能。研究特别关注模型的可解释性,通过特征重要性分析和混淆矩阵可视化揭示分类规律。实验结果表明,随机森林算法在该分类任务中表现优异,既能处理复杂特征关系,又能提供业务可理解的决策依据。

2025-07-06 22:03:32 1249

昆明天气数据集+数据分析

昆明天气数据集+数据分析

2025-12-13

数据挖掘实战示例:线性回归、逻辑回归、最近邻分类

线性回归、逻辑回归、最近邻分类

2025-11-20

Matplotlib绘图示例

Matplotlib绘图示例

2025-07-28

昆明职位数据集,包含 17731 行、17 列数据

昆明职位数据集数据量颇为丰富,包含 17731 行、17 列数据,各个字段的含义如下表所示: 字段名 含义 字段名 含义 province 岗位所在省份 education 教育程度要求 city 岗位所在城市 company_name 招聘公司名称 category_1 岗位的一级分类 company_industry 招聘公司所属行业 category_2 岗位的二级分类 financing_status 招聘公司的融资状态 position 具体职位 company_size 招聘公司的规模 job_name 职位名称 skill 岗位所需技能 job_area 工作区域 benefits 公司提供的福利待遇 salary 薪资待遇 job_url 职位详情链接 experience 工作经验要求

2025-07-12

使用Python操作neo4j示例

使用Python操作neo4j示例

2025-05-26

使用python操作redis示例

使用python操作redis示例

2025-05-23

Redis数据库+Jedis+使用Java操作Redis示例

Redis数据库+Jedis+使用Java操作Redis示例

2025-05-16

二手房数据集+多元线性回归分析+数据可视化

二手房数据集+多元线性回归分析+数据可视化

2025-04-11

广告投放效果数据集+数据分析+数据可视化

广告投放效果数据集+数据分析+数据可视化

2025-04-11

二手房数据集+数据采集+数据分析+数据可视化

二手房数据集+数据采集+数据分析+数据可视化

2025-04-11

母婴消费市场数据集+数据分析+数据可视化

母婴消费市场数据集+数据分析+数据可视化

2025-04-11

京东评论数据集+数据分析+数据可视化

京东评论数据集+数据分析+数据可视化

2025-04-11

电商-超市销售数据分析与报表

电商-超市销售数据分析与报表

2025-04-11

50个Pyecharts数据可视化案例+数据可视化+Pyecharts学习

50个Pyecharts数据可视化案例+数据可视化+Pyecharts学习

2025-04-11

豆瓣图书数据爬取代码+selenium

豆瓣图书数据爬取代码+selenium

2025-04-11

豆瓣图书数据集 129839 行

本数据集包含 129839 行,9 列,数据集包含如下字段: category_name:书籍的分类名称,可能是作者分类,如前几行均为 J.K. 罗琳相关书籍。 url:书籍在豆瓣的链接地址。 img_url:书籍图片的链接地址。 name:书籍名称。 pub:书籍的出版信息,包含作者、出版社、出版时间和价格等。 rating:书籍的评分,数据类型为 float64,部分存在缺失值。 rating_count:书籍的评价人数,以字符串形式呈现。 plot:书籍的情节简介,部分存在缺失值。 buy_info:书籍的购买信息,如价格、购买方式等,存在较多缺失值。 整体来看,这个数据集主要围绕豆瓣上的图书信息,可用于分析不同分类书籍的评分情况、不同作者作品的受欢迎程度等。

2025-04-04

上海餐饮数据集+基于Python的上海餐饮数据可视化分析+聚类分析

内容概要 这是一套完整的餐饮数据分析项目,涵盖了从数据清洗、数据分析到数据可视化的全流程。具体包括: 数据清洗:对原始的上海餐饮数据进行预处理,处理包括将数据中的0替换为空值、数据类型转换、缺失值处理、异常值处理和重复数据处理等操作,最终保存清洗后的数据。 数据分析:从多个维度对餐饮数据进行分析,如各类别和各行政区的总点评数、平均人均消费、平均评分,还进行了类别和行政区的频率分布分析,以及基于人均消费、口味评分、环境评分、服务评分和点评数的 K 均值聚类分析。 数据可视化:将分析结果以多种可视化图表呈现,如词云图、柱状图、水平条形图和分组柱状图等,直观展示数据特征。 适用人群 数据分析师:可以学习到完整的数据处理和分析流程,以及如何运用 Python 进行数据操作和可视化。 餐饮行业从业者:通过对餐饮数据的分析和可视化结果,了解不同类别和行政区的餐饮市场情况,为经营决策提供参考。 Python 编程学习者:可以借鉴代码中的数据处理技巧、数据分析方法和可视化库的使用,提升编程能力。 适用场景:餐饮市场调研、餐饮企业经营分析、数据处理和可视化教学等。

2025-03-29

1905电影网中国地区电影数据集(27511行数据)

内容概要: 该数据集包含了27511部电影的详细信息,涵盖了从电影ID到剧情简介等多个维度的数据点。每部电影的信息包括但不限于片长、导演、上映日期、状态(如是否已上映)、评分、类型、主演、其他名称、改编来源、编剧以及简短的剧情描述。 适用人群: 电影爱好者:可以用来查找感兴趣的电影,了解电影详情。 研究人员:可用于进行电影行业趋势分析、观众偏好研究等。 数据科学家:作为机器学习或数据分析项目的一部分,用于训练模型或测试算法。 影评人:提供全面的电影信息,辅助撰写影评或进行比较分析。 制片方:了解市场动态,参考成功案例以指导新项目的开发。 使用场景及目标: 构建推荐系统:基于用户的喜好推荐相似类型的电影。 市场分析:通过分析不同类型电影的受欢迎程度来预测未来趋势。 教育培训:用作影视制作相关课程的教学材料,帮助学生理解电影构成要素。 内容策划:为媒体平台选择合适的内容,满足特定受众的需求。 文化交流:促进不同国家和地区之间的电影文化交流。

2025-01-11

1905电影数据集(27534行)

内容概要: 该数据集包含27534部电影的详细信息,每部电影的信息包括ID、链接、海报链接、标题、上映日期、状态(如是否已上映)、评分(如果有)、类型、主演等。此外,还包含了部分电影的导演、编剧、剧情简介以及改编来源(如果有的话)。值得注意的是,所有列出的电影在数据提供时均未上映,这为预测未来的票房成功、观众反应提供了潜在的研究价值。 适用人群: 电影爱好者:可以提前了解即将上映的电影,并根据个人喜好选择感兴趣的影片。 影视产业从业者:包括制片人、导演、演员等,可以用作行业趋势分析,评估市场对不同类型电影的需求。 研究人员与分析师:可用于进行电影行业的深入研究,比如观众偏好变化、特定类型电影的表现预测等。 数据科学家与机器学习工程师:作为训练推荐系统或预测模型的数据源。 媒体与娱乐公司:用于规划未来的内容策略,制定营销计划。 使用场景及目标: 内容推荐:利用用户的历史观影记录和个人偏好,推荐他们可能感兴趣的即将上映的电影。 市场预测:通过分析不同类型的电影及其主要演员的影响,预测哪些电影可能会受到欢迎。 投资决策支持:帮助投资者评估哪些电影项目值得投资,基于类似电影的历史表现。

2025-01-11

豆瓣图书数据集+数据分析

内容概要 该数据集 douban_books.csv 是豆瓣读书的书籍信息,每一行代表一本书籍的详细资料。数据字段涵盖了书籍的基础信息(如书名、作者、出版社等)、出版详情(如出版年份、页数、定价等)、以及用户评价相关的信息(如评分、评论链接和各星级评价比例)。此外,还包括书籍的封面图片网络地址、国际标准书号(ISBN)、装帧类型等额外信息。 适用人群 研究人员:从事图书馆学、信息科学或社会科学研究的人可以使用此数据集来分析读者行为、书籍流行趋势等。 开发人员与数据科学家:对于正在构建推荐系统或者进行数据分析的人来说,这些数据提供了丰富的变量用于建模和算法训练。 出版业从业者:了解市场对不同类型书籍的接受度,评估竞争对手的产品,规划未来的出版策略。 营销人员:可以通过分析用户评分和评论来制定更有效的营销策略。 普通读者:寻找感兴趣的书籍,参考其他用户的评价做出更好的阅读选择。 使用场景及目标 书籍推荐系统:利用用户评分和其他元数据创建个性化书籍推荐服务。 市场分析:研究特定类型书籍的市场表现,探索不同因素如何影响书籍的成功。 学术研究:为关于文学、文化研究、读者心理学等领域提供

2025-01-09

低代码平台教你两步把SQL直接转换为RESTful API

低代码平台教你两步把SQL直接转换为RESTful API

2024-06-21

Spark-Streaming+HDFS实战

需求说明:从GBIF接口获取数据并处理为HDFS文件并映射为Hive外部表 ## 1. 目标: - 从GBIF(Global Biodiversity Information Facility)接口获取数据。 - 使用Spark Streaming处理数据。 - 将处理后的数据保存到HDFS文件系统。 - 创建Hive外部表,将HDFS文件映射为表。 ## 2. 数据源: - GBIF接口(https://api.gbif.org/v1/dataset)提供了生物多样性相关的数据集。 ## 3. 数据处理流程: - 使用HTTP请求从GBIF接口获取数据集。 - 使用Spark Streaming处理数据集,可以使用httpclient获取数据。 - 对获取的数据进行必要的转换、清洗和处理,以满足需求。 - 将处理后的数据保存到HDFS文件系统。 ## 4. HDFS文件保存: - 使用Spark Streaming将处理后的数据保存到HDFS文件系统。

2023-12-16

Spark-Streaming+Kafka+mysql实战示例

介绍一个使用Spark Streaming和Kafka进行实时数据处理的示例。通过该示例,您将了解到如何使用Spark Streaming和Kafka处理实时数据流,以及如何将处理后的数据保存到MySQL数据库中。示例涵盖了从环境搭建到代码实现的全过程,帮助您快速上手实时数据处理的开发。提供了一个完整的示例,演示了如何使用Spark Streaming和Kafka进行实时数据处理。通过该示例,我们可以学习到如何创建Kafka主题、发送消息到Kafka集群、从Kafka集群消费消息,并将消费到的消息保存到MySQL数据库中。这个示例涵盖了从数据源到数据处理和存储的完整流程,可以帮助你理解和应用实时数据处理的基本概念和技术。

2023-12-12

C语言,大一C语言实验及报告

C语言,大一C语言实验及报告

2023-11-26

程序员考试大纲.zip

程序员考试大纲.zip

2022-05-17

程序员2009-2019真题.zip

程序员2009-2019真题.zip

2022-05-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除