自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(271)
  • 资源 (2)
  • 收藏
  • 关注

原创 MongoDB(十) - MongoDB分片集操作

本文介绍了MongoDB分片集群的Chunk大小调整与集合分片操作。首先说明如何通过修改config库的chunksize参数(默认128MB,范围1-1024MB)来优化数据均衡或写入性能。随后详细演示了两种分片策略:范围分片(基于age字段区间划分Chunk,适合范围查询)和哈希分片(均匀分布数据,避免热点)。两种方式均需先创建对应索引,通过sh.shardCollection命令执行分片,并用sh.status查看分布情况。最后提及删除分片的异步迁移机制。

2026-06-03 22:11:56 435

原创 MongoDB(九) - MongoDB分片集安装与配置

本文介绍了MongoDB分片集群的部署步骤,主要包括: 下载MongoDB安装包并上传至虚拟机 核心概念说明:配置服务器(存储集群元数据)、路由节点(集群入口网关)、分片节点(存储业务数据) 环境准备: 集群架构规划(1个mongos路由+1个配置副本集+2个分片副本集) 3台虚拟机混部所有组件,端口分配方案 创建相关数据目录和日志目录 检查端口占用情况,确保27021、27018、27019、21020端口可用 摘要重点突出了分片集群的核心组件功能、实验环境简化部署方案,以及目录规划和端口检查等准备工作。

2026-06-03 17:36:13 560

原创 Streamlit(二十三)- 教程(二)- 动态导航

摘要:Streamlit动态导航菜单功能解析 Streamlit 1.36.0引入了st.navigation和st.Page API,支持动态生成侧边栏导航菜单。该功能允许基于用户角色和权限实时更新菜单项,适用于权限管理系统开发。核心特性包括:通过st.Page封装文件或函数式页面,支持标题、图标和默认页配置;利用st.navigation接收分组字典渲染菜单结构;实现不同角色(如访客/用户/管理员)查看不同菜单项的动态权限控制。开发流程包含页面初始化、会话状态管理、分组字典动态组装等步骤,相比传统静态多

2026-05-31 14:37:36 183

原创 Streamlit(二十二)- 教程(一)- 对话与大模型应用

本文介绍了使用Streamlit快速搭建大模型对话应用的完整指南。主要内容包括: 技术基础:利用Streamlit的st.chat_message和st.chat_input两大组件,配合st.session_state实现对话状态管理。 三大实战案例: 回声机器人:实现用户输入镜像功能 流式对话界面:模拟大模型逐字输出效果 类ChatGPT应用:对接OpenAI API实现真实对话 核心组件详解: st.chat_message:创建带角色的消息气泡容器 st.chat_input:底部固定输入框组件 关

2026-05-31 13:56:36 307

原创 Streamlit(二十一)- API 参考文档(十四)- 连接与密钥管理

本文介绍了Streamlit中的密钥管理与数据库连接功能: 密钥管理(SECRETS) 通过st.secrets读取TOML格式的密钥文件,支持字典和属性两种访问方式 密钥文件可存放在项目目录或用户全局目录,项目目录优先级更高 支持单层键和分组键结构,如st.secrets.database.password 数据库连接(CONNECTIONS) 使用st.connection创建统一数据库连接,自动缓存管理 支持SQL、Snowflake等数据源,配置来源优先级:代码参数 > 项目密钥 > 全局配置 Sn

2026-05-31 01:43:02 200

原创 Streamlit(二十)- API 参考文档(十三)- 缓存与状态管理组件

摘要: Streamlit提供了服务端与浏览器端的分组功能,用于优化数据处理和状态管理。 服务端(SERVER) st.cache_data:缓存计算结果数据(如DataFrame、统计结果),支持TTL和磁盘持久化,适合重复计算场景。 st.cache_resource:缓存全局共享资源(如数据库连接、AI模型),多会话共享,需确保线程安全。 st.session_state:会话级状态存储,支持控件自动绑定和多页面数据共享,适用于临时变量和用户信息存储。 浏览器端(BROWSER) st.context

2026-05-31 01:03:27 423

原创 Streamlit(十九)- API 参考文档(十二)- 执行流程控制组件

本文介绍了Streamlit的6个核心功能组件:1)st.dialog用于局部刷新的模态弹窗;2)st.form实现批量提交表单;3)st.form_submit_button表单专用提交按钮;4)st.fragment实现局部代码片段刷新;5)st.rerun手动触发页面重运行;6)st.stop终止脚本执行。每个组件均包含功能说明、核心参数、使用限制和代码示例,涵盖模态交互、表单处理、局部刷新等常见场景,可显著提升应用性能和交互体验。

2026-05-31 00:46:49 248

原创 Streamlit(十八)- API 参考文档(十一)- 页面导航组件

本文介绍了Streamlit多页面应用开发的4个核心API: st.navigation:用于创建自定义导航菜单,支持页面分组和折叠控制,可配置侧边栏或隐藏式导航。 st.Page:页面对象构造类,支持py文件或函数作为页面源,可设置标题、图标和默认首页。 st.page_link:创建页面跳转链接,支持内部页面和外部网址跳转,可配置图标和禁用状态。 st.switch_page:通过代码强制切换页面,适用于按钮点击等交互场景。 这些API提供了灵活的多页面管理方案,包括导航菜单生成、页面跳转等功能,可完全

2026-05-31 00:05:45 280

原创 Streamlit(十七)- API 参考文档(十)- 身份认证与用户信息组件

本文介绍了Streamlit中身份认证与用户信息组件的使用,主要包括三个核心功能: st.login:触发OIDC第三方登录流程,支持配置多服务商,需提前设置secrets.toml并注意回调地址限制。 st.logout:清除本地会话Cookie,不影响第三方账号状态,多标签页需刷新同步登出。 st.experimental_user:获取当前用户信息(如姓名、邮箱、头像等),提供.is_logged_in状态判断和.to_dict()数据导出方法。 适用于需要集成第三方认证的Streamlit应用开发,

2026-05-30 23:43:58 192

原创 Streamlit(十六)- API 参考文档(九)- 状态提示组件

本文介绍了Streamlit框架中的状态提示组件,分为提示框分组和其他状态组件分组。提示框包括:st.success(成功提示)、st.info(信息提示)、st.warning(警告提示)、st.error(错误提示)和st.exception(异常堆栈),均支持自定义图标和内容。其他状态组件包含:st.progress(进度条)、st.spinner(加载指示器)、st.status(任务状态面板)、st.toast(轻量通知)以及庆祝动画st.balloons和st.snow。每种组件均配有参数说明、

2026-05-30 18:54:22 375

原创 Streamlit(十五)- API 参考文档(八)- 聊天交互组件

本文介绍了Streamlit中四个核心聊天交互组件: st.chat_input:底部固定或内嵌的聊天输入框,支持占位提示、字符限制和回调函数,返回用户输入文本。 st.chat_message:对话消息气泡容器,区分用户/AI样式,支持自定义头像,可嵌套图表等组件。 st.status:动态任务状态提示框,展示运行进度,支持自动切换完成/错误状态及折叠控制。 st.write_stream:流式文本输出功能,适配LLM实时响应,实现逐字打印效果。 各组件均附参数说明、返回值及代码示例,适用于构建对话式应用

2026-05-30 01:22:09 639

原创 Streamlit(十四)- API 参考文档(七)- 布局与容器组件

Streamlit布局与容器组件指南 本文介绍了Streamlit中9种常用的布局与容器组件,帮助开发者高效组织页面内容: 多列布局(st.columns):支持均分或自定义比例分栏,可调整间距与对齐方式 通用容器(st.container):无边框内容分组,支持固定高度滚动区域 弹窗对话框(st.dialog):模态弹窗,锁定页面主内容交互 动态占位器(st.empty):实时更新内容的空白容器 折叠面板(st.expander):可收起/展开的内容区块 表单容器(st.form):批量管理输入控件,统一

2026-05-30 01:10:00 228

原创 Streamlit(十三)- API 参考文档(六)- 媒体展示组件

本文介绍了Streamlit中常用的多媒体展示组件,包括音频播放器st.audio、图片展示器st.image、侧边栏Logo组件st.logo、PDF预览组件st.pdf和视频播放器st.video。每个组件都详细说明了核心参数和示例代码,涵盖了本地文件、网络URL、字节流等多种数据源的支持。功能包括音频/视频的循环播放、自动播放控制、图片批量展示、Logo跳转链接设置以及PDF/视频的内嵌预览等,为开发者提供了全面的多媒体内容展示解决方案。

2026-05-30 00:41:18 360

原创 Streamlit(十二)- API 参考文档(五)- 输入组件

本文介绍了Streamlit中的五种常用按钮组件及其使用方法: 基础按钮(st.button):支持自定义样式、图标和点击回调,可设置主色/普通/文字三种类型按钮,示例展示了带图标按钮的实现。 下载按钮(st.download_button):用于文件下载功能,支持文本、字节流、DataFrame等数据,提供CSV、文本和图片下载的代码示例。 表单提交按钮(st.form_submit_button):专用于表单内部,点击后批量提交表单数据,演示了包含输入框和单选框的表单实现。

2026-05-29 15:38:09 569

原创 Streamlit(十一)- API 参考文档(四)- 图表元素

Streamlit提供了三种基础图表组件(面积图、柱状图、折线图)作为快速可视化工具。这些组件基于Altair封装,使用简便但自定义性有限。主要特点包括:1)支持Pandas等常见数据格式;2)可配置X/Y轴、颜色、堆叠方式等基础参数;3)提供多种图表类型(标准/堆叠/流式面积图、垂直/水平柱状图)。通过示例代码展示了基本用法,如多列数据着色、自定义颜色和不同堆叠方式。对于需要高度定制化的场景,建议直接使用st.altair_chart组件。这些基础图表适合快速数据探索和趋势展示。

2026-05-27 16:14:18 688

原创 Streamlit(十)- API 参考文档(三)- 数据元素

Streamlit数据展示与编辑组件摘要 Streamlit提供了强大的数据展示与编辑组件,主要包括: st.dataframe - 交互式数据框,支持排序、筛选、搜索等功能,适用于数据查看和分析场景 st.data_editor - 可编辑数据表格,允许用户修改单元格内容、添加/删除行,适合数据录入和表单编辑 st.column_config - 列配置工具,可自定义列标题、格式、显示类型等 核心区别: dataframe侧重数据展示,支持高亮和交互式操作 data_editor强调数据编辑能力,支持回调

2026-05-20 14:51:20 379

原创 Streamlit(九)- API 参考文档(二)- 文本元素

这篇文章详细介绍了Streamlit中的文本显示功能,主要包括标题和正文的格式化方法。主要内容包括: st.title - 用于页面主标题,支持Markdown语法和emoji st.header - 一级标题,可添加彩色分隔线 st.subheader - 二级标题,适合内容块标题 st.markdown - 核心文本渲染功能,支持GFM语法扩展,包括emoji、LaTeX公式、彩色文本等 每个函数都提供了参数说明、使用示例和渲染效果说明,特别强调了Markdown扩展功能如颜色标记、特殊符号转换和Mat

2026-05-20 13:48:29 420

原创 Streamlit(八)- API 参考文档(一)- Write 与 magic

是 Streamlit 中的“瑞士军刀”级命令,它能根据传入的不同类型数据,自动渲染成对应的界面元素,支持文本、表格、图表、异常等多种格式,是开发中最常用的输出方法之一。Streamlit 的魔法命令是一项简化开发的特性,它允许你在代码中直接写出 Markdown、数据、图表等内容,无需显式调用。魔法命令目前仅在主 Python 应用文件中生效,在导入的模块文件中无法使用。是 Streamlit 提供的流式渲染专用命令,支持将生成器、可迭代对象或类流序列以打字机效果逐步输出到页面中,

2026-05-20 00:53:05 431

原创 Streamlit(七)- Streamlit 应用测试

本文介绍了如何使用Streamlit测试框架进行应用测试。主要内容包括:1)安装pytest并搭建测试环境;2)创建示例应用和测试文件,演示如何模拟用户交互;3)详细说明测试执行流程,包括初始化应用、操作组件和验证结果;4)介绍AppTest的可变属性(secrets、session_state和query_params)的使用方法;5)提供测试多页应用的技巧。文章还包含测试运行命令和预期输出,帮助开发者快速上手Streamlit应用测试。

2026-05-20 00:25:48 460

原创 Streamlit(六)- Streamlit 配置与主题定制

Streamlit配置与主题定制指南摘要 Streamlit提供四种配置方式(命令行参数>环境变量>项目级>全局配置文件),支持HTTPS访问(推荐通过反向代理实现)和静态文件托管。主题配置可通过TOML文件自定义,支持分别设置浅色/深色模式及侧边栏独立样式。配置修改后大部分主题选项会立即生效,部分需重启服务器。静态文件需放在./static/目录下,支持常见媒体格式。HTTPS支持可通过应用内证书配置或反向代理实现,后者更适合生产环境。

2026-05-19 17:43:33 709

原创 Streamlit(五)- Streamlit 连接、密钥与用户认证

Streamlit数据连接与密钥管理指南 摘要: 本文介绍了Streamlit框架中数据连接和密钥管理的核心功能。数据连接部分详细讲解了如何使用st.connection()接口连接SQLite等数据库,包括依赖安装、secrets.toml配置和基本查询操作。进阶内容包括多环境配置、高级SQL连接参数设置以及自定义数据连接实现方法。密钥管理部分重点说明了本地密钥的两种配置方式(全局和项目级),强调安全注意事项,并提供了TOML配置示例。

2026-05-19 16:48:25 395

原创 Streamlit(四)- Streamlit 应用设计

Streamlit提供了多种布局与容器组件,帮助开发者灵活组织应用界面。主要组件包括:侧边栏st.sidebar用于全局控件,基础容器st.container实现逻辑分组,列布局st.columns支持并排显示,折叠面板st.expander隐藏次要内容,标签页st.tabs分类展示信息,以及悬浮弹出层st.popover节省空间。此外,占位符容器st.empty支持局部更新,水平容器st.container(horizontal=True)实现灵活排列。

2026-05-19 00:36:08 421

原创 Streamlit(三)- Streamlit 多页面应用开发

Streamlit提供了两种构建多页面应用的方式:pages/目录结构和st.navigation方法。pages/方式简单易用,自动生成导航菜单;而st.navigation更灵活,支持自定义页面图标、URL路径和共享公共元素。页面包含Page source、Page label等核心标识信息,文件名解析遵循特定规则。用户可通过侧边栏菜单、自定义链接或编程方式跳转页面。st.Page支持多种配置,如标题、图标和URL路径,而st.navigation可实现分组导航和动态菜单。

2026-05-18 22:07:33 1655

原创 Streamlit(二)- Streamlit 架构与运行机制

Streamlit采用客户端-服务器架构,通过streamlit run命令启动本地服务器。其核心机制包括:1)基于WebSocket的实时通信;2)会话状态管理;3)内置应用菜单提供调试和部署功能;4)智能缓存系统(@st.cache_data和@st.cache_resource)优化性能。开发时需注意服务端性能瓶颈、用户文件访问限制等问题,部署时建议启用会话亲和性保证稳定性。

2026-05-18 16:41:44 445

原创 Streamlit(一)- Streamlit简介及安装

Streamlit是一款基于Python的开源Web应用框架,专为快速开发数据可视化工具和AI演示而设计。它无需前端知识,仅用Python代码即可创建交互式网页应用,支持实时热更新和丰富组件。相比传统Web框架,Streamlit更注重数据展示与交互,适合数据分析、机器学习模型部署等场景。安装简单,只需pip命令即可完成。通过示例代码演示,用户能快速创建包含按钮交互的基础应用,并通过streamlit run命令一键启动本地服务。

2026-05-18 10:16:47 733

原创 AI Agent(五)- Prompt和RAG

摘要: Prompt提示词是用户与大语言模型交互的核心指令,用于明确任务需求、约束输出效果、补充背景信息等。其设计包含角色设定、任务指令、背景补充等五大要素,分为用户提示词和系统提示词两类。以法律咨询为例,通过结构化Prompt可引导模型生成专业严谨的回复,并在Dify平台快速搭建定制化AI应用。提示词优化能显著提升模型输出的精准度与实用性。

2026-04-20 16:52:14 557

原创 AI Agent(四)- Dify接入大模型

本文详细介绍了如何在Dify平台接入本地和云端大模型的全流程操作指南。主要内容包括: 本地Ollama模型接入 完成Ollama环境搭建后,在Dify配置模型供应商 添加本地模型并设置API参数 创建测试应用验证模型连通性 阿里云通义千问接入 注册阿里云百炼平台账号并完成实名认证 获取API密钥并配置到Dify平台 安装通义模型插件并完成鉴权对接 全文通过图文并茂的方式,逐步演示了从环境准备到最终应用测试的完整流程,帮助开发者实现大模型在Dify平台的私有化部署和云端调用。

2026-04-20 14:00:07 756

原创 AI Agent(三)- Ollama安装与使用

Ollama是一款开源的本地大语言模型运行框架,支持一键部署管理Llama、通义千问等主流开源模型。其核心优势包括:简化模型下载与运行流程(单命令完成)、保障数据隐私(全本地化处理)、提供兼容OpenAI的API接口。安装过程跨平台兼容,Windows用户可通过迅雷加速下载1.81GB安装包。启动后界面直观,支持多模型切换,如通义qwen2.5(4.4GB)适合中文场景。适用于个人AI助手开发、企业内网部署及AI Agent项目集成,显著降低本地大模型使用门槛。

2026-04-19 23:02:21 533

原创 AI Agent(二)- Dify安装与配置

传统大模型(Large Language Model, LLM / 多模态大模型),是指基于Transformer架构、参数规模达数十亿至万亿级别、通过海量互联网文本/图像/音视频数据预训练而成的深度学习系统。其核心是通过统计学习捕获人类知识、语言规律与模式,具备强大的通用理解、生成与泛化能力,但本质上是被动响应式的“静态大脑”,缺乏自主感知、规划与执行能力。AI智能体(AI Agent)是以大模型为核心大脑,整合感知、记忆、规划、决策、工具调用、行动执行六大模块,具备自主性、目标导向、环境交互与持续学习。

2026-04-17 16:26:31 630

原创 AI Agent(一)- Docker安装与配置(Windows)

本文介绍了Docker在Windows系统上的安装与配置方法。主要内容包括:Docker作为应用容器引擎的定义与功能,如环境标准化、快速部署和资源隔离;Windows系统安装前的准备工作,包括启用虚拟机管理程序和WSL2设置;详细说明了Docker Desktop的下载安装步骤,以及首次启动后的资源位置设置和镜像加速源配置。文章特别强调了WSL2对Docker运行的重要性,并提供了国内常用镜像源地址以提升下载速度。通过本文指导,用户可完成Windows环境下Docker的完整安装与优化配置。

2026-04-17 14:44:49 524

原创 云南省天气数据可视化分析大屏的设计与实现(二)- 云南省各城市天气数据预处理

天气数据作为气象分析、气候研究及区域环境评估的核心数据源,其数据质量直接影响后续分析结果的可靠性。针对云南省各城市天气数据存在的格式不统一、缺失值、重复值、特征维度冗余等问题,本文设计并实现了一套系统化的天气数据预处理脚本。该脚本基于Python语言,整合Pandas、NumPy等数据处理库,涵盖数据加载、数据探查、重复值处理、日期特征工程、天气类型与风力等级标准化、温度数据清洗、缺失值填充及数据持久化等核心功能。

2026-03-30 17:16:02 474

原创 云南省天气数据可视化分析大屏的设计与实现(一)- 云南省各城市天气数据采集

天气数据作为气象分析、区域气候研究、民生服务等领域的基础数据支撑,其高效、准确的采集是后续数据应用的前提。针对云南省多城市历史天气数据分散、人工采集效率低的问题,本文设计并实现了一套基于 Python 的 requests 库和 BeautifulSoup 库的天气数据采集脚本。该脚本能够自动爬取指定气象网站中云南省各城市 2015 年 1 月至今的每日天气数据,包括日期、昼夜天气类型、最高/最低气温、昼夜风向及风力等核心维度,并通过数据去重、异常处理、随机延迟等机制保障采集过程的稳定性和数据完整性。

2026-03-30 15:41:47 318

原创 昆明天气数据分析与挖掘(四)- 昆明气温数据预测分析

昆明气温预测模型研究摘要 本研究基于随机森林回归算法构建了昆明市气温预测模型。选取年份、月份、日期等7个日期衍生特征,通过季节特征编码转换为数值型数据后,按7:3比例划分训练集和测试集。采用网格搜索和5折交叉验证确定最优参数组合(决策树数量300,最大深度20等),分别建立最低和最高气温预测模型。结果显示模型在测试集上的均方根误差为1.428℃,表明该模型能有效预测昆明气温变化趋势,为气象预报提供量化参考。

2026-02-13 20:02:01 876

原创 曲靖天气数据分析与挖掘(三)- 曲靖天气数据可视化分析

本文详细介绍了昭通天气数据的可视化分析过程。首先通过FineBI连接MySQL数据库,导入天气数据表并进行字段规范化设置。然后针对曲靖地区的气象数据,构建了包含气温趋势、天气类型分布和风力风向分析的可视化组件,采用折线图、饼图和柱状图等多种形式展示数据。最后设计实现了交互式分析大屏,支持区域、年份、季节和月份的多维度筛选,便于用户灵活查看不同维度的气象特征。整个分析过程实现了从数据接入到可视化展示的完整流程,为气象数据监测和决策提供了直观有效的工具。

2026-02-06 17:18:11 713

原创 昭通天气数据分析与挖掘(三)- 昭通天气数据可视化分析

本文详细介绍了昭通天气数据的可视化分析过程。首先通过FineBI工具连接MySQL数据库,完成数据选取与字段设置,将英文字段转换为中文并规范数据类型。随后构建了包含气温变化趋势、天气类型分布、风力风向分布等8类可视化图表,最终整合为交互式分析大屏。该大屏支持区域筛选功能,可动态展示昭通、大关、威信等地的气象特征分析结果,直观呈现了当地以阴天为主、风力温和的气候特点。通过多维度数据可视化,为气象规律分析提供了清晰的数据支撑。

2025-12-22 22:49:21 854

原创 昆明天气数据分析与挖掘(三)- 昆明天气数据可视化分析

本文详细介绍了昆明天气数据的预处理与可视化分析过程。首先在FineBI中完成数据上传、字段设置等准备工作,将气温、风向等字段转换为中文并设置合适的数据类型。随后通过折线图、柱形图、饼图等多种可视化形式,对气温变化趋势、风向风力分布、天气类型等维度进行多角度分析,并构建了集成筛选功能的动态分析大屏。分析结果表明,昆明及下属区域气候特征存在差异:主城区气温波动平缓、风力温和,而东川区温差更大、风向集中性显著。该可视化系统有效呈现了区域气象规律,为气候分析提供了直观的数据支撑。

2025-12-20 23:32:06 1218

原创 曲靖天气数据分析与挖掘(二)- 曲靖天气数据预处理

本文以曲靖天气数据为例,详细介绍了数据预处理的全过程。首先配置Python环境并加载数据,初步探索数据基本情况。接着处理重复值、标准化日期格式并提取时间特征,将天气类型简化为晴、雨、雪等大类。通过代码实现数据清洗、特征工程等关键环节,为后续分析和建模提供高质量数据集。预处理后的数据消除了冗余信息,统一了格式,便于开展天气模式分析和预测任务。

2025-12-19 16:21:14 991

原创 昭通天气数据分析与挖掘(二)- 昭通天气数据预处理

本文以昆明天气数据为例,详细介绍了数据预处理的全过程。首先配置Python环境并加载数据,对68103条天气记录进行初步探索。随后通过去重处理消除3101条冗余记录,并对日期字段进行标准化转换和特征提取,衍生出年份、季节等时间维度特征。针对天气类型和风力等级等离散特征,采用分类合并和标准化处理方法,将复杂的原始描述简化为统一类别。预处理后的数据消除了原始数据中的质量问题,提取了有价值的特征,为后续分析和建模提供了高质量的数据基础。

2025-12-15 00:34:43 1061

原创 昆明天气数据分析与挖掘(二)- 昆明天气数据预处理

本文介绍了昆明天气数据的预处理流程,包括数据加载、重复值处理、日期特征提取和天气类型简化等关键步骤。通过Python代码实现了数据质量检查、日期标准化(提取年/月/日/季节等特征)以及将复杂天气描述归类为"雨天""雪天"等标准类型。预处理后的数据集消除了冗余信息,结构更加清晰,为后续天气分析和建模提供了高质量的数据基础。整个处理过程注重可复用性,代码模块化设计便于应用于其他城市天气数据的预处理任务。

2025-12-14 21:17:05 998

原创 曲靖天气数据分析与挖掘(一)- 曲靖天气数据采集

本文介绍了使用Python爬取曲靖历史天气数据的方法。通过requests和BeautifulSoup库实现数据采集,从天气后报网站获取各行政区每日气象信息,包括温度、天气类型、风向风力等关键指标。程序采用随机延迟避免反爬,并通过异常处理确保稳定性。采集数据经解析后以CSV格式存储,便于后续分析应用。该方案为气象数据分析提供了可靠的数据源,适用于农业、旅游等领域的研究需求。

2025-12-14 15:32:01 1233

昆明天气数据集+数据分析

昆明天气数据集+数据分析

2025-12-13

数据挖掘实战示例:线性回归、逻辑回归、最近邻分类

线性回归、逻辑回归、最近邻分类

2025-11-20

Matplotlib绘图示例

Matplotlib绘图示例

2025-07-28

昆明职位数据集,包含 17731 行、17 列数据

昆明职位数据集数据量颇为丰富,包含 17731 行、17 列数据,各个字段的含义如下表所示: 字段名 含义 字段名 含义 province 岗位所在省份 education 教育程度要求 city 岗位所在城市 company_name 招聘公司名称 category_1 岗位的一级分类 company_industry 招聘公司所属行业 category_2 岗位的二级分类 financing_status 招聘公司的融资状态 position 具体职位 company_size 招聘公司的规模 job_name 职位名称 skill 岗位所需技能 job_area 工作区域 benefits 公司提供的福利待遇 salary 薪资待遇 job_url 职位详情链接 experience 工作经验要求

2025-07-12

使用Python操作neo4j示例

使用Python操作neo4j示例

2025-05-26

使用python操作redis示例

使用python操作redis示例

2025-05-23

Redis数据库+Jedis+使用Java操作Redis示例

Redis数据库+Jedis+使用Java操作Redis示例

2025-05-16

二手房数据集+多元线性回归分析+数据可视化

二手房数据集+多元线性回归分析+数据可视化

2025-04-11

广告投放效果数据集+数据分析+数据可视化

广告投放效果数据集+数据分析+数据可视化

2025-04-11

二手房数据集+数据采集+数据分析+数据可视化

二手房数据集+数据采集+数据分析+数据可视化

2025-04-11

母婴消费市场数据集+数据分析+数据可视化

母婴消费市场数据集+数据分析+数据可视化

2025-04-11

京东评论数据集+数据分析+数据可视化

京东评论数据集+数据分析+数据可视化

2025-04-11

电商-超市销售数据分析与报表

电商-超市销售数据分析与报表

2025-04-11

50个Pyecharts数据可视化案例+数据可视化+Pyecharts学习

50个Pyecharts数据可视化案例+数据可视化+Pyecharts学习

2025-04-11

豆瓣图书数据爬取代码+selenium

豆瓣图书数据爬取代码+selenium

2025-04-11

豆瓣图书数据集 129839 行

本数据集包含 129839 行,9 列,数据集包含如下字段: category_name:书籍的分类名称,可能是作者分类,如前几行均为 J.K. 罗琳相关书籍。 url:书籍在豆瓣的链接地址。 img_url:书籍图片的链接地址。 name:书籍名称。 pub:书籍的出版信息,包含作者、出版社、出版时间和价格等。 rating:书籍的评分,数据类型为 float64,部分存在缺失值。 rating_count:书籍的评价人数,以字符串形式呈现。 plot:书籍的情节简介,部分存在缺失值。 buy_info:书籍的购买信息,如价格、购买方式等,存在较多缺失值。 整体来看,这个数据集主要围绕豆瓣上的图书信息,可用于分析不同分类书籍的评分情况、不同作者作品的受欢迎程度等。

2025-04-04

上海餐饮数据集+基于Python的上海餐饮数据可视化分析+聚类分析

内容概要 这是一套完整的餐饮数据分析项目,涵盖了从数据清洗、数据分析到数据可视化的全流程。具体包括: 数据清洗:对原始的上海餐饮数据进行预处理,处理包括将数据中的0替换为空值、数据类型转换、缺失值处理、异常值处理和重复数据处理等操作,最终保存清洗后的数据。 数据分析:从多个维度对餐饮数据进行分析,如各类别和各行政区的总点评数、平均人均消费、平均评分,还进行了类别和行政区的频率分布分析,以及基于人均消费、口味评分、环境评分、服务评分和点评数的 K 均值聚类分析。 数据可视化:将分析结果以多种可视化图表呈现,如词云图、柱状图、水平条形图和分组柱状图等,直观展示数据特征。 适用人群 数据分析师:可以学习到完整的数据处理和分析流程,以及如何运用 Python 进行数据操作和可视化。 餐饮行业从业者:通过对餐饮数据的分析和可视化结果,了解不同类别和行政区的餐饮市场情况,为经营决策提供参考。 Python 编程学习者:可以借鉴代码中的数据处理技巧、数据分析方法和可视化库的使用,提升编程能力。 适用场景:餐饮市场调研、餐饮企业经营分析、数据处理和可视化教学等。

2025-03-29

1905电影网中国地区电影数据集(27511行数据)

内容概要: 该数据集包含了27511部电影的详细信息,涵盖了从电影ID到剧情简介等多个维度的数据点。每部电影的信息包括但不限于片长、导演、上映日期、状态(如是否已上映)、评分、类型、主演、其他名称、改编来源、编剧以及简短的剧情描述。 适用人群: 电影爱好者:可以用来查找感兴趣的电影,了解电影详情。 研究人员:可用于进行电影行业趋势分析、观众偏好研究等。 数据科学家:作为机器学习或数据分析项目的一部分,用于训练模型或测试算法。 影评人:提供全面的电影信息,辅助撰写影评或进行比较分析。 制片方:了解市场动态,参考成功案例以指导新项目的开发。 使用场景及目标: 构建推荐系统:基于用户的喜好推荐相似类型的电影。 市场分析:通过分析不同类型电影的受欢迎程度来预测未来趋势。 教育培训:用作影视制作相关课程的教学材料,帮助学生理解电影构成要素。 内容策划:为媒体平台选择合适的内容,满足特定受众的需求。 文化交流:促进不同国家和地区之间的电影文化交流。

2025-01-11

1905电影数据集(27534行)

内容概要: 该数据集包含27534部电影的详细信息,每部电影的信息包括ID、链接、海报链接、标题、上映日期、状态(如是否已上映)、评分(如果有)、类型、主演等。此外,还包含了部分电影的导演、编剧、剧情简介以及改编来源(如果有的话)。值得注意的是,所有列出的电影在数据提供时均未上映,这为预测未来的票房成功、观众反应提供了潜在的研究价值。 适用人群: 电影爱好者:可以提前了解即将上映的电影,并根据个人喜好选择感兴趣的影片。 影视产业从业者:包括制片人、导演、演员等,可以用作行业趋势分析,评估市场对不同类型电影的需求。 研究人员与分析师:可用于进行电影行业的深入研究,比如观众偏好变化、特定类型电影的表现预测等。 数据科学家与机器学习工程师:作为训练推荐系统或预测模型的数据源。 媒体与娱乐公司:用于规划未来的内容策略,制定营销计划。 使用场景及目标: 内容推荐:利用用户的历史观影记录和个人偏好,推荐他们可能感兴趣的即将上映的电影。 市场预测:通过分析不同类型的电影及其主要演员的影响,预测哪些电影可能会受到欢迎。 投资决策支持:帮助投资者评估哪些电影项目值得投资,基于类似电影的历史表现。

2025-01-11

豆瓣图书数据集+数据分析

内容概要 该数据集 douban_books.csv 是豆瓣读书的书籍信息,每一行代表一本书籍的详细资料。数据字段涵盖了书籍的基础信息(如书名、作者、出版社等)、出版详情(如出版年份、页数、定价等)、以及用户评价相关的信息(如评分、评论链接和各星级评价比例)。此外,还包括书籍的封面图片网络地址、国际标准书号(ISBN)、装帧类型等额外信息。 适用人群 研究人员:从事图书馆学、信息科学或社会科学研究的人可以使用此数据集来分析读者行为、书籍流行趋势等。 开发人员与数据科学家:对于正在构建推荐系统或者进行数据分析的人来说,这些数据提供了丰富的变量用于建模和算法训练。 出版业从业者:了解市场对不同类型书籍的接受度,评估竞争对手的产品,规划未来的出版策略。 营销人员:可以通过分析用户评分和评论来制定更有效的营销策略。 普通读者:寻找感兴趣的书籍,参考其他用户的评价做出更好的阅读选择。 使用场景及目标 书籍推荐系统:利用用户评分和其他元数据创建个性化书籍推荐服务。 市场分析:研究特定类型书籍的市场表现,探索不同因素如何影响书籍的成功。 学术研究:为关于文学、文化研究、读者心理学等领域提供

2025-01-09

低代码平台教你两步把SQL直接转换为RESTful API

低代码平台教你两步把SQL直接转换为RESTful API

2024-06-21

Spark-Streaming+HDFS实战

需求说明:从GBIF接口获取数据并处理为HDFS文件并映射为Hive外部表 ## 1. 目标: - 从GBIF(Global Biodiversity Information Facility)接口获取数据。 - 使用Spark Streaming处理数据。 - 将处理后的数据保存到HDFS文件系统。 - 创建Hive外部表,将HDFS文件映射为表。 ## 2. 数据源: - GBIF接口(https://api.gbif.org/v1/dataset)提供了生物多样性相关的数据集。 ## 3. 数据处理流程: - 使用HTTP请求从GBIF接口获取数据集。 - 使用Spark Streaming处理数据集,可以使用httpclient获取数据。 - 对获取的数据进行必要的转换、清洗和处理,以满足需求。 - 将处理后的数据保存到HDFS文件系统。 ## 4. HDFS文件保存: - 使用Spark Streaming将处理后的数据保存到HDFS文件系统。

2023-12-16

Spark-Streaming+Kafka+mysql实战示例

介绍一个使用Spark Streaming和Kafka进行实时数据处理的示例。通过该示例,您将了解到如何使用Spark Streaming和Kafka处理实时数据流,以及如何将处理后的数据保存到MySQL数据库中。示例涵盖了从环境搭建到代码实现的全过程,帮助您快速上手实时数据处理的开发。提供了一个完整的示例,演示了如何使用Spark Streaming和Kafka进行实时数据处理。通过该示例,我们可以学习到如何创建Kafka主题、发送消息到Kafka集群、从Kafka集群消费消息,并将消费到的消息保存到MySQL数据库中。这个示例涵盖了从数据源到数据处理和存储的完整流程,可以帮助你理解和应用实时数据处理的基本概念和技术。

2023-12-12

C语言,大一C语言实验及报告

C语言,大一C语言实验及报告

2023-11-26

程序员考试大纲.zip

程序员考试大纲.zip

2022-05-17

程序员2009-2019真题.zip

程序员2009-2019真题.zip

2022-05-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除