自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(183)
  • 资源 (20)
  • 收藏
  • 关注

原创 Python数据可视化 - Pyecharts绘图示例

Pyecharts 是一个基于 Python 的开源数据可视化库,依赖 JavaScript 的 ECharts 库,能够生成交互式、高可定制的动态图表。它支持多种图表类型,如折线图、柱状图、地图等,并具备丰富的交互功能。Pyecharts 的优势在于易用性和表现力,能够与 Pandas 等数据处理库结合,适用于数据分析师、开发人员和科研人员。安装 Pyecharts 可通过 pip 命令完成。

2025-05-18 22:25:23 1118

原创 Neo4j(一) - Neo4j安装教程(Windows)

本文详细介绍了在Windows系统上搭建JDK与Neo4j开发环境的全流程。首先,梳理了JDK与Neo4j的版本对应关系,确保版本兼容性。接着,提供了JDK11的下载、解压及环境变量配置的图文指南,并验证配置是否成功。随后,介绍了Neo4j的下载、解压、环境变量配置及启动步骤,包括控制台模式与后台服务模式的使用场景。最后,展示了如何通过浏览器访问Neo4j的Web UI界面并进行登录与密码设置。本文旨在帮助开发者快速完成环境搭建,为基于Neo4j的图数据开发奠定基础。

2025-05-16 23:38:59 886

原创 Redis(三) - 使用Java操作Redis详解

本文介绍了如何使用 Java 操作 Redis 数据库,重点讲解了通过 IDEA + Maven 搭建开发环境,并基于 Jedis 客户端实现 Redis 的常用操作。文章首先演示了如何创建 Maven 项目并导入 Jedis 依赖,随后详细展示了 Redis 键和字符串数据类型的操作示例,包括键的创建、查询、删除以及字符串的设置、获取、修改等操作。通过代码示例,帮助 Java 开发者快速掌握 Redis 的基本操作逻辑与编程接口。

2025-05-16 14:08:39 868

原创 MongoDB(六) - Studio 3T 基本使用教程

本文将围绕 Studio 3T 的基本使用进行详细介绍,涵盖数据库、集合和文档的常见操作,并结合 IntelliShell 与 SQL 查询功能,帮助开发者提升工作效率。通过图文并茂的方式,旨在帮助初学者快速上手 Studio 3T,掌握其核心功能并应用于实际开发中。

2025-05-08 14:24:59 787

原创 Hadoop生态圈框架部署 - Windows上部署Hadoop

Hadoop作为大数据领域的基石框架,在数据存储与处理方面展现出了卓越的性能与强大的扩展性,为海量数据的高效管理与分析提供了有力支撑。在当今数字化浪潮席卷全球,数据量呈爆发式增长的时代背景下,掌握Hadoop的安装与配置技能显得尤为重要,它是开启大数据世界大门的一把关键钥匙。无论是企业希望从繁杂的数据中挖掘商业价值,还是科研人员致力于数据分析以推动学术研究进展,Hadoop都能发挥其独特的优势。

2025-04-25 23:43:23 1283

原创 豆瓣图书数据采集与可视化分析(三)- 豆瓣图书数据统计分析(Pandas)

本项目旨在通过对豆瓣图书数据集的详细分析,挖掘其中隐藏的规律和趋势,为图书出版行业、读者以及相关研究人员提供有价值的参考。从数据读取与保存这一基础环节出发,构建了完善的数据处理流程,确保能够高效地获取和存储清洗后的高质量数据,为后续分析筑牢根基。在数据分析阶段,从多个维度展开深入探究。在不同分类统计分析中,详细剖析了各类图书在数量、平均评分、平均评价人数以及平均价格等方面的表现,有助于出版方精准把握市场需求,读者快速定位感兴趣的图书类别。

2025-04-25 17:26:38 1006

原创 豆瓣图书数据采集与可视化分析(二)- 豆瓣图书数据清洗与处理

本项目围绕豆瓣图书数据集展开,详细阐述了从数据的初步查看、各列数据的处理(包括拆分、格式转换、异常值处理等),到缺失值和重复值的处理,以及最终将处理后的数据保存到数据库的整个过程。

2025-04-20 17:38:37 156

原创 豆瓣图书数据采集与可视化分析(一)- 豆瓣图书数据爬取

本项目将通过数据爬取技术,深入挖掘豆瓣图书分类标签页面以及各分类下的图书详细页面,采集关键信息,并运用合理的数据处理手段对采集到的数据进行清洗、整合,最终形成高质量的数据集。希望通过此次实践,不仅能为后续针对图书数据的分析与应用搭建良好的数据基石,也能为对数据采集与处理感兴趣的同行提供有价值的参考与借鉴,共同探索数据背后的无限可能,进一步推动图书相关领域在数据驱动下的创新发展。

2025-04-19 15:10:41 347

原创 Redis(二) - Redis命令详解

在当今数据驱动的应用开发领域,高效的数据存储与管理至关重要。Redis,作为一款高性能的键值对存储数据库,以其出色的性能、丰富的数据结构和广泛的应用场景,成为了众多开发者构建强大应用的得力工具。无论是缓存数据以加速应用响应,还是处理实时数据、实现分布式锁,Redis 都能发挥关键作用。本教程旨在为初学者和有一定经验的开发者,全面且系统地介绍 Redis 的基础操作,助力读者快速上手 Redis,开启高效数据处理的大门。

2025-04-18 17:54:22 945

原创 Redis(一) - Redis安装教程(Windows + Linux)

在当今数字化时代,数据处理与存储的高效性对于各类应用程序的成功运行至关重要。Redis,作为一款高性能的键值对存储数据库,以其卓越的速度、丰富的数据结构和强大的功能,在众多技术场景中发挥着关键作用,已然成为现代软件开发中不可或缺的一部分。无论是构建高并发的 Web 应用,还是优化数据缓存策略,Redis 都能为开发者提供出色的解决方案,助力项目提升性能与用户体验。本文旨在为广大技术爱好者和开发者详细阐述 Redis 在不同操作系统环境下的安装流程,涵盖 Windows 与 Linux 两大主流平台。

2025-04-16 14:13:31 1415

原创 豆瓣图书数据采集与可视化分析

并将这个数据表格保存为一个 CSV 文件,文件名为 “图书分类标签.csv”,存储在 “原始数据层” 文件夹下,保存时不包含索引列,并使用特定的编码格式(utf-8-sig)以确保中文字符的正确保存和读取。将提取到的每个图书分类标签的名称和对应的链接地址,以字典的形式存储,字典的键分别为 ‘name’ 和 ‘href’,值分别为标签名称和链接地址。对于每个选中的链接元素,提取其文本内容作为图书分类标签的名称,同时提取其链接地址,并将相对链接地址拼接上豆瓣读书的基础网址,得到完整的绝对链接地址。

2025-04-15 23:42:39 1620

原创 基于SpringBoot和Vue的SQL TO API平台的设计与实现

在当今数字化飞速发展的时代,数据的价值愈发凸显,高效的数据交互与共享成为企业和组织提升竞争力的关键因素。传统的数据库操作方式,往往需要专业的数据库知识和复杂的 SQL 语句,这在一定程度上限制了数据的广泛应用和快速开发。为了打破这一壁垒,实现 SQL 数据与外部系统的便捷交互,基于 Spring Boot 和 Vue 构建的 SQL TO API 平台应运而生。Spring Boot 作为一款轻量级的 Java 开发框架,以其高效、便捷的特性,极大地简化了后端开发流程,提高了开发效率和代码的可维护性。

2025-03-28 16:58:40 927

原创 MongoDB(五) - Studio 3T 下载与安装教程

本文旨在全面且深入地为你介绍 Studio 3T。从其丰富的功能特性、跨平台使用的便捷性,到详细的下载安装步骤,以及关键的连接 MongoDB 操作,都将一一展开。无论你是初涉数据库领域的新手,渴望快速上手 MongoDB 管理工具;还是经验丰富的开发者或数据库管理员,寻求提升工作效率、优化数据库操作的方法,本文都将为你提供有价值的指引,助力你在使用 Studio 3T 管理 MongoDB 的道路上畅通无阻,充分挖掘数据的潜力,为项目的成功实施奠定坚实基础。

2025-03-23 15:56:48 1814 2

原创 MongoDB(四) - 掌握 Python 操作 MongoDB,看这一篇就够了

在当今数据驱动的时代,数据库管理与操作对于开发者而言至关重要。MongoDB 作为一款广受欢迎的非关系型数据库,以其灵活的文档模型、卓越的可扩展性和出色的性能,在各类项目中得到广泛应用。Python 作为一种简洁高效、功能强大的编程语言,为操作 MongoDB 提供了便利且强大的工具集。

2025-03-22 23:01:43 1327

原创 MongoDB(三) - 掌握 Java 操作 MongoDB,看这一篇就够了

在现代软件开发中,数据库操作是至关重要的一环。MongoDB 作为一款流行的 NoSQL 数据库,以其灵活的数据模型、高扩展性和出色的性能,被广泛应用于各类项目中。本文将详细介绍如何在 Java 项目中使用 MongoDB,从项目创建、依赖导入,到数据库、集合、文档的各种操作,以及聚合查询等高级应用,帮助读者快速掌握在 Java 环境下操作 MongoDB 的技能。

2025-03-22 22:01:45 990

原创 用通俗易懂的语言讲算法

本文旨在打破这一知识壁垒,以通俗易懂的语言,结合生动形象的生活实例,详细阐述各类常用数据分析与挖掘方法。让每一位读者,无论是否具备深厚的数学基础,都能轻松理解这些方法的核心思想,并清晰知晓在实际场景中如何运用它们。

2025-03-12 00:41:26 894

原创 MongoDB(二) - MongoDB命令详解

本文是 MongoDB 的操作指南,全面介绍了其在数据库、集合、文档、索引、用户权限管理等方面的操作。开篇点明 MongoDB 在数据管理领域的重要性,随后详细阐述各项操作。数据库操作涵盖切换、创建、查看和删除数据库;集合操作包括创建、查看和删除集合;文档操作涉及插入、更新、删除和查询,查询又分为基本查询、条件查询、数组查询等多种方式,并介绍了聚合操作和 Map - Reduce 操作。索引操作讲解了索引类型、创建、查看和删除方法。用户权限管理介绍了内置角色和权限,以及用户的创建、查看、修改和删除操作。

2025-03-10 11:34:13 1523

原创 MongoDB(一) - MongoDB安装教程(Windows + Linux)

本教程旨在为读者提供详尽且易懂的Windows和Linux系统中单机MongoDB的安装指南,从下载安装包开始,逐步深入到环境变量配置、目录与文件创建、配置文件调整,再到最后的启动与客户端访问,每一个步骤都配有清晰的操作说明和直观的截图示例,确保无论是初涉数据库领域的新手,还是寻求快速部署方案的专业人士,都能轻松上手,顺利搭建起属于自己的MongoDB运行环境,为后续的数据存储、查询与分析工作奠定坚实基础。

2025-03-08 15:07:58 5650 11

原创 Python爬虫(四)- Selenium 安装与使用教程

本文旨在为读者提供一个全面且详细的指南,帮助你从零开始学习并掌握Selenium的基础知识及其高级功能。无论你是刚开始接触自动化测试的新手,还是希望深入理解Selenium工作机制的经验丰富的开发者,本书都将为你提供所需的知识和技术细节。我们将从Selenium的基本概念入手,逐步介绍如何安装配置环境,以及如何使用Selenium进行Web页面的基本操作,如启动浏览器、打开网页、元素查找与操作等。

2025-02-24 20:58:30 3307

原创 Python数据可视化 - Matplotlib教程

在数据分析和可视化的过程中,图形的呈现往往是理解数据的重要环节。Matplotlib作为Python中最流行的绘图库之一,提供了丰富的功能和灵活的接口,使得用户能够轻松创建各种类型的图表。无论是简单的线图、散点图,还是复杂的3D图形和小提琴图,Matplotlib都能满足不同的需求。本篇文章将详细介绍Matplotlib的基本使用,包括安装、核心模块Pyplot的功能、各种图形的绘制方法以及如何自定义图表的样式和属性。

2025-02-14 17:20:34 1301

原创 Python - NumPy基础使用教程

NumPy(Numerical Python)是Python中用于科学计算的核心库之一。它提供了高性能的多维数组对象和用于处理这些数组的工具。NumPy是许多其他科学计算库的基础,如Pandas、SciPy、Matplotlib等。本文从NumPy的基础知识开始,逐步深入,介绍了NumPy数组的创建、索引与切片、数学运算、广播机制、线性代数运算、随机数生成、文件操作以及性能优化等内容。希望通过本文的学习,你能够掌握NumPy的核心功能,并能够在实际项目中灵活运用。

2025-02-12 17:04:58 1550

原创 HiveQL命令(三)- Hive函数

在大数据处理和分析的过程中,数据的转换和处理是至关重要的环节。Apache Hive作为一种流行的数据仓库工具,提供了丰富的内置函数,帮助用户高效地处理和分析存储在Hadoop分布式文件系统(HDFS)中的数据。这些内置函数涵盖了数值计算、字符串处理、日期与时间操作、条件判断、聚合计算、集合处理、类型转换以及用户定义的表生成函数(UDTF)等多个方面。本篇文章将详细介绍Hive中的内置函数,包括它们的功能、用法和示例。通过对这些函数的深入理解,用户可以更灵活地进行数据查询和分析,提升数据处理的效率和准确性。

2025-02-09 22:10:49 1426 1

原创 HiveQL命令(二)- 数据表操作

在大数据时代,数据的存储与管理变得尤为重要。Apache Hive作为一种数据仓库工具,提供了一种方便的方式来处理和分析存储在Hadoop分布式文件系统(HDFS)中的大规模数据。通过Hive,用户可以使用类似SQL的查询语言(HiveQL)来执行数据操作,而无需深入了解底层的MapReduce编程模型。本篇文章将详细介绍Hive中数据表的操作,包括创建、查看、修改和删除表的基本语法和示例。我们还将探讨分区表和分桶表的概念及其在优化查询性能方面的重要性。此外,临时表的使用场景和创建方法也将被涵盖。

2025-02-09 18:37:58 1352

原创 1905电影网中国地区电影数据分析(二) - 数据分析与可视化

在数据科学的领域,数据分析和可视化是理解和解释数据的重要工具。通过对数据的深入分析,我们能够揭示潜在的趋势、模式和关系,从而为决策提供有力支持。本项目旨在对从1905电影网爬取的电影数据进行全面的数据分析与可视化,帮助我们更好地理解电影行业的动态和特征。本项目的分析分为几个主要部分:描述性分析、类别分布分析、模式识别分析、时间序列分析和相关性分析。我们将使用Python的Pandas库进行数据处理,并通过SQLAlchemy将分析结果存储到MySQL数据库中。

2025-01-25 14:12:22 993

原创 1905电影网中国地区电影数据分析(一) - 数据采集、清洗与存储

本项目旨在通过爬取1905电影网的电影数据,展示如何使用Python及相关库进行网页数据采集。本项目将详细介绍数据采集的步骤,包括所需的Python库版本、网页分析、数据提取和保存等环节。我们将使用requests库进行网络请求,利用BeautifulSoup进行HTML解析,并将最终的数据保存为CSV文件,便于后续分析和处理。

2025-01-22 21:19:13 2140 1

原创 Python数据处理(三)- Pandas 数据清洗

本书旨在为读者提供一个全面的指南,涵盖了使用 Pandas 进行数据清洗的各个步骤和方法。通过详细的解释和示例代码,读者将能够掌握如何检测和处理缺失值、识别和删除重复数据、处理异常值、进行数据格式转换,以及如何选择和过滤数据。这些技能将为后续的数据分析和建模打下坚实的基础。

2025-01-19 11:30:00 894

原创 Python数据处理(二)- Pandas 文件操作

在第一部分,我们将详细介绍 CSV 文件的操作,包括如何读取和写入 CSV 文件,以及如何处理缺失值和自定义分隔符。接着,我们将探讨 Excel 文件的处理,涵盖从读取到写入的各个方面,帮助读者掌握 Excel 文件的操作技巧。最后,我们将介绍 JSON 文件的读取和写入,展示如何在数据交换中有效使用这种轻量级的数据格式。

2025-01-17 20:05:37 1039

原创 Python数据处理(一)- Pandas 安装与数据结构介绍

在当今数据驱动的世界中,有效地处理和分析数据已成为众多领域不可或缺的一部分。从科学研究到商业决策,数据分析能力为理解复杂现象、发现模式以及做出明智选择提供了坚实的基础。随着大数据时代的到来,对高效且易于使用的数据处理工具的需求日益增长。Pandas 应运而生,作为一个强大的开源数据处理与分析库,它专为 Python 编程语言设计,旨在简化结构化数据分析流程。

2025-01-15 17:27:08 1249

原创 Hadoop - MapReduce编程

在当今数据驱动的时代,大数据的概念已经深入人心。随着信繁多,包括结构化数据、半结构化数据和非结构化数据。如何有效地处理、分析和利用这些数据,成为了各行各业亟待解决的问题。MapReduce是一种编程模型和处理框架,旨在简化大规模数据集的处理。本篇文章将详细介绍如何创建一个简单的MapReduce项目息技术的快速发展,企业和组织面临着海量数据的挑战。这些数据不仅体量庞大,而且种类,并使用MapReduce编程模型实现一个基本的词频统计功能。

2025-01-10 18:14:51 1332

原创 HDFS编程 - 使用HDFS Java API进行文件操作

本文将详细介绍如何使用Java编程语言与HDFS进行交互。我们将通过创建一个简单的Maven项目,逐步演示HDFS的常用Java API,包括创建目录、上传和下载文件、查看文件内容、删除文件等操作。通过这些示例,读者将能够掌握基本的HDFS操作,并为后续的大数据处理打下坚实的基础。Hadoop分布式文件系统(HDFS)是Apache Hadoop的核心组件之一,设计用于存储大量的数据,并提供高吞吐量的数据访问。

2025-01-09 16:52:24 1064

原创 Python爬虫 - 豆瓣图书数据爬取、处理与存储

在数字化时代,网络爬虫技术为我们提供了强大的数据获取能力,使得从各类网站提取信息变得更加高效和便捷。豆瓣读书作为一个广受欢迎的图书评价和推荐平台,汇聚了大量的书籍信息,包括书名、作者、出版社、评分等。这些信息不仅对读者选择图书有帮助,也为出版商和研究人员提供了宝贵的数据资源。本项目旨在通过 Python 爬虫技术,系统性地抓取豆瓣读书网站上的图书信息,并将其存储为结构化的数据格式,以便后续分析和研究。我们将使用 requests 和 BeautifulSoup 库进行网页请求和数据解析,利用 pandas

2025-01-04 23:26:32 2990 6

原创 Python爬虫 - 豆瓣电影排行榜数据爬取、处理与存储

在当今数据驱动的时代,信息的获取与分析变得尤为重要。电影作为一种广受欢迎的文化产品,其相关数据的挖掘与分析不仅能帮助观众更好地选择影片,还能为电影行业提供有价值的市场洞察。本文将详细介绍如何利用 Python 爬虫技术从豆瓣电影网站获取电影排行榜数据,并将其存储到 MySQL 数据库中,以便后续进行统计分析和探索性数据分析(EDA)。我们将首先分析爬取的需求,明确要获取的电影分类及其详细信息。

2024-12-30 22:55:30 1895 2

原创 Python爬虫(三)- BeautifulSoup 安装与使用教程

本篇文章将详细介绍BeautifulSoup的基本概念、安装步骤、解析器的比较,以及如何使用该库解析HTML文档。我们将通过实际示例演示如何使用BeautifulSoup获取标签、属性和内容,帮助读者快速上手并应用于实际项目中。是一个用于解析 HTML 和 XML 文档的 Python 库,它帮助你从网页中提取数据。这个库非常灵活,并且可以与多种不同的解析器一起工作,比如 Python 内置的lxml或者html5lib。pythonrequestsbs4soupsievelxml版本。

2024-12-29 23:01:41 3751 1

原创 Python爬虫(二)- Requests 高级使用教程

在现代网络应用中,HTTP 请求和响应的处理是至关重要的。Python 的 requests 库以其简洁易用的接口,成为了开发者进行网络请求的首选工具。无论是简单的 GET 请求,还是复杂的身份认证、会话管理、代理设置,requests 都能轻松应对。本文将深入探讨 requests 库的各个方面,包括 Session 对象的使用、请求与响应的处理、SSL 证书验证、流式上传和请求、代理配置、编码方式处理以及身份认证等。Session 对象允许跨多个请求保持某些参数不变。

2024-12-29 13:57:41 2932 2

原创 Python爬虫(一)- Requests 安装与基本使用教程

本篇文章将详细介绍 requests 库的基本用法,包括安装、发送请求、处理响应、传递参数等内容。通过这些内容,读者将能够掌握如何使用 requests 库进行高效的网络请求,从而为后续的项目开发打下坚实的基础。希望本文能帮助您更好地理解和应用 requests 库,提升您的 Python 编程技能。requests是一个用于发送HTTP请求的Python库,它简化了与Web服务交互的过程,使开发者能够轻松地构建和解析HTTP请求和响应。其简洁易用的API设计使得即使是初学者也能快速上手。python。

2024-12-28 20:53:10 3739 1

原创 hdfs命令(三)- hdfs 管理命令(三)- hdfs dfsadmin命令

本文档旨在详细介绍 hdfs dfsadmin 的主要功能及其使用方法,帮助读者更好地掌握如何利用这一工具来管理和优化HDFS集群。我们将按照不同的类别组织命令,并提供详细的语法说明和实际应用示例,以便于读者快速查找所需信息并应用于实践当中。是Hadoop分布式文件系统(HDFS)提供的一个管理工具,主要用于执行与HDFS集群管理和维护相关的各种操作。这些命令通常需要以HDFS超级用户的身份运行,因为它们涉及到对整个文件系统的控制和配置调整。

2024-12-27 22:40:09 1187

原创 hdfs命令(三)- hdfs 管理命令(二)- hdfs crypto命令

本文旨在详细介绍如何使用命令行工具来管理这些加密区域,包括创建、列出、启用垃圾回收、获取加密信息、重新加密以及监控重新加密状态等操作。命令是Hadoop分布式文件系统(HDFS)中用于管理和操作加密区域(Encryption Zones, EZs)的工具。它允许用户创建、列出和管理加密区域,以及处理与加密相关的其他任务。

2024-12-27 12:59:58 702

原创 hdfs命令(三)- hdfs 管理命令(一)- hdfs cacheadmin命令

本文介绍hdfs cacheadmin命令的使用方法及其各个子命令的具体功能,帮助读者理解如何高效地管理和配置HDFS缓存,从而根据实际需求定制缓存策略。命令提供了一系列子命令用于管理和配置HDFS缓存。

2024-12-27 12:57:24 1280

原创 hdfs命令(二)- hdfs --daemon命令

在大数据时代,Hadoop分布式文件系统(HDFS)作为核心组件之一,承担着存储和管理海量数据的重任。为了确保HDFS的高可用性和稳定性,系统中运行着多个守护进程(daemons),每个守护进程负责特定的功能和任务。这些守护进程包括NameNode、DataNode、Secondary NameNode、JournalNode等,它们共同协作,维护HDFS的正常运行。本文将探讨HDFS中的hdfs --daemon命令,介绍如何启动、停止和管理这些守护进程。

2024-12-22 16:51:59 1428

原创 hdfs命令(一)- hdfs dfs命令

Hadoop分布式文件系统(HDFS)是一种基于Java的,设计用于存储和处理大规模数据集的文件系统。由于其可靠性和高效的存储能力,HDFS在大数据处理领域中得到了广泛应用。掌握HDFS的常用命令可以使用户高效地管理和操作文件系统中的数据。本文将详细介绍HDFS的基本命令和其用法,包括如何创建目录、上传和下载文件、文件管理操作(如移动、重命名和删除)、权限与所有权管理等。通过示例讲解,读者将能够直观理解每个命令的作用及其应用场景,同时附上相关示例。

2024-12-22 11:30:00 1662

Redis数据库+Jedis+使用Java操作Redis示例

Redis数据库+Jedis+使用Java操作Redis示例

2025-05-16

二手房数据集+多元线性回归分析+数据可视化

二手房数据集+多元线性回归分析+数据可视化

2025-04-11

广告投放效果数据集+数据分析+数据可视化

广告投放效果数据集+数据分析+数据可视化

2025-04-11

二手房数据集+数据采集+数据分析+数据可视化

二手房数据集+数据采集+数据分析+数据可视化

2025-04-11

母婴消费市场数据集+数据分析+数据可视化

母婴消费市场数据集+数据分析+数据可视化

2025-04-11

京东评论数据集+数据分析+数据可视化

京东评论数据集+数据分析+数据可视化

2025-04-11

电商-超市销售数据分析与报表

电商-超市销售数据分析与报表

2025-04-11

50个Pyecharts数据可视化案例+数据可视化+Pyecharts学习

50个Pyecharts数据可视化案例+数据可视化+Pyecharts学习

2025-04-11

豆瓣图书数据爬取代码+selenium

豆瓣图书数据爬取代码+selenium

2025-04-11

豆瓣图书数据集 129839 行

本数据集包含 129839 行,9 列,数据集包含如下字段: category_name:书籍的分类名称,可能是作者分类,如前几行均为 J.K. 罗琳相关书籍。 url:书籍在豆瓣的链接地址。 img_url:书籍图片的链接地址。 name:书籍名称。 pub:书籍的出版信息,包含作者、出版社、出版时间和价格等。 rating:书籍的评分,数据类型为 float64,部分存在缺失值。 rating_count:书籍的评价人数,以字符串形式呈现。 plot:书籍的情节简介,部分存在缺失值。 buy_info:书籍的购买信息,如价格、购买方式等,存在较多缺失值。 整体来看,这个数据集主要围绕豆瓣上的图书信息,可用于分析不同分类书籍的评分情况、不同作者作品的受欢迎程度等。

2025-04-04

上海餐饮数据集+基于Python的上海餐饮数据可视化分析+聚类分析

内容概要 这是一套完整的餐饮数据分析项目,涵盖了从数据清洗、数据分析到数据可视化的全流程。具体包括: 数据清洗:对原始的上海餐饮数据进行预处理,处理包括将数据中的0替换为空值、数据类型转换、缺失值处理、异常值处理和重复数据处理等操作,最终保存清洗后的数据。 数据分析:从多个维度对餐饮数据进行分析,如各类别和各行政区的总点评数、平均人均消费、平均评分,还进行了类别和行政区的频率分布分析,以及基于人均消费、口味评分、环境评分、服务评分和点评数的 K 均值聚类分析。 数据可视化:将分析结果以多种可视化图表呈现,如词云图、柱状图、水平条形图和分组柱状图等,直观展示数据特征。 适用人群 数据分析师:可以学习到完整的数据处理和分析流程,以及如何运用 Python 进行数据操作和可视化。 餐饮行业从业者:通过对餐饮数据的分析和可视化结果,了解不同类别和行政区的餐饮市场情况,为经营决策提供参考。 Python 编程学习者:可以借鉴代码中的数据处理技巧、数据分析方法和可视化库的使用,提升编程能力。 适用场景:餐饮市场调研、餐饮企业经营分析、数据处理和可视化教学等。

2025-03-29

1905电影数据集(27534行)

内容概要: 该数据集包含27534部电影的详细信息,每部电影的信息包括ID、链接、海报链接、标题、上映日期、状态(如是否已上映)、评分(如果有)、类型、主演等。此外,还包含了部分电影的导演、编剧、剧情简介以及改编来源(如果有的话)。值得注意的是,所有列出的电影在数据提供时均未上映,这为预测未来的票房成功、观众反应提供了潜在的研究价值。 适用人群: 电影爱好者:可以提前了解即将上映的电影,并根据个人喜好选择感兴趣的影片。 影视产业从业者:包括制片人、导演、演员等,可以用作行业趋势分析,评估市场对不同类型电影的需求。 研究人员与分析师:可用于进行电影行业的深入研究,比如观众偏好变化、特定类型电影的表现预测等。 数据科学家与机器学习工程师:作为训练推荐系统或预测模型的数据源。 媒体与娱乐公司:用于规划未来的内容策略,制定营销计划。 使用场景及目标: 内容推荐:利用用户的历史观影记录和个人偏好,推荐他们可能感兴趣的即将上映的电影。 市场预测:通过分析不同类型的电影及其主要演员的影响,预测哪些电影可能会受到欢迎。 投资决策支持:帮助投资者评估哪些电影项目值得投资,基于类似电影的历史表现。

2025-01-11

1905电影网中国地区电影数据集(27511行数据)

内容概要: 该数据集包含了27511部电影的详细信息,涵盖了从电影ID到剧情简介等多个维度的数据点。每部电影的信息包括但不限于片长、导演、上映日期、状态(如是否已上映)、评分、类型、主演、其他名称、改编来源、编剧以及简短的剧情描述。 适用人群: 电影爱好者:可以用来查找感兴趣的电影,了解电影详情。 研究人员:可用于进行电影行业趋势分析、观众偏好研究等。 数据科学家:作为机器学习或数据分析项目的一部分,用于训练模型或测试算法。 影评人:提供全面的电影信息,辅助撰写影评或进行比较分析。 制片方:了解市场动态,参考成功案例以指导新项目的开发。 使用场景及目标: 构建推荐系统:基于用户的喜好推荐相似类型的电影。 市场分析:通过分析不同类型电影的受欢迎程度来预测未来趋势。 教育培训:用作影视制作相关课程的教学材料,帮助学生理解电影构成要素。 内容策划:为媒体平台选择合适的内容,满足特定受众的需求。 文化交流:促进不同国家和地区之间的电影文化交流。

2025-01-11

豆瓣图书数据集+数据分析

内容概要 该数据集 douban_books.csv 是豆瓣读书的书籍信息,每一行代表一本书籍的详细资料。数据字段涵盖了书籍的基础信息(如书名、作者、出版社等)、出版详情(如出版年份、页数、定价等)、以及用户评价相关的信息(如评分、评论链接和各星级评价比例)。此外,还包括书籍的封面图片网络地址、国际标准书号(ISBN)、装帧类型等额外信息。 适用人群 研究人员:从事图书馆学、信息科学或社会科学研究的人可以使用此数据集来分析读者行为、书籍流行趋势等。 开发人员与数据科学家:对于正在构建推荐系统或者进行数据分析的人来说,这些数据提供了丰富的变量用于建模和算法训练。 出版业从业者:了解市场对不同类型书籍的接受度,评估竞争对手的产品,规划未来的出版策略。 营销人员:可以通过分析用户评分和评论来制定更有效的营销策略。 普通读者:寻找感兴趣的书籍,参考其他用户的评价做出更好的阅读选择。 使用场景及目标 书籍推荐系统:利用用户评分和其他元数据创建个性化书籍推荐服务。 市场分析:研究特定类型书籍的市场表现,探索不同因素如何影响书籍的成功。 学术研究:为关于文学、文化研究、读者心理学等领域提供

2025-01-09

低代码平台教你两步把SQL直接转换为RESTful API

低代码平台教你两步把SQL直接转换为RESTful API

2024-06-21

Spark-Streaming+HDFS实战

需求说明:从GBIF接口获取数据并处理为HDFS文件并映射为Hive外部表 ## 1. 目标: - 从GBIF(Global Biodiversity Information Facility)接口获取数据。 - 使用Spark Streaming处理数据。 - 将处理后的数据保存到HDFS文件系统。 - 创建Hive外部表,将HDFS文件映射为表。 ## 2. 数据源: - GBIF接口(https://api.gbif.org/v1/dataset)提供了生物多样性相关的数据集。 ## 3. 数据处理流程: - 使用HTTP请求从GBIF接口获取数据集。 - 使用Spark Streaming处理数据集,可以使用httpclient获取数据。 - 对获取的数据进行必要的转换、清洗和处理,以满足需求。 - 将处理后的数据保存到HDFS文件系统。 ## 4. HDFS文件保存: - 使用Spark Streaming将处理后的数据保存到HDFS文件系统。

2023-12-16

Spark-Streaming+Kafka+mysql实战示例

介绍一个使用Spark Streaming和Kafka进行实时数据处理的示例。通过该示例,您将了解到如何使用Spark Streaming和Kafka处理实时数据流,以及如何将处理后的数据保存到MySQL数据库中。示例涵盖了从环境搭建到代码实现的全过程,帮助您快速上手实时数据处理的开发。提供了一个完整的示例,演示了如何使用Spark Streaming和Kafka进行实时数据处理。通过该示例,我们可以学习到如何创建Kafka主题、发送消息到Kafka集群、从Kafka集群消费消息,并将消费到的消息保存到MySQL数据库中。这个示例涵盖了从数据源到数据处理和存储的完整流程,可以帮助你理解和应用实时数据处理的基本概念和技术。

2023-12-12

C语言,大一C语言实验及报告

C语言,大一C语言实验及报告

2023-11-26

程序员考试大纲.zip

程序员考试大纲.zip

2022-05-17

程序员2009-2019真题.zip

程序员2009-2019真题.zip

2022-05-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除