- 博客(183)
- 资源 (20)
- 收藏
- 关注
原创 Python数据可视化 - Pyecharts绘图示例
Pyecharts 是一个基于 Python 的开源数据可视化库,依赖 JavaScript 的 ECharts 库,能够生成交互式、高可定制的动态图表。它支持多种图表类型,如折线图、柱状图、地图等,并具备丰富的交互功能。Pyecharts 的优势在于易用性和表现力,能够与 Pandas 等数据处理库结合,适用于数据分析师、开发人员和科研人员。安装 Pyecharts 可通过 pip 命令完成。
2025-05-18 22:25:23
1118
原创 Neo4j(一) - Neo4j安装教程(Windows)
本文详细介绍了在Windows系统上搭建JDK与Neo4j开发环境的全流程。首先,梳理了JDK与Neo4j的版本对应关系,确保版本兼容性。接着,提供了JDK11的下载、解压及环境变量配置的图文指南,并验证配置是否成功。随后,介绍了Neo4j的下载、解压、环境变量配置及启动步骤,包括控制台模式与后台服务模式的使用场景。最后,展示了如何通过浏览器访问Neo4j的Web UI界面并进行登录与密码设置。本文旨在帮助开发者快速完成环境搭建,为基于Neo4j的图数据开发奠定基础。
2025-05-16 23:38:59
886
原创 Redis(三) - 使用Java操作Redis详解
本文介绍了如何使用 Java 操作 Redis 数据库,重点讲解了通过 IDEA + Maven 搭建开发环境,并基于 Jedis 客户端实现 Redis 的常用操作。文章首先演示了如何创建 Maven 项目并导入 Jedis 依赖,随后详细展示了 Redis 键和字符串数据类型的操作示例,包括键的创建、查询、删除以及字符串的设置、获取、修改等操作。通过代码示例,帮助 Java 开发者快速掌握 Redis 的基本操作逻辑与编程接口。
2025-05-16 14:08:39
868
原创 MongoDB(六) - Studio 3T 基本使用教程
本文将围绕 Studio 3T 的基本使用进行详细介绍,涵盖数据库、集合和文档的常见操作,并结合 IntelliShell 与 SQL 查询功能,帮助开发者提升工作效率。通过图文并茂的方式,旨在帮助初学者快速上手 Studio 3T,掌握其核心功能并应用于实际开发中。
2025-05-08 14:24:59
787
原创 Hadoop生态圈框架部署 - Windows上部署Hadoop
Hadoop作为大数据领域的基石框架,在数据存储与处理方面展现出了卓越的性能与强大的扩展性,为海量数据的高效管理与分析提供了有力支撑。在当今数字化浪潮席卷全球,数据量呈爆发式增长的时代背景下,掌握Hadoop的安装与配置技能显得尤为重要,它是开启大数据世界大门的一把关键钥匙。无论是企业希望从繁杂的数据中挖掘商业价值,还是科研人员致力于数据分析以推动学术研究进展,Hadoop都能发挥其独特的优势。
2025-04-25 23:43:23
1283
原创 豆瓣图书数据采集与可视化分析(三)- 豆瓣图书数据统计分析(Pandas)
本项目旨在通过对豆瓣图书数据集的详细分析,挖掘其中隐藏的规律和趋势,为图书出版行业、读者以及相关研究人员提供有价值的参考。从数据读取与保存这一基础环节出发,构建了完善的数据处理流程,确保能够高效地获取和存储清洗后的高质量数据,为后续分析筑牢根基。在数据分析阶段,从多个维度展开深入探究。在不同分类统计分析中,详细剖析了各类图书在数量、平均评分、平均评价人数以及平均价格等方面的表现,有助于出版方精准把握市场需求,读者快速定位感兴趣的图书类别。
2025-04-25 17:26:38
1006
原创 豆瓣图书数据采集与可视化分析(二)- 豆瓣图书数据清洗与处理
本项目围绕豆瓣图书数据集展开,详细阐述了从数据的初步查看、各列数据的处理(包括拆分、格式转换、异常值处理等),到缺失值和重复值的处理,以及最终将处理后的数据保存到数据库的整个过程。
2025-04-20 17:38:37
156
原创 豆瓣图书数据采集与可视化分析(一)- 豆瓣图书数据爬取
本项目将通过数据爬取技术,深入挖掘豆瓣图书分类标签页面以及各分类下的图书详细页面,采集关键信息,并运用合理的数据处理手段对采集到的数据进行清洗、整合,最终形成高质量的数据集。希望通过此次实践,不仅能为后续针对图书数据的分析与应用搭建良好的数据基石,也能为对数据采集与处理感兴趣的同行提供有价值的参考与借鉴,共同探索数据背后的无限可能,进一步推动图书相关领域在数据驱动下的创新发展。
2025-04-19 15:10:41
347
原创 Redis(二) - Redis命令详解
在当今数据驱动的应用开发领域,高效的数据存储与管理至关重要。Redis,作为一款高性能的键值对存储数据库,以其出色的性能、丰富的数据结构和广泛的应用场景,成为了众多开发者构建强大应用的得力工具。无论是缓存数据以加速应用响应,还是处理实时数据、实现分布式锁,Redis 都能发挥关键作用。本教程旨在为初学者和有一定经验的开发者,全面且系统地介绍 Redis 的基础操作,助力读者快速上手 Redis,开启高效数据处理的大门。
2025-04-18 17:54:22
945
原创 Redis(一) - Redis安装教程(Windows + Linux)
在当今数字化时代,数据处理与存储的高效性对于各类应用程序的成功运行至关重要。Redis,作为一款高性能的键值对存储数据库,以其卓越的速度、丰富的数据结构和强大的功能,在众多技术场景中发挥着关键作用,已然成为现代软件开发中不可或缺的一部分。无论是构建高并发的 Web 应用,还是优化数据缓存策略,Redis 都能为开发者提供出色的解决方案,助力项目提升性能与用户体验。本文旨在为广大技术爱好者和开发者详细阐述 Redis 在不同操作系统环境下的安装流程,涵盖 Windows 与 Linux 两大主流平台。
2025-04-16 14:13:31
1415
原创 豆瓣图书数据采集与可视化分析
并将这个数据表格保存为一个 CSV 文件,文件名为 “图书分类标签.csv”,存储在 “原始数据层” 文件夹下,保存时不包含索引列,并使用特定的编码格式(utf-8-sig)以确保中文字符的正确保存和读取。将提取到的每个图书分类标签的名称和对应的链接地址,以字典的形式存储,字典的键分别为 ‘name’ 和 ‘href’,值分别为标签名称和链接地址。对于每个选中的链接元素,提取其文本内容作为图书分类标签的名称,同时提取其链接地址,并将相对链接地址拼接上豆瓣读书的基础网址,得到完整的绝对链接地址。
2025-04-15 23:42:39
1620
原创 基于SpringBoot和Vue的SQL TO API平台的设计与实现
在当今数字化飞速发展的时代,数据的价值愈发凸显,高效的数据交互与共享成为企业和组织提升竞争力的关键因素。传统的数据库操作方式,往往需要专业的数据库知识和复杂的 SQL 语句,这在一定程度上限制了数据的广泛应用和快速开发。为了打破这一壁垒,实现 SQL 数据与外部系统的便捷交互,基于 Spring Boot 和 Vue 构建的 SQL TO API 平台应运而生。Spring Boot 作为一款轻量级的 Java 开发框架,以其高效、便捷的特性,极大地简化了后端开发流程,提高了开发效率和代码的可维护性。
2025-03-28 16:58:40
927
原创 MongoDB(五) - Studio 3T 下载与安装教程
本文旨在全面且深入地为你介绍 Studio 3T。从其丰富的功能特性、跨平台使用的便捷性,到详细的下载安装步骤,以及关键的连接 MongoDB 操作,都将一一展开。无论你是初涉数据库领域的新手,渴望快速上手 MongoDB 管理工具;还是经验丰富的开发者或数据库管理员,寻求提升工作效率、优化数据库操作的方法,本文都将为你提供有价值的指引,助力你在使用 Studio 3T 管理 MongoDB 的道路上畅通无阻,充分挖掘数据的潜力,为项目的成功实施奠定坚实基础。
2025-03-23 15:56:48
1814
2
原创 MongoDB(四) - 掌握 Python 操作 MongoDB,看这一篇就够了
在当今数据驱动的时代,数据库管理与操作对于开发者而言至关重要。MongoDB 作为一款广受欢迎的非关系型数据库,以其灵活的文档模型、卓越的可扩展性和出色的性能,在各类项目中得到广泛应用。Python 作为一种简洁高效、功能强大的编程语言,为操作 MongoDB 提供了便利且强大的工具集。
2025-03-22 23:01:43
1327
原创 MongoDB(三) - 掌握 Java 操作 MongoDB,看这一篇就够了
在现代软件开发中,数据库操作是至关重要的一环。MongoDB 作为一款流行的 NoSQL 数据库,以其灵活的数据模型、高扩展性和出色的性能,被广泛应用于各类项目中。本文将详细介绍如何在 Java 项目中使用 MongoDB,从项目创建、依赖导入,到数据库、集合、文档的各种操作,以及聚合查询等高级应用,帮助读者快速掌握在 Java 环境下操作 MongoDB 的技能。
2025-03-22 22:01:45
990
原创 用通俗易懂的语言讲算法
本文旨在打破这一知识壁垒,以通俗易懂的语言,结合生动形象的生活实例,详细阐述各类常用数据分析与挖掘方法。让每一位读者,无论是否具备深厚的数学基础,都能轻松理解这些方法的核心思想,并清晰知晓在实际场景中如何运用它们。
2025-03-12 00:41:26
894
原创 MongoDB(二) - MongoDB命令详解
本文是 MongoDB 的操作指南,全面介绍了其在数据库、集合、文档、索引、用户权限管理等方面的操作。开篇点明 MongoDB 在数据管理领域的重要性,随后详细阐述各项操作。数据库操作涵盖切换、创建、查看和删除数据库;集合操作包括创建、查看和删除集合;文档操作涉及插入、更新、删除和查询,查询又分为基本查询、条件查询、数组查询等多种方式,并介绍了聚合操作和 Map - Reduce 操作。索引操作讲解了索引类型、创建、查看和删除方法。用户权限管理介绍了内置角色和权限,以及用户的创建、查看、修改和删除操作。
2025-03-10 11:34:13
1523
原创 MongoDB(一) - MongoDB安装教程(Windows + Linux)
本教程旨在为读者提供详尽且易懂的Windows和Linux系统中单机MongoDB的安装指南,从下载安装包开始,逐步深入到环境变量配置、目录与文件创建、配置文件调整,再到最后的启动与客户端访问,每一个步骤都配有清晰的操作说明和直观的截图示例,确保无论是初涉数据库领域的新手,还是寻求快速部署方案的专业人士,都能轻松上手,顺利搭建起属于自己的MongoDB运行环境,为后续的数据存储、查询与分析工作奠定坚实基础。
2025-03-08 15:07:58
5650
11
原创 Python爬虫(四)- Selenium 安装与使用教程
本文旨在为读者提供一个全面且详细的指南,帮助你从零开始学习并掌握Selenium的基础知识及其高级功能。无论你是刚开始接触自动化测试的新手,还是希望深入理解Selenium工作机制的经验丰富的开发者,本书都将为你提供所需的知识和技术细节。我们将从Selenium的基本概念入手,逐步介绍如何安装配置环境,以及如何使用Selenium进行Web页面的基本操作,如启动浏览器、打开网页、元素查找与操作等。
2025-02-24 20:58:30
3307
原创 Python数据可视化 - Matplotlib教程
在数据分析和可视化的过程中,图形的呈现往往是理解数据的重要环节。Matplotlib作为Python中最流行的绘图库之一,提供了丰富的功能和灵活的接口,使得用户能够轻松创建各种类型的图表。无论是简单的线图、散点图,还是复杂的3D图形和小提琴图,Matplotlib都能满足不同的需求。本篇文章将详细介绍Matplotlib的基本使用,包括安装、核心模块Pyplot的功能、各种图形的绘制方法以及如何自定义图表的样式和属性。
2025-02-14 17:20:34
1301
原创 Python - NumPy基础使用教程
NumPy(Numerical Python)是Python中用于科学计算的核心库之一。它提供了高性能的多维数组对象和用于处理这些数组的工具。NumPy是许多其他科学计算库的基础,如Pandas、SciPy、Matplotlib等。本文从NumPy的基础知识开始,逐步深入,介绍了NumPy数组的创建、索引与切片、数学运算、广播机制、线性代数运算、随机数生成、文件操作以及性能优化等内容。希望通过本文的学习,你能够掌握NumPy的核心功能,并能够在实际项目中灵活运用。
2025-02-12 17:04:58
1550
原创 HiveQL命令(三)- Hive函数
在大数据处理和分析的过程中,数据的转换和处理是至关重要的环节。Apache Hive作为一种流行的数据仓库工具,提供了丰富的内置函数,帮助用户高效地处理和分析存储在Hadoop分布式文件系统(HDFS)中的数据。这些内置函数涵盖了数值计算、字符串处理、日期与时间操作、条件判断、聚合计算、集合处理、类型转换以及用户定义的表生成函数(UDTF)等多个方面。本篇文章将详细介绍Hive中的内置函数,包括它们的功能、用法和示例。通过对这些函数的深入理解,用户可以更灵活地进行数据查询和分析,提升数据处理的效率和准确性。
2025-02-09 22:10:49
1426
1
原创 HiveQL命令(二)- 数据表操作
在大数据时代,数据的存储与管理变得尤为重要。Apache Hive作为一种数据仓库工具,提供了一种方便的方式来处理和分析存储在Hadoop分布式文件系统(HDFS)中的大规模数据。通过Hive,用户可以使用类似SQL的查询语言(HiveQL)来执行数据操作,而无需深入了解底层的MapReduce编程模型。本篇文章将详细介绍Hive中数据表的操作,包括创建、查看、修改和删除表的基本语法和示例。我们还将探讨分区表和分桶表的概念及其在优化查询性能方面的重要性。此外,临时表的使用场景和创建方法也将被涵盖。
2025-02-09 18:37:58
1352
原创 1905电影网中国地区电影数据分析(二) - 数据分析与可视化
在数据科学的领域,数据分析和可视化是理解和解释数据的重要工具。通过对数据的深入分析,我们能够揭示潜在的趋势、模式和关系,从而为决策提供有力支持。本项目旨在对从1905电影网爬取的电影数据进行全面的数据分析与可视化,帮助我们更好地理解电影行业的动态和特征。本项目的分析分为几个主要部分:描述性分析、类别分布分析、模式识别分析、时间序列分析和相关性分析。我们将使用Python的Pandas库进行数据处理,并通过SQLAlchemy将分析结果存储到MySQL数据库中。
2025-01-25 14:12:22
993
原创 1905电影网中国地区电影数据分析(一) - 数据采集、清洗与存储
本项目旨在通过爬取1905电影网的电影数据,展示如何使用Python及相关库进行网页数据采集。本项目将详细介绍数据采集的步骤,包括所需的Python库版本、网页分析、数据提取和保存等环节。我们将使用requests库进行网络请求,利用BeautifulSoup进行HTML解析,并将最终的数据保存为CSV文件,便于后续分析和处理。
2025-01-22 21:19:13
2140
1
原创 Python数据处理(三)- Pandas 数据清洗
本书旨在为读者提供一个全面的指南,涵盖了使用 Pandas 进行数据清洗的各个步骤和方法。通过详细的解释和示例代码,读者将能够掌握如何检测和处理缺失值、识别和删除重复数据、处理异常值、进行数据格式转换,以及如何选择和过滤数据。这些技能将为后续的数据分析和建模打下坚实的基础。
2025-01-19 11:30:00
894
原创 Python数据处理(二)- Pandas 文件操作
在第一部分,我们将详细介绍 CSV 文件的操作,包括如何读取和写入 CSV 文件,以及如何处理缺失值和自定义分隔符。接着,我们将探讨 Excel 文件的处理,涵盖从读取到写入的各个方面,帮助读者掌握 Excel 文件的操作技巧。最后,我们将介绍 JSON 文件的读取和写入,展示如何在数据交换中有效使用这种轻量级的数据格式。
2025-01-17 20:05:37
1039
原创 Python数据处理(一)- Pandas 安装与数据结构介绍
在当今数据驱动的世界中,有效地处理和分析数据已成为众多领域不可或缺的一部分。从科学研究到商业决策,数据分析能力为理解复杂现象、发现模式以及做出明智选择提供了坚实的基础。随着大数据时代的到来,对高效且易于使用的数据处理工具的需求日益增长。Pandas 应运而生,作为一个强大的开源数据处理与分析库,它专为 Python 编程语言设计,旨在简化结构化数据分析流程。
2025-01-15 17:27:08
1249
原创 Hadoop - MapReduce编程
在当今数据驱动的时代,大数据的概念已经深入人心。随着信繁多,包括结构化数据、半结构化数据和非结构化数据。如何有效地处理、分析和利用这些数据,成为了各行各业亟待解决的问题。MapReduce是一种编程模型和处理框架,旨在简化大规模数据集的处理。本篇文章将详细介绍如何创建一个简单的MapReduce项目息技术的快速发展,企业和组织面临着海量数据的挑战。这些数据不仅体量庞大,而且种类,并使用MapReduce编程模型实现一个基本的词频统计功能。
2025-01-10 18:14:51
1332
原创 HDFS编程 - 使用HDFS Java API进行文件操作
本文将详细介绍如何使用Java编程语言与HDFS进行交互。我们将通过创建一个简单的Maven项目,逐步演示HDFS的常用Java API,包括创建目录、上传和下载文件、查看文件内容、删除文件等操作。通过这些示例,读者将能够掌握基本的HDFS操作,并为后续的大数据处理打下坚实的基础。Hadoop分布式文件系统(HDFS)是Apache Hadoop的核心组件之一,设计用于存储大量的数据,并提供高吞吐量的数据访问。
2025-01-09 16:52:24
1064
原创 Python爬虫 - 豆瓣图书数据爬取、处理与存储
在数字化时代,网络爬虫技术为我们提供了强大的数据获取能力,使得从各类网站提取信息变得更加高效和便捷。豆瓣读书作为一个广受欢迎的图书评价和推荐平台,汇聚了大量的书籍信息,包括书名、作者、出版社、评分等。这些信息不仅对读者选择图书有帮助,也为出版商和研究人员提供了宝贵的数据资源。本项目旨在通过 Python 爬虫技术,系统性地抓取豆瓣读书网站上的图书信息,并将其存储为结构化的数据格式,以便后续分析和研究。我们将使用 requests 和 BeautifulSoup 库进行网页请求和数据解析,利用 pandas
2025-01-04 23:26:32
2990
6
原创 Python爬虫 - 豆瓣电影排行榜数据爬取、处理与存储
在当今数据驱动的时代,信息的获取与分析变得尤为重要。电影作为一种广受欢迎的文化产品,其相关数据的挖掘与分析不仅能帮助观众更好地选择影片,还能为电影行业提供有价值的市场洞察。本文将详细介绍如何利用 Python 爬虫技术从豆瓣电影网站获取电影排行榜数据,并将其存储到 MySQL 数据库中,以便后续进行统计分析和探索性数据分析(EDA)。我们将首先分析爬取的需求,明确要获取的电影分类及其详细信息。
2024-12-30 22:55:30
1895
2
原创 Python爬虫(三)- BeautifulSoup 安装与使用教程
本篇文章将详细介绍BeautifulSoup的基本概念、安装步骤、解析器的比较,以及如何使用该库解析HTML文档。我们将通过实际示例演示如何使用BeautifulSoup获取标签、属性和内容,帮助读者快速上手并应用于实际项目中。是一个用于解析 HTML 和 XML 文档的 Python 库,它帮助你从网页中提取数据。这个库非常灵活,并且可以与多种不同的解析器一起工作,比如 Python 内置的lxml或者html5lib。pythonrequestsbs4soupsievelxml版本。
2024-12-29 23:01:41
3751
1
原创 Python爬虫(二)- Requests 高级使用教程
在现代网络应用中,HTTP 请求和响应的处理是至关重要的。Python 的 requests 库以其简洁易用的接口,成为了开发者进行网络请求的首选工具。无论是简单的 GET 请求,还是复杂的身份认证、会话管理、代理设置,requests 都能轻松应对。本文将深入探讨 requests 库的各个方面,包括 Session 对象的使用、请求与响应的处理、SSL 证书验证、流式上传和请求、代理配置、编码方式处理以及身份认证等。Session 对象允许跨多个请求保持某些参数不变。
2024-12-29 13:57:41
2932
2
原创 Python爬虫(一)- Requests 安装与基本使用教程
本篇文章将详细介绍 requests 库的基本用法,包括安装、发送请求、处理响应、传递参数等内容。通过这些内容,读者将能够掌握如何使用 requests 库进行高效的网络请求,从而为后续的项目开发打下坚实的基础。希望本文能帮助您更好地理解和应用 requests 库,提升您的 Python 编程技能。requests是一个用于发送HTTP请求的Python库,它简化了与Web服务交互的过程,使开发者能够轻松地构建和解析HTTP请求和响应。其简洁易用的API设计使得即使是初学者也能快速上手。python。
2024-12-28 20:53:10
3739
1
原创 hdfs命令(三)- hdfs 管理命令(三)- hdfs dfsadmin命令
本文档旨在详细介绍 hdfs dfsadmin 的主要功能及其使用方法,帮助读者更好地掌握如何利用这一工具来管理和优化HDFS集群。我们将按照不同的类别组织命令,并提供详细的语法说明和实际应用示例,以便于读者快速查找所需信息并应用于实践当中。是Hadoop分布式文件系统(HDFS)提供的一个管理工具,主要用于执行与HDFS集群管理和维护相关的各种操作。这些命令通常需要以HDFS超级用户的身份运行,因为它们涉及到对整个文件系统的控制和配置调整。
2024-12-27 22:40:09
1187
原创 hdfs命令(三)- hdfs 管理命令(二)- hdfs crypto命令
本文旨在详细介绍如何使用命令行工具来管理这些加密区域,包括创建、列出、启用垃圾回收、获取加密信息、重新加密以及监控重新加密状态等操作。命令是Hadoop分布式文件系统(HDFS)中用于管理和操作加密区域(Encryption Zones, EZs)的工具。它允许用户创建、列出和管理加密区域,以及处理与加密相关的其他任务。
2024-12-27 12:59:58
702
原创 hdfs命令(三)- hdfs 管理命令(一)- hdfs cacheadmin命令
本文介绍hdfs cacheadmin命令的使用方法及其各个子命令的具体功能,帮助读者理解如何高效地管理和配置HDFS缓存,从而根据实际需求定制缓存策略。命令提供了一系列子命令用于管理和配置HDFS缓存。
2024-12-27 12:57:24
1280
原创 hdfs命令(二)- hdfs --daemon命令
在大数据时代,Hadoop分布式文件系统(HDFS)作为核心组件之一,承担着存储和管理海量数据的重任。为了确保HDFS的高可用性和稳定性,系统中运行着多个守护进程(daemons),每个守护进程负责特定的功能和任务。这些守护进程包括NameNode、DataNode、Secondary NameNode、JournalNode等,它们共同协作,维护HDFS的正常运行。本文将探讨HDFS中的hdfs --daemon命令,介绍如何启动、停止和管理这些守护进程。
2024-12-22 16:51:59
1428
原创 hdfs命令(一)- hdfs dfs命令
Hadoop分布式文件系统(HDFS)是一种基于Java的,设计用于存储和处理大规模数据集的文件系统。由于其可靠性和高效的存储能力,HDFS在大数据处理领域中得到了广泛应用。掌握HDFS的常用命令可以使用户高效地管理和操作文件系统中的数据。本文将详细介绍HDFS的基本命令和其用法,包括如何创建目录、上传和下载文件、文件管理操作(如移动、重命名和删除)、权限与所有权管理等。通过示例讲解,读者将能够直观理解每个命令的作用及其应用场景,同时附上相关示例。
2024-12-22 11:30:00
1662
豆瓣图书数据集 129839 行
2025-04-04
上海餐饮数据集+基于Python的上海餐饮数据可视化分析+聚类分析
2025-03-29
1905电影数据集(27534行)
2025-01-11
1905电影网中国地区电影数据集(27511行数据)
2025-01-11
豆瓣图书数据集+数据分析
2025-01-09
Spark-Streaming+HDFS实战
2023-12-16
Spark-Streaming+Kafka+mysql实战示例
2023-12-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人