- 博客(4)
- 收藏
- 关注
原创 Hadoop大数据开发基础
Hadoop是一个由Apache基金会所开发的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。Hadoop充分利用集群的威力进行高速运算和存储,是大数据处理领域的核心框架之一。Hadoop主要包括两个核心组件:HDFS(Hadoop Distributed File System)和MapReduce。HDFS是Hadoop的分布式文件系统,具有高容错性,并设计用来部署在低廉的硬件上,以提供高吞吐量的数据访问,非常适合处理超大数据集。
2024-04-26 21:15:48
735
3
原创 抓取静态网页数据
urllib库是Python编写爬虫程序操作URL的常用内置库。urllib库包含四大模块:urllib.request:请求模块urllib.error:异常处理模块urllib.parse:URL解析模块urllib.robotpaser:robots.txt解析模块设置代理服务器是网络爬虫应对防爬虫的策略之一,这种策略会为网络爬虫指定一个代理服务器,借用代理服务器IP地址访问网站,掩盖网络爬虫所在主机的真实IP地址,从而达到伪装IP 地址的目的。
2023-12-23 21:37:10
945
1
原创 Matplotlib数据可视化
Matplotlib是一个Python2D绘图库,常用于数据可视化,能后以多种硬拷贝格式和跨平台的交互环境生成出版物质量的图形。并且Matplotlib还可以绘制3D图表。可以用于创建各种类型的静态、动态或交互式图表和可视化。它提供了一系列函数和工具,使得很方便地对数据进行处理和分析,并将其以图形化的方式呈现出来。
2023-12-22 11:33:01
1013
原创 Java的循环结构
循环结构可以看成是一个条件判断语句和一个向回的组合。循环结构包含三个要素:循环变量、循环体和循环终止条件。在Java中提供了四种不同的循环机制:while循环、do...while循环、for循环和foreach循环。
2023-12-07 21:47:53
817
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人