- 博客(4)
- 收藏
- 关注
原创 网络爬虫
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者)网络爬虫的组成在网络爬虫的系统框架中,主过程由控制器,解析器,资源库三部分组成。控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。解析器的主要工作是下载网页,进行页面的处理,主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉,爬虫的基本工作是由解析器完成。资源库是用来存放下载到的网页资源,一般都采用大型的数据库存储,如Oracle数据库,并对其建立索引。爬虫的设计中应该注意的问题第一个问题
2020-12-09 18:51:39 250
原创 大数据HDFS
**大数据HDFS** HDFS架构简介HDFS架构HDFS(Hadoop Distribute File System Hadoop分布式文件系统);HDFS是一个主/从(Master/slave)体系结构,从最终用户的角度来看,它就像传统的文件系统一样,可以通过目录路径对文件系统执行CRUD(Create、Read、Update、...
2020-11-17 16:02:50 78
原创 大数据
大数据1.AmbariApache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeepr、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。Ambari 跟 Hadoo
2020-11-10 14:50:51 78
原创 2020-10-27
大数据与计算机的联系从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。其最小的基本单位是bit,按顺序给出所有单位:bit、
2020-10-27 21:13:26 201
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人