- 博客(2)
- 收藏
- 关注
原创 采集新闻网页分类并进行数据训练(局域网)
而Spider则将这几个组件组织起来,让它们可以互相交互,流程化的执行,可以认为Spider是一个大的容器,它也是WebMagic逻辑的核心。也就是对当前爬虫,进行设置,包括编码、抓取间隔、超时时间、重试次数等,也包括一些模拟的参数,例如User Agent、cookie,以及代理的设置。我们可以爬取局域网中新闻网站的各类网页,局域网中的网站只是用来示范如何爬取本实验用到的数据,在下一个实验任务中会提供完整的10个类别的新闻网页,本次实验任务以采集该网站中体育类的网页为例进行讲解。
2023-05-11 11:56:05 329
原创 Hadoop 伪分布模式安装(Hadoop3.0)
在这个模式中,所有守护进程(NameNode,DataNode,ResourceManager,NodeManager,SecondaryNameNode)都在同一台机器上运行。此外,Hadoop还包括了Hive,Hbase,ZooKeeper,Pig,Avro,Sqoop,Flume,Mahout等项目。当你看到下面流程的时候,表示程序已正常运行,hadoop环境也是没问题的。dfs.replication,配置每个数据库备份数,由于目前我们使用1台节点,所以,设置为1,如果设置为2的话,运行会报错。
2023-04-27 22:29:00 223 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人