网络爬虫
zhuxinquan61
...
展开
-
RSS2.0规范简易说明
直接贴上一个rss的说明,标签的注释部分代表可选标签,内部子标签同样使用注释代表可选标签。<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/css" href="url"?><rss version="2.0"> <channel> <title>订阅频道名称</title>原创 2016-05-03 11:18:52 · 1918 阅读 · 0 评论 -
HttpClient返回403 forbiddenn问题
想要做一个群博(本身是有的,由于CSDN的rss订阅不符合规范没法进行抓取,自己打算手动实现抓取操作),但是通过HttpClient进行网页源码获取的时候竟然发现返回的是403 forbidden,有点尴尬了。然后网上查找资料之后发现说是要设置请求参数,然后想着是不是HttpClient是不是有什么setParameter方法,找了一下果然有,然后向下面这样设置了参数: HttpClient原创 2016-04-22 10:40:36 · 8973 阅读 · 0 评论 -
一个简单的爬虫(1)
在学习了简单的java语法之后,练习使用java做一个简单的爬虫,将一个电影网页的电影介绍爬下来,首先需要了解爬虫是什么! 网络爬虫(简称爬虫,又名网页蜘蛛、网络机器人),是一种按照按照一定的规则,自动地抓取万维网信息的程序或者脚本。在了解了网络爬虫的概念之后,我们需要知道如何去爬,首先我们需要获取到这些信息,如同我们访问网页请求链接返回我们需要的数据一样,我们需要首先获取到网页的信息,这里我原创 2016-01-11 21:01:43 · 889 阅读 · 0 评论 -
一个群博系统的简单实现
首先说一下背景:小组内的群博本来是有的,但是由于成员博客种类的不同,不同的博客平台提供的rss订阅的标签不相同,因而使用统一的抓取会因为标签的不同而终止。关于rss订阅的规范可以查看RSS2.0规范简易说明。群博的页面链接是:西邮linux兴趣小组群博一个简单的群博分为两个部分,一个是抓取的部分,一个是展示的部分,首先说一下抓取的部分。博文的抓取本身rss订阅会提供很多的信息供用户阅读,但是这里实现原创 2016-09-07 20:47:03 · 5105 阅读 · 9 评论