爬虫
弱水三千、先干为敬
这个作者很懒,什么都没留下…
展开
-
爬虫一:发送请求, 获取数据
1、初识爬虫1.1 什么是爬虫网络爬虫本质上就是一个程序 或者 脚本, 网络爬虫按照一定规则获取互联网中信息(数据), 一般来说爬虫被分为三大模块: 获取数据 解析数据 保存数据。1.2 爬虫的分类(1)通用爬虫: 指的获取互联网中所有的数据, 不局限于网站, 行业, 分类例如:百度 谷歌 等(2)垂直爬虫: 指的获取互联网中某一个网站, 某一个行业, 某一个分类下的数据例如:慢慢买...原创 2019-09-18 16:08:20 · 1360 阅读 · 0 评论 -
爬虫二:Jsoup解析数据
1、Jsoup解析爬虫数据解析数据本质上就是在解析HTML文档,需要使用一种可以在java客户端来解析HTML文档的技术 —>jsoup1.1 导入jsoup依赖<!--jsoup html解析器--> <dependency> <groupId>org.jsoup</groupId> <artifa...原创 2019-09-18 16:22:04 · 1229 阅读 · 0 评论 -
爬虫三:小案例模拟登陆慢慢买并获取用户积分
public class ReptileLogin { @Test public void Login() throws Exception{ //确定url: String indexUrl = "http://home.manmanbuy.com/login.aspx"; //2、发送请求,获取数据 Close...原创 2019-09-18 16:25:58 · 466 阅读 · 0 评论