Java爬虫
文章平均质量分 88
Java爬虫
登峰小蚁
编程,运动,顺便把钱赚了。
展开
-
java爬虫-0010,资源篇
爬虫:模拟用户操作浏览器获取信息,即模拟发送request请求,获取response对象,解析获取自己需要的数据。 1、源码下载工具: 1.1 httpclient:可以抓取未经过js渲染的源代码,速度较快。 参考博客:https://blog.csdn.net/lupangdelu/article/details/51007862 ...原创 2018-10-05 19:13:30 · 2276 阅读 · 0 评论 -
java爬虫-0020,httpclient获取源码
项目地址:https://github.com/wenrongyao/java_crawler 1、导入httpclient依赖 <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient<...原创 2018-10-05 19:11:29 · 3316 阅读 · 1 评论 -
java爬虫-0022,模拟登录
项目地址:https://github.com/wenrongyao/java_crawler 基本原理:用户输入登录信息=>登录成功,服务器将登录成功的信息发送的前台,通常存在cookie中=>后续请求带上登录成功的cookie信息,在服务器即视为登录成功 基本步骤:通过谷歌的开发者工具,抓取登录包=>分析出登录需要传递的数据(sublime全局搜索的妙用)=>请求服...原创 2018-10-05 20:43:24 · 7449 阅读 · 0 评论