爬虫
观棋老人
这个作者很懒,什么都没留下…
展开
-
gecco的模拟登录(仅供学习)
gecco的模拟登录,感觉还有更优化的,希望有大佬能优化一下一、java获取cookie二、gecco保存cookie值第一个类 Login第二个类 Login_In 一、java获取cookie 啥也不说,看代码(这是爬取的一个小说网站的个人书架) public Map<String, String> Login_In(String loginUrl) throws IOEx...原创 2019-11-26 16:40:00 · 1380 阅读 · 0 评论 -
python爬虫简易使用(该博客仅供学习,谢谢)
python爬虫简易使用一、一个简易的爬虫的逻辑1.爬取一个不需要登录的网页,如京东,百度等可以直接加入查询东西,而不是人人网这些需要登录才能得到数据的网页,就可以直接通过模拟网页请求的方式获取到所需的数据2.爬取一个需要登录的网页,就需要获取到登录的cookie值才能保证你能获取到登录后的数据,其他操作与无登录的操作一样二、代码上手1.爬取的步骤登录使用cooike获取登陆后的网页信息 一、一个...原创 2019-11-22 15:51:52 · 213 阅读 · 0 评论 -
Gecco的简单使用(附demo)该文章仅用于学习,谢谢
Gecco的简单使用(附demo)该文章仅用于学习,谢谢Gecco的Maven的xml引入Gecco的简单代码1.Frist 第一个,用于锁定需要爬取的代码块,如下面代码的@HtmlField(cssPath)的内容,就是锁定了专属的dl,如下代码的main是爬取开始的地方,可以写在其它类里2.Frist_type 第二个,表示Frist的拓展,在dl的下面进行细节爬取,这样做可以降低搜索时间和减...原创 2019-11-22 10:50:57 · 1361 阅读 · 0 评论