爬虫学习
文章平均质量分 78
!!!
AI AX AT
这个作者很懒,什么都没留下…
展开
-
基础爬虫——以豆丁网《编译原理》(清华大学出版社第二版)课后习题答案为例
目录寻找目标地址规律写代码寻找目标地址规律目标地址:目标地址在此之前,讲一个小技巧,要在IE浏览器中打开这个网址,在谷歌浏览器中打开这个网址是找不到答案图片网址的,Firefox没试过。IE为什么行,我也不知道,参考网上大佬说法的。IE浏览器打开网址------》F12查看网页源码,如下图:把图片的链接复制下来找规律,如下图:非常侥幸的发现只有pageno不同,那么pageno就表示页数:写代码import osimport randomimport sysimport time原创 2021-11-12 09:54:57 · 552 阅读 · 0 评论 -
爬虫实战之爬虫漫画(有意外发现哦~嘿嘿)
漫画爬虫之动态加载(外部加载)目标网站:知音漫客(请点击这里)目标漫画:元尊(请点击这里)链接失效就自己上网搜吧~思路找到漫画目录并且拿到文字标题及其URL找到每章节漫画的内容并找出规律保存漫画提取目录及其URL首先打开知音漫客找到元尊,然后检查页面元素(F12),找到目录的body:写代码把目录及其URL取出来import requestsfrom bs4 import BeautifulSoupimport osclass downloader(obje原创 2021-07-25 21:23:19 · 5755 阅读 · 2 评论 -
爬虫实战之爬虫漫画(复现)
爬虫实战—动态网页内部加载动态网页的爬取和静态网页的爬取不一样,静态网页我们想要的资料都可以在HTML源码的页面找到,但是在动态页面中就找不到了(动态网页的内部加载可以)。下面的复现的例子是动态网页的内部加载:复现爬虫漫画目标漫画网站:请点击这里:动漫之家目标漫画:请点击这里:妖神记思路找到所有漫画章节的url找到所有章节漫画内容保存漫画所有章节的标题和URL找到目标漫画后往下拉就可看到漫画的章节标题列表:F12>元素>选择页面一个元素检查就可以定位到章节列表了:转载 2021-07-23 16:21:41 · 465 阅读 · 0 评论 -
爬虫实战之爬虫小说
爬取静态网页之爬虫小说文章目录爬取静态网页之爬虫小说复现爬虫小说看看小说的正文小说所有目录自己的爬虫小说思路:看看小说正文小说目录复现爬虫小说这里不做理论介绍,可以移步这里爬虫理论学习或者自己搜。目标URL:笔趣阁引入库:import sysimport requestsfrom bs4 import BeautifulSoup看看小说的正文url = 'https://www.bqkan8.com/1_1094/5403177.html' # 目标urlresponse =原创 2021-07-22 00:02:08 · 338 阅读 · 1 评论 -
爬虫之理论学习
爬虫之理论学习URLURL 称为 Universa Resource Locator ,即统资源定位符。举例说明:https://github .com/favicon.icohttps是访问协议github .com是访问路径favicon.ico是资源名称这样,我们就可以从网络中找到我们想要的东西。超文本网页的源代码HTML称作超文本,其英文名称叫作hypertext。浏览器按F12,Elements选项卡。HTTP请求过程浏览器向服务器发送请求->服务器处理解析请求-&g原创 2021-07-17 22:24:05 · 244 阅读 · 0 评论