写个爬虫爬取p站画师的画作

一、爬虫所用的库是什么?

bs4.BeautifulSoup
urllib.request.urlopen

二、爬虫中出现的问题?

1.python爬虫使用的库的下载

在多次添加pip的path到系统变量里面仍然显示pip不是系统的指定命令后,在重装python后,并且将script地址加入path后,打开cmd输入pip终于显示出
Usage:
pip [options]
(pip环境安装好成功的标志)

2.编程中出现的问题和解决

(1)根据py代码的简单化准则,我将爬取整个网站的代码,分离成通过循环爬取各网页代码,网址是这样的:http://acg17.com/category/meitu/pixiv-painter/page/1/
很容易发现可以通过page后面的数字遍历于是
让url =
“http://acg17.com/category/meitu/pixiv-painter/page/{:d}/”.format(temp)

(2)然后网页里面又有很多文章通过检查发现这些文章都在标签article里面那么可以用findall函数选择出标签article

(3)通过以上操作爬到了html的网址,也就是放我需要的图片的具体网页,发现图片的标签是p.img[‘src’],但是在这个标签下的还有一些logo和精灵图等必须要的文件,通过检查发现他们的第24位到28位是large,这里就可以用if语句分开
if p.img[‘src’][24] == l:
break

2.编程未解决的问题

pic是网站中遍历的网页中的具体文章,里面有很多a标签,但是pic.a的输出只有一个,百度了很久也没有找到原因,路过的大佬帮我看看吧。

三、使用步骤

1.函数

代码如下(示例):

from urllib.request import urlopen
from bs4 import BeautifulSoup


def worm(temp):
    cards = []
    url = "http://acg17.com/category/meitu/pixiv-painter/page/{:d}/".format(temp)
    html = urlopen(url)
    bsObj 
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值