scrapy定向web描述信息
准备材料:
1.requests库、bs4库、lxml库
2.pycharm等ide环境
执行步骤:
1.导入库
from bs4 import BeautifulSoup
import requests
if __name__ == '__main__':
target = "https://www.xxxx.com/"
2.利用requests库get方法获取网页数据
r = requests.get(url=target) # 获取网页内容
3.创建bs4对象,用lxml解析
bs = BeautifulSoup(r.text, 'lxml') # 创建BeautifulSoup对象
img_url = []
title_list = []
4.找到class="title"的a标签,定位title及img_url属性
#找到class="title"的a标签
for a in bs.find_all('a', class_='title'):
#获取a标签的title属性
title_list.append(a.get('title'))
#找到a标签中的href标签
img_url.append(a.get('href'))
#输出title和href
print(a.get('title'), a.get('href'))
5.输出结果
版权原因,略