day002爬虫-下厨房-lxml-treads多线程-redis多进程多线程分布式--scrapy

最新推荐文章于 2022-01-10 17:18:31 发布

#風のように

最新推荐文章于 2022-01-10 17:18:31 发布

阅读量187

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/weixin_44886210/article/details/104847166

版权

该博客详细介绍了使用Python进行网络爬虫的实践，包括利用requests和BeautifulSoup解析网页，实现qianmu.py的爬虫；通过多线程提升爬取效率，示例代码在qianmu_threads.py中；利用Redis存储中间数据，相关代码在qianmu_redis.py；最后，探讨了Scrapy爬虫框架的运用，分别展示了quotes_scrapy.py和qianmu_scrapy.py两个实例。

摘要由CSDN通过智能技术生成

curl https://www.xiachufang.com/ | grep -oP '(?<=src=\")http://i2\.chuimg\.com/\w+\.jpg' | more

curl -s https://www.xiachufang.com/ | grep -oP '(?<=src=\")http://i2\.chuimg\.com/\w+\.jpg' | xargs -i curl {
   } -O

1. requests_bs4.py

import os
from urllib.parse import urlparse
from bs4 import BeautifulSoup
import requests

r = requests.get('https://www.xiachufang.com/')
soup = BeautifulSoup(r.text)
# print(soup)

img_list = []
for img in soup.select('img'):
    if img.has_attr('data-src'):
        img_list.append(img.attrs['data-src'])
    else:
        img_list.append(img.attrs['src'])

# 初始化下载文件目录
image_dir = os.path.join(os.curdir, 'images')
# if not os.path.isdir(image_dir):
#     os.mkdir(image_dir)

for img in img_list:
    o = urlparse(img)
    filename = o.path[1:].split('@')[0]
    filepath = os.path.join(image_dir, filename)
    if not os.path.isdir(os.path.dirname(filepath)):
        os.mkdir(os.path.dirname(filepath))
    url = '%s://%s/%s' %(o.scheme, o.netloc, filename)
    print(url)
    resp = requests.get(img)
    with open(filepath, 'wb') as f:
        for chunk in resp.iter_content(1024):
            f.write(chunk)

2.qianmu.py

import requests
import lxml.etree.ElemenTree as ET

# print(str(ET.tostring(dom代码块, encoding='utf8'), 'utf-8'))

start_url = ''


def fetch(url):
    """请求并下载网页"""
    r = requests.get(url)
    if r.status_code != 200:
        r.raise_for_status()
    return r.text.replace('\t', '')


def parse_university(url):
    """处理大学详情页面"""
    selector_ = ET.HTML(fetch(url))
    data_ = {
   }
    data_['name'] = selector_.xpath('//div[@id="wikiContent"]/h1/text()')[0]
    table = selector_.xpath(&

最低0.47元/天解锁文章

#風のように

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
day002爬虫-下厨房-lxml-treads多线程-redis多进程多线程分布式--scrapy

curl https://www.xiachufang.com/ | grep -oP '(?<=src=\")http://i2\.chuimg\.com/\w+\.jpg' | morecurl -s https://www.xiachufang.com/ | grep -oP '(?<=src=\")http://i2\.chuimg\.com/\w+\.jpg' | xar...
复制链接

扫一扫

专栏目录