初学爬虫实战

import re
import os
import requests

url = 'http://www.shiren.org/xlib/lingshidao/gushi/tangdai.htm#001'
requests.get(url).encoding='UTF-8'
html = requests.get(url).text

def get_content(html):

    content_big = re.findall('<p><p>(.*?)<p align="center">',html, re.S)[0]
    content_little = re.findall('</a>(.*?)<p>(.*?)<p>', content_big,re.S)
    article = ""
    for i in content_little:
        for j in i:
            article = article + j.replace("<br>"," ") + '\n'

    return article


def save(article):
    os.makedirs('古诗',exist_ok=True)
    with open(os.path.join('古诗.txt'), 'w', encoding="utf-8") as f:
        f.write(article)
        return print('下载成功')

save(get_content(html))

嘿嘿嘿,又爬了一篇古诗,看来我已经会熟练使用requests库和re正则模块来进行网页数据获取了!!!( •̀ ω •́ )y,NICE!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

寒林日斜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值