Python 爬取特定内容的网页并保存

import requests
import re


url = "https://www.sohu.com"

url_list = []
crawl_urls=0
save_page_num = 0
r=requests.get(url)
html = r.text
#print(html)
urls=re.findall(r'href="(.*?)"',html) #
for url in urls:
    #print(url)#提取到了所有网页上的url
    url=url.strip()#去掉url的前后空格
    if url.startswith("mailto"):
        continue
    elif url.endswith("ico") or url.endswith("png") \
or url.endswith("css") or url.endswith("jpg") or url.endswith("js"):
        continue
    elif url.startswith("javascript"):
        continue
    elif url=="/":
        continue
    elif  url.startswith("//"):
        url = "https:" +url
        url_list.append(url)
    else:
        url_list.append(url)


for url in url_list:
    print(url)
    if not url:
        continue
    crawl_urls+=1
    r=requests.get(url)
    if "汽车" in r.text:
        save_page_num+=1
        with open("e:\\count\\"+str(save_page_num)+".html","w",encoding="utf-8") as fp:
            fp.write(r.text)
        

print("一共爬了%s个网页"  %crawl_urls)
print("一共保存了%s个网页"  %save_page_num)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值