python爬虫脚本实现简历模板自由(爬取站长素材简历模板)

目标网站:站长素材

抓取要求:
1.根据输入页页码进行抓取响应内容
2.根据页码建立文件夹存储本页内容
3.输出控制台正在抓取的内容

使用到的库:

import requests #请求网页
from lxml import html  #解析网页源码
import threadpool #多线程
from multiprocessing.pool import Pool #多进程
import os #创建文件夹

完整代码:

import requests #请求网页
from lxml import html  #解析网页源码
import threadpool #多线程
from multiprocessing.pool import Pool #多进程
import os #创建文件夹
header = {
    'User-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36',
}
#在前面加上
requests.packages.urllib3.disable_warnings() #移除网页警告  verify=False移除ssl证书
datalist = []
def one(data):
    url = data['url']
    page = data['page']
    try:
        os.mkdir('datas/%s'%page)
        print('文件夹'+page+'创建成功')
    except:
        print('文件夹已存在')
    res = requests.get(url,headers=header,verify=False).text
    dom = html.etree.HTML(res)
    hrefs = dom.xpath('//*[@id="container"]/div/a/@href')
    datalist.append({
        'page':page,
        'hrefs':hrefs
    })
    # print(hrefs)
    pool = threadpool.ThreadPool(10) #开启的进程数量
    requ = threadpool.makeRequests(two,datalist)
    [pool.putRequest(req) for req in requ]
    pool.wait()
def two(data):
    # print(data)
    page = data['page']
    hrefs = data['hrefs']
    for i in hrefs:
        href = 'http:'+i
        # print(href)
        res = requests.get(href,headers=header,verify=False)
        res.encoding = res.apparent_encoding
        dome = html.etree.HTML(res.text)
        title = dome.xpath('//*[@class="ppt_left fl"]/div/div/h1/text()')[0]
        # print(title)
        down_url = dome.xpath('//*[@id="down"]/div[2]/ul/li[1]/a/@href')[0]
        # print(down_url)
        con = requests.get(down_url,headers=header,verify=False).content
        with open('datas/%s/%s.rar'%(page,title),'wb') as f:
            f.write(con)
            print('存储完成:%s'%title)
def main():
    list = []
    start = int(input('输入开始页:'))
    end = int(input('输入结束页:'))
    for i in range(start,end+1):
        url1 = 'https://aspx.sc.chinaz.com/query.aspx?keyword=%E5%85%8D%E8%B4%B9&issale=&classID=864&'
        page = 'page=%s'%i
        url = url1+page
        pg = str(url).split('=')[-1]
        # print(pg)
        # print(url[-2:-1])
        list.append({
            'url':url,
            'page':pg
        })
    po = Pool(5) #开启的线程数量
    po.map(one, (list))
if __name__ =='__main__':
    main()

效果:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
抱歉,我是一个语言模型AI,我没有办法访问互联网上的数据,也没有办法编写爬虫脚本。但是,我可以为你提供一个思路和步骤,帮助你编写一个Python爬虫实现这个功能。 1. 打开浏览器,访问微博网站,并搜索关键词“如果历史是一群喵”。 2. 找到与关键词相关的微博帖子,并获取其链接。 3. 进入微博帖子页面,找到所有的动漫图片,并获取它们的链接。 4. 下载这些图片到本地。 下面是一个简单的爬虫脚本示例(仅供参考): ```python import requests from bs4 import BeautifulSoup import os # 设置要爬取的页面链接 url = 'https://s.weibo.com/weibo?q=%E5%A6%82%E6%9E%9C%E5%8E%86%E5%8F%B2%E6%98%AF%E4%B8%80%E7%BE%A4%E5%96%B5&Refer=SWeibo_box' # 发送请求,获取页面内容 response = requests.get(url) # 解析页面内容 soup = BeautifulSoup(response.content, 'html.parser') # 找到微博帖子的链接 weibo_links = soup.find_all('a', attrs={'class': 's-btn-c'}) # 遍历每个微博帖子,获取其中的图片链接,并下载图片 for link in weibo_links: # 获取微博帖子链接 weibo_url = link['href'] # 发送请求,获取微博帖子页面内容 weibo_response = requests.get(weibo_url) weibo_soup = BeautifulSoup(weibo_response.content, 'html.parser') # 找到所有的图片链接 img_links = weibo_soup.find_all('img', attrs={'class': 'bigcursor'}) # 遍历每个图片链接,下载图片到本地 for i, img_link in enumerate(img_links): img_url = img_link['src'] img_response = requests.get(img_url) # 创建文件夹 if not os.path.exists('images'): os.mkdir('images') # 下载图片并保存到本地 with open(f'images/{i}.jpg', 'wb') as f: f.write(img_response.content) print('图片下载完成!') ``` 在这个示例中,我们使用了requests库和BeautifulSoup库来获取和解析网页内容,然后遍历每个微博帖子,获取其中的动漫图片链接,并将这些图片下载到本地的images文件夹中。请注意,这个示例只是一个简单的爬虫脚本,实际应用中可能需要考虑更多的异常情况和反爬虫机制。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值