爬虫示例 --- python

最新推荐文章于 2024-08-01 10:56:05 发布

wjcaolinghua

最新推荐文章于 2024-08-01 10:56:05 发布

阅读量117

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/wjcaolinghua/article/details/118990658

版权

爬虫 HTML解析图片链接网页抓取本地保存

关键词由CSDN通过智能技术生成

python 专栏收录该内容

23 篇文章 0 订阅

订阅专栏

先我们要有一个带有图片的html文件，我们可以从中国国家地理网获取，打开网址：http://m.dili360.com/，任选一个自己喜欢的页面，点击鼠标右键，选择查看网页源码，将源码复制保存到本地就可以了。

实现爬虫我们分4个步骤：

1、读取保存在本地的html文件

2、解析并提取其中的图片链接

3、输出提取结果

4、保存提取结果为文件

# -*- coding:utf-8 -*-
#读取文件内容
def getHTMLLines(htmlpath):
    f=open(htmlpath,'r',encoding='utf-8')
    ls=f.readlines()
    f.close()
    return ls
#解析并提取其中的图片链接
def extractImageUrls(htmllist):
    urls=[]
    for line in htmllist:
        if 'image' in line:
            url=line.split('src=')[-1].split('"')[1]
            if 'http' in url:
                urls.append(url)
    return urls
#输出提取的结果
def showResults(urls):
    count=1
    for url in urls:
        print(f"第{count}个URL：{url}")
        count+=1
def saveResults(filepath,urls):
    f=open(filepath,'w')
    for url in urls:
        f.write(url+"\n")
    f.close()
#保存提取结果为txt文件
def main():
    inputfile='dili360.html'
    outputfile='dili360-urls.txt'
    htmlLines=getHTMLLines(inputfile)
    imageUrls=extractImageUrls(htmlLines)
    showResults(imageUrls)
    saveResults(outputfile,imageUrls)
main()

看看运行结果吧：

wjcaolinghua

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫示例 --- python

先我们要有一个带有图片的html文件，我们可以从中国国家地理网获取，打开网址：http://m.dili360.com/，任选一个自己喜欢的页面，点击鼠标右键，选择查看网页源码，将源码复制保存到本地就可以了。实现爬虫我们分4个步骤：1、读取保存在本地的html文件2、解析并提取其中的图片链接3、输出提取结果4、保存提取结果为文件# -*- coding:utf-8 -*-#读取文件内容def getHTMLLines(htmlpath): f=open(htmlpath
复制链接

扫一扫

专栏目录