网络爬虫 Python 下载贴吧中的图片（学习笔记）

最新推荐文章于 2023-01-16 16:30:29 发布

Monica_Zzz

最新推荐文章于 2023-01-16 16:30:29 发布

阅读量178

点赞数

本文链接：https://blog.csdn.net/weixin_44819497/article/details/103087630

版权

import urllib.request
import re

#获取网页源代码
def getHtml(url):
    page=urllib.request.urlopen(url)
    html=page.read()
    return html

#获取网页内所有图片地址
def getImg(html):  
    #reg=r'src="([.*\S]*\.jpg)" pic_ext="jpeg"'
    reg = r'src="(.*?\.jpg)" size="'#图片的正则表达式
    imgre=re.compile(reg)#编译正则表达式
    imglist=re.findall(imgre,html)#在html中找到所有符合imgre的图片地址
    return imglist

#任意网页的URL地址，获取html
html=getHtml('http://tieba.baidu.com/p/6236544820')
#修改html字符编码
html=html.decode('utf-8')
#获取图片地址
imgList=getImg(html)
#存储图片
imgName=0
for imgPath in imgList:
    f=open('/img/%s.jpg'%imgName,'wb')
    f.write(urllib.request.urlopen(imgPath).read())
    f.close()
    imgName+=1
    print("正在下载第%s张图片"%imgName)
print("该网站图片已经下载完成")

优惠劵

Monica_Zzz

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫 Python 下载贴吧中的图片（学习笔记）

import urllib.requestimport re#获取网页源代码def getHtml(url): page=urllib.request.urlopen(url) html=page.read() return html#获取网页内所有图片地址def getImg(html): #reg=r'src="([.*\S]*\.jpg)" ...
复制链接

扫一扫

python3贴吧爬虫

04-13

python3实现的百度贴吧爬虫，可自动登录，自动关注贴吧成员，这一版本使用cookie登录

Python抓取百度贴吧网页信息代码

11-23

代码是抓取百度贴吧帖子的回复内容的。包括帖子标题、帖子回复数量，帖子页码，回复楼层、回复时间，也可以只查看楼主的回复信息。最后将获取到的帖子信息记录到记事本中。博客地址：http://blog.csdn.net/u010156024/article/details/49995797

参与评论您还未登录，请先登录后发表或查看评论

python爬虫实践之百度贴吧网页下载

二木成林

11-29

344

目录概述准备所需模块涉及知识点运行效果完成爬虫 1. 分析网页 2. 爬虫代码 3. 完整爬虫 4. 整理总结概述下载百度贴吧的网页。准备所需模块 time urllib.parse urllib.request 涉及知识点 python基础前端基础 urllib模块基础运行效果控制台打印：电脑本地文件：打开其中之...

用python批量下载贴吧图片附源代码

a15539181818的博客

04-03

216

环境：windows 7 64位；python2.7；IDE pycharm2016.1 功能：　　批量下载百度贴吧某吧某页的所有帖子中的所有图片使用方法：　　1.安装python2.7，安装re模块，安装urllib2模块　　2.复制以下源代码保存为tbImgiDownloader.py文件　　3.打开某个贴吧并复制其网址　　4.打开文件tb...

python爬取网上图片

soophoop的博客

05-01

868

在网上看到一个使用python爬虫的小程序，自己学习了一下，下面来看一下这个程序实现的过程：目的：抓取网页上的图片。步骤：1、拿到网页的源码 2、用正则表达式匹配出网页上图片的URL 3、把图片保存到电脑中一、获取网页源码的程序为： import urllib #urllib是python进行网络访问的基础模块 #比如获取贴吧

Python学习笔记-网络爬虫基础

向往的是：佛祖堂前的鱼，静静听禅。

01-16

1624

网络爬虫概述网络爬虫又称网络蜘蛛、网络机器人，在某社区中经常被称为网页追逐者。网络爬虫可以按照指定规则自动浏览或抓取网络中的信息，python可以很轻松的编写爬虫程序或脚本。

python网络爬虫学习笔记（1）

09-20

主要为大家详细介绍了python网络爬虫学习笔记的第一篇，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

python 爬虫学习笔记

03-09

python 爬虫学习笔记

python爬虫学习笔记-scrapy框架(1)

01-29

python爬虫学习笔记-scrapy框架(1) python scrapy 爬虫 python爬虫学习笔记-scrapy框架(1) python scrapy 爬虫 python爬虫学习笔记-scrapy框架(1) python scrapy 爬虫 python爬虫学习笔记-scrapy框架(1) python ...

最牛逼的Python爬虫学习笔记，学习过程中记录的笔记

08-18

第1段：爬虫原理与数据抓取爬虫能做些什么通用爬虫和聚焦爬虫URL的意义（了解）关于HTTP和 HTTPS HTTP代理工具 Fidder HTTP的请求与响应urlib2：Python的标准模块案例：批量爬取页面数据 URLError与 ...

python爬虫四：爬取贴吧数据

qq_38788128的博客

05-24

8202

# -*- coding: utf-8 -*- import requests import time from bs4 import BeautifulSoup import io import sys #sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gbk') #改变标准输出的默认编码 #生活大爆炸吧 ''' # 标题&...

网络爬虫有什么用？怎么爬？手把手教你爬网页（Python代码）

热门推荐

大数据

04-24

3万+

导读：本文主要分为两个部分：一部分是网络爬虫的概述，帮助大家详细了解网络爬虫；另一部分是HTTP请求的Python实现，帮助大家了解Python中实现HTTP请求的各种方...

python根据关键词下载图片_一个简单的Python爬虫实例：百度贴吧页面下载图片

weixin_39926103的博客

11-22

本文主要实现一个简单的爬虫，目的是从一个百度贴吧页面下载图片。1. 概述本文主要实现一个简单的爬虫，目的是从一个百度贴吧页面下载图片。下载图片的步骤如下：获取网页html文本内容；分析html中图片的html标签特征，用正则解析出所有的图片url链接列表；根据图片的url链接列表将图片下载到本地文件夹中。2. urllib+re实现#!/usr/bin/python # coding:utf-8 ...

python爬虫（爬取任意贴吧网页(前一千页），并保存在本地）

weixin_43399314的博客

03-22

1368

这是自己照着打的第一个较为完整的爬虫 import requests class Tieba_Spider: def int(self,tieba_name): self.tieba_name = tieba_name self.url_name =“https://tieba.baidu.com/f?kw=”+tieba_name+"&ie=utf-8&pn={}" self....

Python—实训day4—爬虫案例3：贴吧图片下载

#请假条的博客

09-17

203

6 xpath 首先需要安装Google的Chrome浏览器 6.1 安装xpath插件把 xpath_helper_2_0_2.crx 修改后缀名为 xpath_helper_2_0_2.rar。并解压在Chrome浏览器中，访问 chrome://extensions/ 。打开开发者模式（把开关推动到右边）点击“加载已解压的扩展程序” 选择解压后的 xpath_helper_2_0_2 目录安装后，留意右上角这个，就是xpath插件访问任意其他页面，比如w

Project-3: 用python下载贴吧中的图片

Sevieryang/FinTech/Statistics/Quant

01-31

512

''' <img class="BDE_Image" src="xx.jpg" pic_ext="jpeg" width="510" height="510"> <img class="BDE_Image" src="xx.jpg" pic_ext="jpeg" changedsize="true&

node-v5.11.0-x86.msi

最新发布

05-07

Node.js，简称Node，是一个开源且跨平台的JavaScript运行时环境，它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立，旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎，可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型，这使得它非常适合处理大量并发连接，从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外，Node.js使用了模块化的架构，通过npm（Node package manager，Node包管理器）,社区成员可以共享和复用代码，极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展，它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等，因此，开发者可以用JavaScript编写全栈应用程序，这一点大大提高了开发效率和便捷性。在实践中，许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台，如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能，简化了开发流程，并且能更快地响应市场需求。

41532698775097Facebook Lite_405.0.0.8.113_apkcombo.com.armeabi-v7a.apk

05-07

41532698775097Facebook Lite_405.0.0.8.113_apkcombo.com.armeabi-v7a.apk

2024-2030中国RDF制粒机市场现状研究分析与发展前景预测报告.docx

05-07

2024-2030中国RDF制粒机市场现状研究分析与发展前景预测报告

python爬虫之b站视频下载(python学习笔记)

06-06

好的，下面是用中文回复的python爬虫之b站视频下载(python学习笔记)： Python爬虫是一种自动化获取网页数据的技术，可以用来下载B站视频。具体步骤如下： 1. 安装必要的Python库，如requests、bs4、lxml等。 2. ...

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交