python爬虫——提取抓取内容（3）经典语录网语录抓取

最新推荐文章于 2024-07-21 21:39:32 发布

独听钟声晚

最新推荐文章于 2024-07-21 21:39:32 发布

阅读量638

点赞数

分类专栏： python爬虫

本文链接：https://blog.csdn.net/weixin_44321116/article/details/104200686

版权

本文主要介绍了使用Python进行网络爬虫，通过分析网页结构和正则表达式，提取经典语录网站中的标题和内容。分为两部分：首先分析所需抓取页面的代码结构，然后展示实现抓取功能的Python代码。

摘要由CSDN通过智能技术生成

一.分析代码

对比两个链接
在这里插入图片描述

标题正则表达式：

r'<a href="(/a/jingdianmingyan/.*?/\d+\.html)" class="title">(.*?)</a>'

在这里插入图片描述

每个标题的内容正则表达式：

r'<div class="content">.*?<td>.*?</div>(.*?)</td>.*?</div>'

在这里插入图片描述

二.代码展示

import urllib.request
import urllib.parse
import re
import os


def handle_request(url, page=None): # 设置默认值，可以二次使用（get_text函数）
    if page != None:
        url = url + str(page) + '.html'
    headers =

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

独听钟声晚

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python爬虫实战-爬取励志名言并保存至本地（正则）

hoochon的博客

02-23

798

python爬虫实战-爬取励志名言并保存至本地（正则） import urllib.parse import urllib.request import re def handle_request(url,page=None): if page !=None: url=url+str(page)+'.html' headers={ 'User-Agent':'Mozilla/5.0 ...

爬虫项目实战四：爬取语录大全

Linkage interrupt

07-21

579

爬取语录大全目标项目准备网站分析反爬分析每一页的链接分析代码实现效果显示目标爬取语录，批量下载到本地。项目准备软件：Pycharm 第三方库：requests,fake_useragent,re,lxml 网站地址：http://www.yuluju.com 网站分析打开网站。有很多分类，不同类型的语录。点击爱情语录，发现上方网址变化为http://www.yuluju.com/aiqingyulu/ 点击搞笑语录，也会发生类似的变化。以下类似。判断是否为静态网页。有页码跳转一般

参与评论您还未登录，请先登录后发表或查看评论

Python爬虫实现使用beautifulSoup4爬取名言网功能案例

01-01

本文实例讲述了Python爬虫实现使用beautifulSoup4爬取名言网功能。分享给大家供大家参考，具体如下：爬取名言网top10标签对应的名言，并存储到mysql中，字段（名言，作者，标签） #! /usr/bin/python3 # -*- coding:utf-8 -*- from urllib.request import urlopen as open from bs4 import BeautifulSoup import re import pymysql def find_top_ten(url): response = open(url) bs = Beaut

Python爬虫（3） --爬取网页文本

最新发布

m0_74896766的博客

07-21

3793

指定url：找到网页地址发送请求：requests请求获取你想要的数据：文本接收，请求到的内容数据解析：xpath语言：定位到目标位置re正则匹配：精准取出目标内容，去除杂质。

python 去掉括号_Python入门编程题库24--《论语》文章提取·下

weixin_39869378的博客

11-19

507

一、题目子曰(1)：“学(2)而时习(3)之，不亦说(4)乎？有朋(5)自远方来，不亦乐(6)乎？人不知(7)，而不愠(8)，不亦君子(9)乎？”有子(1)曰：“其为人也孝弟(2)，而好犯上者(3)，鲜(4)矣；不好犯上，而好作乱者，未之有也(5)。君子务本(6)，本立而道生(7)。孝弟也者，其为人之本与(8)？”子曰：“巧言令色(1)，鲜(2)仁矣。”(略)请编写程序，在“论语-提取版.txt”...

python输出古诗词_python爬虫——爬取古诗名句

weixin_39611510的博客

11-26

937

一. 概要1.通过python爬虫循环爬取古诗词网站古诗名句2.落地到本地数据库二. 页面分析首先通过firedebug进行页面定位：其次源码定位：最终生成lxml etree定位div标签源码：response = etree.HTML(data)for row in response.xpath('//div[@class="left"]/div[@class="sons"]/div[@cla...

Python爬取鲁迅经典语录至Excel：实战与源码分享

本篇文章主要介绍了如何使用Python爬虫技术从“好句子迷”网站抓取鲁迅先生的经典语录，并将这些信息存储到Excel表格中。作者以Python 3.6.4版本为基础，结合requests、lxml和pandas等模块，展示了爬虫的完整流程。 ...

Python-用Pythonitchat写一个爬虫脚本每天定时给多个女友发给微信暖心话

08-10

3. 编写爬虫代码，定时从目标网站抓取内容。 4. 创建一个函数，读取或生成暖心话，然后使用itchat发送消息。 5. 配置定时任务，每天在特定时间执行上述函数。为了更好地组织代码，你可以将每个部分（如登录、爬虫...

二皮脸data_2022年网络我的网络爬虫学习心得

m0_68914347的博客

12-17

396

python数据爬虫学习心得

python爬虫疫情数据及可视化_python爬虫及数据可视化分析

weixin_39552317的博客

02-21

4698

python爬虫及数据可视化分析1.前言2.数据爬取2.1定位到爬取数据2.2爬虫实现方法3.数据可视化分析3.1将短文学网的各类文章做一个统计3.2对某一类文章进行分析1.前言2.数据爬取2.1定位到爬取数据打开我们要爬取的网页，右键选择检查，在窗口中单击左上角箭头，即可查看我们需要爬取的内容：2.2爬虫实现方法我们要爬取一个网页，首先我们需要向网页发送一个请求,然后用get方法抓取数据(例如我...

二级Python练习之提取与写入

饮闲的博客

08-25

367

初步提取 fi = open("F:\\Python\\新的练习\\二级练习\\论语-网络版.txt","r",encoding="utf-8") fo = open("F:\\Python\\新的练习\\二级练习\\论语-提取版.txt","w") wflag = False for line in fi: if "【" in line: wflag = False if "【原文】" in line: wflag = True contin

python新手爬虫数据采集项目，每条语句标有注解，简单易懂，快速上手python爬虫

10-31

python爬虫前练手的新手项目，明白爬虫的一些基本过程，每条语句标有注解，只要有任何编程语言基础，都能看懂，学习python指日可待。人生苦短，我用python

爬虫结果：一句话、优美句子素材.7z

10-14

用爬虫爬取的一句话素材，可以在编写一句话接口时使用。类似于一言api

综合应用题：python文件（论语）

Triumph19的博客

02-21

2194

十二星座日期范围之一 fo = open("PY301-SunSign.csv","r",encoding='utf-8') ls = [] for line in fo.readlines(): line = line.replace("\n","") ls.append(line.split(",")) s = input("请输入星座中文名称(例如, 双子座):") for i in range(len(ls)): if s == ls[i][1]: prin

PYTHON提取TXT内容(特定，未完成)

qq_44390640的博客

09-11

178

def get_file_ext(filename): arr=os.path.splitext(filename) return arr[len(arr) - 1] import os import os.path import re numb = 0 ####********************************************************************************************** txtpath = os.get

python爬虫 - 爬取励志语录

fangweijiex的博客

12-28

712

将爬取到的网页写入文件中 import urllib.request url = 'http://www.baidu.com' response = urllib.request.urlopen(url=url) print(response) #print(response.read().decode()) with open('baidu.html','w',encoding='ut...

Python爬虫过程爬取www.yikexun.cn/励志句子过程（双请求）

weixin_41607190的博客

08-17

622

学了大概4、5天的爬虫终于能爬点图片和文章了其实这两个差不多，后面一个稍微复杂一点这次来讲解一下怎么爬取标题的这个网址要做的是爬取这些文章，我们输入起始页码和结束页码，爬取页码之间的每篇文章我们现在看到的是标题，标题点进去之后才是我们要的文章，我们要把每篇文章写进一个html文件里需求就是这样，开工！首先我们看看url和页码有什么关系很明显就是后面的50_n.html就是决定页...

python中爬虫中常用的语句命令

goddemon

09-03

973

一,print.format格式应用类 ①不带参数使用类 print('{},{},{}'.format('zhangk','boy',32))#（即参数与()对齐类） #即参数几个,即几个括号进行打印的状况特点 ②带参数类带格式符类常见两种符号 # ^、<、>分别是居中、左对齐、右对齐，后面带宽度 # :号后面带填充的字符，只能是一个字符，不指定的话默认是用空格填充如 print('{:a<8}'.format('zhang'))#zhangaaa即使用a填充 print('

python用正则表达式提取超链接_正则表达式用Python从HTML中的href属性中提取URL

weixin_39683144的博客

12-03

3177

不要使用正则表达式接受的答案中的表达错过了许多案例。除其他外，URL中可以包含unicode字符。你想要的正则表达式就在这里，在看完之后，你可能会得出结论，毕竟你并不是真的想要它。最正确的版本是一万个字符长。不可否认，如果您从简单的非结构化文本开始，其中包含一堆URL，那么您可能需要一万个字符长的正则表达式。但如果您的输入是结构化的，请使用该结构。您声明的目标是“在锚标记的href中提取网址”。当...

Python爬虫教程：抓取微博评论

“Python案例爬虫（抓取微博等评论）.txt” 这个文档是关于使用Python进行网络爬虫的实例，特别针对抓取微博上的评论。爬虫项目通常分为几个步骤，其中包括引入必要的库、设置全局变量、创建数据存储目录以及定义...