爬虫学习记录

最新推荐文章于 2024-10-12 22:28:58 发布

竹竹竹子

最新推荐文章于 2024-10-12 22:28:58 发布

阅读量49

点赞数

分类专栏：爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/weixin_43897213/article/details/116198740

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文记录了使用Python的requests库抓取网页内容，并通过BeautifulSoup进行数据解析的过程。文中详细介绍了如何利用selects()方法获取Tag元素及内容，同时还提供了BeautifulSoup官方文档链接，供进一步学习参考。

摘要由CSDN通过智能技术生成

记录爬虫时学习心得、遇到的问题以及解决办法。

爬虫需要库requests、bs4两个库

requests库主要用来获取网页响应内容

bs4里面的BeautifulSoup库主要用来获取网页数据以及对网页数据的处理

BeautifulSoup.selects()返回值是list，内部对象为<class 'bs4.element.Tag'>，使用'.'+标签名的方式获取内容

BeautifulSoup官方文档https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id17

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

竹竹竹子

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python 爬虫学习笔记

03-09

Python 爬虫学习笔记本文将详细介绍 Python 爬虫学习笔记的知识点，涵盖爬虫基础、网络和前端基础、Requests 模块、请求头、GET 和 POST 请求、代理、Cookie 模拟登录、Quote 和 Unquote、登录和获取 Cookie、Post...

python爬虫学习笔记.pdf

09-10

Python爬虫学习笔记本资源摘要信息将对Python爬虫学习笔记进行详细的知识点总结，涵盖正则表达式、Python文件操作、CSV文件操作等方面的知识。一、正则表达式正则表达式是一段字符串，可以用于表示一段有规律...

参与评论您还未登录，请先登录后发表或查看评论

python爬虫学习笔记-scrapy框架(1)

01-29

python爬虫学习笔记-scrapy框架(1) python scrapy 爬虫 python爬虫学习笔记-scrapy框架(1) python scrapy 爬虫 python爬虫学习笔记-scrapy框架(1) python scrapy 爬虫 python爬虫学习笔记-scrapy框架(1) python ...

python爬虫学习笔记.zip

12-30

Python爬虫学习笔记在IT领域，Python爬虫是一种常用的技术，用于自动化地从互联网上抓取大量数据。Python语言因其简洁的语法和丰富的库支持，成为开发爬虫的首选工具。本篇将深入探讨Python爬虫的相关知识点，帮助...

爬虫学习笔记：爬取古诗文网

12-21

在本篇【爬虫学习笔记：爬取古诗文网】中，我们探讨了一种针对古诗文网站的网络爬虫实现，目的是抓取古诗的内容、作者和朝代，并将这些信息保存到本地文件中。以下是具体的技术点和过程详解： 1. **目标网站**： ...

python爬虫 - 深入requests模块

易辰的博客

10-07

1653

本文主要介绍了如何使用 Python 的requests模块进行网络请求操作，涵盖了从文件下载、Cookie 处理到重定向与历史请求等多个方面。通过详细的示例代码，展示了如何高效地实现各种网络操作，帮助开发者更轻松地进行 HTTP 请求的处理和数据管理。发送 Cookie: 通过cookies参数传递字典。获取 Cookie: 通过获取服务器返回的 Cookie。自动管理 Cookie: 使用可以在多个请求间自动管理 Cookie。手动设置和修改: 通过手动设置 Cookies。

Python爬虫使用实例-jsyks

路过人间

10-08

450

一个Python爬虫使用实例：主要用于自动答题。从网页获取题库题目和答案，最后Selenium打开网页，并自动点击正确答案提交。

Python 网络爬虫学习路线：从入门到精通

single_ffish的博客

10-11

1074

学习 Python 网络爬虫需要一步步地积累知识和实践经验。从基本的 HTTP 请求和 HTML 解析开始，逐步深入到抓包分析、爬虫框架和分布式爬虫。通过掌握这些技能，你可以成为一名高效的网络爬虫开发者。希望这篇文章能够为你提供一个清晰的学习路线，帮助你在 Python 网络爬虫的世界中找到自己的位置。

SEO（搜索引擎优化）指南

qq_34820371的博客

10-08

1085

SEO（Search Engine Optimization）是通过优化网站内容、结构和外部链接，提升网页在搜索引擎结果中的排名，从而增加网站流量的过程。SEO 涉及多个层面，包括技术 SEO、内容优化、外部链接建设等。以下是 SEO 的核心优化策略。

【Python】selenium获取鼠标在网页上的位置，并定位到网页位置模拟点击的方法

Meggie35的博客

10-12

277

如果直接通过css_selector或者xpath的元素来点击验证按钮，无法通过验证的话，可以模拟鼠标点击的方法，这样更像模拟人类的行为。

理论篇| 移动端爬虫

youbingchen的博客

10-12

APP逆向技术是指通过反编译、调试等手段，获取APP的内部逻辑、数据结构、加密算法等信息，进而实现对APP功能的扩展或数据抓取。APP逆向技术主要涉及以下几个方面：反编译技术：将APP的二进制文件转换回源代码，便于分析和理解。动态调试技术：在APP运行过程中，通过插入断点、查看变量值等手段，实时了解APP的运行状态。加密算法分析：针对APP中可能存在的加密算法，进行分析和破解。

爬虫设计思考之二

网络爬虫开发

10-12

610

例如自然语言的发展，对数据的需求是非常大的，需要大量的数据作为模型分析的基础，对设计的不同的模型，需要的数据也是不一样的。等等很多国内外的搜索都是基于强大的爬虫支撑的，源源不断的获取互联网公开的数据。一般是我们获取互联网的全部数据，类如我们有一个需求，爬虫需要获取所有的用户提供的网页数据，我们怎么编写这个通用的爬虫呢，一般我们就只需要编写一个爬虫获取页面的源代码并返回就可以了，这个获取网页源代码的爬虫就称为通用爬虫，因为这个爬虫可以获取所有的静态页面的网页源代码，然后在基于页面做一些数据的处理和分析。

Python 网络爬虫：从入门到实践

weixin_58606202的博客

10-12

562

网络爬虫是一种自动化程序，用来浏览互联网并提取网页中的数据。其基本工作流程包括发送HTTP请求、解析HTML内容、提取需要的数据，并进行存储和数据处理。网络爬虫的应用非常广泛，如数据采集、价格监控、市场分析、内容收集等。在目录下创建一个新的爬虫文件# 提取网页标题self.log(f'网页标题: {title}')# 提取所有链接self.log(f'链接: {link}')

爬虫（Python版本）

莹雨潇潇的博客

09-30

1513

爬虫通常会根据给定的规则，沿着网页中的链接不断访问其他网页，获取目标数据，并将其存储下来，供后续分析或处理。④链接发现与跟踪：爬虫从页面中提取新的URL，然后继续访问这些链接的页面，重复抓取过程，直到满足抓取条件或达到指定的抓取深度。①未经授权的访问：很多网站对爬虫行为设置了限制。一般爬虫只能访问到公开的网页，深度爬虫则能够访问通过表单提交、需要认证或在数据库中的内容，也就是所谓的“深网”数据。③个人信息和隐私数据抓取：如果爬虫抓取的是涉及个人信息的数据，可能违反中国个人信息保护相关法律，带来法律风险。

SafeLine - 雷池 - 不让黑客越过半步

知白的博客

10-10

524

SafeLine，中文名 "雷池"，是一款简单好用, 效果突出的 **`Web 应用防火墙(WAF)`**，可以保护 Web 服务不受黑客攻击。

python爬虫 - 进阶正则表达式

最新发布

易辰的博客

10-12

636

正则表达式是一种强大的工具，可以帮助我们在文本处理中灵活高效地匹配、查找、替换各种字符和字符串模式。对于中文字符的处理，正则表达式尤其有用，因为它可以通过 Unicode 范围直接匹配常用的汉字及标点符号。此外，正则表达式中的贪婪和非贪婪模式提供了不同的匹配策略，使我们能够更灵活地控制匹配的长度和范围。这篇文章将通过一些示例介绍如何使用正则表达式匹配中文字符，以及如何利用贪婪和非贪婪模式进行不同方式的匹配。正则表达式通过 Unicode 范围可以轻松匹配中文字符。使用。

番茄小说逆向爬取

SM_zeng的博客

10-05

707

这样就完成了啊，这个不仅仅是woff2可以用，woff和ttf都行，如果懒得分析，可以就用图像识别，傻瓜式过字体加密。可以看这个，注意这个可能要稍微改一下，因为我python是3.11，里面一些些东西不能用，所以换了写法才正常的。当然番茄的字体加密是静态，如果你牛可以一个个自己手写json。之前有人向我请教番茄小说的爬虫，这不就是ab参数加一个字体加密吗。就在这里生成，之前讲过不细讲，注意参数是什么就行。然后使用ddddocur来处理图像识别。可以先讲字体文件处理为图片。

爬虫案例——爬取情话网数据

qq_53256193的博客

10-06

1099

1.爬取情话网站中表白里面的所有句子（3.使用面向对象形发请求——创建一个类。4.将爬取下来的数据保存在数据库中。如此照推，详情页文本对应的解析语法。2.利用XPath来进行解析。

零基础学习 Python 爬虫技术的大纲

一名资深Java工程师的技术分享

10-08

679

以下是一份零基础学习 Python 爬虫技术的大纲：

"Python爬虫学习笔记：正则表达式与re库基本使用

Python爬虫学习笔记.pdf是一本介绍Python爬虫学习的重要文档。其中，对于正则表达式的学习是非常重要的一部分。正则表达式（Regular Expression）是一段字符串，可以用于表示一段有规律的信息。使用正则表达式的步骤...