【面试题】数据爬虫高频题目

最新推荐文章于 2024-09-26 10:38:35 发布

城仕

最新推荐文章于 2024-09-26 10:38:35 发布

阅读量501

点赞数 17

文章标签：爬虫 mysql 数据库

本文链接：https://blog.csdn.net/weixin_48265867/article/details/138634983

版权

Python匹配HTML tag的时候，<.>和<.?>有什么区别？

在Python的正则表达式中，<.*>与<.*?>的区别基本上体现在贪婪与非贪婪（或懒惰）模式的对比上。

<.*>:
- 这个表达式使用了贪婪模式，意味着它会尽可能多的匹配字符。在处理HTML标签时，它会从一个<开始，匹配直到字符串中最后一个>字符。例如，在处理字符串<div>Hello</div><span>World</span>时，该表达式会匹配整个字符串而非单个标签。
<.*?>:
- 与贪婪模式相对，这是一个非贪婪或懒惰模式的正则表达式。它会尽可能少地匹配字符。在同样的字符串<div>Hello</div><span>World</span>中，该表达式会依次匹配<div>、</div>、<span>、</span>。

对于HTML标签的匹配，贪婪模式可能导致跨标签的匹配，这通常不是所期望的结果。因此，非贪婪模式在这种情况下更为适用。然而，值得注意的是，正则表达式并不是解析HTML的最佳工具。HTML的嵌套和层次结构使得正则表达式难以正确处理所有情况。专业的HTML解析库，如BeautifulSoup或lxml，提供了更为可靠和有效的方法来处理HTML文档。

简述用过的爬虫框架或者模块有哪些？优缺点？

Requests:
- 优点: Requests库非常适合入门，语法直观，易于使用，支持多种HTTP请求方法。它适用于小到中等规模的项目，能够快速完成从网站抓取数据的任务。
- 缺点: 不支持异步操作，这在面对需要高并发处理的项目时可能会成为性能瓶颈。
BeautifulSoup:
- 优点: BeautifulSoup提供了强大的元素选择和数据提取功能，特别适合解析和提取HTML内容。它的容错能力很强，能够处理不规范的HTML代码。
- 缺点: 相对其他解析库，执行速度较慢，且不支持JavaScript生成的动态内容。
Scrapy:
- 优点: Scrapy是一个全面的框架，提供了数据抓取、处理和存储的一条龙服务。它的架构适合大规模和复杂的爬虫项目，支持异步处理，非常高效。
- 缺点: 初学者可能会觉得配置和使用Scrapy有一定的门槛，学习曲线较陡峭。
Selenium:
- 优点: Selenium能够模拟真实用户的行为，如点击和滚动，非常适合处理需要与网页交互的复杂情况，以及爬取由JavaScript动态生成的内容。
- 缺点: 运行速度慢，资源消耗较大，因为需要实际运行一个浏览器窗口。
PySpider:
- 优点: PySpider是一个强大的多线程爬虫框架，内置了Web UI，支持数据库后端，易于监控和管理爬虫项目。
- 缺点: 相对其他框架，PySpider的社区支持和更新频率较低。

写爬虫是用多进程好？还是多线程好？

在编写爬虫时，选择使用多线程或多进程通常取决于爬虫任务的性质和目标网站的响应特性：

多线程: 线程的使用成本低于进程，适合I/O密集型的任务，如网络请求。Python的GIL确实限制了线程的并行计算能力，但在网络请求这种I/O密集型操作中，线程可以在等待网络响应时释放GIL，使其他线程得以运行。
多进程: 适合CPU密集型任务。由于每个进程拥有独立的内存空间和解释器，可以真正意义上并行计算，有效利用多核CPU的性能。

综上所述，如果爬虫主要涉及到大量的网络I/O，多线程是一个较好的选择；如果爬取的数据需要进行大量的预处理或计算，使用多进程可以更有效地利用硬件资源。

常见的反爬虫和应对方法

以下是一些常见的反爬虫策略及其有效的应对策略：

动态令牌/验证码：
- 应对策略：动态令牌需要从页面的JS代码或API响应中解析得到，可以使用Selenium或Pyppeteer等工具模拟浏览器行为获取。对于验证码，可以使用OCR技术自动识别，或利用第三方解码服务。
用户行为分析：
- 应对策略：模仿正常用户行为的时间间隔和操作模式，使用代理池避免单一IP频繁访问。对于需要长时间持续抓取的任务，建议合理安排访问频率，使用多账号策略。
IP地址封锁：
- 应对策略：使用IP代理池进行访问，尤其是对于抓取大量数据时，动态更换IP可以有效避免封锁。
高级技术指纹追踪（如Canvas指纹、WebGL特性等）：
- 应对策略：使用定制的浏览器或扩展，伪装或禁用这些高级跟踪技术。