机器学习笔记-python爬虫（2）——网页采集器

最新推荐文章于 2023-06-27 19:50:37 发布

zy1144175828

最新推荐文章于 2023-06-27 19:50:37 发布

阅读量702

点赞数

分类专栏：学习笔记文章标签：爬虫 python 机器学习

本文链接：https://blog.csdn.net/zy1144175828/article/details/122495430

版权

这篇机器学习笔记详细介绍了如何使用Python爬虫进行网页采集，特别是针对存在UA检测的网站。通过伪装浏览器UA来避免访问错误，以爬取搜狗搜索引擎的搜索结果为例，展示了设置和使用UA的方法，最终实现数据的持久化存储。内容包括基本的爬虫知识和解决访问限制的策略。

摘要由CSDN通过智能技术生成

用途：本案例主要学习爬虫的爬虫的UA伪装，能够将机器伪装为浏览器操作来获取网页数据

案例：通过爬虫爬取搜狗搜索的搜索功能，并将其结果页面数据持久化储存

前提知识：掌握简单网页的爬取方法

一、常规方法：常规网页的爬取方法是直接通过爬取代码进行界面获取，没有将爬虫进行伪装，常用方法如下，设置一个变量来获取搜索值，并进行搜索，代码如下：

# 需求：爬取搜狗首页的页面数据
import requests  # 引入requests包
if __name__ == '__main__':   # 指定脚本运行，不可导入其他脚本运行
    # 第一步：指定url
    url = 'https://www.sogou.com/web'

    kw = input("输入搜索信息")
    param ={
        "query": kw
    }
    # 对指定的url发起请求对应的url是携带参数的，并且请求过程中处理了参数

    # 第二步：发起请求
    # get方法会返回一个响应对象
    response=requests.get(url=url,params=param)
    # 第三步：获取响应数据,text返回的是字符串形式的响应数据
    # text返回的是页面对应的源码数据，字符串形式
    page_text = response.text
    print(page_text)
    # 第四步：数据持久化存储，写入文件
    # 要设置encoding='utf-8'&#x