python爬虫day1

最新推荐文章于 2024-07-19 16:36:18 发布

Griffin blue devils

最新推荐文章于 2024-07-19 16:36:18 发布

阅读量139

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/weixin_43824400/article/details/106877463

版权

爬虫的基本原理：就是利用代码模拟浏览器，爬取网页上的一些基本的内荣

爬虫的一般步骤：

找到url
利用python代码请求数据
解析数据，重复2,3的一些步骤
数据的持久化、数据的持久化，一般使用表格或者数据库

python 爬虫的基础知识：

http协议：

user-agent；浏览器和用户的基本信息

cookie:用于验证码

host:域名

requestheader:请求头

import urllib.request
import urllib.parse
import string
def get_method_param():
    url="https://www.baidu.com/s?wd="
    #拼接
    name="美女"
    final_url=url+name
    print(final_url)
    #使用代码发送网络请求
    #将包含汉子的网址转移

    new_url=urllib.parse.quote(final_url,safe=string.printable)
    print(new_url)

    respose=urllib.request.urlopen(new_url)
    #这里会出现错误，不支持中文
    data=respose.read().decode()
    print(data)
    #保存到本地数据
    with open("baidu01.html","w",encoding='utf-8') as f:
        f.write(data)


get_method_param()

Griffin blue devils

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫day1

爬虫的基本原理：就是利用代码模拟浏览器，爬取网页上的一些基本的内荣爬虫的一般步骤：找到url 利用python代码请求数据解析数据，重复2,3的一些步骤数据的持久化、数据的持久化，一般使用表格或者数据库python 爬虫的基础知识：http协议：user-agent；浏览器和用户的基本信息cookie:用于验证码host:域名requestheader:请求头import urllib.requestimport urllib.parseimport .
复制链接

扫一扫