Python--爬虫--坑--持续更新中

最新推荐文章于 2022-10-22 18:25:14 发布

ztfDeveloper

最新推荐文章于 2022-10-22 18:25:14 发布

阅读量236

点赞数

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/zhutianfu521/article/details/78676801

版权

Python 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

记录下学习爬虫中遇到的坑

1.Python2和Python3对文中的识别

Python2要支持中文需要在头部添加

# -*- coding: utf-8 -*-

Python3直接支持中文

2.Python2和Python3中urllib库的改变

Python2中直接可以调用urllib2
Python3中需要

from urllib import request

3.Python2和Python3中爬取的文本的处理

Python2中直接可以获取response的文本
Python3中需要对获取的文本进行转码

response.body.decode('utf-8')#根据不同的格式转码

4.Python2和Python3中的print

Python2直接print 后边跟你要输出的就可以了
Python3需要加上()

print()

5.Python2中的xrange重命名为Python2和Python3中的range

6.编码问题

# 注意，Python2.x默认编码环境是ASCII，当和取回的数据编码格式不一致时，可能会造成乱码；
# 我们可以指定保存内容的编码格式，一般情况下，我们可以在代码最上方添加：

    import sys
    reload(sys)
    sys.setdefaultencoding("utf-8")

# 这三行代码是Python2.x里解决中文编码的万能钥匙，经过这么多年的吐槽后Python3学乖了，默认编码是Unicode了...(祝大家早日拥抱Python3)