记录下学习爬虫中遇到的坑
1.Python2和Python3对文中的识别
Python2要支持中文需要在头部添加
# -*- coding: utf-8 -*-
Python3直接支持中文
2.Python2和Python3中urllib库的改变
Python2中直接可以调用urllib2
Python3中需要
from urllib import request
3.Python2和Python3中爬取的文本的处理
Python2中直接可以获取response的文本
Python3中需要对获取的文本进行转码
response.body.decode('utf-8')#根据不同的格式转码
4.Python2和Python3中的print
Python2直接print 后边跟你要输出的就可以了
Python3需要加上()
print()
5.Python2中的xrange重命名为Python2和Python3中的range
6.编码问题
# 注意,Python2.x默认编码环境是ASCII,当和取回的数据编码格式不一致时,可能会造成乱码;
# 我们可以指定保存内容的编码格式,一般情况下,我们可以在代码最上方添加:
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
# 这三行代码是Python2.x里解决中文编码的万能钥匙,经过这么多年的吐槽后Python3学乖了,默认编码是Unicode了...(祝大家早日拥抱Python3)