Python--爬虫--坑--持续更新中

记录下学习爬虫中遇到的坑

1.Python2和Python3对文中的识别

Python2要支持中文需要在头部添加

# -*- coding: utf-8 -*-

Python3直接支持中文

2.Python2和Python3中urllib库的改变

Python2中直接可以调用urllib2
Python3中需要

from urllib import request

3.Python2和Python3中爬取的文本的处理

Python2中直接可以获取response的文本
Python3中需要对获取的文本进行转码

response.body.decode('utf-8')#根据不同的格式转码

4.Python2和Python3中的print

Python2直接print 后边跟你要输出的就可以了
Python3需要加上()

print()

5.Python2中的xrange重命名为Python2和Python3中的range

6.编码问题

# 注意,Python2.x默认编码环境是ASCII,当和取回的数据编码格式不一致时,可能会造成乱码;
# 我们可以指定保存内容的编码格式,一般情况下,我们可以在代码最上方添加:

    import sys
    reload(sys)
    sys.setdefaultencoding("utf-8")

# 这三行代码是Python2.x里解决中文编码的万能钥匙,经过这么多年的吐槽后Python3学乖了,默认编码是Unicode了...(祝大家早日拥抱Python3)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值