Python 与淘宝Taobao

最新推荐文章于 2023-12-30 12:07:45 发布

徐淮杰

最新推荐文章于 2023-12-30 12:07:45 发布

阅读量890

点赞数

文章标签： python exception html 电子商务 import div

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xuhuaijie/article/details/5797375

版权

看到这个题目，大概你是想不清楚为什么 Python 这个技术和淘宝这个电子商务网站能搭上关系的。呵呵，且听我说。
前阵子写了个python程序，抓取淘宝网页的内容进行分析。大家是否觉得这样的程序太过于简单，不值得写呢。
我一开始也这样觉得，但是偏偏python对字符集的支持不够让我痛苦。
且看代码:
#encoding=utf-8
import urllib2
response = urllib2.urlopen("http://s.taobao.com/search?q=%BC%F5%B7%CA")
html = response.read()
print html

在windows的命令行界面中，这样显示出来的结果是正常的，即没有出现乱码的问题。大家一定想，这样就没有问题了不是。其实不然，看下一段代码：

soup = BeautifulSoup(html)
a = soup.find('div',{'id':'J_Navgation'})
title = a['_title']

复制代码

经过这样一段处理，就不是中文了。是乱码。为什么呢？我还不清楚，要是有高手知道，请不吝赐教。
经过长时间地查资料，使用 chardet 查了这个问题，发现字符集是 gbk,于是使用如下代码:

self.soup = BeautifulSoup(html.decode('gbk','ignore'))
a = soup.find('div',{'id':'J_Navgation'})
title = a['_title']
title = title.decode('gbk').encode('utf-8')

复制代码

这样子虽然在 cmd 下显示仍然乱码，可是进数据库后，就可以正常了。但是问题是，经常出现 exception, 说无法解码。最后颇为戏剧性地是，我发现这个问题其实很好解决

title = unicode(title)

复制代码

这样就解决了所有问题。唉，绕了一圈，原来这样简单。希望对碰到乱码的朋友有所帮助！

转载自：米趣网

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python 与淘宝Taobao

看到这个题目，大概你是想不清楚为什么 Python 这个技术和淘宝这个电子商务网站能搭上关系的。呵呵，且听我说。前阵子写了个python程序，抓取淘宝网页的内容进行分析。大家是否觉得这样的程序太过于简单，不值得写呢。我一开始也这样觉得，但是偏偏python对字符集的支持不够让我痛苦。且看代码:#encoding=utf-8import urllib2response = urllib2.urlopen("http://s.taobao.com/searc
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。