Python 与 淘宝Taobao

看到这个题目,大概你是想不清楚为什么 Python 这个技术 和 淘宝这个电子商务网站 能搭上关系的。呵呵,且听我说。
    前阵子写了个python程序,抓取淘宝网页的内容进行分析。大家是否觉得这样的程序太过于简单,不值得写呢。
    我一开始也这样觉得,但是偏偏python对字符集的支持不够让我痛苦。
    且看代码:
#encoding=utf-8
import urllib2
response = urllib2.urlopen("http://s.taobao.com/search?q=%BC%F5%B7%CA")
html = response.read()
print html

   在windows的命令行界面中,这样显示出来的结果是正常的,即没有出现乱码的问题。大家一定想,这样就没有问题了不是。其实不然,看下一段代码:

  1. soup = BeautifulSoup(html)
  2. a = soup.find('div',{'id':'J_Navgation'})
  3. title = a['_title']
复制代码

  经过这样一段处理,就不是中文了。是乱码。为什么呢?我还不清楚,要是有高手知道,请不吝赐教。
   经过长时间地查资料,使用 chardet 查了这个问题 ,发现字符集是 gbk,于是使用如下代码:

  1. self.soup = BeautifulSoup(html.decode('gbk','ignore'))
  2. a = soup.find('div',{'id':'J_Navgation'})
  3. title = a['_title']
  4. title = title.decode('gbk').encode('utf-8')
复制代码

  这样子虽然在 cmd 下显示仍然乱码,可是进数据库后,就可以正常了。但是问题是,经常出现 exception, 说无法解码。最后颇为戏剧性地是,我发现这个问题其实很好解决

  1. title = unicode(title)
复制代码

  这样就解决了所有问题。唉,绕了一圈,原来这样简单。  希望对碰到乱码的朋友有所帮助!

 

 转载自: 米趣网

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值