python爬取内容去掉\xa0字符的最简便方法

万师兄

于 2021-05-10 15:19:12 发布

阅读量8.2k

点赞数 4

文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_55643951/article/details/116596785

版权

刚学Python爬虫，爬取网页时，不可避免会遇到\xa0字符串，你会发现，正则re.sub(r’\xa0’, ‘’)和字符串的replace都不管用。
\xa0 是不间断空白符 &nbsp，自己做前端页面的时候也会经常用到这个符号。
通常我们所用的空格的ASCII码是 \x20 ，在标准ASCII可见字符 0x20~0x7e 范围内。
而 \xa0 属于 latin1 （ISO/IEC_8859-1）中的扩展字符集字符，代表空白符nbsp(non-breaking space)。latin1 字符集可向下兼容 ASCII （ 0x20~0x7e ）。
虽然爬取到的内容包含\xa0字符内容也不影响实际使用，可谁叫我有点强迫症呢，实在有点追求完美主义，自己就是过去不自己这道坎。于是在网上找了很多解决方案，感觉方法都还不够简练。
比如，有人建议用字符串的split()方法先进行分割，再用join()方法进行连接，是可以去掉\xa0字符，可是如果原本字符串里就有空格，想保留的空格也一并去掉了。所以这个方法不算严谨。
还有人建议用ord()+fromkeys()+translate()方法，功能是实现了，可看起来是不是太复杂了，这几个方法平时都太少用到了。
通过尝试我发现一个简单的replace(u’\xa0’, ‘’)方法就可以实现了，比如：

import re

s='\xa0/\xa0The Shawshank Re

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。