Python解析application/msbin1格式数据
一次在爬取某网站的时候发现数据乱码,检查响应头后发现类型为Content-Type: application/msbin1,百度后发现这是微软的wcf协议的一种数据格式。
不过python最大的好处就是库多,最后在github上找到一个能用的库:python-wcfbin。
链接:https://github.com/ernw/python-wcfbin
这个库因为不是官方的所以需要自己手动安装。
安装步骤如下:
cd 到解压目录下
先执行 python setup.py build
然后执行 python setup.py install
安装成功
附上测试代码
from wcf.records import Record, print_records
fp = open("test.html", 'rb')
fp2 = open("test_xml.html", "w")
with fp:
records = Record.parse(fp)
print_records(records, fp=fp2)
fp.close()
fp2.close()
附上转换成功的截图。
从例子里只找到以文件的形式转换,先把web响应存到文件,然后转换成xml的文件,会比较麻烦。