以天眼查一个公司的信息为例
网站地址:https://www.tianyancha.com/company/100360072
网页核准日期显示的时间如下:
结果发现信息不一致, 为什么不一样??
显示内容与源码不一致,很明显使用了加密
当时猜测的是应该是在字体上动了手脚,然后就查看了一下,总共有两个font文件。
进行font文件查看是不是这里面动了手脚
有很多小伙伴会问用什么可以打开这个font文件
这边用的 FontForge,附上下载链接:http://www.pc6.com/softview/SoftView_788337.html
打开tycnum.diff文件 ,你就会发现,它真的是动了手脚,如下:
解决办法, 是不是很恶心,在字体显示上动手脚。
源码内容是5190-95-12 通过上面的那个字体解密就可以得到2017-12-05。
如何解决这个问题呢?
问题的根源已近找到,那就不是问题了。
方法一:自己写个按照上述方法解密的规则就行了。(缺点,万一转换的那个字体文件不是唯一的呢?)
方法二 :抓取的时候先下载它的那个字体文件,设置字体,抓取设置之后的。(缺点:开发相对困难)