python selenium抓取网页源码与看到的内容不一致 解析

以天眼查一个公司的信息为例

网站地址:https://www.tianyancha.com/company/100360072
网页核准日期显示的时间如下:
日期不一致
结果发现信息不一致, 为什么不一样??

显示内容与源码不一致,很明显使用了加密

当时猜测的是应该是在字体上动了手脚,然后就查看了一下,总共有两个font文件。
font文件信息

进行font文件查看是不是这里面动了手脚

有很多小伙伴会问用什么可以打开这个font文件
这边用的 FontForge,附上下载链接:http://www.pc6.com/softview/SoftView_788337.html
打开tycnum.diff文件 ,你就会发现,它真的是动了手脚,如下:
字体加密
解决办法, 是不是很恶心,在字体显示上动手脚。
源码内容是5190-95-12 通过上面的那个字体解密就可以得到2017-12-05。

如何解决这个问题呢?

问题的根源已近找到,那就不是问题了。
方法一:自己写个按照上述方法解密的规则就行了。(缺点,万一转换的那个字体文件不是唯一的呢?)
方法二 :抓取的时候先下载它的那个字体文件,设置字体,抓取设置之后的。(缺点:开发相对困难)

  • 8
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值