需求:今天在采集一个网站的时候发现其内容由附件组成,而且附件由wps,doc,xlsx,docx,pdf等多种格式组成,其不同的格式我们需要对应不同的处理方法,那么如何快速识别他是那种格式呢?
原本思想:使用字符串的分割: fujian_url.split('.')[-1]
新的方法:os.path.splitext(),使用如下
需求:今天在采集一个网站的时候发现其内容由附件组成,而且附件由wps,doc,xlsx,docx,pdf等多种格式组成,其不同的格式我们需要对应不同的处理方法,那么如何快速识别他是那种格式呢?
原本思想:使用字符串的分割: fujian_url.split('.')[-1]
新的方法:os.path.splitext(),使用如下