一、手工识别
1.robots.txt文件
robots.txt文件我们写过爬虫的就知道,这个文件是告诉我们哪些目录是禁止爬取的。但是大部分的时候我们都能通过robots.txt文件来判断出cms的类型
如:
从wp路径可以看出这个是WordPress的cms
这个就比较明显了直接告诉我们是PageAdmin cms
也有些robots.txt里面写得不是很清楚。我们看看织梦的
一、手工识别
1.robots.txt文件
robots.txt文件我们写过爬虫的就知道,这个文件是告诉我们哪些目录是禁止爬取的。但是大部分的时候我们都能通过robots.txt文件来判断出cms的类型
如:
从wp路径可以看出这个是WordPress的cms
这个就比较明显了直接告诉我们是PageAdmin cms
也有些robots.txt里面写得不是很清楚。我们看看织梦的