注:所有网页数据都是以dom为节点存储的数据,只要获得该节点的dom中包含的内容即可。
该网页为例
我要爬取该网页的所有嘉宾的信息,我应该先获取每个嘉宾的dom值,取出里面的数据即可。
直接在浏览器控制台运行该脚本即可
var temp = document.getElementsByTagName("td");
for(var i = 0; i <= 104; i++){
console.log(i);
var res = "";
var src = temp[i].childNodes[1].src;
var en_name = temp[i].childNodes[3].childNodes[0].data;
var ch_name = temp[i].childNodes[3].childNodes[2]==undefined?"无中文名": temp[i].childNodes[3].childNodes[2].data;
var title = temp[i].childNodes[5].childNodes[0].childNodes[0].data;
var company = temp[i].childNodes[5].childNodes[2].data;
res = src + " " + en_name + " " + ch_name+ " " + title+ " " + company;
console.log(res);
}