爬虫仅供学习交流使用,请勿用于商业用途,请勿高频爬取数据。由使用爬虫产生的纠纷笔者概不负责。
实验报告原文节选
2.2 遇到障碍:JS动态渲染页面
-
编写
spider.py
时遇到了诡异的问题,xpath
可以找到符合//*[@id = 'app']
的一个标签,但是其是空的,内部没有任何内容。 -
打印
response.text
,格式化html
,得到的内容如下<!DOCTYPE html> <html> ..... <body ondragstart="return!1"> <div id="app"></div> <script>var hostName = window.location.hostname, _mtac = { performanceMonitor: 1, senseQuery: 1 }; ! function() { var e = document.createElement("script"); e.src = "//pingjs.qq.com/h5/stats.js?v2.0.4", e.setAttribute("name", "MTAH5"), -1 != hostName.indexOf("jsmh.xuetangx.com") || -1 != hostName.indexOf("www.bnuonline.com") ? e.setAttribute("sid", "500693653") : (e.setAttribute("sid", "500676615"), e.setAttribute("cid", "500679396")); var t = document.getElementsByTagName("script")[0]; t.parentNode.insertBefore(e, t) }