无意浏览到网上的一个问答,受到启发,记录下来。
***************************************************************************************************************
传统的爬虫是利用一些库模拟http请求,获取响应后,把接收到的“页面”用正则之类的技术,抽取有用信息。
***************************************************************************************************************
问题是我们直接用浏览器多好!!可是普通的浏览器没有强大的系统api支持,归根到底就是没有强大的js本地调用能力。什么技术有呢?对!是nodejs!!
有个集成nodejs环境的浏览器多好!
有吗?
******************************************
当然有!而且有两个Electron和NWJS
******************************************
集成浏览器有什么好处??
前端开发用“选择器”来操作dom,这样你就可以用jQuery之类的东东来抽取dom,然后利用nodejs分析处理或交给其他异构系统处理。
以上说法都是思路,可行性还不知道。