百度指数抓取思路
浏览器截图+OCR识别,因为百度指数的数值是采用html格式+加密二进制传输,怎么都是需要OCR的。
浏览器截图:截取百度指数位置的子图片,截整个页面的图比较容易,要获取指数所在的span的位置,直接调用html的元素的getSize和getLocation返回都是0,简单粗暴地用硬编码了。
OCR
百度指数抓取思路
浏览器截图+OCR识别,因为百度指数的数值是采用html格式+加密二进制传输,怎么都是需要OCR的。
浏览器截图:截取百度指数位置的子图片,截整个页面的图比较容易,要获取指数所在的span的位置,直接调用html的元素的getSize和getLocation返回都是0,简单粗暴地用硬编码了。
OCR