爬取东方财富网关于“国华网安资金流向”数据
采用了动态获取的方法,使用xpath获取网页中的表格数据(需安装谷歌浏览器及相关程序)
ChromeDriver Mirror(下载谷歌浏览器相应版本)
对应代码如下:
第一块导入所需模块,time模块可以去掉,我后面只是用了延迟执行程序的语法
Selenium是一个用电脑模拟人操作浏览器网页,可以实现自动化,测试等。
lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。etree.HTML()可以用来解析字符串格式的HTML文档对象,将传进去的字符串转变成_Element对象。
pymysql 用于数据库连接。
#导入模块
from selenium import webdriver #导入模块
import time
from lxml import etree
import pymysql
首先连接数据库,创建表,添加列名,用于存储后续爬取的数据。VARCHAR是文本形式,收盘价在原网页是小数形式,可改成