一、selenium 简单爬取证监会新闻标题的URL。
本篇文章主要是对selenium的入门使用给予一个示例介绍,爬取的内容为证监会所有新闻标题的超链接。用的是谷歌浏览器,浏览器的版本选择,老铁们可以百度搜索一下。
直接开工!
首先打开要爬取的网页
http://www.csrc.gov.cn/pub/newsite/zjhxwfb/xwdd/
打开后的网页如图所示。
开始写代码。步骤6为完整代码,可直接查看。
1,导入模块
import time
from selenium import webdriver
2,在代码中配置好自己的浏览器。
options = webdriver.ChromeOptions()
options.add_experimental_option("excludeSwitches",["ignore-certificate-errors"])
driver = webdriver.Chrome(chrome_options=options)
3,设置保存的路径,输入网页URL。
result = codecs.open( 'url.txt','w','utf-8')
url=