大一的时候见到一个研一学姐用C#写了个网页链接的爬虫,觉得好高大上,最近又有朋友问我怎么写,于是无聊就用python(懒得打开VS)写了个简单的单级链接获取
先给代码:
from selenium import webdriver
from selenium.webdriver.firefox.firefox_binary import FirefoxBinary
## 网页链接获取
url = '你要趴取的网址'
#你的火狐浏览器安装地址
binary = FirefoxBinary('D:\\program files (x86)\\Mozilla
Firefox\\firefox.exe')
#你的火狐浏览器驱动地址
driver = webdriver.Firefox(firefox_binary=binary,executable_path='G:\webdriver\geckodriver.exe')
#打开浏览器进入目标url
driver.get(url)
#把打开的浏览器最大化
driver.maximize_window()
print('进入'+driver.title+'成功')
for link in driver.find_elements_by_tag_name("a"):
#对获取的链接描述做判定
if link.text!="":
print link.text+":"
else:
print "未命名链接:"
print link.get_attribute("href")
#关闭刚刚打开的所有窗口然后关闭浏览器
driver.quit()
要是觉得输出到控制台看着不爽的话也可以直接输入到文件里面去,这个难度太低了大家就自行百度吧。
这里我用来测试的浏览器是火狐,因为总的来说爬虫这种东西虽然现在很多人知道并且在用,但是个人觉得对于一些建网站的和浏览器公司来说还是要想办法防止爬虫的。说了这么多其实就是因为我的selenium版本不支持我用的chrome版本所以我才用的火狐(尴尬) 至于对于自动化测试还没接触过或者说还不怎么知道的小伙伴可以去看看我写的另一篇文章,里面有一些简单的自动化测试的动手操作知识。
地址:http://blog.csdn.net/ztzy520/article/details/53940127
另附:
火狐驱动器geckodriver下载地址:
http://download.csdn.net/detail/ztzy520/9725887
谷歌驱动器chromedriver下载地址:
http://download.csdn.net/detail/ztzy520/9725888
火狐45版本安装包下载地址:
http://download.csdn.net/detail/ztzy520/9725890
呕心沥血写出来的,转载请一定注明出处