1. Web抓取常用模块
webbrower:打开浏览器获取指定页面。
requests:从网上下载文件和网页。
Beautiful Soup:解析HTML,即网页编写的格式。
Selenium:启动并控制浏览器,可以模拟鼠标在这个网页上点击。
2. 通过request模块下载Web文件
-
调用 requests.get()下载该文件。
-
用’wb’调用 open(),以写二进制的方式打开一个新文件。
-
利用 Respose 对象的 iter_content()方法做循环。
-
在每次迭代中调用 write(),将内容写入该文件。
-
调用 close()关闭该文件。
# _*_ coding:utf-8 _*_
# 输入模块
import requests
res = requests.get('http://www.gutenberg.org/cache/epub/1112/pg1112.txt')