- 博客(4)
- 收藏
- 关注
原创 Task4 爬取腾讯新闻
爬取腾讯新闻关于 ‘chromedriver’ executable needs to be in PATH 的解决办法用 chrome 浏览器跑 selenium,执行以下脚本:from selenium import webdriverdr=webdriver.Chrome()dr.maximize_window()dr.get(‘http://www.baidu.com/’)...
2020-04-27 23:04:55 175
原创 Curtis Task3& Datawhale
防止IP被封修改请求头,模拟浏览器(而不是代码去直接访问)去访问采用代理IP并轮换设置访问时间间隔获取IP地址!改动 f.write(text)—— f.write(str(text))IP地址获取 - Jupyter Notebookhttp://localhost:8888/notebooks/%E7%88%AC%E8%99%ABhuya/IP%E5%9C%B0%E5%...
2020-04-25 23:36:25 347
原创 Datawhale Task2 xpath,bs4,re,爬取丁香园留言板
@xpathxpath简介XML 文档中查找信息的语言XML 文档中对元素和属性进行遍历与XPath相似的便是CSS的选择器,但XPath有更强大的地方,比如它可以定位到body元素下具体位置上的p或可以选择前N个p:xpath书写nodeName选取名称为nodeName的节点/从根节点选取//选择元素后代元素,必须在后面跟上nodeName....
2020-04-23 23:14:45 139
原创 Task 1
@python爬虫 爬取豆瓣Top250电影名http请求方法方法功能GET向指定的资源发出“显示”请求。只用于读取数据:可能会被网络蜘蛛等随意访问。PUT向指定资源位置上传输最新内容。HEAD与GET方法一样;可以在不必传输内容的情况下,将获取到其中“关于该资源的信息POST向指定资源提交数据,请求服务器进行处理DELETE请求服务器删除...
2020-04-21 19:07:31 170
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人