- 博客(4)
- 收藏
- 关注
原创 Task4 爬取腾讯新闻
爬取腾讯新闻 关于 ‘chromedriver’ executable needs to be in PATH 的解决办法 用 chrome 浏览器跑 selenium,执行以下脚本: from selenium import webdriver dr=webdriver.Chrome() dr.maximize_window() dr.get(‘http://www.baidu.com/’)...
2020-04-27 23:04:55 164
原创 Curtis Task3& Datawhale
防止IP被封 修改请求头,模拟浏览器(而不是代码去直接访问)去访问 采用代理IP并轮换 设置访问时间间隔 获取IP地址 !改动 f.write(text)—— f.write(str(text)) IP地址获取 - Jupyter Notebook http://localhost:8888/notebooks/%E7%88%AC%E8%99%ABhuya/IP%E5%9C%B0%E5%...
2020-04-25 23:36:25 314
原创 Datawhale Task2 xpath,bs4,re,爬取丁香园留言板
@xpath xpath简介 XML 文档中查找信息的语言 XML 文档中对元素和属性进行遍历 与XPath相似的便是CSS的选择器,但XPath有更强大的地方,比如它可以定位到body元素下具体位置上的p或可以选择前N个p: xpath书写 nodeName 选取名称为nodeName的节点 / 从根节点选取 // 选择元素后代元素,必须在后面跟上nodeName ....
2020-04-23 23:14:45 129
原创 Task 1
@python爬虫 爬取豆瓣Top250电影名 http请求方法 方法 功能 GET 向指定的资源发出“显示”请求。只用于读取数据:可能会被网络蜘蛛等随意访问。 PUT 向指定资源位置上传输最新内容。 HEAD 与GET方法一样;可以在不必传输内容的情况下,将获取到其中“关于该资源的信息 POST 向指定资源提交数据,请求服务器进行处理 DELETE 请求服务器删除...
2020-04-21 19:07:31 142
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人