weixin_46346544-CSDN博客

原创 Task4 爬取腾讯新闻

爬取腾讯新闻关于 ‘chromedriver’ executable needs to be in PATH 的解决办法用 chrome 浏览器跑 selenium，执行以下脚本：from selenium import webdriverdr=webdriver.Chrome()dr.maximize_window()dr.get(‘http://www.baidu.com/’)...

2020-04-27 23:04:55 175

原创 Curtis Task3& Datawhale

防止IP被封修改请求头，模拟浏览器（而不是代码去直接访问）去访问采用代理IP并轮换设置访问时间间隔获取IP地址!改动 f.write(text)—— f.write(str(text))IP地址获取 - Jupyter Notebookhttp://localhost:8888/notebooks/%E7%88%AC%E8%99%ABhuya/IP%E5%9C%B0%E5%...

2020-04-25 23:36:25 347

原创 Datawhale Task2 xpath，bs4，re，爬取丁香园留言板

@xpathxpath简介XML 文档中查找信息的语言XML 文档中对元素和属性进行遍历与XPath相似的便是CSS的选择器，但XPath有更强大的地方,比如它可以定位到body元素下具体位置上的p或可以选择前N个p:xpath书写nodeName选取名称为nodeName的节点/从根节点选取//选择元素后代元素,必须在后面跟上nodeName....

2020-04-23 23:14:45 139

原创 Task 1

@python爬虫爬取豆瓣Top250电影名http请求方法方法功能GET向指定的资源发出“显示”请求。只用于读取数据：可能会被网络蜘蛛等随意访问。PUT向指定资源位置上传输最新内容。HEAD与GET方法一样；可以在不必传输内容的情况下，将获取到其中“关于该资源的信息POST向指定资源提交数据，请求服务器进行处理DELETE请求服务器删除...

2020-04-21 19:07:31 170

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人