自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Task4 爬取腾讯新闻

爬取腾讯新闻关于 ‘chromedriver’ executable needs to be in PATH 的解决办法用 chrome 浏览器跑 selenium,执行以下脚本:from selenium import webdriverdr=webdriver.Chrome()dr.maximize_window()dr.get(‘http://www.baidu.com/’)...

2020-04-27 23:04:55 175

原创 Curtis Task3& Datawhale

防止IP被封修改请求头,模拟浏览器(而不是代码去直接访问)去访问采用代理IP并轮换设置访问时间间隔获取IP地址!改动 f.write(text)—— f.write(str(text))IP地址获取 - Jupyter Notebookhttp://localhost:8888/notebooks/%E7%88%AC%E8%99%ABhuya/IP%E5%9C%B0%E5%...

2020-04-25 23:36:25 347

原创 Datawhale Task2 xpath,bs4,re,爬取丁香园留言板

@xpathxpath简介XML 文档中查找信息的语言XML 文档中对元素和属性进行遍历与XPath相似的便是CSS的选择器,但XPath有更强大的地方,比如它可以定位到body元素下具体位置上的p或可以选择前N个p:xpath书写nodeName选取名称为nodeName的节点/从根节点选取//选择元素后代元素,必须在后面跟上nodeName....

2020-04-23 23:14:45 139

原创 Task 1

@python爬虫 爬取豆瓣Top250电影名http请求方法方法功能GET向指定的资源发出“显示”请求。只用于读取数据:可能会被网络蜘蛛等随意访问。PUT向指定资源位置上传输最新内容。HEAD与GET方法一样;可以在不必传输内容的情况下,将获取到其中“关于该资源的信息POST向指定资源提交数据,请求服务器进行处理DELETE请求服务器删除...

2020-04-21 19:07:31 170

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除