自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Task4 爬取腾讯新闻

爬取腾讯新闻 关于 ‘chromedriver’ executable needs to be in PATH 的解决办法 用 chrome 浏览器跑 selenium,执行以下脚本: from selenium import webdriver dr=webdriver.Chrome() dr.maximize_window() dr.get(‘http://www.baidu.com/’)...

2020-04-27 23:04:55 164

原创 Curtis Task3& Datawhale

防止IP被封 修改请求头,模拟浏览器(而不是代码去直接访问)去访问 采用代理IP并轮换 设置访问时间间隔 获取IP地址 !改动 f.write(text)—— f.write(str(text)) IP地址获取 - Jupyter Notebook http://localhost:8888/notebooks/%E7%88%AC%E8%99%ABhuya/IP%E5%9C%B0%E5%...

2020-04-25 23:36:25 314

原创 Datawhale Task2 xpath,bs4,re,爬取丁香园留言板

@xpath xpath简介 XML 文档中查找信息的语言 XML 文档中对元素和属性进行遍历 与XPath相似的便是CSS的选择器,但XPath有更强大的地方,比如它可以定位到body元素下具体位置上的p或可以选择前N个p: xpath书写 nodeName 选取名称为nodeName的节点 / 从根节点选取 // 选择元素后代元素,必须在后面跟上nodeName ....

2020-04-23 23:14:45 129

原创 Task 1

@python爬虫 爬取豆瓣Top250电影名 http请求方法 方法 功能 GET 向指定的资源发出“显示”请求。只用于读取数据:可能会被网络蜘蛛等随意访问。 PUT 向指定资源位置上传输最新内容。 HEAD 与GET方法一样;可以在不必传输内容的情况下,将获取到其中“关于该资源的信息 POST 向指定资源提交数据,请求服务器进行处理 DELETE 请求服务器删除...

2020-04-21 19:07:31 142

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除