自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 爬虫学习笔记-task4

task4的任务1.了解ajax加载2.通过chrome的开发者工具,监控网络请求,并分析3.用selenium完成爬虫具体流程如下:用selenium爬取https://news.qq.com/ 的热点精选import timefrom selenium import webdriverdriver=webdriver.Chrome(executable_path="E:\ch...

2020-04-26 18:47:31 151 1

原创 爬虫学习笔记-task3

为什么会出现IP被封网站为了防止被爬取,会有反爬机制,对于同一个IP地址的大量同类型的访问,会封锁IP,过一段时间后,才能继续访问如何应对IP被封的问题有几种套路:修改请求头,模拟浏览器(而不是代码去直接访问)去访问采用代理IP并轮换设置访问时间间隔如何获取代理IP地址从该网站获取: https://www.xicidaili.com/inspect -> 鼠标定位:要获...

2020-04-25 14:32:39 160

原创 爬虫学习笔记-task2

**2.1 Beautiful Soup库入门**首先来说一说这个库是干什么的,当然是爬虫滴咯,那么具体来说:使用beautifulsoup解析HTML页面。Beautiful Soup 是一个HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据。它基于HTML DOM 的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。Be...

2020-04-22 21:43:55 226

原创 爬虫学习笔记----task1

概念辨析:1. 1.万维网(www)和互联网 万维网指的是互联网所能提供的服务之一,它的具体是一个超文本互相连接而成的全球性系统(全球性,服务);2. 2.HTTPHTTP是一种标准,用于请求和应答:A端的客户端和B端的网站端。http的请求方法主要有一下几种:GET:向指定的资源发出“显示”请求。GET方法应该只用于读取数据,而不应当被用于“副作用”的操作中(例如在WebApp...

2020-04-22 20:24:35 199

原创 天池杯比赛笔记2

标题天池杯比赛笔记##第一章赛题理解二手车交易价格预测 根据比赛官网上提供的baesline,以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regi...

2020-03-24 16:04:54 231

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除