- 博客(5)
- 收藏
- 关注
原创 爬虫学习笔记-task4
task4的任务1.了解ajax加载2.通过chrome的开发者工具,监控网络请求,并分析3.用selenium完成爬虫具体流程如下:用selenium爬取https://news.qq.com/ 的热点精选import timefrom selenium import webdriverdriver=webdriver.Chrome(executable_path="E:\ch...
2020-04-26 18:47:31 151 1
原创 爬虫学习笔记-task3
为什么会出现IP被封网站为了防止被爬取,会有反爬机制,对于同一个IP地址的大量同类型的访问,会封锁IP,过一段时间后,才能继续访问如何应对IP被封的问题有几种套路:修改请求头,模拟浏览器(而不是代码去直接访问)去访问采用代理IP并轮换设置访问时间间隔如何获取代理IP地址从该网站获取: https://www.xicidaili.com/inspect -> 鼠标定位:要获...
2020-04-25 14:32:39 160
原创 爬虫学习笔记-task2
**2.1 Beautiful Soup库入门**首先来说一说这个库是干什么的,当然是爬虫滴咯,那么具体来说:使用beautifulsoup解析HTML页面。Beautiful Soup 是一个HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据。它基于HTML DOM 的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。Be...
2020-04-22 21:43:55 226
原创 爬虫学习笔记----task1
概念辨析:1. 1.万维网(www)和互联网 万维网指的是互联网所能提供的服务之一,它的具体是一个超文本互相连接而成的全球性系统(全球性,服务);2. 2.HTTPHTTP是一种标准,用于请求和应答:A端的客户端和B端的网站端。http的请求方法主要有一下几种:GET:向指定的资源发出“显示”请求。GET方法应该只用于读取数据,而不应当被用于“副作用”的操作中(例如在WebApp...
2020-04-22 20:24:35 199
原创 天池杯比赛笔记2
标题天池杯比赛笔记##第一章赛题理解二手车交易价格预测 根据比赛官网上提供的baesline,以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regi...
2020-03-24 16:04:54 231
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人