- 博客(5)
- 收藏
- 关注
原创 爬虫学习笔记-task4
task4的任务 1.了解ajax加载 2.通过chrome的开发者工具,监控网络请求,并分析 3.用selenium完成爬虫 具体流程如下: 用selenium爬取https://news.qq.com/ 的热点精选 import time from selenium import webdriver driver=webdriver.Chrome(executable_path="E:\ch...
2020-04-26 18:47:31 163 1
原创 爬虫学习笔记-task3
为什么会出现IP被封 网站为了防止被爬取,会有反爬机制,对于同一个IP地址的大量同类型的访问,会封锁IP,过一段时间后,才能继续访问 如何应对IP被封的问题 有几种套路: 修改请求头,模拟浏览器(而不是代码去直接访问)去访问 采用代理IP并轮换 设置访问时间间隔 如何获取代理IP地址 从该网站获取: https://www.xicidaili.com/ inspect -> 鼠标定位: 要获...
2020-04-25 14:32:39 179
原创 爬虫学习笔记-task2
** 2.1 Beautiful Soup库入门 ** 首先来说一说这个库是干什么的,当然是爬虫滴咯,那么具体来说: 使用beautifulsoup解析HTML页面。 Beautiful Soup 是一个HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据。 它基于HTML DOM 的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。 Be...
2020-04-22 21:43:55 250
原创 爬虫学习笔记----task1
概念辨析: 1. 1.万维网(www)和互联网 万维网指的是互联网所能提供的服务之一,它的具体是一个超文本互相连接而成的全球性系统(全球性,服务); 2. 2.HTTP HTTP是一种标准,用于请求和应答:A端的客户端和B端的网站端。 http的请求方法主要有一下几种: GET:向指定的资源发出“显示”请求。GET方法应该只用于读取数据,而不应当被用于“副作用”的操作中(例如在WebApp...
2020-04-22 20:24:35 228
原创 天池杯比赛笔记2
标题天池杯比赛笔记 ##第一章赛题理解 二手车交易价格预测 根据比赛官网上提供的baesline,以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regi...
2020-03-24 16:04:54 260
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人