zywpc66-CSDN博客

原创爬虫学习笔记-task4

task4的任务 1.了解ajax加载 2.通过chrome的开发者工具，监控网络请求，并分析 3.用selenium完成爬虫具体流程如下：用selenium爬取https://news.qq.com/ 的热点精选 import time from selenium import webdriver driver=webdriver.Chrome(executable_path="E:\ch...

2020-04-26 18:47:31 163 1

原创爬虫学习笔记-task3

为什么会出现IP被封网站为了防止被爬取，会有反爬机制，对于同一个IP地址的大量同类型的访问，会封锁IP，过一段时间后，才能继续访问如何应对IP被封的问题有几种套路：修改请求头，模拟浏览器（而不是代码去直接访问）去访问采用代理IP并轮换设置访问时间间隔如何获取代理IP地址从该网站获取： https://www.xicidaili.com/ inspect -> 鼠标定位：要获...

2020-04-25 14:32:39 179

原创爬虫学习笔记-task2

** 2.1 Beautiful Soup库入门 ** 首先来说一说这个库是干什么的，当然是爬虫滴咯，那么具体来说：使用beautifulsoup解析HTML页面。 Beautiful Soup 是一个HTML/XML 的解析器，主要用于解析和提取 HTML/XML 数据。它基于HTML DOM 的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。 Be...

2020-04-22 21:43:55 250

原创爬虫学习笔记----task1

概念辨析： 1. 1.万维网（www）和互联网万维网指的是互联网所能提供的服务之一，它的具体是一个超文本互相连接而成的全球性系统（全球性，服务）； 2. 2.HTTP HTTP是一种标准，用于请求和应答：A端的客户端和B端的网站端。 http的请求方法主要有一下几种： GET：向指定的资源发出“显示”请求。GET方法应该只用于读取数据，而不应当被用于“副作用”的操作中（例如在WebApp...

2020-04-22 20:24:35 228

原创天池杯比赛笔记2

标题天池杯比赛笔记 ##第一章赛题理解二手车交易价格预测根据比赛官网上提供的baesline,以预测二手车的交易价格为任务，数据集报名后可见并可下载，该数据来自某交易平台的二手车交易记录，总数据量超过40w，包含31列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取15万条作为训练集，5万条作为测试集A，5万条作为测试集B，同时会对name、model、brand和regi...

2020-03-24 16:04:54 260

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 爬虫学习笔记-task4

原创 爬虫学习笔记-task3

原创 爬虫学习笔记-task2

原创 爬虫学习笔记----task1

原创 天池杯比赛笔记2

空空如也

空空如也

原创爬虫学习笔记-task4

原创爬虫学习笔记-task3

原创爬虫学习笔记-task2

原创爬虫学习笔记----task1

原创天池杯比赛笔记2