自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 爬虫学习笔记-task4

task4的任务 1.了解ajax加载 2.通过chrome的开发者工具,监控网络请求,并分析 3.用selenium完成爬虫 具体流程如下: 用selenium爬取https://news.qq.com/ 的热点精选 import time from selenium import webdriver driver=webdriver.Chrome(executable_path="E:\ch...

2020-04-26 18:47:31 163 1

原创 爬虫学习笔记-task3

为什么会出现IP被封 网站为了防止被爬取,会有反爬机制,对于同一个IP地址的大量同类型的访问,会封锁IP,过一段时间后,才能继续访问 如何应对IP被封的问题 有几种套路: 修改请求头,模拟浏览器(而不是代码去直接访问)去访问 采用代理IP并轮换 设置访问时间间隔 如何获取代理IP地址 从该网站获取: https://www.xicidaili.com/ inspect -> 鼠标定位: 要获...

2020-04-25 14:32:39 179

原创 爬虫学习笔记-task2

** 2.1 Beautiful Soup库入门 ** 首先来说一说这个库是干什么的,当然是爬虫滴咯,那么具体来说: 使用beautifulsoup解析HTML页面。 Beautiful Soup 是一个HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据。 它基于HTML DOM 的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。 Be...

2020-04-22 21:43:55 250

原创 爬虫学习笔记----task1

概念辨析: 1. 1.万维网(www)和互联网 万维网指的是互联网所能提供的服务之一,它的具体是一个超文本互相连接而成的全球性系统(全球性,服务); 2. 2.HTTP HTTP是一种标准,用于请求和应答:A端的客户端和B端的网站端。 http的请求方法主要有一下几种: GET:向指定的资源发出“显示”请求。GET方法应该只用于读取数据,而不应当被用于“副作用”的操作中(例如在WebApp...

2020-04-22 20:24:35 228

原创 天池杯比赛笔记2

标题天池杯比赛笔记 ##第一章赛题理解 二手车交易价格预测 根据比赛官网上提供的baesline,以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regi...

2020-03-24 16:04:54 260

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除