- 博客(7)
- 收藏
- 关注
原创 Datawhale 爬虫实战打卡(四)
学习内容了解ajax加载通过chrome的开发者工具,监控网络请求,并分析用selenium完成爬虫Ajax 即“Asynchronous Javascript And XML”(异步 JavaScript 和 XML),是指一种创建交互式、快速动态网页应用的网页开发技术,无需重新加载整个网页的情况下,能够更新部分网页的技术。通过在后台与服务器进行少量数据交换,Ajax 可以使网页实...
2020-04-27 22:39:05
99
原创 Datawhale 爬虫实战打卡(三)
文章标题获取代理IP地址如何获取代理IP地址使用代理确认代理IP地址有效性完整代码seleniumsession和cookie前置:动态网页和静态网页静态网页动态网页http1.0session和cookiessessioncookies一个重要概念获取代理IP地址如何获取代理IP地址从该网站获取: https://www.xicidaili.com/.inspect -> 鼠标...
2020-04-26 00:02:11
181
原创 Datawhale 爬虫实战打卡(二)
文章标题bs4基于bs4库的HTML内容遍历方法基于bs4库的HTML内容的查找方法xpathXpath常用的路径表达式使用lxml解析爬取丁香园-用户名和回复内容re正则表达式正则表达式re库的使用re库的主要功能函数:re库的另一种等价用法(编译)re 库的贪婪匹配和最小匹配bs4Beautiful Soup 是一个HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据。...
2020-04-23 23:35:38
117
原创 Datawhale 爬虫实战打卡(一)
文章目录爬虫前置知识网络连接HTTP协议网页基础网页组成HTML DOMrequests库get函数实践:爬取豆瓣top250电影爬虫前置知识网络连接可以简单的理解为由客户端和服务器组成,由客户端发出请求(requests),服务器在接收后返回一个响应(response)爬虫的原理就是模拟浏览器对目标网站发送请求,然后从网站返回的数据中提取有用的数据,并将有用的数据存放于数据库或文件中。...
2020-04-21 22:35:09
255
原创 Task5 学习笔记
Task5 学习笔记模型融合内容概要模型融合是对多种调参完成的模型以某种方式进行融合,进而提升结果的准确性。其一般来说有以下几种方法:简单加权融合对于回归问题,简单加权融合一般包括对模型进行算术平均或者几何平均进行融合;对于分类问题可以通过投票方式进行融合,包括软投票与硬投票,区别在于软投票是在硬投票的基础上赋予了不同的权重;对于综合问题可以采取排序融合或者对数融合。st...
2020-04-04 22:00:12
76
原创 Task4 学习笔记
Task4 学习笔记建模调参内容概要线性回归模型:线性回归对于特征的要求;处理长尾分布;理解线性回归模型;模型性能验证:评价函数与目标函数;交叉验证方法;留一验证方法;针对时间序列问题的验证;绘制学习率曲线;绘制验证曲线;嵌入式特征选择:Lasso回归;Ridge回归;决策树;模型对比:常用线性模型;常用非线性模型;模型调参:贪心调参方法;网格调参方...
2020-04-01 21:47:01
128
原创 Task3 学习笔记
Task1 学习笔记欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...
2020-03-24 20:17:06
99
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人