【李沐机器学习】一、数据获取+数据网页抓取

这篇博客探讨了不同类型的数据集,包括学术数据集、竞赛数据集和原始数据集,以及数据融合和预处理的重要性。介绍了使用工具如搜索引擎、机器学习竞赛平台以及网页抓取技术来获取数据。此外,提到了数据标注、半监督学习和自学习等数据处理方法,并强调了数据质量对人工智能模型的影响。
摘要由CSDN通过智能技术生成

寻找数据集

在这里插入图片描述
1.论文常见数据集
2.机器学习竞赛网站+用户提交数据集
3.搜素引擎
在这里插入图片描述
学术数据集:做过大量的处理 难度适中 与常见的模型相关 不适合做应用
竞赛数据集:更接近应用数据集 做过一些预处理 相对比较干净 集中于比较火的方面
原始数据集:灵活 需要预处理

数据融合

整个数据可能是放在不同的地方的,table join
在这里插入图片描述
数字可能写错或者数字的单元不同都是要考虑的因素

人工生成数据

GAN:无监督生成图片

在这里插入图片描述

数据增强:将数据进行一些变化

在这里插入图片描述

网页数据抓取

目标:在网页中把感兴趣的数据抽取出来
在这里插入图片描述

from selenium import webdriver

chrome_options = webdriver.ChromeOptions() # 拿出chrome的属性 
chrome_options.headless = True # 不需要图形界面
chrome = webdriver.Chrome(
	chrome_options=chrome_options) # 创建chrome
page = chrome.get(url) 

selenium是python中的一个工具,webdriver是Chrome的后台
1.假装是人为的浏览网页而不是机器
2.大量更新ip,通过不同的ip去抓取网页

数据标注

在这里插入图片描述
数据标注处理过程图

半监督学习

有一小部分的数据有标注 有标志数据和没有标注数据一起使用
半监督学习的假设:
1.两个样本类似可能会有相同的标注
2.聚类->一个类里面的数据可能会有相同的标号,不同的类之间也可能有相同的标号
3.流行假设:数据的复杂度可能远远低于看到数据的复杂度,可以通过降维来获取干净一点的数据

自学习

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值