【李沐机器学习】一、数据获取+数据网页抓取

最新推荐文章于 2024-04-26 16:12:01 发布

2020的小跟班

最新推荐文章于 2024-04-26 16:12:01 发布

阅读量184

点赞数

文章标签：机器学习 python chrome

本文链接：https://blog.csdn.net/weixin_48983346/article/details/126447761

版权

这篇博客探讨了不同类型的数据集，包括学术数据集、竞赛数据集和原始数据集，以及数据融合和预处理的重要性。介绍了使用工具如搜索引擎、机器学习竞赛平台以及网页抓取技术来获取数据。此外，提到了数据标注、半监督学习和自学习等数据处理方法，并强调了数据质量对人工智能模型的影响。

摘要由CSDN通过智能技术生成

寻找数据集

在这里插入图片描述
1.论文常见数据集
2.机器学习竞赛网站+用户提交数据集
3.搜素引擎

学术数据集：做过大量的处理难度适中与常见的模型相关不适合做应用
竞赛数据集：更接近应用数据集做过一些预处理相对比较干净集中于比较火的方面
原始数据集：灵活需要预处理

数据融合

整个数据可能是放在不同的地方的，table join
在这里插入图片描述
数字可能写错或者数字的单元不同都是要考虑的因素

人工生成数据

GAN：无监督生成图片

在这里插入图片描述

数据增强：将数据进行一些变化

在这里插入图片描述

网页数据抓取

目标：在网页中把感兴趣的数据抽取出来
在这里插入图片描述

from selenium import webdriver

chrome_options = webdriver.ChromeOptions() # 拿出chrome的属性 
chrome_options.headless = True # 不需要图形界面
chrome = webdriver.Chrome(
	chrome_options=chrome_options) # 创建chrome
page = chrome.get(url)