寻找数据集
1.论文常见数据集
2.机器学习竞赛网站+用户提交数据集
3.搜素引擎
学术数据集:做过大量的处理 难度适中 与常见的模型相关 不适合做应用
竞赛数据集:更接近应用数据集 做过一些预处理 相对比较干净 集中于比较火的方面
原始数据集:灵活 需要预处理
数据融合
整个数据可能是放在不同的地方的,table join
数字可能写错或者数字的单元不同都是要考虑的因素
人工生成数据
GAN:无监督生成图片
数据增强:将数据进行一些变化
网页数据抓取
目标:在网页中把感兴趣的数据抽取出来
from selenium import webdriver
chrome_options = webdriver.ChromeOptions() # 拿出chrome的属性
chrome_options.headless = True # 不需要图形界面
chrome = webdriver.Chrome(
chrome_options=chrome_options) # 创建chrome
page = chrome.get(url)
selenium是python中的一个工具,webdriver是Chrome的后台
1.假装是人为的浏览网页而不是机器
2.大量更新ip,通过不同的ip去抓取网页
数据标注
数据标注处理过程图
半监督学习
有一小部分的数据有标注 有标志数据和没有标注数据一起使用
半监督学习的假设:
1.两个样本类似可能会有相同的标注
2.聚类->一个类里面的数据可能会有相同的标号,不同的类之间也可能有相同的标号
3.流行假设:数据的复杂度可能远远低于看到数据的复杂度,可以通过降维来获取干净一点的数据