keras自带的数据集

CIFAR10小图像分类

数据集50,000张32x32彩色训练图像,标注超过10个类别,10,000张测试图像。

https://blog.csdn.net/qq_37879432/article/details/78557234

用法:

from keras.datasets import cifar10


(x_train, y_train), (x_test, y_test) = cifar10.load_data()
  • 返回:
    • 2元组:
      • x_train,x_test:具有形状(num_samples ,3,32,32)的RGB图像数据的uint8数组。
      • y_train,y_test:uint8具有形状(num_samples,)的类别标签数组(范围0-9中的整数)。

CIFAR100小图像分类

数据集50,000张32x32彩色训练图像,标注超过100个类别,10,000张测试图像。

用法:

from keras.datasets import cifar100


(x_train, y_train), (x_test, y_test) = cifar100.load_data(label_mode='fine')
  • 返回:

    • 2元组:
      • x_train,x_test:具有形状(num_samples ,3,32,32)的RGB图像数据的uint8数组。
      • y_train,y_test:uint8带有形状(num_samples,)的类别标签数组。
  • 参数:

    • label_mode:“好”或“粗糙”。

IMDB电影评论情绪分类

数据集来自IMDB的2.5万部电影评论,以情绪(正面/负面)标记。评论已被预处理,并且每个评论被编码为一系列词索引(整数)。为了方便起见,词汇通过数据集中的整体频率进行索引,例如整数“3”对数据中第三个最频繁的词进行编码。这允许快速过滤操作,例如:“只考虑前10000个最常用的词,但是排除前20个最常见的词”。

作为惯例,“0”不代表特定的单词,而是用于编码任何未知的单词。

用法:

from keras.datasets import imdb

(x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz",
num_words=None,skip_top=0,maxlen=None,seed=113,start_char=1,oov_char=2,index_from=3)
  • 返回:

    • 2元组:
      • x_train,x_test:序列列表,索引列表(整数)。如果num_words参数是特定的,则可能的最大索引值是num_words-1。如果指定了maxlen参数,则可能的最大序列长度是maxlen。
      • y_train,y_test:整数标签列表(1或0)。
  • 参数:

    • 路径:如果你本地没有数据(at '~/.keras/datasets/' + path),它将被下载到这个位置。
    • num_words:整数或无。考虑最常用的词汇。任何不太频繁的单词将作为oov_char序列数据中的值出现。
    • skip_top:整数。要忽略的最常见的单词(它们将oov_char在序列数据中显示为值)。
    • maxlen:int。最大序列长度。任何更长的序列将被截断。
    • seed:int。用于可重现数据混洗的种子。
    • start_char:int。一个序列的开始将被标记为这个字符。设为1,因为0通常是填充字符。
    • oov_char:int。由于num_words 或skip_top限制而被删除的词将被替换为这个字符。
    • index_from:int。用这个索引和更高的索引实际的单词。

路透社newswire话题分类

来自路透社的11,228条新闻数据集标有46个主题。与IMDB数据集一样,每条线都被编码为一系列字索引(相同的约定)。

用法:

from keras.datasets import reuters


(x_train, y_train), (x_test, y_test) = reuters.load_data(path="reuters.npz",num_words=None,

skip_top=0,maxlen=None,test_split=0.2seed=113,start_char=1,oov_char=2,index_from=3)

规格与IMDB数据集的规格相同,但增加了:

  • test_split:float。要用作测试数据的数据集的分数。

该数据集还提供了用于编码序列的字索引:

word_index = reuters.get_word_index(path="reuters_word_index.json")
  • 返回:一个字典,其中键是单词(str),值是索引(整数)。例如。word_index["giraffe"]可能会返回1234

  • 参数:

    • 路径:如果你本地没有索引文件(at '~/.keras/datasets/' + path),它将被下载到这个位置。

手写数字的MNIST数据库

数据集包含10个数字的60,000个28x28灰度图像,以及10,000个图像的测试集。

用法:

from keras.datasets import mnist


(x_train, y_train), (x_test, y_test) = mnist.load_data()
  • 返回:

    • 2元组:
      • x_train,x_test:uint8具有形状(num_samples,28,28)的灰度图像数据数组。
      • y_train,y_test:uint8带有形状(num_samples,)的数字标签数组(范围0-9中的整数)。
  • 参数:

    • 路径:如果你本地没有索引文件(at '~/.keras/datasets/' + path),它将被下载到这个位置。

时尚文章的时尚MNIST数据库

数据集包含10个时尚类别的60,000个28x28灰度图像,以及10,000个图像的测试集。这个数据集可以用作MNIST的直接替换。类标签是:

标签描述
0T恤/顶
1裤子
2拉过来
3连衣裙
4涂层
檀香
6衬衫
7运动鞋
8
9脚踝靴

用法:

from keras.datasets import fashion_mnist


(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()
  • 返回:
    • 2元组:
      • x_train,x_test:uint8具有形状(num_samples,28,28)的灰度图像数据数组。
      • y_train,y_test:uint8带有形状(num_samples,)的标签数组(范围0-9中的整数)。

波士顿房屋价格回归数据集

数据集取自卡内基梅隆大学维护的StatLib库。

20世纪70年代后期,样本在波士顿郊区的不同位置包含13个房屋属性。目标是一个地点房屋的中位值(单位:k $)。

用法:

from keras.datasets import boston_housing


(x_train, y_train), (x_test, y_test) = boston_housing.load_data()
  • 参数:

    • 路径:本地缓存数据集的路径(相对于〜/ .keras /数据集)。
    • seed(种子):在计算测试分割之前用于混洗数据的随机种子。
    • test_split:作为测试集保留的数据的一小部分。
  • 返回: Numpy数组的元组:(x_train, y_train), (x_test, y_test)

转自https://blog.csdn.net/qq_37879432/article/details/78557234  Duyuankai1992

Keras-OCR 是一个基于 Keras 框架构建的开源光学字符识别库,可以帮助我们进行图像中的文本检测和识别。Keras-OCR 自带了一些预训练模型和数据集,方便我们进行文本识别任务。 要下载 Keras-OCR 自带的模型和数据集,可以按照以下步骤进行操作: 1. 首先,确保已经安装了 Keras-OCR 的依赖库。可以通过 pip 命令安装,在命令行中输入以下命令: ``` pip install keras-ocr ``` 2. 安装完成后,就可以使用 Keras-OCR 的预训练模型和数据集了。Keras-OCR 提供了一个名为 `keras_ocr.tools.downloader.download()` 的函数,用于下载预训练模型和数据集。在 Python 脚本中,引入 `keras_ocr.tools` 模块,并使用 `download()` 函数进行下载。示例如下: ``` from keras_ocr.tools import downloader downloader.download() ``` 3. 运行上述代码后,将会弹出一个命令行交互界面,展示可供下载的模型和数据集列表。可以根据需求选择需要下载的模型和数据集。输入数字来选择要下载的内容,然后按下回车键进行确认。 4. 下载过程会自动开始,并显示下载进度。下载完成后,Keras-OCR 自带的模型和数据集将存储在默认的文件夹中,可以在 Python 脚本中直接引用这些文件进行文本识别任务。 总结一下,通过安装 Keras-OCR 并使用 `keras_ocr.tools.downloader.download()` 函数,我们可以方便地下载并使用 Keras-OCR 自带的预训练模型和数据集,以进行光学字符识别。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值