处理Flickr8k数据集

一只肥泡泡

已于 2024-04-20 21:02:43 修改

阅读量1.6k

点赞数 6

文章标签： python

于 2024-04-20 19:47:40 首次发布

本文链接：https://blog.csdn.net/weixin_47903162/article/details/138000312

版权

处理Flickr8k数据集

数据集下载链接：https://www.kaggle.com/datasets/adityajn105/flickr8k?resource=download
包括8091张图像，1个文本文件包含对每张图像的5个描述。

目的：只是借此数据集记录一下文本处理基础方法，如果开展相应的项目，应该参考官方的数据集处理和数据集分割方式。

流程如下：

0、数据集情况

文本存储在 captions.txt 中，记录方式如下：第一行给出的表示方式为 “image, caption”。
在这里插入图片描述
图像数据：

1、读取文本并将每张图像的caption group到一起

import os
import json
import random
from collections import defaultdict, Counter
from PIL import Image
from matplotlib import pyplot as plt
import string

### 读取文件为list
def read_txt_as_list(txt_path):
    f = open(txt_path)
    f_list = []
    for line in f:
        f_list.append(line.strip())
    return f_list

caption_path = './flickr8k/captions.txt'
caption_txt = read_txt_as_list(caption_path)

### 创建一个字典，key为img_name，value为5个对应的caption
flickr8k_dict = defaultdict(list)   # 用defaultdict的好处是值默认初始化
for i in range(1, len(caption_txt)): # 从1开始因为第一行为标识表示
    comma_pos = caption_txt[i].find(',')  # 第一个逗号分隔name和caption
    img_name = caption_txt[i][:comma_pos]
    img_caption = caption_txt[i][comma_pos+1:]
    flickr8k_dict[img_name].append(img_caption)

2、随机分割数据集

### 获得所有的图像名称即keys
all_img_names = list(flickr8k_dict.keys(

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

一只肥泡泡

关注关注

6
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【Image captioning】图像字幕预处理从零到掌握之二--成功实现将Flickr8k.token.txt转换为JSON格式（其他数据集可仿照迁移）

安静到无声

04-15

1771

本文尝试对Flickr8k数据集的文件进行预处理，生成符合COCO JSON格式的输入数据，以用于后续的图像标题生成实验。

基于YOLOv10的Flickr8k图像数据集目标检测与UI界面应用

m0_52343631的博客

04-21

435

Flickr8k数据集是一个标注了8,000张图片的图像数据集，包含了各种场景和物体类别，包括人物、物品、动物等。每张图片都包含了多个物体的类别标签，并且在目标检测和图像标注等领域具有广泛的应用。在本篇博客中，我们通过YOLOv10模型和Flickr8k图像数据集实现了一个目标检测应用。我们介绍了如何准备数据集、进行预处理、训练YOLOv10模型以及如何将目标检测与UI界面结合，构建了一个简单的Web应用供用户交互。

1 条评论您还未登录，请先登录后发表或查看评论

Flickr8k训练、验证、测试集json文件

03-29

图像描述数据集 Flickr8k

解锁Flickr30k Entities：图像语义理解的关键数据集

qq_38220914的博客

03-03

1106

Flickr30k 数据集已成为基于句子的图像描述的标准基准。本文介绍了 Flickr30k Entities 数据集，它在 Flickr30k 的 15.8 万个图像字幕基础上，增加了 24.4 万个共指链，将同一图像在不同字幕中对相同实体的提及联系起来，并将它们与 27.6 万个手动标注的边界框相关联。这些注释对于自动图像描述和基于实际场景的语言理解的持续发展至关重要。它们使我们能够定义一个新的基准，用于在图像中定位文本实体提及。我们提出了一个针对此任务的强大基线模型，该模型结合了图像 - 文本嵌入、常

flickr8k text数据集

11-20

flicrk8k 数据集。用于image caption等相关数据的处理

Flickr8k数据集处理（草履虫也能看得懂！）

weixin_48981284的博客

11-28

6464

对 Flickr8k 数据集进行预处理，生成训练集、验证集和测试集待训练中使用。

Flickr社交网络数据集

01-02

Flickr是用户分享图片和视屏的社交网络，在此数据集中，每一个节点都是Flickr中的用户，每一条边都是用户之间的好友关系。另外，每一个节点都有标签，用于标识用户的兴趣小组

关于flickr的数据集笔记

oneself的博客

07-24

7685

关于flickr的数据集笔记

Flickr8k和Flickr8kCN 数据下载

weixin_40264772的博客

04-25

6532

Flickr8k和Flickr8kCN 数据最近老师做图像字幕生成，让我找找Flickr8k和Flickr8kCN 数据库，官网上给的连接总显示404，不过好在最后找到了。那我就来分享一下吧。链接：https://pan.baidu.com/s/1c-FrC-NJIFw8-YyXlXqjCg 提取码：9y95 ...

Automated_Image_Captioning：使用深度学习和Flickr-8k数据集进行自动图像字幕

04-11

使用深度学习和Flickr-8k数据集进行自动图像字幕。还对Xception模型和Inception模型进行了比较。这是使用卷积神经网络和一种递归神经网络（LSTM）为所有类型的图像生成标题和替代文本的最简单方法。关于图像特征...

dataset_coco.json+dataset_flickr8k.json+dataset_flickr30k.json

04-30

2. **Flickr8k数据集**：这是一个中型的图像描述数据集，由8,000张来自Flickr网站的图片组成，每张图片对应5个不同的英文描述。这个数据集相对较小，通常用于初步的图像描述生成模型的训练和验证。 3. **Flickr30k...

flickr数据集_【技术综述】AVA数据集后时代与展望

weixin_28914869的博客

12-27

935

本文首发于微信公众号《有三AI》走向AI摄影终极之路 AVA数据集后时代与发展？mp.weixin.qq.com前面已经介绍过当今最大的美学数据集AVA以及AVA之前的数据集，AVA数据集的发布是2012年，离现在已经过去了5年，在机器学习迭代如此频繁的日子里，必然会出现新的数据集。本文就略作介绍，也是数据集介绍的最后一篇文章。在准备好这些之后，就要开始真正的搞起了！1， AADB【1】（Aes...

flickr.mat数据集

10-15

flickr.mat数据集，可以用于网络表示学习的数据集，论文中常用

Automated_Image_Captioning：使用深度学习和Flickr-8k数据集进行自动图像字幕。还比较了Xception模型和Inception模型（v3）

02-10

Torrent_to_Drive 使用深度学习和Flickr-8k数据集进行自动图像字幕。还对Xception模型和Inception模型进行了比较。这是使用卷积神经网络和一种递归神经网络（LSTM）为所有类型的图像生成标题和替代文本的最简单方法。关于图像特征将从在imagenet数据集上训练的CNN模型中提取（请参见下文），然后将特征输入到LSTM模型中，后者将负责生成图像标题。此回购围绕Keras提供的2个模型进行。提取的功能可以在找到使用的数据集可以在找到 Jupyter笔记本可以在找到训练过的模型可以在找到需求和依赖关系可以在找到字幕生成器可以在找到想要贡献？建议，错误报告，错误解决受到高度赞赏，请打开问题和/或PR 建立设置虚拟环境（强烈推荐）激活环境。安装需求，使用pip3 install -r requirements.txt 注意：

卡耐基梅隆大学FlickrMFC图像数据集

11-01

FlickrMFC图像数据集包含14类多前景图像，可用于图像处理实验，多前景联合图像分割实验等。

图文识别（flickr30k数据集）

weixin_73902883的博客

04-29

1405

这个函数初始化了一个预训练的EfficientNetB0模型，去除其顶部的预测层，并将模型权重冻结，以便在训练过程中不更新这些权重。：这是一个Transformer模型的编码器块，它使用多头注意力机制（MultiHeadAttention）和层归一化（LayerNormalization）。：这是Transformer模型的解码器块，它同样使用多头注意力机制，但还额外包括了一个交叉注意力层，用于将编码器的输出与解码器的输入结合。3.加载和处理图像描述数据集，并对数据集进行分割以用于训练、验证和测试。

open cv提取图片特征值_基于VGG16网络提取Flicker8K数据集图像特征

weixin_39612726的博客

11-28

443

# !/usr/bin/env python3# -*- coding: utf-8 -*-# @Time : ${20200326} ${18:00}# @Author : ZicoZhou# @Version :1.0# @Function : VGG16网络提取图像特征from keras.models import model_from_jsonfrom keras.models impo...

Flickr30k图像标注数据集下载及使用方法

gitblog_06524的博客

10-31

1254

Flickr30k图像标注数据集下载及使用方法【下载地址】Flickr30k图像标注数据集下载及使用方法分享 Flickr30k图像标注数据集是一个广泛用于图像标注和图像描述任务的数据集。该数据集包含了31，783张图像，每张图像都带有5句标注语句，总共158，915句标注。这些标注语句可以帮助研究人员和开发者训练和评...

深度学习博客：Flickr8k数据集的目标检测与UI界面实现（YOLOv5）

最新发布

m0_52343631的博客

04-26

347

Flickr8k数据集来源于Flickr网站，包含约8,000张图片。这些图片包括不同场景下的人物、物品、动物等物体，适合用于图像分类、目标检测等任务。在本项目中，我们将重点使用其图像部分，进行目标检测任务。YOLOv5是一个基于深度学习的目标检测模型，能够在图像中识别并标记多个目标。YOLOv5的特点是速度快、精度高，并且具有较好的实时性能。YOLOv5通过CNN网络进行图像特征提取，并利用回归框架进行目标检测。在我们的项目中，YOLOv5将用来检测Flickr8k数据集中的人物和物品等目标。

Flickr8k数据集

02-28

### Flickr8k 数据集概述 Flickr8k 数据集包含 8000 张不同主题的图像，每张图像配有 5 个不同的文本描述[^2]。该数据集广泛应用于计算机视觉领域，特别是针对图像字幕生成的研究。 ### 数据集下载与使用说明为了方便研究人员访问此数据集，官方提供了多种方式来获取： - **官方网站**: 用户可以直接从 [Flickr8k 官方网站](https://forms.illinois.edu/sec/1713398) 提交申请表单请求下载权限。 - **Kaggle 平台**: 另一种便捷的方式是从 Kaggle 获取，地址为 [Flickr8k on Kaggle](https://www.kaggle.com/adityajn105/flickr8k)，注册账号后即可免费下载完整的数据包。 ### 图像标注详情对于每一幅图片而言，除了原始图像外，还附带有一个详细的 CSV 文件记录着对应的五条英文描述语句。这些描述不仅限于简单的物体名称列举，而是尽可能详尽地描绘了场景内的活动、人物姿态以及相互间的关系等内容。 ### 数据结构解析当解压缩下载后的文件夹时，会发现如下目录结构： ``` flickr8k/ ├── images/ │ ├── image_0.jpg │ └── ... └── captions.txt ``` 其中 `images` 文件夹内存储的是所有的 JPG 格式的图片；而 `captions.txt` 则是以纯文本形式保存了所有图片的文字描述信息，其格式通常为 “image_name#caption_number caption”，例如：“1000268201_693b08cb0e.jpg#0 A child in a pink dress is climbing up a small slide.” ```python import pandas as pd # 加载 Caption 文本文件 df_captions = pd.read_csv('path_to_flickr8k/captions.txt', sep='\t') print(df_captions.head()) ``` 通过上述代码可以轻松加载并查看部分图片及其关联的描述文字。