python HDF5 h5py 的用法

最新推荐文章于 2024-06-21 16:39:28 发布

夏华东的博客

最新推荐文章于 2024-06-21 16:39:28 发布

阅读量2k

点赞数 3

本文链接：https://blog.csdn.net/weixin_44493841/article/details/102523422

版权

python HDF5 h5py 的用法

核心概念

HDF5文件是包含两种对象的容器：数据集，它们是类似数组的数据集合；组，是类似文件夹的容器，用于存放数据集和其他组。使用h5py时要记住的最基本的事情是：
组像字典一样工作，数据集像NumPy数组一样工作

终端安装

使用Anaconda或 Miniconda：

$ conda install h5py

通过Enthought Canopy，使用GUI软件包管理器或：

$ enpkg h5py

使用pip安装

$ pip install h5py

创建文件

我们可以通过在初始化File对象时将设置为mode来创建文件w。其他一些模式是a （用于读/写/创建访问）和 r+（用于读/写访问）。

>>> import h5py
>>> import numpy as np
>>> f = h5py.File("mytestfile.hdf5", "w")

create_dataset，顾名思义，它将创建具有给定形状和dtype的数据集

>>> dset = f.create_dataset("mydataset", (100,), dtype='i')

File对象是上下文管理器；因此以下代码也适用

>>> import h5py
>>> import numpy as np
>>> with h5py.File("mytestfile.hdf5", "w") as f:
>>>     dset = f.create_dataset("mydataset", (100,), dtype='i')

读取文件

打开文件以进行读取：

>>> import h5py
>>> f = h5py.File('mytestfile.hdf5', 'r')

记住h5py.File行为就像Python字典一样，因此我们可以检查键，

>>> list(f.keys())
['mydataset']

根据我们的观察，mydataset文件中只有一个数据集。让我们将数据集作为数据集对象进行检查

>>> dset = f['mydataset']

我们获得的对象不是数组，而是HDF5数据集。像NumPy数组一样，数据集既具有形状又具有数据类型：

>>> dset.shape
(100,)
>>> dset.dtype
dtype('int32')

它们还支持数组样式切片。这是您从文件中的数据集中读取和写入数据的方式：

>>> dset[...] = np.arange(100)
>>> dset[0]
0
>>> dset[10]
10
>>> dset[0:100:10]
array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])

组和层次组织

“ HDF”代表“分层数据格式”。HDF5文件中的每个对象都有一个名称，它们使用/-separators 排列成POSIX样式的层次结构：

>>> dset.name
u'/mydataset'

该系统中的“文件夹”称为组。File我们创建的对象本身就是一个组，在本例中为根组，名为/：

>>> f.name
u'/'

创建一个子组是通过恰当地命名create_group。但是我们需要首先以“附加”模式打开文件（如果存在，则进行读/写操作，否则创建）

>>> f = h5py.File('mydataset.hdf5', 'a')
>>> grp = f.create_group("subgroup")

所有Group对象还具有create_*类似于File 的方法：

>>> dset2 = grp.create_dataset("another_dataset", (50,), dtype='f')
>>> dset2.name
u'/subgroup/another_dataset'

顺便说一下，您不必手动创建所有中间组。指定完整路径就可以了：

>>> dset3 = f.create_dataset('subgroup2/dataset_three', (10,), dtype='i')
>>> dset3.name
u'/subgroup2/dataset_three'

组支持大多数Python词典样式的界面。您可以使用item-retrieval语法在文件中检索对象：

>>> dataset_three = f['subgroup2/dataset_three']

遍历一个组可提供其成员的名称：

>>> for name in f:
...     print name
mydataset
subgroup
subgroup2

成员资格测试还使用名称：

>>> "mydataset" in f
True
>>> "somethingelse" in f
False

您甚至可以使用完整路径名：

>>> "subgroup/another_dataset" in f
True

也有熟悉的keys()，values()，items()和 iter()方法，以及get()。
由于迭代一个组仅产生其直接附接的构件，遍历整个文件与完成的Group方法 visit()和visititems()，这取一个可调用：

>>> def printname(name):
...     print name
>>> f.visit(printname)
mydataset
subgroup
subgroup/another_dataset
subgroup2
subgroup2/dataset_three。

属性

HDF5的最佳功能之一是可以将元数据存储在它描述的数据旁边。所有组和数据集都支持附加的命名数据位，即属性。
通过attrs代理对象访问属性，该代理对象又实现了字典接口：

>>> dset.attrs['temperature'] = 99.5
>>> dset.attrs['temperature']
99.5
>>> 'temperature' in dset.attrs
True

详细用法，可参见官方文档

夏华东的博客

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
python HDF5 h5py 的用法

python HDF5 h5py 的用法核心概念HDF5文件是包含两种对象的容器：数据集，它们是类似数组的数据集合；组，是类似文件夹的容器，用于存放数据集和其他组。使用h5py时要记住的最基本的事情是：组像字典一样工作，数据集像NumPy数组一样工作终端安装使用Anaconda或 Miniconda：$ conda install h5py通过Enthought Canopy，...
复制链接

扫一扫