r语言rhdf5读写hdf5并展示文件组织结构和索引数据-kb88凯时官网登录

来自:网络
时间:2023-05-18
阅读:
免费资源网 - https://freexyz.cn/

前言

h5只是一种简单的数据组织格式【层级数据存储格式(hierarchicaldataformat:hdf)】,该格式被设计用以存储和组织大量数据。

在一些单细胞文献中,作者通常会将分析的数据上传到geo数据库保存为.h5格式文件,而不是我们常见的工程文件(rds文件,表格数据等),所以为了解析利用这些数据需要对hdf5格式的组织结构有一定的了解。

(注:在seurat包中有现成的函数seurat::read10x_h5()可以用来提取表达矩阵,但似乎此外无法从h5文件中提取更多的信息)。

geo数据库

在r语言中对hdf5进行操作的软件包为rhdf5

安装

install.packages("biocmanager");biocmanager::install("rhdf5");library(rhdf5)

打开.h5文件 和 展示内容的组织结构

h5_file= h5fopen("new.h5")
####如下所示,new.h5文件内创建了一个组(group1_mat)
#组内又创建了df和matrix两个层级用以保存矩阵和数据框
> h5dump(h5_file,load=false)
$group1_mat
$group1_mat$df
  group name       otype   dclass dim
1     /   df h5i_dataset compound   5
$group1_mat$matrix
  group   name       otype dclass   dim
1     / matrix h5i_dataset  float 3 x 2

数据索引通过“$”符进行

> h5_file$group1_mat$df
  c_1 c_2 c_3 name
1   3   5  69   xx
2   2   8  60   yy
3   8   4  92   gg
4   1   6  16   ll
5   7   4  25   mm

关闭hdf5文件

h5fclose(h5_file)#关闭当前打开的hdf5文件
h5closeall()#关闭所有打开的hdf5文件

构建自己的hdf5文件

###准备数据
mdat <- matrix(c(0,2,3, 11,12,13), nrow = 2, ncol = 3, byrow = true,dimnames = list(c("row1", "row2"),c("c.1", "c.2", "c.3")))
df <- data.frame(c_1 = c(3,2,8,1,7),c_2 = c(5,8,4,6,4),c_3 = round(runif(n = 5), 2) * 100,name = c("xx","yy","gg",'ll','mm'))
mdat.spar <- matrix::matrix(mdat, sparse = true)
my_array <- array(seq(0.1,2.0,by=0.1),dim=c(5,2,2))
my_list <- list(my_array[,,1],my_array[,,2])
my_string <- "this is one hdf structure file"
###构建.h5文件
h5createfile("new.h5")
# saving matrix information.
h5creategroup("new.h5","group1_mat")
h5write(mdat, "new.h5", "group1_mat/matrix")
h5write(df, "new.h5", "group1_mat/df")
# saving sparse_matrix information.
mdat.spar <- as(mdat, "dgcmatrix")
h5creategroup("new.h5","group2_sparsemtx")
h5write(mdat.spar@x, "new.h5", "group2_sparsemtx/data")
h5write(dim(mdat.spar), "new.h5", "group2_sparsemtx/shape")
h5write(mdat.spar@i, "new.h5", "group2_sparsemtx/indices") # already zero-indexed.
h5write(mdat.spar@p, "new.h5", "group2_sparsemtx/indptr")
# saving array and list data
h5creategroup("new.h5","group3_al")
h5write(my_list, "new.h5", "group3_al/list")
h5write(my_array, "new.h5", "group3_al/array")
# saving string data
h5creategroup("new.h5","group4_string")
h5write(my_string, "new.h5", "group4_string/string")
h5closeall()

参考官方说明

以上就是r语言rhdf5读写hdf5并展示文件组织结构和索引数据的详细内容,更多关于r语言rhdf5读写hdf5的资料请关注其它相关文章!

免费资源网 - https://freexyz.cn/
返回顶部
顶部
网站地图