ceph存储池管理-kb88凯时官网登录

来自：

时间：2024-05-25

阅读：

前面已经搭建好了一个基础的ceph集群，现在来看看ceph的存储

1. ceph的存储流程

当客户端需要存储一个文件到ceph集群的时候，ceph会把这个文件切分成多个对象，默认情况下每个对象4m，不足4m按原大小。切分之后每个对象都有一个对应的对象id，ceph拿到这个对象id之后执行hash算法，去计算出这个对象应该写入到哪个pg(placement group)

pg是一些对象的集合，这些对象组成一个group，放在某些osd上（place），组合起来就是placement group。将objects以pg为单位进行管理，有以下好处：

集群中的pg数目经过规划因为严格可控，使得基于pg可以精准控制单个osd乃至整个节点的资源消耗，如cpu、内存、网络带宽等
因为集群中的pg数目远小于objects数目，并且pg数目和每个pg的身份相对固定，以pg为单位进行数据备份策略和数据同步、迁移等，相较于直接以对象为单位而言，难度更小且更加灵活

1. 数据写入

为了保证集群里存储的数据不丢失，ceph采用了多副本机制，也就是将一个pg复制到多个osd节点上，当存储数据时，主osd收到写入指令后，将数据写入，并向其他的备osd(这里的数量取决于你设置的副本数)发起数据写入指令

强一致性会导致数据写入有较大的延迟，因此ceph进行了优化，将数据的写入分为2步执行

第一次当所有数据都写入osd节点的缓存后，向client发送一次确认，client就认为数据写入完成，继续后面的操作
第二次当所有数据都从缓存写入到磁盘后，再向client发送一次确认，client就会认为数据彻底写入，从而根据需要删除对应的本队数据

2. 数据读取

如果是读取数据呢？是怎么读的？在哪个osd读？

ceph读取数据的话永远都是从主osd节点上读取，不会从其他备osd节点读。

2. 资源池的配置

2.1 资源池创建

创建资源池的命令是
ceph osd pool create poolname [pg_num:int] [pgp_num:int] [replicated|erasure] [earsure_code_profile]
- poolname ：资源池名称，必选
- pg_num:int：pg数量，现在可以不选
- pgp_num:int：下面单独解释什么是pgp,也可以不选
- replicated|erasure：资源池类型，replicated为副本池，另一个则为纠删码池
- earsure_code_profile：纠删码配置模板，用于设置数据块和纠删码数量，当资源池类型为纠删码时，此选项为必选
- 如果创建资源池仅仅指定了资源池名称，那么其他参数系统会自动补齐，默认资源池类型为副本池

[root@ceph01 ~]# ceph osd pool create test_pool
pool 'test_pool' created

pgp是什么（placement group for placement purpose）

我们现在都知道pg是什么，用比较容易理解的话来说就相当于linux上的目录，目录下面会存放文件嘛，只不过pg存放的是对象，那如果pg数量太少，对象数量太多，我们是不是应该创建更多的pg出来？对。就是应该创建更多的pg，但是并不是直接创建，而是当任何池的pg_num增加时，此池的每个pg都将一分为二，但它们都保持映射到其父osd。直到这个时候，ceph才开始重新平衡。现在，当你增加同一个池的pgp_num值时，pg开始从父级迁移到其他osd，并开始群集重新平衡。这就是pgp发挥重要作用的原因。

简单来说，如果只是pg的数量发生变化的话，那么这个osd上的pg会发生裂变由原来的一个一分为二，但是数据依旧保存在这个osd上，但是如果修改了pgp的数量，那么此时会开始发生迁移，之前发生裂变的pg可能会被重新调度到其他的osd上

2.2 绑定池类型

当我们的存储池被创建出来之后，我们需要指定他的类型，不建议复用

[root@ceph01 ~]# ceph osd pool application enable test_pool rbd
enabled application 'rbd' on pool 'test_pool'
[root@ceph01 ~]# ceph osd pool create test02
pool 'test02' created
[root@ceph01 ~]# ceph osd pool application enable test02 rgw
enabled application 'rgw' on pool 'test02'[root@ceph01 ~]# ceph osd pool application enable test03 cephfs
enabled application 'cephfs' on pool 'test03'

这时候我们就有3个存储池，绑定的类型分别是 rbd,rgw,cephfs

关闭

我们刚刚是使用enable绑定的类型，那么同样可以使用disable去关闭掉

[root@ceph01 ~]# ceph osd pool application disable test03 cephfs
error eperm: are you sure? disabling an application within a pool might result in loss of application functionality; pass --yes-i-really-mean-it to proceed anyway

这个时候他会报错，目的是让你确认，你得加上 --yes-i-really-mean-it这个才可以删除

[root@ceph01 ~]# ceph osd pool application disable test03 cephfs --yes-i-really-mean-it
disable application 'cephfs' on pool 'test03'

3. 对象的管理

我们创建了资源池，也绑定了类型，那么现在可以使用rados来操作ceph集群了

3.1 上传对象

[root@ceph01 ~]# rados -p test03 put test-obj /etc/hosts

-p 是指定资源池
put是操作
test-obj 是对象的id，自己指定
/etc/hosts 是需要上传的文件
整条命令就是说将本地的/etc/hosts文件上传到test03，对象的id是test-obj

3.2 查看对象

[root@ceph01 ~]# rados -p test03 put test-obj /etc/hosts
[root@ceph01 ~]# rados -p test03 ls
test-obj

我们使用ls就可以看到我们刚刚上传的文件了

3.3 下载对象

[root@ceph01 ~]# rados -p test03 get test-obj ./hosts
[root@ceph01 ~]# cat hosts
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4 ceph01
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.101.10 ceph01
192.168.101.20 ceph02
192.168.101.30 ceph03

3.4 删除对象

[root@ceph01 ~]# rados -p test03 rm test-obj 
[root@ceph01 ~]# rados -p test03 ls

3.5 查询对象所在pg

# 重新上传一个对象
[root@ceph01 ~]# rados -p test03 put test-obj /etc/hosts
[root@ceph01 ~]# ceph osd map test03 test-obj
osdmap e93 pool 'test03' (4) object 'test-obj' -> pg 4.d6b75f59 (4.19) -> up ([7,2,5], p7) acting ([7,2,5], p7)

我们可以看到这个对象位于 7,2,5这三个pg上，主osd是7

3.6 限制资源池配额

限制资源池有2种，一种是限制最大对象数，一种是限制最大字节数

限制资源有一点非常不友好，就是你到达了最大数量的限制之后你再去上传，他不会报错，会一直卡在那

# 设置最大字节为5m
[root@ceph01 ~]# ceph osd pool set-quota test03 max_bytes 5m
set-quota max_bytes = 5242880 for pool test03

取消配置只需要设置成0就可以了

[root@ceph01 ~]# ceph osd pool set-quota test03 max_bytes 0

3.7 测试配额

# 创建一个4m的文件
[root@ceph01 ~]# dd if=/dev/zero of=./4m count=1 bs=4m
1 0 records in
1 0 records out
4194304 bytes (4.2 mb, 4.0 mib) copied, 0.00513982 s, 816 mb/s
# 上传文件
[root@ceph01 ~]# rados -p test03 put 4m ./4m
[root@ceph01 ~]# rados -p test03 ls
test-obj
4m
[root@ceph01 ~]# ceph osd pool  get-quota test03
quotas for pool 'test03':
  max objects: n/a
  max bytes  : 5 mib  (current num bytes: 4194535 bytes)
[root@ceph01 ~]# rados -p test03 put test_put ./4m
[root@ceph01 ~]# ceph osd pool  get-quota test03
quotas for pool 'test03':
  max objects: n/a
  max bytes  : 5 mib  (current num bytes: 8388839 bytes)

是不是有疑问了，不是最大限制5m吗，这都上传了8m了啊

是这样的，在你的空间还没有满之前，哪怕就剩下1k了，这时候你上传多大的文件都可以传进去，但是当他已经超过之后，你就传不进去了。我们再来传一个

[root@ceph01 ~]# rados -p test03 put test_put02 ./4m

你会发现他一直卡在这，对吧。他不会报错，他也不会告诉你超过配额了。

配额超过之后他是不允许你执行任何上传，下载操作的。注意。下载也是不行的，你只能执行get这是没有问题的

3. 存储池快照

ceph的快照功能有点鸡肋，原因是他并不跟虚拟机的快照功能一样，还原快照就直接回到当时的那个场景，ceph的快照是这样的。

首先你对现在的存储池打一个快照，然后你想恢复的话，需要从某个快照里面去将某个文件get到本地，然后再从本地上传到存储池内

# 打快照
[root@ceph01 ~]# rados -p test03 ls
test-obj
[root@ceph01 ~]# rados -p test03 mksnap snap01
created pool test03 snap snap01
[root@ceph01 ~]# rados -p test03 lssnap
1	snap01	2024.05.25 10:30:05
1 snaps
# 删除存储池的文件
[root@ceph01 ~]# rados -p test03 rm test-obj
# 查看文件，这时候他还会显示，应该是个bug，但是这个文件已经是被删掉了，不信的话可以get一下
[root@ceph01 ~]# rados -p test03 ls
test-obj
# 将文件还原
[root@ceph01 ~]# rados -p test03 -s snap01 get test-obj ./test-obj
selected snap 1 'snap01'
[root@ceph01 ~]# ls test-obj
test-obj
# 上传到存储池内
[root@ceph01 ~]# rados -p test03 put test-obj ./test-obj
[root@ceph01 ~]# rados -p test03 ls
test-obj

怎么样，现在是不是觉得非常的鸡肋。如果要还原的文件过多，那么就需要一个个下载到本地然后重新上传回去。非常之麻烦

4. 修改池属性

当池被创建出来之后，我们需要修改他的一些属性，比如修改副本数，修改pg数等等

4.1 列出属性

[root@ceph01 ~]# ceph osd pool get test03 all
size: 3
min_size: 2
pg_num: 32
pgp_num: 32
crush_rule: replicated_rule
hashpspool: true
nodelete: false
nopgchange: false
nosizechange: false
write_fadvise_dontneed: false
noscrub: false
nodeep-scrub: false
use_gmt_hitset: 1
fast_read: 0
pg_autoscale_mode: on
bulk: false

4.2 调整副本数为4

[root@ceph01 ~]# ceph osd pool set test03 size 4
set pool 4 size to 4
[root@ceph01 ~]# ceph osd pool get test03 size
size: 4

4.3 禁止删除存储池

[root@ceph01 ~]# ceph osd pool set test03 nodelete true
set pool 4 nodelete to true

nodelete 就是这个存储池不允许被删除

我们来删删看

[root@ceph01 ~]# ceph osd pool rm test03 
error eperm: warning: this will *permanently destroy* all data stored in pool test03.  if you are *absolutely certain* that is what you want, pass the pool name *twice*, followed by --yes-i-really-really-mean-it.
# 他报错说要删除存储池的话需要写2次存储池的名字以及加上--yes-i-really-really-mean-it
[root@ceph01 ~]# ceph osd pool rm test03  test03 --yes-i-really-really-mean-it
error eperm: pool deletion is disabled; you must first set the mon_allow_pool_delete config option to true before you can destroy a pool

现在他依然报错，因为我们刚刚设置了不允许被删除，现在我们取消

[root@ceph01 ~]# ceph osd pool set test03 nodelete false
set pool 4 nodelete to false
# 再来删除
[root@ceph01 ~]# ceph osd pool rm test03  test03 --yes-i-really-really-mean-it
error eperm: pool deletion is disabled; you must first set the mon_allow_pool_delete config option to true before you can destroy a pool

可以看到他一样不让删除，他的意思是要删除的话必须将 mon_allow_pool_delete设置为true，默认为false

# 修改这个值
[root@ceph01 ~]# ceph config set mon mon_allow_pool_delete true
# 删除池
[root@ceph01 ~]# ceph osd pool rm test03 test03 --yes-i-really-really-mean-it
pool 'test03' removed

5. 纠删码池管理

纠删码池在ceph的局限性是只能做对象网关，但是他不会保存多个副本，空间利用率大大提升

5.1 原理

当上传某个文件的时候，他会将文件拆成多个数据块，然后存放的时候会再补充若干个校验块，他的冗余能力为纠删码的块数。假如我们现在有一个3m的文件，被拆分成3个1m的数据块，然后还有2个校验块，如果挂掉了2个数据块，正好可以通过还剩下的1个数据块 2个校验块来还原数据。如果3个数据块都坏掉了那就还原不了

5.2 创建纠删码池

[root@ceph01 ~]# ceph osd pool create test04 erasure
pool 'test04' created

之前不是说创建纠删码就必须给他指定一个配置文件吗？我没指定怎么也创建出来了呢？我们来看看

[root@ceph01 ~]# ceph osd pool ls detail |grep erasure
pool 5 'test04' erasure profile default size 4 min_size 3 crush_rule 1 object_hash rjenkins pg_num 32 pgp_num 32 autoscale_mode on last_change 110 flags hashpspool stripe_width 8192

这里我们可以看到他使用的默认的配置文件，查看默认配置文件

# 查看有哪些配置文件
[root@ceph01 ~]# ceph osd erasure-code-profile ls
default
# 查看配置文件的详细配置
[root@ceph01 ~]# ceph osd erasure-code-profile get default
k=2
m=2
plugin=jerasure
technique=reed_sol_van

5.2.1 创建自己的配置文件

[root@ceph01 ~]# ceph osd erasure-code-profile set test_profile crush-failure-domain=osd k=3 m=2
[root@ceph01 ~]# ceph osd erasure-code-profile ls
default
test_profile

k：就是数据块的个数
m：就是校验块的数量
crush-failure-domain：故障域，意思就是要求故障域分配在不同的osd上，不需要分配在不同的上，为什么不是host，因为分配在不同的主机上的话，需要k m台主机，但是我们现在只有3台主机，所以需要改

5.2.2 使用自己的配置文件创建池

[root@ceph01 ~]# ceph osd pool create test05 erasure test_profile
pool 'test05' created
[root@ceph01 ~]# ceph osd pool get test05 all
size: 5
min_size: 4
pg_num: 32
pgp_num: 32
crush_rule: test05
hashpspool: true
allow_ec_overwrites: false
nodelete: false
nopgchange: false
nosizechange: false
write_fadvise_dontneed: false
noscrub: false
nodeep-scrub: false
use_gmt_hitset: 1
erasure_code_profile: test_profile
fast_read: 0
pg_autoscale_mode: on
bulk: false

检索增强生成 (retrieval augmented generation，rag) 可将存储在外部数据库中的新鲜领域知识纳入大语言模型以增强其文本生成能力。其提供了一种将公司数据与训练期间语言模

2024-05-25 11:53:26

目录 ceph存储池 1. ceph的存储流程 1. 数据写入 2. 数据读取 2. 资源池的配置 2.1 资源池创建 pgp是什么（placement group for placement purpose）

2024-05-25 11:48:13

rust 处理错误，不使用 try catch，而是使用 result。简单的处理rust错误在各种关于rust错误处理的文档中，为了解释清楚其背后的机制，看着内容很多，不好理解。比如我们写一

2024-05-10 21:43:40

在上文中我们学会学会更改加载路径，加载对应文件夹下的lua脚本。默认解析加载的lua脚本存在的文件位置非ab包或者resources文件夹下往往不能随包体更新，这显然不符合热更需要

2024-05-10 21:29:47

方便我们在项目中使用lua解析方法，我们封装管理一个lua解析器，管理luastate的方法执行。解析器脚本：using luainterface;namespace baseframework{ ///

/// 自

2024-05-10 21:29:22

使用自定义委托来调用lua脚本中的多返回值函数和长参数类型的函数。先看代码，依旧是上篇文章中所贴的脚本。新增调用两个函数testfuncusing system;using baseframework;usin

2024-05-10 21:28:53

访问数组类型的tablecallluaentrance测试脚本中内容： //--------------------------------------访问table-----------------------------//4.1 访问list/数组类型的table//

2024-05-10 21:28:16

在并发的世界中，最常见的并发安全问题就是数据竞争，也就是两个线程同时对一个变量进行读写操作。但当你在 safe rust 中写出有数据竞争的代码时，编译器会直接拒绝编译。那么它

2024-04-30 21:37:14

使用ollama anythingllm快速且简单的在本地部署llama3不多说，直接开始一、安装ollamaollamad88尊龙官网手机app官网：https://ollama.com/
下载地址：https://ollama.com/download打开以后注册并

2024-04-23 22:31:56

为什么需要 cni在 kubernetes 中，pod 的网络是使用 network namespace 隔离的，但是我们有时又需要互相访问网络，这就需要一个网络插件来实现 pod 之间的网络通信。cni 就是为了

2024-04-21 22:16:12

背景我是有个基于dom实现的简历编辑器项目的，因为暂时找不到可以用canvas实现的比较有意思的场景，所以才选择了继续做简历编辑器，最开始做简历编辑器就是因为很多简历网站都是

2024-04-15 11:46:07

前言在canvas2d中实现圆形的绘制比较简单，只要调用arc指令就能在canvas画布上绘制出一个圆形，类似的，在svg中我们也只需要一个标签就能在页面上绘制一个圆形。那么在we

2024-04-13 21:52:27

第一章：引言导言在当今数字化时代，数据安全和完整性变得至关重要。消息摘要算法是一种用于验证数据完整性和安全性的重要工具。在众多消息摘要算法中，md5（message
digest algori

2024-04-11 21:57:55

1.概述传统应用开发中，为了提升系统的查询性能，往往会在系统架构设计中加入缓存机制。在ai大模型领域，虽然功能非常强大，但是使用成本也是非常昂贵的，比如openai的gpt-4按照token

2024-03-31 22:20:53

目录简介架构 application 和组件简单入门示例先决条件创建项目编译库文件引用库文件运行项目界面交互示例创建项目编译库文件实现应用函数引

2024-03-26 11:54:50

目录简介 hello world 常用功能动态路径多个片段(segments) 静态文件服务器简单webapi示例添加依赖实现接口接口测试参考链接简介rust中最知名的两个web

2024-03-19 23:21:01

一、rabbitmq的集群模式主要有两种：普通集群模式和镜像队列模式。下面分别介绍这两种模式的原理：1.普通集群模式：在普通集群模式下，rabbitmq的集群节点之间主要同步元数据，而不

2024-03-19 23:07:45

0 前言在物联网领域中，mqtt消息一直是海量设备连接到平台的标配协议，而平台向移动端开放的操作接口往往是http协议，这就要求平台为两种协议作消息一一适配。在某些情况下，这些设

2024-03-19 23:04:15

目录前言 git rm 命令 git reset 命令 git rm 和 git reset 的比较不同用例的适用性比较对文件状态的影响比较 git update-index 命令 git clean 命令实际应用

2024-03-18 21:30:10

一、?=、?!、?＜=、?＜!、?:的解释1. 先看一下比较官方的解释 (?=pattern)：正向先行断言，表示匹配位置后面必须紧跟着满足 pattern 的字符串，但不包括这个字符串在匹配结果中。 (?!

2024-03-18 21:24:29

4）playbook4.1）playbook 介绍playbook 与 ad-hoc 相比，是一种完全不同的运用 ansible 的方式，类似与 saltstack 的 state 状态文件。ad-hoc 无法持久使用，playbook 可以持久使用

2024-03-17 23:18:56

尽管ggez提供了很多相关特性的demo供运行查看，但笔者第一次使用的时候还是有很多疑惑不解。经过仔细阅读demo代码并结合自己的实践，逐步了解了ggez在不同场景下的绘图方式，在此

2024-03-17 22:57:09

前言最近在学习 es，所以需要在服务器上装一个单节点的 es服务器环境：centos 7.9安装下载镜像目前最新版本是 8.12.2docker pull docker.elastic.co/elasticsearch/elasticsear

2024-03-15 20:55:15

md5算法起源：md5（message digest algorithm 5）算法是由mit的计算机科学家ronald rivest于1991年设计的一种消息摘要算法。md5算法最初被用于提供数据完整性和一致性的验证，后来

2024-03-15 20:51:05

1、概述node feature discovery（nfd）是由intel创建的项目，能够帮助kubernetes集群更智能地管理节点资源。它通过检测每个节点的特性能力（例如cpu型号、gpu型号、内存大小等）并将

2024-03-15 00:56:29

有网友问wpf中一些文字模糊是什么问题。之前我也没有认真思考过这个问题，只是大概知道和wpf的像素对齐（pixel snapping）、抗锯齿（anti-aliasing）有关，通过设置附加属性textoptions

2024-03-13 00:01:53

0. 前言在 kubernetes 架构中，controller manager 是一个永不休止的控制回路组件，其负责控制集群资源的状态。通过监控 kube-apiserver 的资源状态，比较当前资源状态和期望状态

2024-03-11 18:41:24

二者都是lua中内置的迭代器，可以对数组或table进行遍历。在正常的数组或table的遍历中，二者没有区别。tablenormal={"this","is","a","array"}--使用 pairs 遍历for key,val i

2024-03-08 22:34:40

lua调试的时候会用到debug.getinfo()函数，what的值文档给了解释： "lua" : lua function "c" : c function "main" : main part of a chunk (通过load函数等执行的语句）关于name

2024-02-28 16:24:33

1 前言 filament 是一个实时物理渲染引擎，用于 android、ios、linux、macos、windows 和 webgl 平台。该引擎旨在提供高效、实时的图形渲染，并被设计为在 android 平台上尽

2024-02-26 22:59:17

2020-09-27

2018-09-21

2018-09-02

2021-03-15

2022-12-16

2019-08-24

2021-03-10

2020-09-16

2019-07-29