Ceph转角遇见k8s：记分布式系统界一对名角的浪漫牵手

1、“佛说前世无数次的痛苦挣扎，换得今生的一次邂逅。

话说分布式系统界的名角ceph，志向远大，他要做分布式存储领域的linux，但接触过ceph的爱好者在初次使用ceph时，都经历过比较痛苦的部署过程。还好后来有了ceph-deploy工具，部署会简单很多。但是由于ceph安装包的依赖关系有点复杂，特别是在没有匹配操作系统版本的ceph安装包时，通过源码编译并安装也是更加头痛的一件事情：

不仅需要依赖包，而且需要开发包；
编译过程漫长，一个4核8GB的主机编译需要将近两个多小时；
占用磁盘空间大，大约十几个GB。

虽然ceph比较平易近人，但对于ceph集群的运维也是一个折腾运维工程师的苦差事。Ceph组件中的进程异常掉线，需要及时将其拉起来。服务组件使用的资源如果不加限制，会互相影响。mon是整个集群的关键组件，因此更需要保证其高可用。

2、当ceph遇上k8s，就有了我们下面要介绍的爱情故事了，快搬来小马扎听我慢慢道来。

在这里先简单介绍一下ceph及k8s两个的性格特点：

Ceph号称高可用的分布式存储系统，通过多个MON节点（通常为3个）维护集群的状态及元数据信息，而真正存储数据的OSD节点通过向MON节点汇报状态，并通过CRUSH算法将数据副本布局到相应OSD的所在磁盘上，完成数据的持久化存储。为了保证每个数据副本的高可用，通常采用三副本或EC方式。而提供文件服务的mds组件和提供对象存储的rgw组件都不存储实际数据，只是作为服务态进程存在。

K8s是Google开源的容器集群管理系统，为容器化的应用提供资源调度、部署运行、服务发现、扩容缩容等整一套功能。系统分为管理节点和容器化节点两种，通过管理节点将服务实例以pod为单位调度到容器化的计算节点上运行。K8s的管理理念很牛：像管理畜生一样管理你的应用，还别说，服务器资源的利用率显著提升。

此处，默默无闻的幕后工作者docker要出来吼一下了。Docker出身高贵，是核心家族namespace和cgroup的后裔，他通过把应用所依赖的环境及软件库打包在镜像中，让应用在容器内自由运行，通过虚拟网络，和外界互联。

Ceph想要和k8s牵手，需要有一个磨合的过程，要摒弃一些个性，和容器大家庭做好融合。

首先ceph的osd组件需要使用到节点上的磁盘，一个osd对应一个磁盘。因此osd的pod需要和响应的主机绑定。Mon只是提供集群状态维护，除了少量的集群系统数据，可以运行在任何节点上，但它必须有一个固定的IP地址提供给众多OSD及客户端连接，而k8s的service恰好解决了这样一个问题。同样mds和rgw也可以采用service对外提供服务地址和负载均衡。

而这些少量的状态和配置数据可以通过k8s的PV存储，这样，服务组件就可以在任何节点上运行。

3、牵手细节

硬件及基础软件环境：多台通过局域网互联的主机，并且作为容器化的主机有相应的磁盘或分区，linux操作系统内核（3.10以上）支持docker。

首先，需要在基础环境上部署一套完整的k8s集群，然后需要准备一个ceph的docker镜像，本文中使用docker.io/ceph/daemon:tag-build-master-jewel-centos-7。

1. 准备工作

先创建用于存储ceph集群状态信息的持久化卷（PV）以及PVC，本文用于PV的分布式存储采用NFS。

pv.yaml

apiVersion: v1
kind: PersistentVolume
metadata:
name: ceph-conf
spec:
capacity:
storage: 10Mi
accessModes:
– ReadWriteMany
nfs:
path: /ceph4k8s/conf
server: 192.168.6.21
—
apiVersion: v1
kind: PersistentVolume
metadata:
name: ceph-data
spec:
capacity:
storage: 10Gi
accessModes:
– ReadWriteMany
nfs:
path: /ceph4k8s/data
server: 192.168.6.21

Pvc.yaml

kind: PersistentVolumeClaim
apiVersion: v1
metadata:
name: ceph-conf
spec:
accessModes:
– ReadWriteMany
resources:
requests:
storage: 10Mi

kind: PersistentVolumeClaim
apiVersion: v1
metadata:
name: ceph-data
spec:
accessModes:
– ReadWriteMany
resources:
requests:
storage: 10Gi

2. 需要通过容器POD将ceph的MON组件部署起来，步骤如下：

首先创建RC和service，如mon.yaml文件所示：

apiVersion: v1
kind: ReplicationController
metadata:
app: ceph-mon
spec:
replicas: 1
selector:
app: ceph-mon
template:
metadata:
labels:
app: ceph-mon
spec:
hostname: mon
containers:
– name: ceph-mon
image: docker.io/ceph/daemon:4k8s
imagePullPolicy: Never
ports:
– containerPort: 6789
protocol: TCP
env:
– name: MON_IP
value: ceph-mon
– name: CEPH_PUBLIC_NETWORK
value: 18.18.0.0/16
– name: CEPH_CLUSTER_NETWORK
value: 192.168.0.0/16
args:
– mon
volumeMounts:
– mountPath: /etc/ceph
name: ceph-conf
– mountPath: /var/lib/ceph
name: ceph-data
volumes:
– name: ceph-conf
persistentVolumeClaim:
claimName: ceph-conf
– name: ceph-data
persistentVolumeClaim:
claimName: ceph-data

—
kind: Service
apiVersion: v1
metadata:
labels:
app: ceph-mon
name: ceph-mon
namespace: default
spec:
type: NodePort
clusterIP: 11.11.1.1
ports:
– port: 6789
targetPort: 6789
selector:
app: ceph-mon

运行kubectl create -f mon.yaml

待POD正常启动后，可以发现nfs中的PV目录被写入了集群的系统数据。

Kubectl exec ceph-mon-xxxxx — ceph -s

显示如下信息：

cluster fa6fba4c-40f6-4c51-8a5d-fd0be12dc421
health HEALTH_ERR
64 pgs are stuck inactive for more than 300 seconds
64 pgs stuck inactive
no osds
monmap e1: 1 mons at {mon=18.18.67.2:6789/0}
election epoch 3, quorum 0 mon
osdmap e1: 0 osds: 0 up, 0 in
flags sortbitwise
pgmap v2: 64 pgs, 1 pools, 0 bytes data, 0 objects
0 kB used, 0 kB / 0 kB avail
64 creating

3. 创建OSD的POD，网络采用host方式

采用这种网络方式，一方面是通信效率高；另一方面是能够利用主机名和设备（OSD）形成所属关系，便于crush map中区分不同host上的osd。由于OSD与MON进行网络连接时，通信组件中会对比验证发送的源IP地址与目标IP地址，如果不一致将出错。而我们通过将MON组件服务化后，对外提供固定的虚拟IP（CLUSTER-IP），而自己内部是采用Pod-IP，因此在此处会因验证不通过而无法建立连接，因此需要将源码中src/msg/async/AsyncConnection.cc:1158和vi src/msg/simple/Pipe.cc:981附近的IP验证代码注释掉，然后重新编译，替换镜像中的可执行文件ceph-osd、ceph-mds、radosgw

创建osd-0.yaml文件

apiVersion: v1
kind: ReplicationController
metadata:
name: ceph-osd
spec:
replicas: 1
selector:
name: ceph-osd
template:
metadata:
labels:
name: ceph-osd
spec:
nodeName: 192.168.0.21
containers:
– name: ceph-osd
image: docker.io/ceph/daemon:4k8s
imagePullPolicy: Never
securityContext:
privileged: true
env:
– name: OSD_DEVICE
value: /dev/sdb
– name: OSD_TYPE
value: disk
args:
– osd
volumeMounts:
– mountPath: /etc/ceph
name: ceph-conf
– mountPath: /var/lib/ceph
name: ceph-data
– mountPath: /dev
name: dev
hostNetwork: true
volumes:
– name: ceph-conf
persistentVolumeClaim:
claimName: ceph-conf
– name: ceph-data
persistentVolumeClaim:
claimName: ceph-data
– name: dev
hostPath:
path: “/dev”

其中nodeName和环境变量中OSD_DEVICE要根据实际部署的多个OSD来设定。

运行kubectl create -f osd-*.yaml之后，再到mon容器中运行ceph -s，可以发现osd都加进集群了。

4. 咱俩真的合适吗？

真心大考验之一

删除mon的Pod模拟进程异常退出的故障，看集群是否仍然正常。

Kubectl delete pod ceph-mon-xxxxx

发现新的pod又被创建了，同时查看集群状态，仍然正常。

真心大考验之二

将k8s集群中运行mon组件Pod的node主机宕机，发现k8s在新的node上创建了新的mon Pod，ceph集群状态依然正常。

经过以上考验之后，基本可以确定ceph与k8s的结合是合适的。下面接着把mds和rgw组件部署完成，使得ceph集群能够对外提供文件接口、块接口和对象接口。

Mds.yaml

apiVersion: v1
kind: ReplicationController
metadata:
name: ceph-mds
spec:
replicas: 1
selector:
name: ceph-mds
template:
metadata:
labels:
name: ceph-mds
spec:
containers:
– name: ceph-mon
image: docker.io/ceph/daemon:4k8s
imagePullPolicy: Never
env:
– name: CEPHFS_CREATE
value: “1”
args:
– mds
volumeMounts:
– mountPath: /etc/ceph
name: ceph-conf
– mountPath: /var/lib/ceph
name: ceph-data
volumes:
– name: ceph-conf
persistentVolumeClaim:
claimName: ceph-conf
– name: ceph-data
persistentVolumeClaim:
claimName: ceph-data

Rgw.yaml

apiVersion: v1
kind: ReplicationController
metadata:
name: ceph-rgw
spec:
replicas: 1
selector:
name: ceph-rgw
template:
metadata:
labels:
name: ceph-rgw
spec:
containers:
– name: ceph-rgw
image: docker.io/ceph/daemon:4k8s
imagePullPolicy: Never
args:
– rgw
volumeMounts:
– mountPath: /etc/ceph
name: ceph-conf
– mountPath: /var/lib/ceph
name: ceph-data
volumes:
– name: ceph-conf
persistentVolumeClaim:
claimName: ceph-conf
– name: ceph-data
persistentVolumeClaim:
claimName: ceph-data
—
kind: Service
apiVersion: v1
metadata:
labels:
app: ceph-rgw
name: ceph-rgw
namespace: default
spec:
type: NodePort
clusterIP: 11.11.1.2
ports:
– port: 80
targetPort: 80
selector:
app: ceph-rgw

4、小结

让我们祝福这对新人能够和谐相处，幸福美满！如果出了问题，一定要原厂保修，不要自己修哦！

Ceph转角遇见k8s：记分布式系统界一对名角的浪漫牵手

1、“佛说前世无数次的痛苦挣扎，换得今生的一次邂逅。

2、当ceph遇上k8s，就有了我们下面要介绍的爱情故事了，快搬来小马扎听我慢慢道来。

3、牵手细节

1. 准备工作

2. 需要通过容器POD将ceph的MON组件部署起来，步骤如下：

3. 创建OSD的POD，网络采用host方式

4. 咱俩真的合适吗？

真心大考验之一

真心大考验之二

4、小结

相关推荐

评论抢沙发

登录后评论

1、“佛说前世无数次的痛苦挣扎，换得今生的一次邂逅。

2、当ceph遇上k8s，就有了我们下面要介绍的爱情故事了，快搬来小马扎听我慢慢道来。

3、牵手细节

1. 准备工作

2. 需要通过容器POD将ceph的MON组件部署起来，步骤如下：

3. 创建OSD的POD，网络采用host方式

4. 咱俩真的合适吗？

真心大考验之一

真心大考验之二

4、小结

相关推荐

评论 抢沙发

登录后评论

评论抢沙发