日本雅虎KaaS平台,2种角色管530个K8s集群,容器7万个

日本Yahoo内部KaaS团队一位K8s工程师“藤江贵司”最近公开了自家K8s集群现况。日本雅虎从2015年11月就开始研究新一代架构,2017年4月开始导入KaaS(Kubernetes as a Service),第一个导入K8s的服务是Zubatok,2018年10月开始全面导入到Yahoo内部应用,目前K8s集群数达到530多个,已有140项产品或服务部署在K8s环境,所用容器数量高达7万个。
 
尽管花了2年多扩大导入,日本雅虎到2019年11月底时,仍然只有3成应用容器化,2020年的目标是将内部应用中规模最大的广告业务相关平台全部都搬到KaaS平台,来扩大导入规模。藤江贵司指出,管理K8s的成本其实非常高,所以才采用KaaS服务,通过自动化K8s管理来支持大规模的K8s环境部署。主要通过Kubernetes Controller来建立自动化管理机制。
 
另一方面,公司从2019年4月开始,成立培训K8s工程师方案,新加入的工程师或中阶工程师全部要接受培训,学习基本的Docker知识和部署方式,来降低使用K8s的门槛。日本雅虎目前采用的K8s版本是2019年9月发布的1.16版本,主要看上定制化资源配置功能,可以让开发者或产品团队自己定义需要的运算资源配置。
 
公司还设立了一个专门运维KaaS的团队,目前约20人,来负责管理530个K8s集群,支持140款产品的运行。KaaS团队还进一步分成两组角色,一组CRE(顾客可靠性工程师)和SRE(服务可靠性工程师)。CRE的任务是负责协助内部用户(内部使用KaaS的产品部门)提高生产力,处理内部用户的问题和跨平台整合工作,另外还要负责内部培训和内部KaaS社群的管理。
 
而SRE则是负责维护KaaS,尤其是KaaS采用了大量开源软件,SRE团队要负责运维、升级、建立自动化管理平台。为何要分成两种角色?藤江贵司解释,原本只有KaaS运维工程师角色,但一方面要维护系统,又要掌握用户使用情况,两者的优先顺序很难安排和兼顾,导致负责CRE工作的工程师,很难专注在运维工作,所以后来公司虎决定,将这两类职务分成两个团队,让SRE团队只专注于KaaS平台运维任务就好。
作者:王宏仁
参考:https://www.ithome.com.tw/news/135064
K8S中文社区微信公众号

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址