
使用 GPU-Operator 与 KubeSphere 简化深度学习训练与 GPU 监控
本文将从 GPU-Operator 概念介绍、安装部署、深度训练测试应用部署,以及在 KubeSphere 使用自定义监控面板对接 GPU 监控,从原理到实践,逐步浅析介绍与实践 GPU-Operator。 GPU-Operator简介 众...
本文将从 GPU-Operator 概念介绍、安装部署、深度训练测试应用部署,以及在 KubeSphere 使用自定义监控面板对接 GPU 监控,从原理到实践,逐步浅析介绍与实践 GPU-Operator。 GPU-Operator简介 众...
来源 | 阿里巴巴云原生公众号 作者 | 溪恒、遥方 一年一度的 “双11” 大促中,交易额每年都在刷新,承接这些交易商品的快递包裹的数量也在成倍增长。这些快速的增长对物流系统带来了巨大的挑战,让物流管理更加敏捷来应对 “双11” 成为了必...
近日,谐云成功入围上海浦发银行2020-2022年度敏捷管理及技术教练供应商,通过DevOps赋能浦发银行数字化创新。谐云凭借其过硬的产品质量,扎实高效的工作作风,卓越的专家团队和良好的企业信誉,以绝对优势顺利入围。 随着银行...
Kubernetes在容器编排市场中占主导地位,通常用于托管微服务。但是,微服务的每个实例都会生成大量日志事件,这些日志事件很快就会变得难以管理。更糟糕的是,当出现问题时,由于服务间的复杂交互以及不可预知的故障模式,很难找到根本原因。 目前...
作者 | 虚明 导读:自动化管理云上资源,不仅仅是降低财务成本,更重要的是能够降低技术门槛,同时提高效率,节省时间。 为何要自动化? 在服务客户的过程中,我们发现国外客户相比于国内客户,明显对自动化工具的依赖度要更高。许多观点认为这是由于国...
作者 | 三未 前言 弹性伸缩是一种为了满足业务需求、保证服务质量、平衡服务成本的重要应用管理策略。弹性伸缩让应用的部署规模能够根据实时的业务量产生动态调整,在业务高峰期扩大部署规模,保证服务不被业务冲垮;在业务低谷期缩减部署规模,避免资源...
作者 | 宿何 导读:前几篇我们主要站在应用发布的场景,描述在发布过程中会遇到的灰度、监控、回滚、优雅上下线等保障发布能顺利进行的注意事项。作为一个程序员 GG,可灰度的发布顺利上线往往意味着准点下班。而我们今天要分享的内容则关系到我们能否...
作者 | 骄龙 导读:本篇是《SpringCloud 应用在 Kubernetes 上的最佳实践》系列文章的第八篇,主要介绍了如何做到流量的无损上/下线。更多相关文章阅读可查看文末。 前言 上篇我们讲的是发布回滚过程,尤其是在 Kubern...
作者 | 长门 导读:本篇是《SpringCloud 应用在 Kubernetes 上的最佳实践》系列文章的第七篇,主要介绍了新功能上线时,如何尽快减少对线上用户的影响?发布系统需要提供回滚到前一个或前几个版本的能力,达到快速恢复线上业务的...
作者 | 童子龙 掌门教育基础架构部架构师 导读:本文整理自作者于 2020 年云原生微服务大会上的分享《掌门教育云原生落地实践》,本文主要介绍了掌门教育云原生落地实践,主要围绕 Spring Cloud Alibaba & Na...
作者 | 匡大虎、阚俊宝 导读:OLM(Operator Lifecycle Manager) 作为 Operator Framework 的一部分,可以帮助用户进行 Operator 的自动安装,升级及其生命周期的管理。同时 OLM 自身...
作者 | 骐羽 阿里巴巴技术专家 导读:本篇是“SpringCloud 应用在 Kubernetes 上的最佳实践”系列文章的第六篇,主要介绍了如何保障生产环境服务稳定,做到随时发布,从而加快业务的迭代和上线速度。 相关文章推荐: 《Sp...