基于Kubernetes构建AI业务生态 | 视频


概要
AlphaGo每个实验使用4000 GPU的规模与大部分基于HPC思路设计的AI系统使用数十GPU的情况形成鲜明差距,也提醒我们分布式操作系统在大规模机器学习中的重要作用。本次分享结合在互联网巨头的工作经历,剖析工业级别AI研究与实验室模式在数学方法和系统架构上的重要区别。回顾在最近的AI创业实践中,结合容器、微服务和Kubernetes架构大规模AI系统,并融入公司业务体系的经验。