谷歌深度学习在Kubernetes上的实践 | 视频

百度云盘视频地址:https://pan.baidu.com/s/1c2aDO1E

目录

深度学习简介

  • 深度学习的动机
  • 人类学习
  • 通用学习模型假设
  • 深度学习——图像处理
  • 深度学习——图像处理应用
  • 深度学习——自然语言处理
  • 深度学习——自然语言处理应用
  • 神经网络模型

Tensorflow简介

Run Tensorflow on Docker

  • 编译镜像
    • Google官方提供Tensorflow的基础镜像
    • 运行TensorBoard
    • 运行文件服务器方便文件传输
    • 拷贝demo(optional)
  • 运行镜像

Tensorflow Hello World demo

Tensorboard demo

Tensorflow + Kubernetes

计算量问题

优化问题

Kubernetes to the rescue

  • 谷歌内部——Borg
  • Google Brain跑在数十万台机器上
  • 谷歌电商商品分类深度学习模型跑在1000+台机器上
  • 谷歌外部——Kubernetes
  • Kubernetes为Borg的开源版,是一个容器集群管理系统
  • Tensorflow原生态支持并行化的跑在kubernetes上

Distributed Tensorflow

Tensorflow on Kubernetes

  • 启动cluster
    • 启动对每个Server需要指定其他Server Ip
      • 每个Server建立一套Service – Replica-Controller
      • PetSet
    • 对于每个Server需要指定是参数服务器还是计算服务器
  • 运行Job
    • 手工指定不同操作到不同服务器
    • 不同服务器计算不同数据