Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

编写这个教程的分工 #1

Open
typhoonzero opened this issue Mar 6, 2017 · 7 comments
Open

编写这个教程的分工 #1

typhoonzero opened this issue Mar 6, 2017 · 7 comments
Assignees

Comments

@typhoonzero
Copy link
Collaborator

typhoonzero commented Mar 6, 2017

Kubernetes分享提纲

  • 一个运行Job的例子 @typhoonzero
  • 一个RealWorldExample,任务依赖,AI的全生命周期 @typhoonzero
  • 为什么实现AI的目标需要Kubernetes--gongweibao
    • 更大的数据
    • 通用计算集群的重要性(介绍不同业务集群相互独立,造成的利用率低下)
  • 容器简介 @Yancey1989
    • 代码隔离的必要性
      • 物理隔离
      • 多账户
      • 虚拟机
      • 容器/沙盒
    • 容器和虚拟机的对比
    • 多个实现:warden, rkt, lxc, docker, sandbox
    • 功能
      • 运行环境隔离(kernel namespaces)
      • 资源配额Control groups
      • Layer FS
      • 应用打包语言Dockerfile
      • 跨平台(Mac, Linux, Windows)
      • 网络映射(NAT)
  • 容器集群化
    • 现状和问题
      • 业界计算集群资源利用率普遍很低
      • 在线集群和离线任务集群 独立部署
    • 现有集群资源管理软件的横向对比(Mesos、Yarn等)
    • Kubernetes带来的特性
      • 同时调度在线业务和离线业务
      • 支持Stateless和Stateful两种分布式应用部署
      • 经过Google检验的容器调度和管理(health, recover, )
        • 在线更新Rolling update
        • 扩容缩容
        • 故障恢复
        • 资源调度机制
        • label调度
      • Kubernetes网络模型
        • Flannel原理(docker0的作用,UDP、host-gw的区别)
        • Service机制(cluster-ip、node-port)
        • 如何处理集群外部的访问(7层代理-ingress,4层代理-loadbalancer)
      • kubernetes的存储模型
        • Volume的机制
      • Kubernetes的监控架构
        • 基于heapster+influxdb+grafana的解决方案
      • Kubernetes的统一日志处理
        • 基于Elasticsearch+Fluentd+Kibana(EFK)的解决方案
  • 存储集群--gongweibao
    • 块设备和对象存储, S3 API成为行业标准
    • 数据容灾
    • 存储服务容灾
    • SSD和多级存储
  • 作业管理
    • 可视化作业管理(锦上添花,欲善其事,先利其器)
    • 处理相互依赖关系的作业调度(类似于ETL任务调度)
  • 目标和应用场景
    • 行业AI服务一体机
    • AI开发平台一体机?
@pineking
Copy link
Collaborator

pineking commented Mar 6, 2017

是不是加上:

  • Kubernetes 的用户认证和授权,和 namespace 结合
  • 在 Kubernetes 的 Service 介绍时,补上 kubedns
  • 为了 AI 实验,加上一节 Kubernetes 对 GPU 的资源管理?

@pineking
Copy link
Collaborator

pineking commented Mar 6, 2017

建议和 readthedocs.io 结合,自动生成文档

@Yancey1989
Copy link
Collaborator

Yancey1989 commented Mar 6, 2017

@pineking 好建议!有时间的话也提一些PR?😄

@pineking
Copy link
Collaborator

pineking commented Mar 6, 2017

@Yancey1989 好!

@gongweibao
Copy link
Collaborator

我可以写存储集群部分

@Yancey1989
Copy link
Collaborator

@gongweibao 太好了,👍

@pineking
Copy link
Collaborator

pineking commented Mar 9, 2017

我可以提一些写 GPU 相关的 PR

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

6 participants