Technology

Chart Type 《大数据经典论文解读》 三驾马车学习 Spark 内存管理及调优 Yarn学习 从Spark部署模式开始讲源码分析 容器狂占内存资源怎么办? 多角度理解一致性 golang io使用及优化模式 Flink学习 c++学习 学习ebpf go设计哲学 ceph学习 学习mesh kvm虚拟化 学习MQ go编译器 学习go 为什么要有堆栈 汇编语言 计算机组成原理 运行时和库 Prometheus client mysql 事务 mysql 事务的隔离级别 mysql 索引 坏味道 学习分布式 学习网络 学习Linux go 内存管理 golang 系统调用与阻塞处理 Goroutine 调度过程 重新认识cpu mosn有的没的 负载均衡泛谈 单元测试的新解读 《Redis核心技术与实现》笔记 《Prometheus监控实战》笔记 Prometheus 告警学习 calico源码分析 对容器云平台的理解 Prometheus 源码分析 并发的成本 基础设施优化 hashicorp raft源码学习 docker 架构 mosn细节 与微服务框架整合 Java动态代理 编程范式 并发通信模型 《网络是怎样连接的》笔记 go channel codereview gc分析 jvm 线程实现 go打包机制 go interface及反射 如何学习Kubernetes 《编译原理之美》笔记——后端部分 《编译原理之美》笔记——前端部分 Pilot MCP协议分析 go gc 内存管理玩法汇总 软件机制 istio流量管理 Pilot源码分析 golang io 学习Spring mosn源码浅析 MOSN简介 《datacenter as a computer》笔记 学习JVM Tomcat源码分析 Linux可观测性 学习存储 学计算 Gotty源码分析 kubernetes operator kaggle泰坦尼克问题实践 kubernetes扩缩容 神经网络模型优化 直觉上理解深度学习 如何学习机器学习 TIDB源码分析 什么是云原生 Alibaba Java诊断工具Arthas TIDB存储——TIKV 《Apache Kafka源码分析》——简介 netty中的线程池 guava cache 源码分析 Springboot 启动过程分析 Spring 创建Bean的年代变迁 Linux内存管理 自定义CNI IPAM 共识算法 spring redis 源码分析 kafka实践 spring kafka 源码分析 Linux进程调度 让kafka支持优先级队列 Codis源码分析 Redis源码分析 C语言学习 《趣谈Linux操作系统》笔记 docker和k8s安全访问机制 jvm crash分析 Prometheus 学习 Kubernetes监控 容器日志采集 Kubernetes 控制器模型 容器狂占资源怎么办? Kubernetes资源调度——scheduler 时序性数据库介绍及对比 influxdb入门 maven的基本概念 《Apache Kafka源码分析》——server Kubernetes类型系统 源码分析体会 《数据结构与算法之美》——算法新解 Kubernetes源码分析——controller mananger Kubernetes源码分析——apiserver Kubernetes源码分析——kubelet Kubernetes介绍 ansible学习 Kubernetes源码分析——从kubectl开始 jib源码分析之Step实现 jib源码分析之细节 线程排队 跨主机容器通信 jib源码分析及应用 为容器选择一个合适的entrypoint kubernetes yaml配置 《持续交付36讲》笔记 mybatis学习 程序猿应该知道的 无锁数据结构和算法 CNI——容器网络是如何打通的 为什么很多业务程序猿觉得数据结构和算法没用? 串一串一致性协议 当我在说PaaS时,我在说什么 《数据结构与算法之美》——数据结构笔记 PouchContainer技术分享体会 harbor学习 用groovy 来动态化你的代码 精简代码的利器——lombok 学习 《深入剖析kubernetes》笔记 编程语言那些事儿 rxjava3——背压 rxjava2——线程切换 spring cloud 初识 《深入拆解java 虚拟机》笔记 《how tomcat works》笔记 hystrix 学习 rxjava1——概念 Redis 学习 TIDB 学习 如何分发计算 Storm 学习 AQS1——论文学习 Unsafe Spark Stream 学习 linux vfs轮廓 《自己动手写docker》笔记 java8 实践 中本聪比特币白皮书 细读 区块链泛谈 比特币 大杂烩 总纲——如何学习分布式系统 hbase 泛谈 forkjoin 泛谈 看不见摸不着的cdn是啥 《jdk8 in action》笔记 程序猿视角看网络 bgp初识 calico学习 AQS——粗略的代码分析 我们能用反射做什么 web 跨域问题 《clean code》笔记 《Elasticsearch权威指南》笔记 mockito简介及源码分析 2017软件开发小结—— 从做功能到做系统 《Apache Kafka源码分析》——clients dns隐藏的一个坑 《mysql技术内幕》笔记 log4j学习 为什么netty比较难懂? 回溯法 apollo client源码分析及看待面向对象设计 学习并发 docker运行java项目的常见问题 OpenTSDB 入门 spring事务小结 分布式事务 javascript应用在哪里 《netty in action》读书笔记 netty对http2协议的解析 ssl证书是什么东西 http那些事 苹果APNs推送框架pushy apple 推送那些事儿 编写java框架的几大利器 java内存模型 java exception Linux IO学习 netty内存管理 测试环境docker化实践 netty在框架中的使用套路 Nginx简单使用 《Linux内核设计的艺术》小结 Go并发机制及语言层工具 Linux网络源代码学习——数据包的发送与接收 《docker源码分析》小结 docker namespace和cgroup Linux网络源代码学习——整体介绍 zookeeper三重奏 数据库的一些知识 Spark 泛谈 链式处理的那些套路 netty回顾 Thrift基本原理与实践(二) Thrift基本原理与实践(一) 回调 异步执行抽象——Executor与Future Docker0.1.0源码分析 java gc Jedis源码分析 深度学习泛谈 Linux网络命令操作 JTA与TCC 换个角度看待设计模式 Scala初识 向Hadoop学习NIO的使用 以新的角度看数据结构 并发控制相关的硬件与内核支持 systemd 简介 quartz 源码分析 基于docker搭建测试环境(二) spring aop 实现原理简述 自己动手写spring(八) 支持AOP 自己动手写spring(七) 类结构设计调整 分析log日志 自己动手写spring(六) 支持FactoryBean 自己动手写spring(九) 总结 自己动手写spring(五) bean的生命周期管理 自己动手写spring(四) 整合xml与注解方式 自己动手写spring(三) 支持注解方式 自己动手写spring(二) 创建一个bean工厂 自己动手写spring(一) 使用digester varnish 简单使用 关于docker image的那点事儿 基于docker搭建测试环境 分布式配置系统 JVM执行 git maven/ant/gradle/make使用 再看tcp kv系统 java nio的多线程扩展 《Concurrency Models》笔记 回头看Spring IOC IntelliJ IDEA使用 Java泛型 vagrant 使用 Go常用的一些库 Python初学 Goroutine 调度模型 虚拟网络 《程序员的自我修养》小结 Kubernetes存储 访问Kubernetes上的Service Kubernetes副本管理 Kubernetes pod 组件 Go基础 JVM类加载 硬币和扑克牌问题 LRU实现 virtualbox 使用 ThreadLocal小结 docker快速入门

Architecture

实时训练 分布式链路追踪 helm tensorflow原理——python层分析 如何学习tensorflow 数据并行——allreduce 数据并行——ps 机器学习中的python调用c 机器学习训练框架概述 embedding的原理及实践 tensornet源码分析 大模型训练 X的生成——特征工程 tvm tensorflow原理——core层分析 模型演变 《深度学习推荐系统实战》笔记 keras 和 Estimator tensorflow分布式训练 分布式训练的一些问题 基于Volcano的弹性训练 图神经网络 pytorch弹性分布式训练 在离线业务混部 RNN pytorch分布式训练 CNN 《动手学深度学习》笔记 pytorch与线性回归 多活 volcano特性源码分析 推理服务 kubebuilder 学习 mpi 学习pytorch client-go学习 tensorflow学习 提高gpu 利用率 GPU与容器的结合 GPU入门 AI云平台 tf-operator源码分析 k8s批处理调度 喜马拉雅容器化实践 Kubernetes 实践 学习rpc BFF 生命周期管理 openkruise学习 可观察性和监控系统 基于Kubernetes选主及应用 《许式伟的架构课》笔记 Kubernetes webhook 发布平台系统设计 k8s水平扩缩容 Scheduler如何给Node打分 Scheduler扩展 controller 组件介绍 openkruise cloneset学习 controller-runtime源码分析 pv与pvc实现 csi学习 client-go源码分析 kubelet 组件分析 调度实践 Pod是如何被创建出来的? 《软件设计之美》笔记 mecha 架构学习 Kubernetes events学习及应用 CRI 资源调度泛谈 业务系统设计原则 grpc学习 元编程 以应用为中心 istio学习 下一代微服务Service Mesh 《实现领域驱动设计》笔记 serverless 泛谈 概率论 《架构整洁之道》笔记 处理复杂性 那些年追过的并发 服务器端编程 网络通信协议 架构大杂烩 如何学习架构 《反应式设计模式》笔记 项目的演化特点 反应式架构摸索 函数式编程的设计模式 服务化 ddd反模式——CRUD的败笔 研发效能平台 重新看面向对象设计 业务系统设计的一些体会 函数式编程 《左耳听风》笔记 业务程序猿眼中的微服务管理 DDD实践——CQRS 项目隔离——案例研究 《编程的本质》笔记 系统故障排查汇总及教训 平台支持类系统的几个点 代码腾挪的艺术 abtest 系统设计汇总 《从0开始学架构》笔记 初级权限系统设计 领域驱动理念入门 现有上传协议分析 移动网络下的文件上传要注意的几个问题 推送系统的几个基本问题 用户登陆 做配置中心要想好的几个基本问题 不同层面的异步 分层那些事儿 性能问题分析 当我在说模板引擎的时候,我在说什么 用户认证问题 资源的分配与回收——池 消息/任务队列


为容器选择一个合适的entrypoint

2018年11月06日

简介

在容器化早期,因为需要ssh访问容器等原因(尽量为开发提供与物理机一致的体验),需要一个容器内运行业务进程与ssh等进程。随着k8s pod 多容器的推进, 一个容器内多进程的需求减弱,但业务进程直接作为 entrypoint 仍有很多问题,因此会寻求一些进程管理工具作为pid=1进程。

对于springboot项目,一开始是用java -jar 方式容器中启动,并作为容器的主进程。但在测试环境,经常代码逻辑可能有问题,java启动失败,进而触发k8s健康检查失败,进而不断重启容器。开发一直抱怨看不到“事故现场”。所以针对这种情况,直观的想法是 不让java -jar 作为容器的主进程。

一个容器一个进程?

容器中运行多进程,跟 one process per container 的理念相悖,我们就得探寻下来龙去脉了。从业界来说,虽然一个容器一个进程是官方推荐,但好像并不被大厂所遵守,以至于阿里甚至专门搞了一个PouchContainer 出来,美团容器平台架构及容器技术实践

stack exchange Why it is recommended to run only one process in a container? 有一系列回答

Run Multiple Processes in a Container 也提了三个advantages

理由要找的话有很多,比较喜欢一个回答:As in most cases, it’s not all-or-nothing. The guidance of “one process per container” stems from the idea that containers should serve a distinct purpose. For example, a container should not be both a web application and a Redis server.

There are cases where it makes sense to run multiple processes in a single container, as long as both processes support a single, modular function.

从笔者的实践感受来说

  1. 除了业务进程,你有没有比较刚的需求运行其他进程?比如ssh 等。笔者在实践中,每个容器内还跑了一个监控进程,用来跟踪容器内的进程数据、以及执行一些异常诊断指令。
  2. entrypoint 启动失败的可能性有多高,entrypoint 挂了会不停地重启,对集群带来的不良影响是否可控?

2020.11.1补充: 并非每个容器内部都能包含一个操作系统容器单进程并不是指容器里只能运行”一个”进程而是指容器没有管理多进程的能力。这是因为容器里PID=1的进程就是应用本身,其他的进程都是PID=1进程的子进程。

init 进程

Linux 内核执行文件一般会放在 /boot 目录下,文件名类似 vmlinuz*。在内核完成了操作系统的各种初始化之后,这个程序需要执行的第一个用户态进程就是 init 进程。它直接或者间接创建了 Namespace 中的其他进程。

init/main.c
/*
* We try each of these until one succeeds.
*
* The Bourne shell can be used instead of init if we are
* trying to recover a really broken machine.
*/
if (execute_command) {
        ret = run_init_process(execute_command);
        if (!ret)
                return 0;
        panic("Requested init %s failed (error %d).",
                execute_command, ret);
}
if (!try_to_run_init_process("/sbin/init") ||
    !try_to_run_init_process("/etc/init") ||
    !try_to_run_init_process("/bin/init") ||
    !try_to_run_init_process("/bin/sh"))
        return 0;
panic("No working init found.  Try passing init= option to kernel. "
        "See Linux Documentation/admin-guide/init.rst for guidance.");

管理孤儿进程。当一个子进程终止后,它首先会变成一个“失效(defunct)”的进程,也称为“僵尸(zombie)”进程,等待父进程或系统收回(通过wait/waitpid 函数)。如果父进程已经结束了,那些依然在运行中的子进程会成为“孤儿(orphaned)”进程。在Linux中Init进程(PID1)作为所有进程的父进程,会维护进程树的状态,一旦有某个子进程成为了“孤儿”进程后,init就会负责接管这个子进程。当一个子进程成为“僵尸”进程之后,如果其父进程已经结束,init会收割这些“僵尸”,释放PID资源。

僵尸进程(内存文件等都已释放,只留了一个stask_struct instance)如果不清理,就会消耗系统中的进程号资源,最坏会导致创建新进程。

社区 有一个容器init 项目tini 使用 Tini 清理 Docker 容器僵死进程

int reap_zombies(const pid_t child_pid, int* const child_exitcode_ptr) {
        pid_t current_pid;
        int current_status;
        while (1) {
                current_pid = waitpid(-1, &current_status, WNOHANG);

                switch (current_pid) {
                        case -1:
                                if (errno == ECHILD) {
                                        PRINT_TRACE("No child to wait");
                                        break;
                                }


linux 信号机制

  1. 进程在收到信号后,可以选择
    1. 忽略,对这个信号不做任何处理,但对特权信号 SIGKILL 和 SIGSTOP 例外,不能忽略和捕获(注册signal handler 也会报错),只能采取默认行为——终止。
    2. 捕获,用户进程可以注册自己针对这个信号的 handler
    3. Default,,Linux 为每个信号都定义了一个默认的行为,包含终止、忽略等,SIGKILL 和 SIGSTOP 的默认行为都是终止。
  2. SIGTERM 是kill 默认发出的 kill pid = kill -SIGTERM pid
  3. init 进程的特殊性,在每个 Namespace 的 init 进程建立的时候,就会打上 SIGNAL_UNKILLABLE 这个标签,1 号进程永远不会响应 SIGKILL 和 SIGSTOP 这两个特权信号。对于其他的信号,如果用户自己注册了 handler,1 号进程可以响应。
  4. 容器的一般使用专用的init 进程(注册并实现非SIGKILL 和 SIGSTOP 信号的处理函数), 负责转发信号到所有的子进程,并且回收僵尸进程。 docker原生提供的init进程为tini
docker run -d --init ubuntu:14.04 bash -c "cd /home/ && sleep 100
oot@24cc26039c4d:/# ps -ef
UID PID PPID C STIME TTY TIME CMD
root 1 0 2 14:50 ? 00:00:00 /sbin/docker-init -- bash -c cd /home/ && sleep 100
root 6 1 0 14:50 ? 00:00:00 bash -c cd /home/ && sleep 100
root 7 6 0 14:50 ? 00:00:00 sleep 100

以进程管理工具作为entrypoint

理解Docker容器的进程管理docker stop 对PID1进程 的要求

  1. 支持管理运行过程中可能产生的僵尸/孤儿进程
  2. 容器的PID=1进程需要能够正确的处理SIGTERM信号来支持优雅退出,如果容器中包含多个进程,需要PID=1进程能够正确的传播SIGTERM信号来结束所有的子进程之后再退出。

综上,如果一个容器有多个进程,可选的实践方式为:

  1. 多个进程关系对等,由一个init 进程管理,比如supervisor、systemd
  2. 一个进程(A)作为主进程,拉起另一个进程(B)

    • A 先挂,因为容器的生命周期与 主进程一致,则进程B 也会被kill 结束
    • B 先挂,则要看A 是否具备僵尸进程的处理能力(大部分不具备)。若A 不具备,B 成为僵尸进程,容器存续期间,僵尸进程一致存在。
    • A 通常不支持 SIGTERM

所以第二种方案通常不可取,对于第一种方案,则有init 进程的选型问题

  僵尸进程回收 处理SIGTERM信号 alpine 安装大小 专用镜像 备注
sh/bash 支持 不支持 0m   脚本中可以使用exec 顶替掉sh/bash 自身
Supervisor 待确认 支持 79m 要求管理的进程为前台进程,后台进程管不了  
runit 待确认 支持 31m phusion/baseimage-docker 要求管理的进程为前台进程,后台进程管不了
s6     33m    
Systemd 支持 支持 alpine没有Systemd   systemd跑不跑前台只是说的systemctl能不能控制,那些不被控制的,关闭过程systemd也会负责回收的
对系统特权有要求
不会透传环境变量

进程管理工具的选择

自定义脚本

官方 Run multiple services in a container

runit

Run Multiple Processes in a Container

A fully­ powered Linux environment typically includes an ​init​ process that spawns and supervises other processes, such as system daemons. The command defined in the CMD instruction of the Dockerfile is the only process launched inside the Docker container, so ​system daemons do not start automatically, even if properly installed.

runit - a UNIX init scheme with service supervision

Dockerfile

FROM phusion/passenger-­ruby22
...
#install custom bootstrap script as runit service
COPY myapp/start.sh /etc/service/myapp/run
#// myapp/start.sh
#!/bin/sh
exec command

在这个Dockerfile 中,CMD 继承自 base image。 将myapp/start.sh 拷贝到 容器的 /etc/service/myapp/run 文件中即可 被runit 管理,runit 会管理 /etc/service/ 下的应用(目录可配置),即 Each service is associated with a service directory

这里要注意:记得通过exec 方式执行 command,这涉及到 shell,exec,source执行脚本的区别

Using runit for maintaining services

runit:进程管理工具runit

  作用 备注
runit-init runit-init is the first process the kernel starts. If runit-init is started as process no 1, it runs and replaces itself with runit  
runsvdir starts and monitors a collection of runsv processes 当runsvdir检查到/etc/service目录下包含一个新的目录时,runsvdir会启动一个runsv进程来执行和监控run脚本。
runsvchdir change services directory of runsvdir  
sv control and manage services monitored by runsv sv status /etc/service/test
sv stop /etc/service/test
sv restart /etc/service/test
runsv starts and monitors a service and optionally an appendant log service  
chpst runs a program with a changed process state run脚本默认被root用户执行,通过chpst可以将run配置为普通用户来执行。
utmpset logout a line from utmp and wtmp file  
svlogd runit’s service logging daemon  

runit 工作原理

systemd

CHAPTER 3. USING SYSTEMD WITH CONTAINERS

Running Docker Containers with Systemd

Do you need to execute more than one process per container?

supervisor

官方 Run multiple services in a container

Admatic Tech Blog: Starting Multiple Services inside a Container with Supervisord

使用

supervisord.conf

[supervisord]
nodaemon=true
logfile=/dev/stdout
loglevel=debug
logfile_maxbytes=0

[program:pinggoogle]
command=ping admatic.in
autostart=true
autorestart=true
startsecs=5
stdout_logfile=NONE
stderr_logfile=NONE

Dockerfile

FROM ubuntu
...
COPY supervisord.conf /etc/supervisor/conf.d/supervisord.conf
...
CMD ["/usr/bin/supervisord"] ## 其它

Docker-friendliness image

与其在init 进程工具的选型上挣扎,是否有更有魄力的工具呢?

  1. docker 原生支持多进程,比如阿里的 pouch
  2. 原生支持多进程的 镜像

github 有一个 phusion/baseimage-docker 笔者2018.11.7 看到时,有6848个star。 该镜像有几个优点:

  1. Modifications for Docker-friendliness.
  2. Administration tools that are especially useful in the context of Docker.
  3. Mechanisms for easily running multiple processes, without violating the Docker philosophy. 具体的说,The Docker developers advocate running a single logical service inside a single container. But we are not disputing that. Baseimage-docker advocates running multiple OS processes inside a single container, and a single logical service can consist of multiple OS processes.

什么叫 ubuntu 对 Docker-friendliness?(待体会)

  1. multi-user
  2. multi-process

和ssh的是是非非

2020.07.17 补充:随着web console 工具(底层由kubectl exec支持)不及,ssh 渐渐没有必要了。

2018.12.01 补充: ssh连接远程主机执行脚本的环境变量问题

背景:

  1. 容器启动时会运行sshd,所以可以ssh 到容器
  2. 镜像dockerfile中 包含ENV PATH=${PATH}:/usr/local/jdk/bin
  3. docker exec -it container bash 可以看到 PATH 环境变量中包含 /usr/local/jdk/bin
  4. ssh root@xxx 到容器内,观察 PATH 环境变量,则不包含 /usr/local/jdk/bin

这个问题涉及到 bash的四种模式

  1. 通过ssh登陆到远程主机 属于bash 模式的一种:login + interactive
  2. 不同的模式,启动shell时会去查找并加载 不同而配置文件,比如/etc/bash.bashrc~/.bashrc/etc/profile
  3. login + interactive 模式启动shell时会 第一加载/etc/profile
  4. /etc/profile 文件内容默认有一句 export PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin

所以 docker exec 可以看到 正确的PATH 环境变量值,而ssh 到容器不可以,解决方法之一就是 制作镜像时 向/etc/profile 追加 一个export 命令