51工具盒子

依楼听风雨
笑看云卷云舒,淡观潮起潮落

kubesphere

快速修复重装系统后的 Kubernetes Master 节点

快速修复重装系统后的 Kubernetes Master 节点

厉飞雨 阅读(272) 评论(0) 赞(17)

<p>最近碰到两次,因故障需要重装主机系统。其中一次 Etcd 只剩下一个节点,导致整个集群宕机半个小时才恢复。</p> <p>本篇主要记录的是新系统 Ubuntu 20.04 初始化的过程,完成初始化之后采用优秀的集群安装工具 Kubekey 的 <code>add nodes</code> 命令,无需修改配置文件,...

Robusta 收集 Kubernetes Pod 崩溃时的 OOM 日志

Robusta 收集 Kubernetes Pod 崩溃时的 OOM 日志

厉飞雨 阅读(305) 评论(0) 赞(18)

<p>robusta 的功能远不止本章介绍的这些,它可以去监控 Kubernetes,提供观测性,可以于 prometheus 接入,作为告警的二次处理,自动修复等,也提供了事件的时间线。</p> <p>此前使用的是阿里的 kube-eventer,kube-eventer 仅仅只是提供了一个转发,因此 kube-eventer 只能解决的是...

优雅限制 Kubernetes 集群中文件描述符与线程数量

优雅限制 Kubernetes 集群中文件描述符与线程数量

厉飞雨 阅读(325) 评论(0) 赞(17)

<h2>背景</h2> <p>linux中为了防止进程恶意使用资源,系统使用ulimit来限制进程的资源使用情况(包括文件描述符,线程数,内存大小等)。同样地在容器化场景中,需要限制其系统资源的使用量。</p> <h2>限制方法</h2> <ul> <li>ulimit: docke...

Kubernetes 排错、调试常用方法总结

Kubernetes 排错、调试常用方法总结

厉飞雨 阅读(320) 评论(0) 赞(19)

<p>在 k8s 云环境中,我们需要在容器内抓包进行 Debug, 但通常大多容器都没有安装 tcpdump 以及其他网络工具;在托管 k8s 中我们想登录 node,不是没权限就是步骤太麻烦。本文的主角<code>nsenter</code>正是很擅长解决这些问题,<code>nsenter</code>可以进入指定...

Kubernetes 跨集群流量调度实战

Kubernetes 跨集群流量调度实战

厉飞雨 阅读(412) 评论(0) 赞(16)

<h2>背景</h2> <p>Kubernetes 问世于 2015 年,从一开始秉持着松耦合和可扩展的设计理念,也因此带来了 Kubernetes 生态的蓬勃发展。但这些大部分先限制在单一集群内,然后由于种种原因和目的企业内部创建的集群越来越多,比如单集群故障、监管要求、异地多机房可用区容灾、出于敏捷、降本考虑的混合云、多云部署、单一集群的...

Kubernetes Controller-manager,监控详解

Kubernetes Controller-manager,监控详解

厉飞雨 阅读(258) 评论(0) 赞(25)

<h2>写在前面</h2> <p>controller-manager 是 Kubernetes 控制面的组件,通常不太可能出问题,一般监控一下通用的进程指标就问题不大了,不过 controller-manager 确实也暴露了很多 <code>/metrics</code> 白盒指标,我们也一并梳理一下相关内容。&l...

Kubernetes 核心依赖组件 ETCD 的监控详解

Kubernetes 核心依赖组件 ETCD 的监控详解

厉飞雨 阅读(319) 评论(0) 赞(16)

<h2>写在前面</h2> <p>ETCD 是 Kubernetes 控制面的重要组件和依赖,Kubernetes 的各类信息都存储在 ETCD 中,所以监控 ETCD 就显得尤为重要。ETCD 在 Kubernetes 中的架构角色如下(只与 APIServer 交互): <img src="http://static.51...