51工具盒子

依楼听风雨
笑看云卷云舒,淡观潮起潮落

kubesphere

快速修复重装系统后的 Kubernetes Master 节点

快速修复重装系统后的 Kubernetes Master 节点

厉飞雨 阅读(272) 评论(0) 赞(17)

<p>最近碰到两次,因故障需要重装主机系统。其中一次 Etcd 只剩下一个节点,导致整个集群宕机半个小时才恢复。</p> <p>本篇主要记录的是新系统 Ubuntu 20.04 初始化的过程,完成初始化之后采用优秀的集群安装工具 Kubekey 的 <code>add nodes</code> 命令,无需修改配置文件,...

Robusta 收集 Kubernetes Pod 崩溃时的 OOM 日志

Robusta 收集 Kubernetes Pod 崩溃时的 OOM 日志

厉飞雨 阅读(305) 评论(0) 赞(18)

<p>robusta 的功能远不止本章介绍的这些,它可以去监控 Kubernetes,提供观测性,可以于 prometheus 接入,作为告警的二次处理,自动修复等,也提供了事件的时间线。</p> <p>此前使用的是阿里的 kube-eventer,kube-eventer 仅仅只是提供了一个转发,因此 kube-eventer 只能解决的是...

优雅限制 Kubernetes 集群中文件描述符与线程数量

优雅限制 Kubernetes 集群中文件描述符与线程数量

厉飞雨 阅读(325) 评论(0) 赞(17)

<h2>背景</h2> <p>linux中为了防止进程恶意使用资源,系统使用ulimit来限制进程的资源使用情况(包括文件描述符,线程数,内存大小等)。同样地在容器化场景中,需要限制其系统资源的使用量。</p> <h2>限制方法</h2> <ul> <li>ulimit: docke...

Kubernetes 排错、调试常用方法总结

Kubernetes 排错、调试常用方法总结

厉飞雨 阅读(320) 评论(0) 赞(19)

<p>在 k8s 云环境中,我们需要在容器内抓包进行 Debug, 但通常大多容器都没有安装 tcpdump 以及其他网络工具;在托管 k8s 中我们想登录 node,不是没权限就是步骤太麻烦。本文的主角<code>nsenter</code>正是很擅长解决这些问题,<code>nsenter</code>可以进入指定...

Kubernetes 跨集群流量调度实战

Kubernetes 跨集群流量调度实战

厉飞雨 阅读(412) 评论(0) 赞(16)

<h2>背景</h2> <p>Kubernetes 问世于 2015 年,从一开始秉持着松耦合和可扩展的设计理念,也因此带来了 Kubernetes 生态的蓬勃发展。但这些大部分先限制在单一集群内,然后由于种种原因和目的企业内部创建的集群越来越多,比如单集群故障、监管要求、异地多机房可用区容灾、出于敏捷、降本考虑的混合云、多云部署、单一集群的...