admin 管理员组

文章数量: 1184232

曾经我很讨厌那些运维一见到 CPU使用率100% 的时候就大叫狂跳的样子,我还曾经说过, 如果CPU不是拿来用的,难道是用来闲置的吗

好像我说的话挺有道理。但是,我错了…

不过这也并不意味着运维是对的,CPU出现100%后他们大叫狂跳大多数是觉得自己摊上事了,而并不是基于责任感为了发现并解决问题( 这一点请相信我 )。不然为什么他们总是把事情丢给研发而不是自己尝试去check一下呢?


基于中央处理器的现代计算机是一个典型的 M/M/1 排队系统,CPU就是服务台。而pending的任务就是排队实体。

我起初认为,CPU使用率达到了100%正是表现了CPU正在被充分利用,然而我却忽略了接下来可能发生的情况,接下来的局面非常危险。既然作为一个典型的排队系统,任务到达就符合典型的 泊松分布 ,而任务的排队时间则符合 指数分布 ,这是必须学了排队论以后才知道的。

CPU使用率100%意味着在泊松分布下的任务还在按照该概率分布持续到达,如果CPU不出让一些空闲时间,在指数分布下就意味着新到达的任务排队时间将会达到无穷大,最终导致存储器溢出。因此,按照指数分布的排队时间的约束,CPU使用率100%只能维持一段很短的时间,如果CPU持续100%,则必然导致大量的任务hang住得不到响应,这正是DDoS攻击者想要达到的效果。

这里就不摆公式了,总之,CPU持续100%十有八九会出问题的,不然的话按照任务到达率泊松分布是说不通的。

2017年,再见!

本文标签: 使用率 如果 编程