admin 管理员组文章数量: 1184232
2024年3月20日发(作者:电影小程序源码网)
服务器故障之运维经验总结
作为一个运维人员,遇到服务器故障是在所难免的,要是再赶上修复时间紧、奇葩
的技术平台、缺少信息和文档,基本上这过程都会惨痛到让我们留下深刻的记忆。当出现
此类问题时,应该如何处理?本文给大家详尽的分析了一下,一起来看看。
我们团队为上一家公司承担运维、优化和扩展工作的时候,我们碰到了各种不同规
模的性能很差的系统和基础设备(大型系统居多,比如CNN或者世界银行的系 统)。要
是再赶上修复时间紧、奇葩的技术平台、缺少信息和文档,基本上这过程都会惨痛到让我
们留下深刻的记忆。
遇到服务器故障,问题出现的原因很少可以一下就想到。我们基本上都会从以下步
骤入手:
一、尽可能搞清楚问题的前因后果
不要一下子就扎到服务器前面,你需要先搞明白对这台服务器有多少已知的情况,还
有故障的具体情况。不然你很可能就是在无的放矢。
必须搞清楚的问题有:
•
故障的表现是什么?无响应?报错?
•
故障是什么时候发现的?
•
故障是否可重现?
•
有没有出现的规律(比如每小时出现一次)
•
最后一次对整个平台进行更新的内容是什么(代码、服务器等)?
•
故障影响的特定用户群是什么样的(已登录的, 退出的, 某个地域的…)?
•
基础架构(物理的、逻辑的)的文档是否能找到?
•
是否有监控平台可用? (比如Munin、Zabbix、 Nagios、 New Relic… 什么都可
以)
•
是否有日志可以查看?. (比如Loggly、Airbrake、 Graylog…)
最后两个是最方便的信息来源,不过别抱太大希望,基本上它们都不会有。只能再继
续摸索了。
二、有谁在?
$ w$ last
用这两个命令看看都有谁在线,有哪些用户访问过。这不是什么关键步骤,不过最好
别在其他用户正干活的时候来调试系统。有道是一山不容二虎嘛。(ne cook in the kitchen
is enough.)
版权声明:本文标题:linux服务器故障之运维经验总结 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/p/1710914575a579377.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论