2017
02-07
02-07
线上环境运维随想
前段时间公司线上环境的游戏服务器出现了严重的运维事故,之前一直没有抽时间总结下来,最近过完年相对比较空,总结一下以防后患。事情的起因是,程序员测试时误删除了数据库大部分的表文件,恢复数据库时又发现备份机制存在问题,根本无法恢复数据。值得庆幸的是用户和角色表没有删除,而且大部分游戏行为都有相应的log记录,最后通过log记录使用大数据分析恢复了玩家的大部分数据。整个过程耗时3天,3天基本没有怎么睡觉。最终的结果还算是好的,停服3天,虽然玩家还是有部分数据丢失,但是我们给予了大幅度的补偿,基本玩家反馈还是正面的,比我们开服前的预期要好。 继续阅读
Read More >