(本文林总授权,如需转载请联系林总)
今天无数朋友反馈脉脉上不去了,脉脉服务器出什么问题了,脉脉是犯了什么错误了吗?脉脉CTO是不是要被问责开除了?因为脉脉本身不能用了,所以各种反馈来自于电话、短信、QQ、微信、微博、知乎??到底是什么原因呢?
凌晨3点钟开始,我们的同事发现服务器挂了(图1),但因为是整个机群完全连不上网,所以所有常规的报警措施都失效了(比如短信报警)。同事联系我们的服务提供商蓝汛的时候,告知的是联通净网行动把机房断网了。同时,早上7点半,第一位热心用户短信咨询脉脉的问题,接下来我们还在猜测净网到底为什么?难道是唐山大地震40周年出了什么事?(请大家为死者默哀)因为蓝汛机房的客户都是新华网人民网这样的机构。蓝汛方面也不愿意给出更多的解释。大家都觉得上班的点应该就能恢复,我们又做不了任何的事情,只好默默等待。
然后的经历就非常崩溃了:用户不断的咨询,很多用户的几百万的生意、重要的战略合作、挖到关键时刻的人才??都因为脉脉的失效,而非常的抓狂。我们在不断和用户沟通的过程,同时在不断的质问蓝汛的恢复时间,但一直无果。多方了解才知道,应该是蓝汛和联通的利益冲突导致被停网,到中午我们无法等待,开始紧急联系机房,制定搬迁方案(做过运维的同学知道这种紧急搬迁的工作量有多大),并向蓝汛提出下架申请。蓝汛用各种方式拖延,考虑到搬迁本身需要10个小时才能完成,所以我们下的deadline是今天晚上启动搬迁方案。
最终蓝汛和联通达成一致,在下午18点完成网络恢复,这时候离脉脉失联已经过去15个小时了。
除了服务提供商的问题以外,我们自身还有很多问题要改进。我们没有有效提示用户的手段,在机房网络故障的时候,我们不能有效通知用户。这个在下周要完成紧急方案的部署。我们没有多机房的容灾策略,这对一般的应用来说相对容易,但对于需要几十T的内存来维系的人脉网络数据来说,挑战确实比较大,我们会尽快制定有效的方案来避免类似的情况再发生。
最后向给今天带来不便的用户诚恳道歉,我们做的不好的地方会尽快改进。创业不易,我们会继续用120分的热情,来给大家搭建更好的行业交流平台。
最后的最后,脉脉招运维
办公地址:北京市朝阳区安立路60号润枫德尚
薪资待遇:具备相当市场竞争力的薪水,与performance成正比的期权
投递邮箱:gege@taou.com
注:请注明来自运维帮,成功概率更高
公司融资:B轮close
脉脉运维团队现面向全国,纳贤招“婿”啦!
未来和我们一起并肩作战的,会是你吗?
我们希望你:
1、本科 or 以上学历,3 年以上互联网运维工作经验;
2、熟练掌握 Linux(尤其是 RHEL 系发行版)常见命令和配置;
3、熟练掌握 Shell 以及 Perl/PHP/Python 等一门或多门开发语言;
4、熟悉 OSI 模型以及 TCP/IP, HTTP 等常见协议的基本原理;
5、熟悉常见 web 服务器软件(如 nginx)以及常见数据库/缓存软件(如 MySQL/Memcache 等)的应用场景和配置;
6、如果在以下三类以上工作内容中具备可以相当程度打动面试官的能力,可忽视上述部分条件;工作内容中具备可以相当程度打动面试官的能力,可忽视上述部分条件;
团队工作内容:
1、负责 IDC 内服务器和网络设备的规划、配置、监控和除障;
2、负责操作系统以及基础服务(如 dns/git/短信/邮件/vpn 等)的配置、监控、维护和优化;
3、负责 nginx 的配置、监控、维护和优化,以及基于 lua 语言的 nginx 扩展功能开发;
4、负责 MySQL/MongoDB/Redis 数据库的配置、监控、维护和优化;
5、负责基于 web 日志和应用日志的数据分析、统计、监控报警以及数据后台的开发;
6、负责服务器代码部署系统和客户端版本发布/升级系统的开发和维护;
7、负责处理线上故障,分析原因,设计解决方案和应急预案;
8、负责安全事故的处理,逐步设计完善的信息安全体系;
9、负责与第三方 vendor 的沟通和对接,如设备供应商、云服务商、短信平台商等;
10、负责办公室电脑和网络设备紧急故障以及日常小故障的处理;
你将得到:
1、具备相当市场竞争力的薪水,与performance成正比的期权;
2、免费早午餐、无限零食、饮料和水果供应;
3、每年一次国外旅游,若干次TB;每周两次集体健身活动;
各位贤才,还等什么,快加入我们吧!邮箱君已恭候多时啦!
若有兴趣请发CV至gege@taou.com
记得在邮件中说明自己能够负责或擅长的领域
近期技术活动
商务合作,请加微信yunweibang008
我来说两句排行榜