照样少背锅吧--聊聊线上监控

乙醇 创建于 7 个月 之前

最后更新时间 2019-06-17

线上的一切都是监控......

之前应当有写文章商量过测试阁下移的成绩。

左移大年夜致就是在设计的时辰,写代码之前先把成绩推敲清楚,尽可能增添一些伪需求和自相抵触的需求,请求测试同窗有较大年夜的营业才能。

右移就是上线以后经过过程监控等手段去提早感知线上的成绩,争夺在大年夜部分用户发明成绩之前就感知到成绩并且快速修复和发布,没有被用户捉住的成绩其实影响范围是无限的,可以想办法消化掉落。

从软件测试的生命周期上看,大年夜部分项目能够都邑经历发布上线和线上运转/运营的阶段,从绩效层面上看,线上成绩对绩效的影响是很大年夜的,最少从感到下去说是如许的。比如某测试同窗任务谨小慎微勤勤奋恳,然则由于某天线上出了一个很严重的成绩,形成了经济损掉,经过过程回溯和复盘,发明该测试人员应当负重要义务,假设你是他的下级,你会怎样评价他的绩效呢?是采取人非圣贤孰能无过,知错能改良莫大年夜焉的立场,照样由于严重的线上成绩全盘否定他的付出呢?普通来讲,你能够会采取比较中庸的做法,变乱义务是要承当的,但白璧微瑕,照样会有值得肯定的处所。这时候辰常常就是把大年夜锅分红一个一个的小锅,找人一路背。不过测试是甩锅链中比较弱势的一环,也是背锅链中首当其冲的一环,照样要有比较强的求生欲和优胜的心思本质才可以。

把线上监控做完全是求生欲强的表示之一。

简单起见,我们把线上监控分为3种类型,分别是营业级,办事级和硬件级的监控。

  • 营业级。营业级的监控须要大年夜家去定义一些核心的营业目标,然后对目标停止监控,假设目标有异常那么争夺敏捷定位成绩,将营业重新推上正轨。拿电贸易务举例,核心目标能够是订单量,假设平常平凡下午2点到3点阁下的均匀单量是1000,但明天只要100,那么应当是哪里出了成绩,须要敏捷去定位和排查。假设订双数直接掉落到0,那么能够是订单办事弗成用或许整站都挂掉落了。

  • 办事级。比如订单办事一共有10个接口,那么每个接口的调用次数,成功率,前往速度等。办事级的目标可以分的很细,每个团队每种营业都有不合的办事级目标的侧重点。

  • 硬件级。这个比较好懂得。比如可以看到某台办事器的cpu内存网卡等目标。

谁来做

监控谁来做是个老生常谈的成绩。普通来营业级监控须要测试+产品+运维的同窗一路来做,运维可以主导,测试同窗可以帮助验证或验收。办事级的监控可以由开辟+运维+测试来做。硬件级可以由运维同窗主导。

3层是否是都要做

普通来讲3层都做的话是比较好的。比如营业级监控发清楚明了订单量异常,然后经过过程办事级监控发明订单办事的库存接口调用掉败率很高,招致订单没法正常创建,最后经过过程硬件层监控发明库存办事的硬件办事器磁盘io异常,从而可以快速定位到成绩,敏捷修复。

假设没有精力把3层都做全的话,可以先做营业级,至上而下把3层渐渐扶植好。由于营业级的监控常常异常直不雅,有锅自远方来可以了如指掌,做好营业层监控可以进步一些存活率,不过假设想把线上成绩的影响降到最低,另2层也是须要扶植完全的。

其实不是一切的成绩都可以监控到

有时辰我们其实不是一切的成绩都可以监控到,或许有一些监控的目标由于跨部分,或调用第三方办事的关系,我们没办法拿到我们想要的核心目标或数据。这时候辰我们能够须要模仿线上用户的一些详细操作去感知成绩。举个例子,今朝订单体系支撑微信付出和付出宝付出,默许情况下展示的是微信付出的链接。我们可以经过过程在线上真实下单的方法(主动化测试的手段)去调用微信付出接口,假设可以正常走完流程,那么微信付出应当是没有成绩的,假设走不通流程,那么微信付出能够临时弗成用,我们可以敏捷把默许付出方法切成付出宝,如许能够对订单量不会形成特别大年夜的影响。

告警

监控常常跟告警结合起来,比如我们可以设置岑岭期每非常钟的订单量假设小于100就告诉相干人员停止毛病排查。告警常常须要异常精准,由于假设总是误报,那么大年夜家能够会习气性的忽视告警信息,招致告警形同虚设,那就是狼来了的故事了。

综上欲望对大年夜家有所赞助,别的作者程度无限才能普通,有成绩还请示正。

我要留言

  • 总结的照样很不错的,QA背锅是常有的事,然则正是由于如许,我们才须要保护好本身,QA不产生质量成绩,但线上的质量成绩QA难逃义务,只是义务大年夜小的成绩,是以QA必须贯穿全部项目周期,从产品需求提出开端便须要进入到项目中,对营业也必须深刻懂得,也须要对能够出现的bug有提早预判才能,确切很难,但随着对营业线的懂得和经历的累计,照样可以做到的。关于线上营业监控,我一向有在做,根本和作者写的差不多,分为营业场景流程监控和线上数据监控。但须要弥补一点的是关于总是误报的情况,我认为最简单的方法应当是掉败重试,而不是忽视告警信息,一切的告警信息应当作好数据保存,但不用定提议告警,提议告警的情况可以伶仃封装,不合的营业优先级和告警优先级,可以有不合的告警方法,如短信,德律风,邮件,IM消息等,并且做很多多少次重试掉败再停止骚扰试告警的逻辑。

    lvjj 创建于 2019-06-15 16:01:15

  • 异常赞o( ̄▽ ̄)d

    番茄 创建于 2019-06-14 15:42:28

  • 👍一个

    Zack 创建于 2019-05-29 09:49:57

  • 很好,总结的很棒

    lemonk 创建于 2019-05-14 16:54:30

  • 三种方法平常平凡都有接触 然则没有总结,楼主总结的很好。有益,赞

    Cheney 创建于 2019-04-15 11:46:08

  • 受教了。。

    hsia 创建于 2019-04-10 10:26:16