使用Grouk的集成服务高效处理系统报警

监控系统是运维环节中最重要的一环,通过系统报警及时发现故障并处理是提高产品质量的必需工作。

系统报警通知通过短信、邮件等方式进行,这种古老的通知方式仅仅起到了基本的通知作用,对于运维人员后续处理问题无法提供足够的帮助,也不能满足管理人员及时掌握系统故障率和排除率的需求。

Grouk作为一款专为企业打造的协作工具,结合自己的第三方应用集成服务系统,针对系统报警,在运维人员后续处理问题的沟通、任务分配、故障追踪,以及管理人员对故障的监管等方面,提供了一套可靠、高效的解决方案。


传统的低效率的系统报警

如今市面上主流系统监控工具,如Zabbix、Open-Falcon等,提供的报警方式:

  • 短信、Email、RSS等方式通知
  • 通过URL Callback将消息发送到微信、Gtalk、MSN 等IM工具

然而,这些传统的报警方式存在许多弊端。

短信和邮件报警的弊端:

  1. 到达率和时效性不能得到保证
  2. 邮件阅读及时性差
  3. 针对报警问题的后续沟通困难

报警消息发入微信类IM工具的弊端:

  1. 无法直接针对报警消息讨论,需要复制粘贴给相关负责人
  2. 多条报警消息容易混杂,不易区分讨论
  3. 没有方便快捷的渠道进行处理故障的工作分配,以及后续追踪
  4. 以后再次遇到同样故障,较难追述到上次针对该故障的讨论沟通内容

结合Grouk的集成服务实现系统报警的敏捷处理流程

Grouk内置一套第三方应用的集成服务,对于报警系统,目前支持了Open-Falcon、Zabbix、监控宝、Crashlytics等多种工具的集成支持。在此以Open-Falcon为例,粗讲一下Grouk针对系统报警通知提供的解决方案,能够给企业带来的价值。

首先,需要将Open-Falcon的报警信息接入Grouk中,并确定发到某个特定会话。

下图为Grouk的集成服务管理平台,配置操作在此进行。 blob (10).png-525.2kB

1. 在Grouk集成管理后台创建Open-Falcon的集成服务
2. 复制系统自动生成的webhook地址
3. 按流程将该集成服务订阅到监控群或者自己
4. 修改Open-Falcon的sender模块的`cfg.json`,将api的sms(短信报警)或者email(邮件报警)的值修改为刚才生成的webhook地址。

完成配置后,当Open-Falcon检测到报警后,会将原本的短信或email报警发到Grouk中订阅了该集成服务的群中(或若订阅给自己则发给自己)。

如下图为示例消息: Open-Falcon报警消息展示

对企业来说,采用Grouk作为报警消息通道,和传统的短信、邮件、微信等相比,有哪些优点呢?

使用Grouk相对传统通知方式的优点:

1. 多平台的全功能支持和全内容同步

Grouk提供全平台支持,不论电脑还是移动端,都提供全平台的支持。在移动环境下,更有全功能完善的手机App。配合Grouk的全内容同步机制,使得用户在任何设备上,都可以查看到相同的工作场景,全面实现移动办公。

稳定的push通道确保运维人员即使在移动环境中,也可以及时收到系统报警通知。在所有终端不可达的情况下,Grouk提供了邮件或短信的后备通知渠道。

多渠道,多设备的支持,Grouk确保了通知的可达性和及时性。

2. 集成到群,使得相关负责人获得报警后,方便进行快速交流,找到解决方案

与传统通知不同,Grouk可选择将报警系统消息订阅到群会话。对于故障相关的运维工程师,在第一时间收到报警通知的时候,在群里可以方便及时的针对报警消息进行交流和讨论,能够高效的解决问题。

同时,对于管理人员,对运维人员针对问题的讨论和交流过程可以实时看到,能够快速掌握问题所在,确定后续工作。

3. 内置的主题讨论机制,使得多条报警消息能够迅速区分,避免消息混杂,提高效率和组织性

当系统报警频繁出现的时候,群讨论中大家无序的发言,对话内容混杂,不易区分交谈对象。

Grouk的主题讨论机制,通过不同颜色的色块区分,使得用户发出的消息有针对性的回复某一条消息,并且可以后续直接查看该主题下的会话内容。

4. 确认问题后,可直接创建任务并分配给工程师,使故障解决可追溯

任务机制让故障能够明确的分配给相关负责人,并且在后续的工作中,可以通过任务列表检索查看故障解决的情况。任务列表的检索也能快速定位到某一条任务。

Grouk的任务分配和检索功能,让研发工程师对自己应解决的故障一目了然,管理人员也可以实时掌握相关工程师的工作,对产品质量做到及时把控。

下图为讨论和任务分配的简单实例: blob.png-464.7kB

5. 消息的收藏、转发、标签机制能够提高问题处理效率

收藏机制让用户可以把消息收藏,之后可以在收藏夹快速找到该消息以及消息相关的文件;标签机制便于用户对消息进行整理分类,并提供根据标签搜索的功能,方便对消息进行有序管理;转发机制支持将消息分享到所在的会话,便于问题流转和分配。

运维人员通过标签、转发等机制,可以更高效的把问题进行归类和处理。而收藏机制无疑给讨论后得到的故障解决方案或任何有价值的内容提供了一个良好快速存储,有利于促进团队的知识积累。

6. 内容永久保存 + 强大的内置搜索引擎

Grouk永久保留聊天消息和文件,以后再次遇到同样故障,完善的消息搜索引擎让工程师能够直接定位到以前针对该问题的讨论,迅速找到解决方案。

通过长期的积累和使用,群组将被打造成运维团队强大的知识库。

7. 管理者更清晰

除了以上列举的优点之外,作为团队的管理者或公司高管,通过Grouk的统计和强大的检索功能,可以随时掌握团队成员的动态,从而了解公司的各方面状况。


持续扩展的集成服务

看到这里,对Grouk通过集成服务和即时通讯结合的方式打造的系统报警通知解决方案是否已经有一个大致的了解?

与此同时,Grouk在持续的增加集成第三方应用服务的数量、功能。

Grouk着力打造一个企业沟通协作的工具,在可靠、稳定的内部IM工具的基础上,把各个团队需要的第三方应用消息接入Grouk,变身成为企业集中处理内部和外部消息的平台。