现状

•小商店/ 创业团队< 500台服务器规模

开源方案:Zabbix、Nagios、Cacti…

云服务提供商:监察和控制宝、oneAlert等

•BAT级别> 10万台服务器

投入大量的人工,内部自行研制,与事务严重耦合无法作为产品生产

•中间阶层

无从可选

 

早期,选用Zabbix

•Zabbix是一款开源的商户级监督系统

•对其举办一次开发、封装、调优…

•为啥选用Zabbix

•Cacti

•Collectd

•RRDtool

•Nagios

•openTSDB

 

Zabbix实践思路

•测试ZabbixNode

•Zabbix代码优化

•使用情势优化

•独立安顿多套Zabbix,通过API整合

 

Zabbix碰到的难点

•随着企务规模的便捷腾飞

•用户“使用频率”低下,学费很高

•不负有水平增加能力,不能支撑业务须求

•告警策略的护卫、变更代价太大,导致启使人迷恋士沦为当中,不可能自拔

•不便宜自动化,不便宜与运维平台等基础设备整合


Open-Falcon

Open-Falcon是HUAWEI运转团队设计开发的一款网络集团级监督系统

•提供最佳用、最人性化的互连网公司级监督化解方案

•项目主页:http://open-falcon.com

•Github: https://github.com/xiaomi/open-falcon

•QQ讨论组:373249123

•微信公众号:OpenFalcon

 

社区贡献

•交流机监控

https://github.com/gaochao1/swcollector

•Windows监控

https://github.com/freedomkk-qfeng/falcon-scripts/tree/master/windows_collect

•Agent宕机监察和控制

https://github.com/freedomkk-qfeng/falcon-scripts/tree/master/agent_monitor

•Redis/memcached/rabbitmq监控

https://github.com/iambocai/falcon-monit-scripts

•MySQL 监察和控制方案

https://github.com/open-falcon/mymon

 

非凡案例

美团

•生产条件广泛应用,1万+agent

•集成服务树、帮忙ping监察和控制、多机房架构援救、报警第三接收人帮忙

•正在开发openTSDB接口、query扩张正则成效

赶集

•深度定制,用于大数目部门平台服务监督与机关运营,生产条件已上线

京东财政和经济

•深度调查研讨open-falcon

•正在开发测试drrs(一种分布式的time series data 存款和储蓄组件)并适配falcon

 

内部 

新濠天地老品牌xh 1

agent
•负责机器数据收集
•自发现各个监督检查目标
•发送数据给transfer
•发送心跳音信给hbs
•执行自定义插件
•业务数据并非用插件采集!
•数据收集采取推仍然拉的格局?

transfer •对吸收到的多少做合法性校验
•转载数量给graph和judge
•为何要做这几个统一的接入端?
•为啥要对数码做分片?
•数据分片方案,用一致性hash依然路由表?

judge •对接受到的数码依照阈值实行判断
•达到阈值的多寡发生相应的event
•触发式判定or 轮询?
•为啥要使用内部存款和储蓄器?

graph
•操作rrd文件,对数码实行仓库储存和询问
•将反复操作合并后再flush磁盘
•将要flush到磁盘的数额,打散到种种日子片,降低IO消耗
•为啥用rrd而不是opentsdb之类的?

hbs
•提供接口给agent查询机器所需监督检查的端口、进度、要执行的插件列表等消息
•接收agent汇报的状态新闻并写入数据库
•缓存用户配置的告警策略
•为啥要用hbs缓存策略列表?

query

•利用一致性hash算法,查询多个graph的数据并集结
•须求动用与transfer相同的hash算法及配置

各web端
•Dashboard负责绘图、显示、仪表盘等
•Uic负责管理组合人的应和关系
•Alarm-dashboard负责突显当前未平复的报告警方
•用户在portal中安插告警策略
•Portal中的hostgroup一般是从CMDB中二只过来的!

Aggregator 对象:集群监控
•针对有个别hostgroup的多个counter实行测算
•分子:$(c1) + $(c2) -$(c3)
•分母:可以是$# 也许数字依然$(d1) + $(d2) -$(d3)
算算结果
•封装成多少个metricItem,再一次push回open-falcon
缘何如此完结
•归一化的题目一蹴而就方案
•复用整个open-falcon的绘图显示、告警逻辑

Gateway——跨数据主导

新濠天地老品牌xh 2

接驳服务树(CMDB)
•开源服务器管理组件(服务树)
•监察和控制对象通过劳动树来保管
•服务器进出节点、监察和控制自动变更

正史数据高可用
rrd-on-hbase
•绘图数据存款和储蓄在hbase中,消除高可用的难点
•历史数据提供更详尽粒度的查阅
drrs(@京东经济)
•Distributed Round Robin Server
•面向主旨集团,轻量级的野史数据存款和储蓄方案,化解多少扩大容积的标题

智能告警
同比、环比
•Dashboard数据突显援助比较、环比
•告警判定引入同比、环比作为参考
动态阈值
•通过对历史数据的读书,生成动态的报告警方阈值
涉及分析
•精准告警
•故障定位

SDK
七层
•Nginx
•统计cps、200、5xx、4xx、latency、availability、throughput
言语言文字工作者协会助Java/C++/PHP/Python
•内置计算每一种接口的cps、latency
•内置总计业务关切的指标的能力
框架帮忙
•resin、spring、flask…
总结类型
•Gauge/ Meter / Timer / Counter / Histogram

云监控
•服务端Host在国有云上
•无需客户安装、运行服务端
•支持namespace隔离、quota限额
•从根本上对两样用户的数额进行隔开分离
•优化监察和控制的增进、管理、查看流程
•提升用户体验、提升用户采纳功效

其他
•Callback成效增强,推进故障自动处理
•插件的保管帮助各个情势(不仅限于git)
•Dashboard 增添用户登录认证
•告警排班/ 告警升级(@金山云)


Open-Falcon铺排执行
•早先阶段
•全部的零件安顿在一台物理机上即可
机器量级~ 500
•graph、judge、transfer八个零件拆分出来安排在1台服务器上
机器量级~ 1000
新濠天地老品牌xh,•graph、judge、transfer 增加到2~3个实例
•query拆分出来,陈设二个实例
•dashboard 拆分出来安排
机器量级~ 10K
•graph、judge、transfer 扩展到二十一个实例,graph尽量使用ssd磁盘
•query增加到5个实例
•dashboard 拆分出来,扩大到3个实例

 

企望对您运营管理有扶持。


上述内容部分来自互连网, 希望对您系统框架结构划设想计,软件研发有帮助。
其余您或许感兴趣的稿子:

创设高效的研究开发与自动化运转
网络数据库框架结构划设想计思路
移动支付一站式消除方案
某大型电商云平台实践
商厦级应用架构方式N-Tier多层架构
某商户打交道应用网络拓扑架构图
IT基础架构规划方案一(网络种类规划)
伙食连锁公司IT音讯消除决方案一

如有想询问越来越多软件研发 , 系统 IT集成 , 公司音信化,项目管理
等资源音信,请关心自身的微信订阅号:

新濠天地老品牌xh 3

 

作者:Petter Liu
出处:http://www.cnblogs.com/wintersun/
正文版权归小编和今日头条共有,欢迎转发,但未经小编同意必须保留此段注脚,且在篇章页面明显地方给出原著连接,不然保留追究法律权利的职务。
该小说也还要公布在自身的独自博客中-Petter Liu
Blog

网站地图xml地图