Monitoring (监控)
Dashboard (仪表盘)
Current problems
显示当前有哪些问题,当某个值超过了你设置的值时,这里就会显示问题并发出警告。
Top hosts by CPU utilization
按 CPU 利用率排名靠前的主机
Host availability
主机可用性
Problems by severity
按严重性划分的问题
System information
Zabbix server is running Yes localhost:10051 //这一行表示zabbix的运行状态 Value(值)为yes是运行,no就是没有运行,details表示运行的地方,这里是localhost10051表示运行在本地。
Number of hosts (enabled/disabled) 1 1 / 0 //这一行表示主机有多少个enabled和disable分别是开启多少个和禁用多少个,1/0是与enabled和disabled对应的。
Number of templates 310 //这一行表示模板的个数这里有310个模板
Number of items (enabled/disabled/not supported) 129 121/0/8 //这一行表示监控项有多少个,这里一共有129个监控项,有121个开启状态,0个禁用状态,8个不支持。这里也是同上。
Number of triggers (enabled/disabled [problem/ok]) 73 73/0[0/73] //这一行表示触发器的数量。一共有73个触发器,73个开启状态,0个禁用状态,[出问题的触发器0个,正常状态为73个]
Number of users (online) 2 1 //这一行表示用户个数,用户一共有2个,在线状态的有1个。
Required server performance, new values per second 1.76 //这一行表示所需的服务器性能,每秒新值为1.76
High availability cluster //高可用性群集已禁用
Problems(问题)
第一栏分别是看:近期出现的问题,当前问题,以及历史问题
第二栏可以根据主机组来发现问题出现在哪个地方,select(选择)根据拥有的主机组来选择。
第三栏是根据主机来发现问题出现在哪个地方,但是可以select主机和主机所在的组都可以。
第四栏是触发器,选择根据哪个触发器得到的问题。
第五栏是严重性,可以根据问题的严重性来对问题进行等级划分。
第六栏是问题出现的时间小于多少,这可以根据问题出现的时间来进行筛选。
最后根据自己选择好之后的情况点击apply申请提交就可以了。
Hosts(主机)
第一行是主机的名称填显示的名称不用填配置文件里面的名称。同IP作用一样
第二行是主机组查看主机所属的组,可以点击select进行选择。同IP作用一样
第三行是IP地址。当有多台主机时,可以通过IP地址来进行筛选想看的主机信息。
第四行是DNS域名。同理根据域名筛选,前提是用域名。
第五行是端口号。根据端口号进行筛选
下面一栏是用来查看主机状态的。
下面的主机经常查看的几个
status代表主机的状态,latest data表示最新的数据,Problems表示问题,Graphs表示图表,点击可以查看图表。Dashboards是仪表盘。就是我们第一行看到的那个。
Latest data栏
Maps (拓扑图)
可以显示主机之间关系等图
Discovery (自动发现)
自动扫描并加入监控某一网段的主机
Services (监测)
Services服务
服务监控功能是为帮助那些想要在IT基础设施监控之上,获得更高层面(业务)监控需求的人设计的。在许多情况下,我们不关心底层设施的监控细节,比如磁盘空间不足,CPU高负载等等。我们关心的是IT部门提供的服务整体的可用性。我们还关心在IT基础设施中确认薄弱的地方,以及各种IT服务的SLA指标(SLA服务等级协议),现有IT基础设施架构的结构,以及更高层面的监控信息。
Zabbix 服务监控就是针对上述问题提出的解决方案。服务监控。
服务监控是一种监控数据的分层表现。
下面我们来看一个非常简单的服务结构:
Service
|
|-Workstations
| |
| |-Workstation1
| |
| |-Workstation2
|
|-Servers
在结构上每个节点都具有监控属性状态。根据所选择的算法,这个状态会被计算并关联到上层状态,服务监控功能最底层是关联的触发器。每个节点状态都是受其触发器状态影响。
Service actions(服务行动)
服务动作在功能上类似于 Zabbix 中的其他动作类型(例如,触发动作)
如果您希望某些操作因服务状态更改(OK ⇿ PROBLEM)而发生,则服务操作很有用,例如:
- 发信息
- 重启网络服务器
配置
要创建新的服务操作,请转到“*服务”菜单的“*服务操作”子部分,然后单击右上角的“创建操作”。
服务操作的配置方式与 Zabbix 中其他类型的操作相同。有关更多详细信息,请参阅配置操作。
主要区别在于:
条件
以下条件可用于服务操作:
条件类型 | 支持的运营商 | 描述 |
---|---|---|
服务 | 等于 不等于 | 指定要排除的服务或服务。 等于- 事件属于此服务。 不等于- 事件不属于此服务。 指定父服务会隐式选择所有子服务。要仅指定父服务,必须使用不等于运算符额外设置所有嵌套服务。 |
服务名称 | 包含 不包含 | 指定服务名称中的字符串或要排除的字符串。 contains - 事件由服务生成,名称中包含此字符串。 不包含- 在服务名称中找不到此字符串。 |
服务标签名称 | 等于 不等于 包含 不包含 | 指定要排除的事件标签或事件标签。服务事件标签可以在服务配置部分标签中定义。 等于- 事件有这个标签 不等于- 事件没有这个标签 contains - 事件有一个标签包含这个字符串 不包含- 事件没有一个标签包含这个字符串。 |
服务标签值 | 等于 不等于 包含 不包含 | 指定要排除的事件标记和值组合或标记和值组合。服务事件标签可以在服务配置部分标签中定义。 equals - 事件有这个标签并且值 不相等- 事件没有这个标签并且值 包含- 事件有一个标签和包含这些字符串的值 不包含- 事件没有一个标签和值包含这些字符串。 |
SLA(服务协议)
创建服务后,您可以开始监控其性能是否符合服务水平协议 (SLA)。
Services->SLA菜单部分允许为各种服务配置 SLA。Zabbix 中的 SLA 定义了服务水平目标 (SLO)、预期正常运行时间安排和计划停机时间。
SLA 和服务由服务标签匹配。相同的 SLA 可能适用于多个服务 - 将分别测量每个匹配服务的性能。单个服务可能分配了多个 SLA - 每个 SLA 的数据将单独显示。
在 SLA 报告中,Zabbix 提供服务级别指标 (SLI) 数据,用于衡量实际服务可用性。通过比较 SLO(以 % 为单位的预期可用性)和 SLI(以 % 为单位的实际可用性)来确定服务是否满足 SLA 目标。
SLA report(SLA报表)
lnventory(资产记录)
Overview(概况)
Hosts(主机)
Reports(报表)
System information(系统信息)
Zabbix server is running Yes localhost:10051 //这一行表示zabbix的运行状态 Value(值)为yes是运行,no就是没有运行,details表示运行的地方,这里是localhost10051表示运行在本地。
Number of hosts (enabled/disabled) 1 1 / 0 //这一行表示主机有多少个enabled和disable分别是开启多少个和禁用多少个,1/0是与enabled和disabled对应的。
Number of templates 310 //这一行表示模板的个数这里有310个模板
Number of items (enabled/disabled/not supported) 129 121/0/8 //这一行表示监控项有多少个,这里一共有129个监控项,有121个开启状态,0个禁用状态,8个不支持。这里也是同上。
Number of triggers (enabled/disabled [problem/ok]) 73 73/0[0/73] //这一行表示触发器的数量。一共有73个触发器,73个开启状态,0个禁用状态,[出问题的触发器0个,正常状态为73个]
Number of users (online) 2 1 //这一行表示用户个数,用户一共有2个,在线状态的有1个。
Required server performance, new values per second 1.76 //这一行表示所需的服务器性能,每秒新值为1.76
High availability cluster //高可用性群集已禁用
Scheduled reports(计划报表)
Availability report(可用性报表)
Triggers top 100(触发器TOP100)
Audit(审计)
Action log(动作日志)
Notifications(警报)
Configuration(配置)
Template groups(模板组)
Templates/Applications 模板/应用程序
Templates/Cloud 模板/云
Templates/Databases 模板/数据库
Templates/Modules 模板/模块
Templates/Network devices 模板/网络设备
Templates/Operating systems 模板/操作系统
Templates/Power 模板/电源
Templates/SAN 模板/网络
Templates/Server hardware 模板/服务器硬件
Templates/Telephony 模板/电话
Templates/Video surveillance 模板/视频监控
Templates/Virtualization 模板/虚拟化
Host groups(主机组)
这里面记录了主机组,包括创建、修改、删除、以及主机组里面对主机的操作
Name | |
---|---|
Applications | 应用 |
Databases | 数据库 |
Discovered hosts | 发现的主机 |
Hypervisors | 虚拟机管理程序 |
Linux servers | Linux 服务器 |
Virtual machines | 虚拟机 |
Zabbix servers | Zabbix服务器 |
Templates
Template(模板)可以去创建、删除、复制模板。
从左到右,这里面记录有模板名,有那些主机正在使用的模板,模板里有多少监控项,监控项里有几个触发器,监控项里有几个图表,监控里有几个仪表盘,有几个发现,网络监控,链接模板的类型,详细信息可以点击相关的信息
host(主机)
这里记录了主机的详细情况包括主机的网络、IP地址等。
可以对主机使用的配置进行导入导出这样就可以实现对主机的批量监控了。这里导出了文件格式有多种,可根据自己的需要进
行选择。
Items 项目 Proxy 代理人
Triggers 触发器 Templates 模板
Graphs 图表 Status 地位
Discovery 发现 Availability 可用性
Web 网络 Agent encryption 代理加密
Interface 界面 Info 信息
Tags 标签
Maintenance(维护期)
这里面记录了需要维护的主机,以及维护的时间。这里也可以选择模板
Actions (动作)
Trigger actions(触发操作)
Discovery actions(发现操作)
Autoregistration actions(自动注册操作)
Internal actions(内部操作)
Event correlation(事件关联)
这个类似于给某个主机打标签
Discovery (自动发现)
就是什么情况下判定主机错误
Administration管理
General常规
GUI(界面设置)
Proxies
Authentication认证
User groups用户群组
User roles用户角色
Users用户
Media types媒介
Scripts脚本
Queue队列
Queue overview
Queue overview by proxy
Queue details