Grafana+Telegraf+Influxdb监控Tomcat集群方案

Stella981
• 阅读 696

前言

前一段时间自家养的几只猫经常出问题,由于没有有效的监控预警手段,以至于问题出现或者许久一段时间才会被通知到。凌晨一点这个锅可谁都不想背,为此基于目前的情况搭建了以下这么一套监控预警系统。

相关软件

  • Nginx:代理访问 Grafana

  • Grafana: 可视化面板(Dashboard),有着非常漂亮的图表和布局展示

  • Influxdb:开源的时间序列数据库,适用于记录度量,事件及执行分析

  • Telegraf:收集系统和服务的统计数据

  • Docker:开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中

监控架构

Grafana+Telegraf+Influxdb监控Tomcat集群方案

GTI监控预警系统,架构流程说明:

  • 第一步:数据采集,Telegraf 采集 Tomcat 相关参数数据

  • 第二步:数据存储,Influxdb 存储 Telegraf 采集的数据

  • 第三步:数据可视化,Grafana 配置 Tomcat 监控面板

  • 第四步:预警通知,配置钉钉、邮件等预警

安装配置

这里只对Grafana、Telegraf、Influxdb、Tomcat 做相应的安装说明,Nginx 以及 Docker 请自行查阅资料。

Grafana

Grafana只是一个接入数据源的可视化面板,这里为了方便,我们选择Docker安装。

mkdir grafanaID=$(id -u)docker run -d --user $ID --name=grafana  --volume "$PWD/grafana:/var/lib/grafana" -p 3000:3000 grafana/grafana# 如果生产环境配置,最好提前配置好域名docker run -d --user $ID --name=grafana --volume "$PWD/data:/var/lib/grafana" -p 3000:3000 -e "GF_SERVER_ROOT_URL=http://monitor.52itstyle.com" grafana/grafana

执行成功以后,执行以下命令:

docker ps

如果出现grafana运行容器说明安装成功。

查看容器相关参数:

docker inspect docker.io/grafana/grafana

进入:

docker exec -it grafana /bin/sh

Grafana的默认配置文件grafana.ini位于容器中的/etc/grafana,这个文件是映射不出来的。不过可以先创建并运行一个容器,拷贝出来重新创建运行容器。

参数说明(这里截取了部分重点参数):

##################### Grafana 几个重要的参数(参考一下) #####################[paths]# 存放临时文件、session以及sqlite3数据库的目录;data = /var/lib/grafana# 存放日志的地方;logs = /var/log/grafana# 存放相关插件的地方;plugins = /var/lib/grafana/plugins#################################### Server ####################################[server]# 默认协议 支持(http, https, socket);protocol = http# 默认端口;http_port = 3000# 这里配置访问地址,如果使用了反向代理请配置域名,发送告警通知的时候作为访问地址root_url = http://grafana.52itstyle.com#################################### Database ####################################[database]# 默认使用的数据库sqlite3,位于/var/lib/grafana目录下面;path = grafana.db#################################### Session ####################################[session]# session 存储方式,默认是file即可  Either "memory", "file", "redis", "mysql", "postgres", default is "file";provider = file#################################### SMTP / Emailing ##########################[smtp]# 邮件服务器配置,自行修改配置enabled = truehost = smtp.mxhichina.com:465user = admin@52itstyle.com# If the password contains # or ; you have to wrap it with trippel quotes. Ex """#password;"""password = 123456;cert_file =;key_file =;skip_verify = falsefrom_address = admin@52itstyle.com# 这里不要设置中文,否则会发送失败from_name = Grafana

Influxdb

创建并运行容器

docker run -d -p 8083:8083 -p 8086:8086 -e ADMIN_USER="root" -e INFLUXDB_INIT_PWD="root" -e PRE_CREATE_DB="telegraf" --name influxdb tutum/influxdb:latest

各个参数含义:

-d:容器在后台运行--name:容器名称-e:指定环境变量,容器中可以使用该环境变量 -p:将容器内端口映射到宿主机端口,格式为 宿主机端口:容器内端口;8083是influxdb的web管理工具端口,8086是influxdb的HTTP API端口

执行成功以后,执行以下命令:

docker ps

如果出现influxdb运行容器说明安装成功。

访问地址:http://ip:8083/

Grafana+Telegraf+Influxdb监控Tomcat集群方案

Telegraf

docker pull telegraf

把telegraf相关配置拷贝到宿机

docker cp telegraf:/etc/telegraf/telegraf.conf ./telegraf

采集Tomcat数据:

如果想监控多个Tomcat,这里配置多个[[inputs.tomcat]]即可,但是一定要配置不同的tags标识。

[[inputs.tomcat]]url = "http://192.168.1.190:8080/manager/status/all?XML=true"# Tomcat访问账号密码 必须配置username = "tomcat"password = "tomcat"timeout = "5s"# 标识Tomcat名称、根据实际项目部署情况而定[inputs.tomcat.tags]host = "blog"[[inputs.tomcat]]url = "http://192.168.1.190:8081/manager/status/all?XML=true"# Tomcat访问账号密码 必须配置username = "tomcat"password = "tomcat"timeout = "5s"# 标识Tomcat名称、根据实际项目部署情况而定[inputs.tomcat.tags]host = "bbs"

采集数据到influxdb:

[[outputs.influxdb]]      # urls = ["udp://localhost:8089"] # UDP endpoint example      urls = ["http://localhost:8086"] # required,这个url改成自己host      ## The target database for metrics (telegraf will create it if not exists).      database = "telegraf" # 这个会在influx库创建一个库

把配置文件复制到容器:

docker cp telegraf.conf telegraf:/etc/telegraf/telegraf.conf

重启telegraf服务:

docker restart docker

Tomcat

由于telegraf收集Tomcat相关数据需要配置访问权限,这里我们选择Tomcat7做配置说明。

修改位于conf下的tomcat-users.xml文件:

<tomcat-users><user username="tomcat" password="tomcat" roles="manager-gui,manager-script,manager-jmx,manager-status"/></tomcat-users>

重启Tomcat容器,访问以下地址:

http://ip:8080/manager/status/all?XML=true

Grafana+Telegraf+Influxdb监控Tomcat集群方案

如果出现以上界面,说明配置成功。

监控配置

依次启动Tomcat、Influxdb、Telegraf、Grafana完成后,我们进入Grafana后台管理进行相关配置。

配置Influxdb数据源:

选择 datasources/Add datasource

Grafana+Telegraf+Influxdb监控Tomcat集群方案

输入正确的HTTP地址以及数据库账号密码,点击保存,如果出现绿色提示框,说明配置成功。

配置Tomcat仪表盘:

选择 dashboard/import

Grafana+Telegraf+Influxdb监控Tomcat集群方案

这里有三种方式导入面板:

  • 选择输入官方面板ID或者URL

  • 直接复制黏贴JSON格式代码

  • 导入第三方面板JSON格式文件

这里我们导入事先自己定制保存的Tomcat监控面板,最后点击导入保存。

Grafana+Telegraf+Influxdb监控Tomcat集群方案

如果不出意外,将会是下图的样子。

Grafana+Telegraf+Influxdb监控Tomcat集群方案

告警配置

前期做了这么多,我们的最终目的是为了提前预警通知,在系统即将发生灾难之前作出相应的准备调整。这里我们以Tomcat的线程数量阈值作为预警通知。

点击线程面板-选择编辑:

Grafana+Telegraf+Influxdb监控Tomcat集群方案

配置相关参数:

Grafana+Telegraf+Influxdb监控Tomcat集群方案

1、Alert名称,可以自定义。
2、执行的频率,这里我选择每60s检测一次。
3、判断标准,默认是avg,这里是下拉框,自己按需求选择。
4、query(A,5m,now),字母A代表选择的metrics中设置的sql,也可以选择其它在metrics中设置的,但这里是单选。5m代表从现在起往之前的五分钟,即5m之前的那个点为时间的起始点,now为时间的结束点,此外这里可以自己手动输入时间。
5、设置的预警临界点,这里手动输入,和6是同样功能,6可以手动移动,两种操作是等同的。

配置预警信息以及通知方式:

Grafana+Telegraf+Influxdb监控Tomcat集群方案 Grafana+Telegraf+Influxdb监控Tomcat集群方案

这里我们选择的是邮件预警通知,但是要提前进行配置,详见一开始grafana.ini中 SMTP / Emailing 相关参数配置。

点击发送测试,提示成功会发送一份告警Demo到指定邮箱:

Grafana+Telegraf+Influxdb监控Tomcat集群方案

总结

讲道理,这一套东西还是挺强大的。特别是对于中小公司来说,各种成熟的开源组间一整合完美搭建出一套监控系统,时间成本、人力成本、技术成本可以降到最低。

参考文档

大家安装过程中,版本可能不尽相同,相关页面展示会不一致,但是不会影响最终功能呈现。

http://docs.grafana.org/

https://docs.influxdata.com/influxdb/

https://docs.influxdata.com/telegraf/

https://blog.52itstyle.com/archives/2014/

https://blog.52itstyle.com/archives/2029/

https://github.com/influxdata/telegraf/pull/3277

点赞
收藏
评论区
推荐文章
blmius blmius
2年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Jacquelyn38 Jacquelyn38
2年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Wesley13 Wesley13
2年前
Java获得今日零时零分零秒的时间(Date型)
publicDatezeroTime()throwsParseException{    DatetimenewDate();    SimpleDateFormatsimpnewSimpleDateFormat("yyyyMMdd00:00:00");    SimpleDateFormatsimp2newS
Wesley13 Wesley13
2年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
2年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
2年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
2年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
为什么mysql不推荐使用雪花ID作为主键
作者:毛辰飞背景在mysql中设计表的时候,mysql官方推荐不要使用uuid或者不连续不重复的雪花id(long形且唯一),而是推荐连续自增的主键id,官方的推荐是auto_increment,那么为什么不建议采用uuid,使用uuid究
Python进阶者 Python进阶者
3个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这