개인적인 생각 …
왜 굳이 비용을 들여서 모니터링 솔루션을 유료로 구매해서 사용하는지.. 수 천만원~ 몇억 하는것을… 공개된 오픈소스를 활용해도 상용에 버금가는 모니터링 시스템을 만들수 있는데… 아마도 아래 이유중 하나일수도 있다고 생각된다. 회사가 돈이 많거나, 관심이 없거나, 개발 인력 부재, 인력은 있으나 개발능력 부재…
모니터링 대상 :
현재 기준 Host 서버 (블레이드) 250대 (다양한 벤더) Hypervisor : Hyper-v , VMWare VM : 10,000대 이상 Storage : Total 800TB 정도 , 10여대 운영 (다양한 벤더) Switch : SAN, Ethernet 수십대 Service : apache, tomcat, mysql, redis, mongodb 등등등….. |
아래 구성으로 통합 모니터링 대시보드를 개발하여 문제없이 몇 년째 잘 사용중이다.
참고 사항
influxdb : 서버 리소스 사이징에 대해서는 가이드라인이 있음 (https://www.influxdata.com/) (모니터링 폴링 타임 (예 30초) 30초*서버수*메트릭수(cpu,mem,bandwidth 등등등) 저장되는 메트릭 수가 많을수록 HDD 성능이 좋아야함 (SSD 추천: 거의 실시간으로 disk I/O가 빈번하기때문) 그리고 retention 정책 , cache 관련 설정등을 사이즈에 맞게 잘 튜닝해야함 성능 문제 발생시 Sharding 이 되나 구조가 복잡해 지고 (관리적인 측면포함) 샤딩 이전에 Scale-up이 가능하다면 먼저 진행 하는것이 바람직하다고 생각됨 Grafana : 현재 4.2.x 버전인데 업그레이드 잘됨 (패키지 받서 그냥 설치하면됨 / 그리고 restart) 버전 UP시 grafana.org 에 blog 에 가면 어떤 부분이 개선되고 패치되었는지 자세하게 나옴 플러그인 설치는 grafana.net 가면 있음 Telegraf : windows agent는 influxdb 버전과 호환되야함 (버전 맞춰 주는게 좋음 ) 다양한 input,output 플러그인 지원 Kapacitor : Notification (alert) 담당 데몬이며, 들어오는 쿼리에 대해 감시설정을 stream방식이냐 batch 방식이냐 결정 알람설정은 지원 되는 API들이 많이 있음 tick 스크립트 수정시에는 수정후 무조건 다시 define 해줘야 수정된게 반영됨. |