Расскажите, как вы мониторите свои проекты?



Всем привет. Коллеги, а расскажите, как вы мониторите свои проекты? Сколько метрик в минуту? Куда пишете? Какие правила ротации данных? Как горизонтально растёте? Чем алеритите? Сложные алерты есть?Я к чему спрашиваю? У меня сейчас прометей есть и он кушает около 40000 метрик в минуту и даже рисует это всё в графане, пищит алертменеджером, но. Всегда есть но! Как известно, аппетит приходит во время еды, и бизнес хочет ещё примерно удвоить качество метрик. Текущий инстанс уже c3.8xlarge. Боливар не выдержит. Документация про горизонтальное скалирование говорит «федерируй и размазывай руками». То есть, горизонтально оно какбы и не масштабируется толком. Есть альтернативы?P.S: глаз сам косит в сторону «порубить на части и распихать в инфлюксы с капаситором», но оно там с горизонтальным масштабированием всё плохо (не стабильно и за нескромные деньги).P.S2: ну и альтернативу cloudwatch_exporter заодно может подскажете? А то у него мейнтейнер немного странно на ошибки реагирует.
671   10  

Comments

  1. Egor Rukhvadze
    Egor Rukhvadze 5 лет назад
    40 000 метрик и вы используете ? смотрите и реагируете на их изменение ? не верю.
    • Илья Есин
      Илья Есин 5 лет назад
      Лично я не использую. Для технического мониторинга я бы не стал даже задумываться. Бизинес использует. Ну, по крайней мере, заявляет, что это кому-то нужно. Разработчики контролируют состояние своих подсистем тоже через мониторинг. Некоторые из метрик, которые экспортируются сервисами точно используются бизнесом решения их задач; некоторые — как часть технического мониторинга (предсказание скалирования, например). Сколько из этих 40000 НЕ используются, я не знаю. Выяснить это, не сломав чей-то workflow очень сложно. Вопрос в том, как это хендлить.
    • Фёдор Бартош
      Фёдор Бартош 5 лет назад
      а на них не надо смотреть постоянно, для этого алерты есть
    • Egor Rukhvadze
      Egor Rukhvadze 5 лет назад
      Фёдор Бартош 40 000 метрик и 40 000 алертов ?:D:D:D:D
    • Фёдор Бартош
      Фёдор Бартош 5 лет назад
      Egor Rukhvadze если у вас все 40к метрик постоянно алертят, то ой
    • Илья Есин
      Илья Есин 5 лет назад
      Тут, знаете ли, вопрос размерности задачи. В некоторых случаях, например, можно было бы схлопнуть метрики приложений до уровня «среднее от всех длительностей обработки запроса сервисом», но разработчикам нужны длительности обработки каждого шага в конвеере для каждого приложения, а бизнесу — срез по каналам, а аналитикам — и то, и другое, и по кампаниям, и по гео… это всё пространства/измерения и их больше трёх.
  2. Денис Безкоровайный
    Денис Безкоровайный 5 лет назад
    Некоторые это называют metric explosion <img height="16" width="16" alt="😉" src="https://static.xx.fbcdn.net/images/emoji.php/v9/t57/1/16/1f609.png">
  3. Alexander Gubanov
    Alexander Gubanov 5 лет назад
    https://habrahabr.ru/company/avito/blog/343928/
  4. Александр Туник
    Александр Туник 5 лет назад
    тоже прометей, но у нас после перехода на 2.0, 1 инстанса хватает на сотни тысяч/мин, а где сильно много масштабирование удобней делается дискавери+шардирование. читали https://docs.google.com/.../1sMQe9oOKhMhIVw9WmuCE.../edit..., но после пары логических оптимизаций и перехода на 2.0 необходимость отпала.
    • Илья Есин
      Илья Есин 5 лет назад
      Спасибо большое!