Очереди в архитектуре: RabbitMQ vs Kafka без религиозных войн

Когда выбирать классическую очередь, а когда event log-подход. Практика выбора под реальные нагрузки и команды.

Выбор очереди часто ломают на старте фразой «берём Kafka, потому что модно». Правильнее: сначала тип задач, потом технология.

Проще говоря

Когда выбирать классическую очередь, а когда event log-подход. Практика выбора под реальные нагрузки и команды. Ниже — что именно делать на практике и где чаще всего ошибаются.

Когда чаще выигрывает RabbitMQ

нужны task queues и work distribution,
важны простые routing patterns,
умеренный throughput,
быстрый запуск без тяжёлой платформенной обвязки.

Типичные кейсы: email-джобы, фоновые обработчики, retry-очереди, отложенные задачи.

Когда чаще выигрывает Kafka

high-throughput event streams,
хранение истории событий,
несколько независимых consumers,
reprocessing/backfill как часть процессов.

Типичные кейсы: event-driven аналитика, интеграционный bus, CDC-потоки.

Практическая таблица выбора

Нужен «взять задачу и выполнить» → RabbitMQ.
Нужен «поток событий с replay» → Kafka.
Команда без platform-опыта → старт с RabbitMQ почти всегда дешевле.
Нужен массовый fan-out и долгий retention → Kafka обычно лучше.

Ошибки внедрения

Kafka используют как обычную очередь job-ов.
RabbitMQ используют как event log на годы.
Нет контроль перегрузки-политики.
Нет dead-letter и retry-strategy.

Обязательные практики для обеих

idempotent consumers,
dead-letter queue/topic,
ограничение retries,
мониторинг lag/queue depth,
явные SLA на время обработки.

Компромиссная стратегия

Нормально иметь оба инструмента:

RabbitMQ для job orchestration,
Kafka для событийной шины и аналитики.

Главное — не смешивать их роли в один «супер-слой».

Короткая история из команды

После нескольких итераций стало понятно, что ценность решения не в модности, а в снижении повторяющихся инцидентов и ускорении работы команды.

Вывод

RabbitMQ и Kafka решают разные классы задач.

Лучшее решение — то, которое минимизирует сложность команды и закрывает реальные требования по надёжности и масштабированию.

Практический сценарий внедрения

Если внедрять подход поэтапно, лучше идти от самого болезненного потока: выбрать один критичный user-journey, зафиксировать текущие метрики и применить изменения только на этом участке. Такой подход снижает риск и даёт быстрый доказуемый эффект для команды.

Метрики, которые важно отслеживать

p95/p99 latency для ключевых операций,
error rate и доля retry/резервный сценарий,
время восстановления после сбоев,
стоимость обработки запроса/события,
доля регрессий после релизов.

Без метрик даже сильные архитектурные решения быстро превращаются в набор гипотез.

Что обычно идёт не так

Команда пытается внедрить всё сразу вместо поэтапного поэтапный запуск.
Нет владельца архитектурного решения и контроль расслаивается.
Решение есть в документации, но не встроено в CI/CD и runbook.
После внедрения нет регулярного review, и качество снова деградирует.

Пошаговый план на 30 дней

Неделя 1: базовый уровень, ограничения, целевые KPI.
Неделя 2: внедрение в одном потоке + алерты.
Неделя 3: стабилизация, фиксы edge-cases.
Неделя 4: масштабирование на соседние модули и обновление стандартов команды.

Термины простыми словами

SLA/SLI/SLO — договорённость о качестве сервиса: что измеряем, какой целевой уровень и какие последствия при деградации.
Политика повторов — правила повторных попыток (когда, сколько раз и с каким backoff), чтобы не усилить сбой.
Event-driven — архитектура, где взаимодействие сервисов строится вокруг событий и их контрактов, а не только прямых синхронных вызовов.

Этот блок нужен, чтобы статью можно было читать без предварительного контекста по всем терминам.

Почему это часто проваливается на практике

На бумаге архитектурное решение выглядит логично, но в проде мешают сроки, кросс-командные зависимости и отсутствие явного владельца. Когда решение не встроено в CI, мониторинг и ревью, оно быстро деградирует до «локальной договорённости».

Чтобы этого не было, нужно заранее решить три вещи: кто отвечает за стандарт, как проверяется соблюдение, и в какой момент команда пересматривает подход. Без этого даже сильная архитектурная идея через пару релизов теряет форму.