Cобеседование Apache Kafka. Разбор вопросов и ответов.

Нажмите ★, если вам нравится проект. Ваш вклад сердечно ♡ приветствуется.

Если вам интересно мое резюме: https://github.com/DEBAGanov

Apache Kafka

Cобеседование по Apache Kafka. Разбор вопросов и ответов.
Базы данных
- Что такое «база данных»?
- Что такое «система управления базами данных»?

[1. Что такое Apache Kafka?] (#1. Что такое Apache Kafka?)

[2. Каковы основные компоненты Kafka?] (#2. Каковы основные компоненты Kafka?)

[3. Что такое Kafka Broker?] (#3. Что такое Kafka Broker?)

[4. Что такое Topic в Kafka?] (#4. Что такое Topic в Kafka?)

[5. Как работает модель публикации/подписки в Kafka?] (#5. Как работает модель публикации/подписки в Kafka?)

[6. Что такое Partition в Kafka и зачем он нужен?] (#6. Что такое Partition в Kafka и зачем он нужен?)

[7. Как Kafka обеспечивает высокую доступность и отказоустойчивость?] (#7. Как Kafka обеспечивает высокую доступность и отказоустойчивость?)

[8. Что такое Consumer Group в Kafka?] (#8. Что такое Consumer Group в Kafka?)

[9. Как происходит балансировка нагрузки между потребителями в группе?] (#9. Как происходит балансировка нагрузки между потребителями в группе?)

[10. Что такое Offset в Kafka?] (#10. Что такое Offset в Kafka?)

[11. Как можно гарантировать порядок сообщений в Kafka?] (#11. Как можно гарантировать порядок сообщений в Kafka?)

[12. Какова роль Zookeeper в Kafka?] (#12. Какова роль Zookeeper в Kafka?)

[13. Что такое Producer в Kafka?] (#13. Что такое Producer в Kafka?)

[14. Как реализовать асинхронную отправку сообщений в Kafka?] (#14. Как реализовать асинхронную отправку сообщений в Kafka?)

[15. Как настроить сериализацию и десериализацию сообщений?] (#15. Как настроить сериализацию и десериализацию сообщений?)

[16. В чем разница между KafkaProducer и KafkaConsumer?] (#16. В чем разница между KafkaProducer и KafkaConsumer?)

[17. Что такое Kafka Streams?] (#17. Что такое Kafka Streams?)

[18. Как использовать Kafka Connect?] (#18. Как использовать Kafka Connect?)

[19. Что такое Retention Policy в Kafka?] (#19. Что такое Retention Policy в Kafka?)

[20. Как можно управлять конфигурацией Kafka?] (#20. Как можно управлять конфигурацией Kafka?)

[21. Что такое Dead Letter Queue (DLQ) в Kafka?] (#21. Что такое Dead Letter Queue (DLQ) в Kafka?)

[22. Как реализовать транзакции в Kafka?] (#22. Как реализовать транзакции в Kafka?)

[23. Как производители и потребители обрабатывают ошибки в Kafka?] (#23. Как производители и потребители обрабатывают ошибки в Kafka?)

[24. Каковы основные преимущества использования Kafka?] (#24. Каковы основные преимущества использования Kafka?)

[25. Что такое Kafka Schema Registry?] (#25. Что такое Kafka Schema Registry?)

[26. Как использовать Avro с Kafka?] (#26. Как использовать Avro с Kafka?)

[27. Как обеспечить безопасность в Kafka?] (#27. Как обеспечить безопасность в Kafka?)

[28. Что такое логическая архитектура Kafka?] (#28. Что такое логическая архитектура Kafka?)

[29. Как сделать мониторинг Kafka?] (#29. Как сделать мониторинг Kafka?)

[30. Что такое KSQL?] (#30. Что такое KSQL?)

[31. Как обрабатывать события в реальном времени с помощью Kafka?] (#31. Как обрабатывать события в реальном времени с помощью Kafka?)

[32. Что такое Compaction в Kafka?] (#32. Что такое Compaction в Kafka?)

[33. Как настроить репликацию в Kafka?] (#33. Как настроить репликацию в Kafka?)

[34. Чем отличается acks=all от acks=1?] (#34. Чем отличается acks=all от acks=1?)

[35. Как управлять производительностью Kafka?] (#35. Как управлять производительностью Kafka?)

[36. Что такое Kafka Consumer Lag?] (#36. Что такое Kafka Consumer Lag?)

[37. Как можно отладить Kafka-приложение?] (#37. Как можно отладить Kafka-приложение?)

[38. Что такое Kafka Streams API?] (#38. Что такое Kafka Streams API?)

[39. Как использовать Kafka с Spring Boot?] (#39. Как использовать Kafka с Spring Boot?)

[40. Как реализовать интеграцию Kafka с базой данных?] (#40. Как реализовать интеграцию Kafka с базой данных?)

[41. Что такое Kafka MirrorMaker?] (#41. Что такое Kafka MirrorMaker?)

[42. Как обеспечить обработку событий в порядке их получения?] (#42. Как обеспечить обработку событий в порядке их получения?)

[43. Что такое Kafka REST Proxy?] (#43. Что такое Kafka REST Proxy?)

[44. Как использовать KafkaTemplate в Spring Kafka?] (#44. Как использовать KafkaTemplate в Spring Kafka?)

[45. Как обрабатывать JSON-сообщения в Kafka?] (#45. Как обрабатывать JSON-сообщения в Kafka?)

[46. Что такое Partition Reassignment?] (#46. Что такое Partition Reassignment?)

[47. Как использовать Kafka для микросервисной архитектуры?] (#47. Как использовать Kafka для микросервисной архитектуры?)

[48. Что такое Producer Callback и как его использовать?] (#48. Что такое Producer Callback и как его использовать?)

[49. Как реализовать шифрование сообщений в Kafka?] (#49. Как реализовать шифрование сообщений в Kafka?)

[50. Какие инструменты мониторинга совместимы с Kafka?] (#50. Какие инструменты мониторинга совместимы с Kafka?)

Источники

Что такое очередь сообщений. Основные концепции очередей ? Kafka vs Rabbit MQ Основные сущности Kafka

Zookeper. Хранение метаданных кластера Kafka кластер. Устройство Партиционирование. Leader партиция. Репликация Настройка Kafka кластера для корректной работы партиционирования и репликации Устройство файлового хранилища Kafka TTL Producer Producer. Из каких шагов состоит инцициализация Стратегии коммитинга. Гарантия доставки Сериализация, Десериализация Стратегии выбора партиции продюссером Можно ли из топика (распределен по 3 партициям) прочитать сообщения в том же порядке, в котором они были записаны? Почему? Как сделать так, чтобы все сообщения по одному клиенту попали в одну партицию? Timestamp Headers Batch size. Linger time Retry

Расскажите мне о ситуации, когда Кафка — не лучший вариант.
Как бы вы изменили время удержания в Kafka?
Объясните максимальный размер сообщения, которое может получить Kafka.
Сравните Apache Kafka с другой популярной потоковой платформой.
Когда бы вы использовали функцию кластера в Kafka? Как разбалансировать кластер в Kafka?
Что бы вы сделали, если бы при использовании Kafka возникла ошибка?

7. Как бы вы получили одно сообщение от Кафки во время производства данных?

Получение одного сообщения из Kafka

Чтобы получить одно сообщение из Kafka во время производства данных, вам нужно использовать Kafka Consumer. Вот основные шаги, которые помогут вам это сделать:

Создание Consumer: Сначала необходимо создать экземпляр Kafka Consumer, указав необходимые параметры конфигурации, такие как bootstrap.servers, group.id, и key.deserializer, value.deserializer.
Подписка на топик: После создания Consumer, вы должны подписаться на нужный топик, из которого хотите получать сообщения. Это делается с помощью метода subscribe().
Получение сообщения: Для получения сообщения используйте метод poll(). Этот метод будет блокировать выполнение, пока не получит сообщение. Чтобы получить только одно сообщение, вы можете использовать poll(Duration.ofMillis(100)) и затем обработать полученное сообщение.
Коммит смещения: После обработки сообщения, если вы хотите зафиксировать смещение, используйте метод commitSync(), чтобы сохранить текущее положение в потоке сообщений.

Вот пример кода на Java:

import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.common.serialization.StringDeserializer;

import java.time.Duration;
import java.util.Collections;
import java.util.Properties;

public class KafkaSingleMessageConsumer {
    public static void main(String[] args) {
        Properties props = new Properties();
        props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
        props.put(ConsumerConfig.GROUP_ID_CONFIG, "my-group");
        props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
        props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());

        KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
        consumer.subscribe(Collections.singletonList("my-topic"));

        // Получение одного сообщения
        ConsumerRecord<String, String> record = consumer.poll(Duration.ofMillis(100)).iterator().next();
        System.out.println("Получено сообщение: " + record.value());

        // Коммит смещения
        consumer.commitSync();
        consumer.close();
    }
}

Этот код создаёт Consumer, подписывается на топик и получает одно сообщение. Не забудьте обработать возможные исключения, такие как NoSuchElementException, если сообщений нет.

Что вы имеете в виду, когда говорите «отказоустойчивость»?

9. Как бы вы интегрировали Kafka с другими фреймворками?

Использование Kafka Connect: Kafka Connect — это инструмент, который позволяет легко интегрировать Kafka с другими системами, такими как базы данных, хранилища данных и другие системы обработки данных. Он поддерживает множество коннекторов, которые могут быть настроены для автоматической передачи данных между Kafka и другими источниками или приемниками данных.
Интеграция с Apache Spark: Apache Spark может использовать Kafka для обработки потоковых данных. Spark Streaming позволяет обрабатывать данные в реальном времени, получая их из Kafka. Это позволяет создавать мощные приложения для анализа данных, которые могут обрабатывать большие объёмы информации.
Использование с Apache Storm: Apache Storm также может быть интегрирован с Kafka для обработки потоков данных. Storm позволяет обрабатывать данные в реальном времени и может использовать Kafka как источник данных, что делает его идеальным для приложений, требующих низкой задержки.
Интеграция с REST API: Kafka может быть использован в сочетании с REST API для передачи данных между различными приложениями. Это позволяет разработчикам создавать приложения, которые могут взаимодействовать с Kafka через стандартные HTTP-запросы.
Подключение к системам мониторинга и аналитики: Kafka может быть интегрирован с системами мониторинга и аналитики, такими как Elasticsearch и Grafana, для визуализации и анализа потоковых данных в реальном времени.

Эти методы интеграции позволяют использовать возможности Kafka для создания масштабируемых и эффективных систем обработки данных.

Что такое Apache Kafka? Apache Kafka - это распределенная платформа потоковой передачи данных, которая позволяет публиковать и подписываться на потоки записей. Она разработана для обработки данных в реальном времени и обеспечивает высокую пропускную способность, масштабируемость и надежность.
Каковы основные компоненты Kafka? Основные компоненты:

Брокеры (Brokers)
Производители (Producers)
Потребители (Consumers)
Топики (Topics)
ZooKeeper
Партиции (Partitions)

Что такое Kafka Broker? Брокер - это сервер Kafka, который хранит данные и обслуживает запросы клиентов. Кластер Kafka состоит из нескольких брокеров, где каждый имеет уникальный ID.
Что такое Topic в Kafka? Topic - это категория или канал, в который публикуются записи. Топики могут иметь множество производителей и потребителей. Каждый топик разделен на партиции.
Как работает модель публикации/подписки в Kafka? Производители публикуют сообщения в топики, а потребители подписываются на эти топики для получения сообщений. Это обеспечивает слабую связанность между отправителями и получателями.
Что такое Partition в Kafka и зачем он нужен? Партиция - это упорядоченная последовательность сообщений в топике. Партиции позволяют:

Распределять данные между брокерами
Обеспечивать параллельную обработку
Масштабировать производительность

Как Kafka обеспечивает высокую доступность и отказоустойчивость? Через:

Репликацию данных
Распределение партиций между брокерами
Автоматическое восстановление после сбоев
Выборы лидера партиции

Что такое Consumer Group в Kafka? Consumer Group - это группа потребителей, которые совместно обрабатывают сообщения из топиков. Каждое сообщение доставляется только одному потребителю в группе.
Как происходит балансировка нагрузки между потребителями в группе? Kafka автоматически распределяет партиции между потребителями в группе. При добавлении или удалении потребителя происходит ребалансировка.
Что такое Offset в Kafka? Offset - это уникальный последовательный идентификатор сообщения в партиции. Потребители используют offset для отслеживания прочитанных сообщений.
Как можно гарантировать порядок сообщений в Kafka? Порядок сообщений гарантируется только в пределах одной партиции. Для обеспечения порядка нужно:

Использовать один и тот же ключ партиции для связанных сообщений
Настроить параметр max.in.flight.requests.per.connection=1
Использовать подтверждения (acks=all)

Какова роль Zookeeper в Kafka? ZooKeeper отвечает за:

Хранение метаданных о кластере
Выборы контроллера
Отслеживание состояния брокеров
Управление квотами и ACL Примечание: с версии 3.0 Kafka может работать без ZooKeeper (KRaft).

Что такое Producer в Kafka? Producer - это клиент, который публикует сообщения в топики Kafka. Основные характеристики:

Может отправлять сообщения синхронно или асинхронно
Поддерживает балансировку нагрузки
Имеет встроенные механизмы сериализации

Как реализовать асинхронную отправку сообщений в Kafka? Асинхронная отправка реализуется через:

Использование метода send() с callback
Настройку параметра batch.size
Использование producer.flush() при необходимости

Как настроить сериализацию и десериализацию сообщений? Через:

Реализацию интерфейсов Serializer и Deserializer
Настройку key.serializer и value.serializer
Использование встроенных сериализаторов (String, Integer, etc.)
Применение форматов как Avro, Protobuf или JSON

В чем разница между KafkaProducer и KafkaConsumer? KafkaProducer:

Отправляет сообщения
Управляет партиционированием
Поддерживает асинхронную отправку

KafkaConsumer:

Читает сообщения
Управляет смещениями
Поддерживает групповое потребление

Что такое Kafka Streams? Kafka Streams - это библиотека для потоковой обработки данных, которая позволяет:

Создавать приложения для обработки потоков
Выполнять агрегации и соединения
Обрабатывать события в реальном времени
Поддерживать состояние приложения

Как использовать Kafka Connect? Kafka Connect - это фреймворк для интеграции данных, который:

Поддерживает готовые коннекторы
Позволяет создавать собственные коннекторы
Обеспечивает масштабируемость
Поддерживает распределенный и автономный режимы

Что такое Retention Policy в Kafka? Retention Policy определяет:

Как долго хранятся сообщения
Максимальный размер данных
Правила очистки старых данных
Политику компактификации

Как можно управлять конфигурацией Kafka? Конфигурацией можно управлять через:

Файлы конфигурации (server.properties)
Динамические настройки через API
Переменные окружения
Инструменты администрирования

Что такое Dead Letter Queue (DLQ) в Kafka? DLQ - это специальный топик для сообщений, которые не удалось обработать. Используется для:

Сохранения проблемных сообщений
Анализа ошибок обработки
Повторной обработки сообщений
Мониторинга качества данных

Как реализовать транзакции в Kafka? Транзакции в Kafka реализуются через:

Использование TransactionalId
Инициализацию транзакционного продюсера
Методы beginTransaction() и commitTransaction()
Настройку isolation.level для потребителей

Как производители и потребители обрабатывают ошибки в Kafka? Обработка ошибок включает:

Retry-механизмы
Exception handlers
Dead Letter Queue
Мониторинг и логирование
Настройку таймаутов

Каковы основные преимущества использования Kafka? Основные преимущества:

Высокая производительность
Масштабируемость
Отказоустойчивость
Долговременное хранение
Гарантированная доставка сообщений

Что такое Kafka Schema Registry? Schema Registry - это сервис для управления схемами данных, который:

Хранит и версионирует схемы
Обеспечивает совместимость
Поддерживает Avro, Protobuf, JSON Schema
Валидирует сообщения

Как использовать Avro с Kafka? Для использования Avro нужно:

Определить схему в формате Avro
Настроить Schema Registry
Использовать AvroSerializer/AvroDeserializer
Управлять эволюцией схем

Как обеспечить безопасность в Kafka? Безопасность обеспечивается через:

SSL/TLS шифрование
SASL аутентификацию
ACL авторизацию
Аудит доступа
Шифрование данных

Что такое логическая архитектура Kafka? Логическая архитектура включает:

Топики и партиции
Реплики и лидеры
Производители и потребители
Группы потребителей
Контроллер брокера

Как сделать мониторинг Kafka? Мониторинг осуществляется через:

JMX метрики
Prometheus/Grafana
Kafka Manager
Custom метрики
Логи брокеров

Что такое KSQL? KSQL - это движок потоковых SQL-запросов для Kafka:

Позволяет писать SQL-подобные запросы
Поддерживает агрегации и джойны
Работает в реальном времени
Интегрируется с существующими потоками

Как обрабатывать события в реальном времени с помощью Kafka? Обработка в реальном времени осуществляется через:

Kafka Streams API
KSQL
Низкие задержки доставки
Параллельную обработку партиций
Оптимизацию производительности

Что такое Compaction в Kafka? Compaction - это механизм очистки топиков, который:

Сохраняет последнее значение для каждого ключа
Уменьшает размер данных
Поддерживает изменяемые состояния
Оптимизирует хранение

Как настроить репликацию в Kafka? Настройка репликации включает:

Установку фактора репликации
Выбор лидера партиции
Настройку ISR (In-Sync Replicas)
Управление синхронизацией

Чем отличается acks=all от acks=1? acks=all:

Ждет подтверждения от всех реплик
Максимальная надежность
Большая латентность

acks=1:

Ждет подтверждения только от лидера
Средняя надежность
Меньшая латентность

Как управлять производительностью Kafka? Управление производительностью через:

Настройку параметров брокера
Оптимизацию партиций
Конфигурацию продюсеров/потребителей
Мониторинг метрик
Балансировку нагрузки

Что такое Kafka Consumer Lag? Consumer Lag - это отставание потребителя:

Разница между последним опубликованным и прочитанным сообщением
Индикатор производительности
Метрика мониторинга
Показатель здоровья системы

Как можно отладить Kafka-приложение? Отладка включает:

Анализ логов
Мониторинг метрик
Использование инструментов отладки
Тестирование конфигураций
Проверку консьюмер-групп

Что такое Kafka Streams API? Kafka Streams API предоставляет:

DSL для обработки потоков
Операции над данными
Управление состоянием
Масштабируемость
Отказоустойчивость

Как использовать Kafka с Spring Boot? Интеграция включает:

Spring Kafka
Конфигурацию в application.properties
KafkaTemplate
@KafkaListener аннотации
Обработку ошибок

Как реализовать интеграцию Kafka с базой данных? Интеграция через:

Kafka Connect
CDC (Change Data Capture)
Пользовательские коннекторы
Транзакционную обработку

Что такое Kafka MirrorMaker? Kafka MirrorMaker - это инструмент для репликации данных между кластерами:

Поддерживает географическую репликацию
Обеспечивает аварийное восстановление
Позволяет агрегировать данные
Поддерживает фильтрацию топиков

Как обеспечить обработку событий в порядке их получения? Для обеспечения порядка нужно:

Использовать одну партицию для связанных событий
Настроить правильный ключ партиционирования
Использовать временные метки
Контролировать параллелизм обработки

Что такое Kafka REST Proxy? Kafka REST Proxy:

Предоставляет HTTP API для Kafka
Позволяет работать с Kafka без клиентских библиотек
Поддерживает форматы JSON/Binary/Avro
Обеспечивает доступ через веб-протоколы

Как использовать KafkaTemplate в Spring Kafka? KafkaTemplate используется для:

Отправки сообщений в топики
Обработки подтверждений
Управления транзакциями
Обработки ошибок отправки

Как обрабатывать JSON-сообщения в Kafka? Обработка JSON включает:

Использование JsonSerializer/JsonDeserializer
Маппинг на Java-объекты
Валидацию схемы
Обработку ошибок десериализации

Что такое Partition Reassignment? Partition Reassignment позволяет:

Перераспределять партиции между брокерами
Балансировать нагрузку
Обрабатывать отказы брокеров
Оптимизировать использование ресурсов

Как использовать Kafka для микросервисной архитектуры? Использование в микросервисах:

Асинхронная коммуникация
Паттерн Event Sourcing
CQRS
Распределенные транзакции
Обработка отказов

Что такое Producer Callback и как его использовать? Producer Callback:

Асинхронная обработка результатов отправки
Обработка ошибок
Метрики успешности
Подтверждение доставки

Как реализовать шифрование сообщений в Kafka? Шифрование реализуется через:

SSL/TLS на транспортном уровне
Шифрование на уровне сообщений
Пользовательские сериализаторы
Управление ключами шифрования

Какие инструменты мониторинга совместимы с Kafka? Инструменты мониторинга:

Prometheus/Grafana
Kafka Manager (CMAK)
JMX-мониторинг
ELK Stack
Datadog

к оглавлению

Источники

Википедия
tokarchuk.ru
Quizful

Вопросы для собеседования

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Cобеседование по Apache Kafka.md

Cобеседование по Apache Kafka.md

Cобеседование Apache Kafka. Разбор вопросов и ответов.

Apache Kafka

7. Как бы вы получили одно сообщение от Кафки во время производства данных?

Получение одного сообщения из Kafka

9. Как бы вы интегрировали Kafka с другими фреймворками?

Источники

Files

Cобеседование по Apache Kafka.md

Latest commit

History

Cобеседование по Apache Kafka.md

File metadata and controls

Cобеседование Apache Kafka. Разбор вопросов и ответов.

Apache Kafka

7. Как бы вы получили одно сообщение от Кафки во время производства данных?

Получение одного сообщения из Kafka

9. Как бы вы интегрировали Kafka с другими фреймворками?

Источники