笔记大全

kafka核心消费逻辑是什么

更新时间：2023-11-09

前言：

Apache Kafka是一个分布式的流处理平台，最初由LinkedIn开发并开源。它具有高吞吐量、可扩展性和持久性的特点，被广泛应用于大数据处理领域。

在Kafka中，消息被组织成一个或多个主题（Topic），生产者（Producer）将消息发布到主题中，而消费者（Consumer）则从主题中订阅并消费消息。Kafka的核心消费逻辑是消费者从主题中消费消息，并实现高效、可靠和实时的数据处理。

1. 消费者的订阅与分区分配

在Kafka中，消费者通过订阅一个或多个主题来获取消息。当消费者启动时，它会向Kafka集群发出一个Metadata请求，获取可用的主题和分区信息。根据消费者配置的group.id属性，Kafka会将消费者分配到特定的消费组中。

消费者组内的消费者会协调进行分区分配，确保每个分区只能被一个消费者消费。Kafka提供了多种分区分配策略，如范围（Range）分配、轮询（Round-robin）分配、平均哈希（Sticky Assignor）分配等。消费者通过分区分配策略确定自己消费的分区，并维护与主题分区的对应关系。

// 消费者订阅主题
consumer.subscribe(Arrays.asList("topic1", "topic2"));

2. 消费消息的拉取与提交位移

一旦消费者成功加入消费组并完成分区分配，它可以开始拉取消息了。消费者通过调用Kafka的API向分配到的分区发送Fetch请求，获取待消费的消息。Kafka采用批次（Batch）的方式进行消息拉取，以提高吞吐量。

消费者从Kafka拉取到消息后，会将消息交给应用程序进行处理。处理完成后，消费者需要将消费的位移（Offset）提交给Kafka，以表示该分区的消息已被成功消费。消费者可以选择同步提交或异步提交位移，确保位移的提交在一定程度上可靠。

ConsumerRecords records = consumer.poll(Duration.ofMillis(100));
for (ConsumerRecord record : records) {
    // 消费消息
    processRecord(record); 
}
consumer.commitSync(); // 同步提交位移

3. 消费者的容错与故障恢复

Kafka的消费者具有容错性，在出现故障或重平衡情况下能够尽可能保证消息的稳定消费。首先，Kafka通过心跳机制与消费者保持连接，以检测消费者是否存活。如果消费者超过一定时间没有发送心跳，Kafka将认为该消费者已下线，并将其分区重新分配给其他消费者。

此外，当消费者组发生变化时，如新增或退出消费者，或者有新的主题分配给消费者组，Kafka将进行重平衡。在重平衡过程中，待重新分配的分区将暂停消费，已被消费的分区将继续消费。重平衡完成后，各个消费者将获取到新的分区分配，继续消费未消费的消息。

// 自动位移提交配置
props.put("enable.auto.commit", "false");
// 消费者再均衡监听器
consumer.subscribe(Arrays.asList("topic1", "topic2"), new ConsumerRebalanceListener() {
    // 重分配分区之前调用
    public void onPartitionsRevoked(Collection partitions) {
        // 提交未消费的位移
        consumer.commitSync();
    }
    // 完成分区重分配之后调用
    public void onPartitionsAssigned(Collection partitions) {
        // 重新定位消费的位置
        consumer.seekToBeginning(partitions);
    }
});

总结：

Apache Kafka的核心消费逻辑包括：消费者的订阅与分区分配、消息的拉取与提交位移、消费者的容错与故障恢复。消费者通过订阅一个或多个主题来获取消息，并通过分区分配策略确定消费的分区。消费者拉取消息后，将消息提交的位移给Kafka。消费者具有容错性，通过心跳机制和重平衡机制确保消息的稳定消费。

Kafka的高性能、可靠性和实时性使其成为流处理平台的首选，通过良好的消费者逻辑，开发者可以快速构建大规模、高效的数据处理系统。

c语言编程笔录