文章摘要(AI生成)

Kafka是一个消息队列系统，提供了发布和订阅、容错存储和消息处理功能。核心API包括producer API、consumer API、streams API和connector API。消息以topic的形式发布，并在不同的分区中保存，每个分区都有唯一的偏移量。消费者通过消费者组来订阅消息，可以实现队列和发布-订阅两种模型。Kafka集群由多个代理（Broker）组成，消费者可以从Broker拉取消息。与传统消息系统相比，Kafka具有更强的顺序保证和负载均衡功能，可以实现并行处理和顺序消费数据，提高系统性能和可靠性。

能力介绍

三个概念

1、发布和订阅消息，相当于一个消息队列

2、以容错的方式存储消息

3、在消息产生时进行处理

四个核心API：

producer API: 发布消息到topic中

consumer API：消费topic中的消息

streams API：产生输出流到topic，并将输入流转换到输出流。可以用作流处理

connector API: 可构建或运行可重用的生产者或消费者，将topic连接到现有的应用程序或数据系统。例如，连接到关系数据库的连接器可以捕获表的每个变更，日志监控，网站活动追踪等

两种应用场景

构建实时的流数据管道，可以可靠的获取系统与应用程序之间的数据

构建实时的应用程序，对数据流进行转换和响应

基本概念

Topic

Kafka将消息分门别类，每一类的消息称之为一个主题（Topic）。

Topic是发布的消息的类别名，一个topic可以有零个，一个或多个消费者订阅该主题的消息。

对于每个topic，Kafka集群都会维护一个分区log（即partition）。每一个分区都是一个顺序的、不可变的消息队列，并且可以持续的添加。分区中的消息都被分了一个序列号，称之为偏移量(offset)，在每个分区中此偏移量都是唯一的。

Kafka集群保持所有的消息，直到它们过期（无论消息是否被消费）。实际上消费者所持有的仅有的元数据就是这个offset（偏移量），也就是说offset由消费者来控制：正常情况当消费者消费消息的时候，偏移量也线性的的增加。但是实际偏移量由消费者控制，消费者可以将偏移量重置为更早的位置，重新读取消息。可以看到这种设计对消费者来说操作自如，一个消费者的操作不会影响其它消费者对此log的处理。

Producer

发布消息的对象称之为主题生产者（Kafka topic producer）。生产者也负责选择发布到Topic上的哪一个分区。最简单的方式从分区列表中轮流选择。也可以根据某种算法依照权重选择分区。

Consumer

订阅消息并处理发布的消息的对象称之为主题消费者（consumers）。通常来讲，消息模型可以分为两种，队列和发布-订阅式。队列的处理方式是一组消费者从服务器读取消息，一条消息只有其中的一个消费者来处理。在发布-订阅模型中，消息被广播给所有的消费者，接收到消息的消费者都可以处理此消息。

Kafka为这两种模型提供了单一的消费者抽象模型：消费者组（consumer group）。消费者用一个消费者组名标记自己。一个发布在Topic上消息被分发给此消费者组中的一个消费者。假如所有的消费者都在一个组中，那么这就变成了queue模型。假如所有的消费者都在不同的组中，那么就完全变成了发布-订阅模型。更通用的，我们可以创建一些消费者组作为逻辑上的订阅者。每个组包含数目不等的消费者，一个组内多个消费者可以用来扩展性能和容错。

Broker

已发布的消息保存在一组服务器中，称之为Kafka集群。集群中的每一个服务器都是一个代理（Broker）。消费者可以订阅一个或多个主题（topic），并从Broker拉数据，从而消费这些已发布的消息

优势

kafka有比传统的消息系统更强的顺序保证。

传统的消息系统按顺序保存数据，如果多个消费者从队列消费，则服务器按存储的顺序发送消息，但是，尽管服务器按顺序发送，消息异步传递到消费者，因此消息可能乱序到达消费者。这意味着消息存在并行消费的情况，顺序就无法保证。消息系统常常通过仅设1个消费者来解决这个问题，但是这意味着没用到并行处理。

kafka做的更好。通过并行topic的paritition —— kafka提供了顺序保证和负载均衡。每个partition仅由同一个消费者组中的一个消费者消费到。并确保消费者是该partition的唯一消费者，并按顺序消费数据。每个topic有多个分区，则需要对多个消费者做负载均衡，但请注意，相同的消费者组中不能有比分区更多的消费者，否则多出的消费者一直处于空等待，不会收到消息。

目录CONTENT

KAFKA 简单介绍

文章摘要(AI生成)