欢迎访问shiker.tech

请允许在我们的网站上展示广告

您似乎使用了广告拦截器,请关闭广告拦截器。我们的网站依靠广告获取资金。

KAFKA 简单介绍
(last modified Dec 28, 2024, 12:00 AM )
by
侧边栏壁纸
  • 累计撰写 194 篇文章
  • 累计创建 66 个标签
  • 累计收到 4 条评论

目 录CONTENT

文章目录

KAFKA 简单介绍

橙序员
2022-07-27 / 0 评论 / 0 点赞 / 639 阅读 / 1,376 字 / 正在检测百度是否收录... 正在检测必应是否收录...
文章摘要(AI生成)

Kafka是一个消息队列系统,提供了发布和订阅、容错存储和消息处理功能。核心API包括producer API、consumer API、streams API和connector API。消息以topic的形式发布,并在不同的分区中保存,每个分区都有唯一的偏移量。消费者通过消费者组来订阅消息,可以实现队列和发布-订阅两种模型。Kafka集群由多个代理(Broker)组成,消费者可以从Broker拉取消息。与传统消息系统相比,Kafka具有更强的顺序保证和负载均衡功能,可以实现并行处理和顺序消费数据,提高系统性能和可靠性。

能力介绍

三个概念

1、发布和订阅消息,相当于一个消息队列

2、以容错的方式存储消息

3、在消息产生时进行处理

四个核心API:

producer API: 发布消息到topic中

consumer API:消费topic中的消息

streams API:产生输出流到topic,并将输入流转换到输出流。可以用作流处理

connector API: 可构建或运行可重用的生产者或消费者,将topic连接到现有的应用程序或数据系统。例如,连接到关系数据库的连接器可以捕获表的每个变更,日志监控,网站活动追踪等

两种应用场景

构建实时的流数据管道,可以可靠的获取系统与应用程序之间的数据

构建实时的应用程序,对数据流进行转换和响应

基本概念

Topic

Kafka将消息分门别类,每一类的消息称之为一个主题(Topic)。

Topic是发布的消息的类别名,一个topic可以有零个,一个或多个消费者订阅该主题的消息。

对于每个topic,Kafka集群都会维护一个分区log(即partition)。每一个分区都是一个顺序的、不可变的消息队列, 并且可以持续的添加。分区中的消息都被分了一个序列号,称之为偏移量(offset),在每个分区中此偏移量都是唯一的。

Kafka集群保持所有的消息,直到它们过期(无论消息是否被消费)。实际上消费者所持有的仅有的元数据就是这个offset(偏移量),也就是说offset由消费者来控制:正常情况当消费者消费消息的时候,偏移量也线性的的增加。但是实际偏移量由消费者控制,消费者可以将偏移量重置为更早的位置,重新读取消息。可以看到这种设计对消费者来说操作自如,一个消费者的操作不会影响其它消费者对此log的处理。

Producer

发布消息的对象称之为主题生产者(Kafka topic producer)。生产者也负责选择发布到Topic上的哪一个分区。最简单的方式从分区列表中轮流选择。也可以根据某种算法依照权重选择分区。

Consumer

订阅消息并处理发布的消息的对象称之为主题消费者(consumers)。通常来讲,消息模型可以分为两种, 队列发布-订阅式。 队列的处理方式是 一组消费者从服务器读取消息,一条消息只有其中的一个消费者来处理。在发布-订阅模型中,消息被广播给所有的消费者,接收到消息的消费者都可以处理此消息。

Kafka为这两种模型提供了单一的消费者抽象模型: 消费者组 (consumer group)。 消费者用一个消费者组名标记自己。 一个发布在Topic上消息被分发给此消费者组中的一个消费者。 假如所有的消费者都在一个组中,那么这就变成了queue模型。 假如所有的消费者都在不同的组中,那么就完全变成了发布-订阅模型。 更通用的, 我们可以创建一些消费者组作为逻辑上的订阅者。每个组包含数目不等的消费者, 一个组内多个消费者可以用来扩展性能和容错。

Broker

已发布的消息保存在一组服务器中,称之为Kafka集群。集群中的每一个服务器都是一个代理(Broker)。 消费者可以订阅一个或多个主题(topic),并从Broker拉数据,从而消费这些已发布的消息

优势

kafka有比传统的消息系统更强的顺序保证。

传统的消息系统按顺序保存数据,如果多个消费者从队列消费,则服务器按存储的顺序发送消息,但是,尽管服务器按顺序发送,消息异步传递到消费者,因此消息可能乱序到达消费者。这意味着消息存在并行消费的情况,顺序就无法保证。消息系统常常通过仅设1个消费者来解决这个问题,但是这意味着没用到并行处理。

kafka做的更好。通过并行topic的paritition —— kafka提供了顺序保证和负载均衡。每个partition仅由同一个消费者组中的一个消费者消费到。并确保消费者是该partition的唯一消费者,并按顺序消费数据。每个topic有多个分区,则需要对多个消费者做负载均衡,但请注意,相同的消费者组中不能有比分区更多的消费者,否则多出的消费者一直处于空等待,不会收到消息。

0

评论区