kafka的成长正在蹦沙卡拉卡!

在《财富》 500强公司中,超过三分之一的公司使用kafka。这些公司包括排名前十的旅行社,排名前十的银行中有七个,排名前十的保险公司中有八个,排名前十的电信公司中有九个,等等。linkedin,microsoft和netflix每天使用kafka(1,000,000,000,000)处理消息。国内腾讯、阿里、特别是支付宝等,都大量在用。

kafka用于实时数据流,收集大数据或进行实时分析。kafka与内存中的微服务一起使用,提供持久性,并且可以将事件馈送到cep(复杂事件流系统)和iot / ifttt风格的自动化系统。

kafka通常用于实时流数据架构中以提供实时分析。由于kafka是一种快速,可伸缩,持久且具有容错能力的发布系统,因此kafka用于jms、rabbitmq和amqp的用例中。

kafka具有更高的吞吐量,可靠性和复制特性,这使其可用于跟踪服务呼叫或跟踪可能不考虑传统mom的iot传感器数据之类的事。

kafka可以与flume / flafka,spark streaming,storm,hbase,flink和spark一起使用,以实时提取,分析和处理流数据。也是用于送hadoop bigdata的数据流。同时它还代理支持大量消息流,以便在hadoop或spark中进行低延迟的后续分析。此外,kafka streams(一个子项目)也可以用于实时分析。

简而言之,kafka用于流处理,网站活动跟踪,指标收集和监视,日志聚合,实时分析,cep,将数据摄取到spark中,将数据摄取到hadoop,cqrs,重播消息,错误恢复和有保证的分布式提交用于内存计算(微服务)的日志。

许多处理大量数据的大公司都使用kafka。起源于linkedin的linkedin用来跟踪活动数据和运营指标。twitter将其用作storm的一部分,以提供流处理基础结构。square使用kafka作为总线,将所有系统事件移至各个square数据中心(日志,自定义事件,指标等),向splunk输出,用于graphite(仪表板),并实现类似esper/cep警报系统。

国外spotify,uber,tumbler,goldman sachs,paypal,box,cisco,cloudflare和netflix等其他公司也都会使用它。

 

kafka具有操作简便性。kafka易于设置和使用,并且很容易弄清楚kafka是如何工作的。但是,kafka受欢迎的主要原因是其出色的性能。它稳定,提供可靠的耐用性,具有灵活的发布/队列,可以很好地适应n个消费者组,具有强大的复制能力,为生产者提供可调的一致性保证,并且可以在分片级别(即kafka)提供保留的订购主题分区)。

此外,kafka可以与需要处理数据流的系统配合使用,并使这些系统能够聚合,转换并加载到其他商店中。但是,如果kafka慢一点,那么这些特征都将无关紧要。

kafka非常依赖os内核来快速移动数据。它依赖零复制的原理 。通过kafka,可以将数据记录分批处理。从生产者——文件系统(kafka主题日志)——消费者这条路径中,可以端对端地查看这些批次的数据。

批处理允许更有效的数据压缩并减少i / o延迟。kafka将不可变的提交日志顺序写入磁盘,从而避免了随机磁盘访问和缓慢的磁盘搜索。并通过分片提供水平缩放。它会将主题日志分片到数百个(可能是数千个)分区中,成千上万个服务器。这种分片使kafka可以处理大量负载。

kafka最常用于将数据实时流式传输到其他系统中。kafka是中间层,用于分离实时数据管道。

kafka核心不适用于直接计算,例如数据聚合或cep。kafka流是kafka生态系统的一部分,提供了进行实时分析的功能。

kafka可用于为storm,flink,spark流以及您的服务和cep系统等快速通道系统(实时和操作数据系统)提供数据。还用于流数据以进行批处理数据分析。kafka支持hadoop。它将数据流式传输到大数据平台或rdbms,cassandra,spark甚至s3中,以进行将来的数据分析。这些数据存储通常支持数据分析,报告,数据科学处理,合规性审核和备份。

kafka流架构图

现在,说了上面这些有的没的前缀,说说真正的问题:

kafka是一个分布式流媒体平台,用于发布和订阅记录流。kafka用于容错存储。kafka将主题日志分区复制到多个服务器。kafka旨在允许您的应用程序在记录发生时进行处理。kafka快速且通过批处理和压缩记录来有效地使用io。kafka用于解耦数据流。kafka用于将数据流传输到数据库,应用程序和实时流分析系统中。

 

来自客户端和服务器的kafka通信使用经过版本控制和记录的tcp有线协议。kafka承诺与较旧的客户端保持向后兼容性,并且支持多种语言。有c#,java,c,python,ruby和许多其他语言的客户端。kafka生态系统还提供rest代理,允许通过http和json轻松集成,这使得集成更加容易。

kafka还通过confluent schema registry for kafka支持avro模式。avro和schema registry允许客户端以多种编程语言生成和读取复杂的记录,并允许记录的演变。因此它是真正的多语种。

kafka允许构建实时流数据管道。kafka支持内存中的微服务(即actor,akka, baratine.io,qbit,reactor,reactive,vert.x,rxjava和spring reactor)。kafka允许构建对流做出反应的实时流应用程序,以进行实时数据分析,转换,反应,聚合,加入实时数据流,以及执行 cep(复杂事件处理)。

  • 我们可以使用kafka来帮助收集指标/ kpi,汇总来自许多来源的统计信息以及实施事件源。
  • 可以将其与微服务(内存中)和参与者系统一起使用以实现内存服务(分布式系统的外部提交日志)。
  • 可以使用kafka在节点之间复制数据,为节点重新同步以及恢复状态。尽管kafka主要用于实时数据分析和流处理,但也可以将其用于日志聚合,消息传递,点击流跟踪,审计跟踪等。

在数据科学和分析非常重要的世界中,捕获数据以馈入数据湖和实时分析系统也 很重要。而且由于kafka可以承受这些特别复杂的用例,因此kafka至关重要。

kafka是一个很好的记录/消息存储系统。kafka就像高速文件系统一样,用于提交日志的存储和复制。这些特性使kafka可用于各种应用程序。

写入kafka主题的记录将保存到磁盘,并复制到其他服务器以实现容错。由于现代驱动器速度快且体积很大,因此非常适合并且非常有用。kafka生产者可以等待确认,因此消息是持久的,因为在消息复制之前生产者的操作不会完成。kafka磁盘结构可伸缩。当批量写入大量流时,现代磁盘驱动器具有很高的吞吐量。

同样,kafka的客户和消费者可以控制读取位置(偏移量),这允许使用案例,例如,如果存在严重错误(例如,修复错误和重新播放),则重播日志。

kafka集群保留所有已发布的记录。如果未设置限制,它将保留记录,直到磁盘空间用完为止。您可以设置基于时间的限制(可配置的保留期限),基于大小的限制(可根据大小配置)或压缩(使用键保留最新的记录版本)。例如,您可以将保留策略设置为三天或两周或一个月。可以使用主题日志中的记录,直到按时间,大小或压缩将其丢弃。消耗速度不受大小影响,因为kafka始终写入主题日志的末尾。