基础题目1、Apache Kafka 是什么?Apach Kafka 是一款分布式流处理框架,用于实时构建流处理应用。它有一个核心 的功能广为人知,即作为企业级的消息引擎被广泛使用。你一定要先明确它的流处理框架地位,这样能给面试官留 下一个很专业的印象。2、什么是消费者组?消费者组是 Kafka 独有的概念,如果面试官问这 个,就说明他对此是有一定了解...

生产者producer向broker发送事件,消费者consumer从broker消费事件。事件由topic区分开,每个consumer都会属于一个group。 相同group中的consumer不能重复消费事件,而同一事件将会发送给每个不同group的consumer。

Apache Kafka KIP 的全称是:Kafka Improvement Proposal,由此可见是社区为了优化Kafka而编写的提案。每条提案代表着Kafka的某个功能更新或者筹划未来的更新。Apache Kafka KIP 有一个专门的页面,罗列了所有的KIP集合:https://cwiki.apache.org/confluence/di...

Apache Kafka 2.7.0 于2020年12月21日正式发布,这个版本是目前 Kafka 最新稳定版本,大家可以根据需要自行决定是否需要升级到次版本,关于各个版本升级到 Apache Kafka 2.7.0 请参见《Upgrading to 2.7.0 from any version 0.8.x through 2.6.x》。Apache ...

1、封面介绍2、出版时间2018年9月3、推荐理由《HBase分布式存储系统应用/普通高等教育新工科人才培养规划教材(大数据专业)》通过原理加案例的方式系统讲解了HBase分布式存储系统应用,精心安排了HBase原理和架构分析、环境搭建、案例开发、优化策略等环节,使读者对解决相关问题有清晰的思路。  全书共8章:前7章系统讲解HBase模型和系统架构、...

1、封面介绍2、出版时间2018年12月3、推荐理由大数据作为人工智能的基石,当前正站在计算机技术发展的风口, 而作为Apache项目的HBase的优势是高性能读写、弹性伸缩、面向列族存储,能够轻松应对数据存储的爆发,提供对千万级QPS低延时需求支持,毫无疑问是企业搭建大数据在线实时应用的基础。Hadoop生态系统的HDFS和MapReduce分别为大...

1、封面介绍2、出版时间2018年1月3、推荐理由本书目的是让读者看了不会睡着的HBase技术书。因为我们坚信看一本非常重要,但是一看就想睡的书是一次痛苦的经历。我们希望这本书能够给读者带来一次愉快而轻松的阅读经历,并在其中顺便学会HBase的安装部署、主要功能、架构设计、性能优化与周边项目。本书适合HBase的初学者,欲深入了解HBase配置、部署、...

1、封面介绍2、出版时间2017年9月3、推荐理由《HBase应用架构》主要针对那些架构师及开发人员而设计,希望他们能更好地理解大数据应用程序的部署。在这之前,你应该具备基本的Hadoop知识,包括所需组件的设置以及成功安装过Hadoop集群,我们不会在Hadoop的配置或NodeManager功能上花费时间。阅读本书的架构师不需要有一个完整的Java...

1、封面介绍2、出版时间2019年9月3、推荐理由适读人群 :1.HBase开发运维人员 2.各类数据库开发与管理者 3.大数据分布式系统开发运维者这是一本深入介绍HBase系统的书籍,由HBase PMC成员与网易资深工程师倾力打造,多位技术专家联袂推荐。本书不仅用大量图片详细解剖HBase内核,还用案例展示了HBase的开发运维技巧,是一本不可能多...

1、封面介绍2、出版时间2019年5月3、推荐理由适读人群 :流计算开发工程师、大数据架构工程师、大数据开发工程师、数据挖掘工程师、高校研究生以及高年级本科生(1)作者是资深的流式计算领域专家,是流式计算和Flink领域的先行者和布道者,已经利用Flink在银行、证券和铁路领域的头部企业做了大量的项目实践。(2)作者是经验丰富的架构师,曾经是明略数据的...

1、封面介绍2、出版时间2019年4月3、推荐理由适读人群 :本书适合希望快速上手 Flink 以开展实时大数据处理与在线机器学习应用的从业者阅读。《深入理解Flink:实时大数据处理实践》介绍了实时数据处理引擎Flink,讲解了流处理API、批处理API、机器学习引擎FlinkML、关系型API、复杂事件处理,以及指标度量与部署模式,分析了流式数据处...

1、封面介绍2、出版时间2020年11月3、推荐理由本书从Apache Flink的缘起开始,由浅入深,理论结合实践,全方位地介绍Apache Flink这一处理海量数据集的高性能工具。本书围绕部署、流处理、批处理、Table API和SQL四大模块进行讲解,并详细说明Apache Flink的每个特性的实际业务背景,使读者不仅能编写可运行的Apach...

1、封面介绍2、出版时间2020年9月3、推荐理由《Flink内核原理与实现》既讲解了Flink的入门、安装、流计算开发入门、类型和序列化系统、监控运维、安全管理配置等基础知识,又讲解了Flink的时间概念、Window的实现原理及其代码解析,Flink的容错机制原理,Flink容错的关键设计、代码实现分析,Flink Job从源码到执行整个过程的解析...

1、封面介绍2、出版时间2019年12月3、推荐理由带你走近Apache Flink,一个为全世界多个Z大规模级别的流处理应用提供支持的开源框架。通过本书,你将探索并行流处理的基本概念并了解该技术与传统批处理的区别。Apache Flink项目的资深贡献者Fabian Hueske和Vasiliki Kalavri展示了如何使用Flink DataSt...

1、封面介绍2、出版时间2019年10月3、推荐理由本书旨在帮助读者从零开始快速掌握Flink的基本原理与核心功能。本书首先介绍了Flink的基本原理和安装部署,并对Flink中的一些核心API进行了详细分析。然后配套对应的案例分析,分别使用Java代码和Scala代码实现案例。最后通过两个项目演示了Flink在实际工作中的一些应用场景,帮助读者快速掌...

1、封面介绍2、出版时间2018年9月3、推荐理由消息中间件是分布式系统中的重要组件,在实际工作中常用消息中间件进行系统间数据交换,从而解决应用解耦、异步消息、流量削峰等问题,实现高性能、高可用、可伸缩和最终一致性架构。目前市面上可供选择的消息中间件有RabbitMQ、ActiveMQ、Kafka、RocketMQ、ZeroMQ、MetaMQ等。本书结...

1、封面介绍2、出版时间2019年9月3、推荐理由本书是一本适用于数据工程师、软件开发人员和数据架构师的快速入门指南,详细阐述了与Apache Kafka 2.0相关的基本解决方案,主要包括配置Kafka、消息验证、消息增强、序列化、模式注册表、Kafka Streams、KSQL、Kafka Connect等内容。本书注重于编程实现过程,并提供了相应...

1、封面介绍2、出版时间2019年5月3、推荐理由Kafka Streams是Kafka提供的一个用于构建流式处理程序的Java库,它与Storm、Spark等流式处理框架不同,是一个仅依赖于Kafka的Java库,而不是一个流式处理框架。除Kafka之外,Kafka Streams不需要额外的流式处理集群,提供了轻量级、易用的流式处理API。本书包括...

《深入理解Kafka:核心设计与实践原理》高清完整PDF版 下载1、封面介绍2、出版时间2019年1月3、推荐理由本书从Kafka的基本概念入手,主要从生产端、消费端、服务端等3个方面进行全面的陈述,主要内容包括Kafka的基本使用方式、生产者客户端的使用、消费者客户端的使用、主题与分区、日志存储、深入原理解析、监控的设计、高级应用的扩展以及与Spar...

1、封面介绍2、出版时间2017年9月3、推荐理由高效的版本控制是成功开发软件项目的关键。自2005年诞生以来,Git以其分布式特点和对非线性开发的强有力支持,成为了许多软件项目的版本控制系统。本书不仅是Git日常操作指南,而且深入剖析了Git的内部原理,能有效帮助程序员提升软技能。如果你刚刚启程探索Git,本书对于Git的用法、基本命令和分支机制的讲...