更新日期:2024年09月11日
从Kafka 源中接收数据到GBase 8a 增量
同步
在8.6.9.0 版本中增加了对Kafka 源中数据的解析同步功能。支持源端为
Kafka,目标端为GBase 8a(Consumer)的增量同步。
使用Kafka 数据源要求每个topic 中只能发送一张表的数据。
由于在数据源Kafka 中没有源表的元数据信息,所以只支持列级同步;支
持JSON 模式的同步。
目标端为GBase 8a(Consumer)时,需要配置为部分部署模式,即只配置
读端,配置方法参考2.3.6.11 章节。
支持断点续传功能。
config_task.xml 中,需要在
设置type=”KAFKA”;
增加bootstrapServers 属性,设置为数据源Kafka 的ip 及端口
号,格式为
增加zookeeperServers 属性,设置为数据源Kafka 所使用的
Zookeeper 的ip 及端口号,格式为
使用逗号分隔;
增加groupid 属性,设置为数据源Kafka 所使用的分组id,用于
区分其他读取数据源Kafka 的消费者;
增加consumerNums 属性,设置为数据源Kafka 的消费者个数;
增加kafkaConsumerParamers 属性,设置为数据源Kafka 的其他
消费者参数;
GBase RTSync 同步工具手册
南大通用数据技术股份有限公司
- 125 -
增加maxCountWait 属性,意义为获取数据最大阻塞队列,可以使
用默认值;
增加recordTopicUntilCount 属性,意义为断点续传参数,可以
使用默认值。
需要在每个标签下修改的部分:
增加topicname 属性,设置为数据源Kafka 的topic 名称,每个
表对应一个topic;
增加isContinueSyncWhileError 属性,
用于判断当该表的一条数
据解析或者同步出现问题时,是否继续同步该表后续的数据;如
果配置为true,则将该错误数据记录到日志中继续同步后面的数
据;配置为false 则将该错误数据记录到日志后,停止该表数据
的解析和同步。