gbase数据、南大通用产品文档：gbase,数据,gbase数据,南大通用 GBase8sLOG_INDEX

使用 LOG_INDEX_BUILDS 配置参数来启用或禁用索引页日志记录。
onconfig.std 值
未设置
值
0 = 禁用
1 = 启用
生效
编辑 onconfig 文件并重启数据库服务器之后。
当您通过运行 onmode -wf 命令在 onconfig 文件中动态地重置该值时。
当您通过运行 onmode -wm 命令重置内存中的该值时。
用法
如果启用 LOG_INDEX_BUILDS，则会依赖于索引的大小，增加逻辑日志文件空间的消耗。这
会导致更频繁地要求备份逻辑日志文件。当索引页日志记录状态更改时，消息写到
online.log 文件。

GBase 8s 管理员参考
南大通用数据技术股份有限公司 - 98 -

RS 辅助服务器的提示：使用 onmode
-wm 仅启用或禁用当前会话的索引页日志记录，不影
响 onconfig 文件中的设置。如果服务器停止并重启，则 onconfig 文件中的设置决定是
否启用索引页日志记录。因此当使用 RS 辅助服务器时，不建议使用 onmodem
-wm 启用索
引页日志记录；相反，使用 onmode
-wf 来更新 onconfig 文件，以便在重启服务器之后
启用索引页日志记录。当使用 RS 辅助服务器时，需要索引页日志记录。

kafka Data Integration
The data synchronization system replicates business data from databases such as
Oracle and GBase 8s using tools such as Oracle Golden Gate (OGG) and GBase
RTSync, and synchronizes it to GBase 8a MPP Cluster through Kafka. To cope with
possible spikes in business systems, a Kafka message queue is added to the system
as a buffer. The overall process is as follows:
Figure 4-1. Process flow.
The OGG sender (GoldenGate Extract) extracts transaction information from
Oracle's online logs and archive logs and generates Trail files. The OGG receiver
(GoldenGate Replicat) receives the Trail files, extracts the transaction information,
converts it to the target format, and produces transaction messages to Kafka. The
consumer consumes transaction messages from Kafka and updates the data to 8a
MPP Cluster.
The main function of the Kafka consumer is to synchronize Kafka data to 8a MPP
Cluster:
1）Based on the configuration, the business to be synchronized can be
specified;
2）During
the
synchronization
process,
the
function
of
querying

GBase 8a MPP Cluster Technical White Paper
General Data Technology Co., Ltd.
- 23 -
synchronization status is provided;
3）Implement high availability and transaction data consistency for data
synchronization.
Virtual Clusters and Mirror Clusters

全文检索概述
文本搜索操作符在数据库中已存在多年。
GBase 8c 为文本数据类型提供~、
~*、
LIKE
和
ILIKE 操作符；但它们缺乏现代信息系统所要求的许多必要属性。这些缺憾可以通过使用索
引及词典进行解决。
文本检索缺乏信息系统所要求的必要属性：

没有语义支持，即使是英语。
由于要识别派生词并不是那么容易，因此正则表达式也不能满足要求。如，satisfies
和satisfy，当使用正则表达式寻找satisfy 时，并不会查询到包含satisfies 的文档。用户可以
使用OR 搜索多种派生形式，但过程非常繁琐。并且有些词会有上千的派生词，因此容易出
错。

没有对搜索结果的分类（排序）
。当搜索出成千的文档时，查找效率很低。

由于没有索引的支持，每一次的搜索需要遍历所有的文档，整体搜索比较缓慢。
使用全文索引可以对文档进行预处理，
并且可以使后续的搜索更快速。
预处理过程包括：

将文档解析成token。
为每个文档标记不同类别的token 是非常有必要的，例如：数字、文字、复合词、电子
邮件地址，这样就可以做不同的处理。原则上token 的类别依赖于具体的应
用，但对于大
多数的应用来说，可以使用一组预定义的token 类。

将token 转换为词素。
词素像token 一样是一个字符串，但它已经标准化处理，这样同一个词的不同形式是一
样的。例如，标准化通常包括：将大写字母折成小写字母、删除后缀（如英语中的s 或者
es）
。
这将允许通过搜索找到同一个词的不同形式，
不需要繁琐地输入所有可能的变形样式。

GBase 8c SQL 参考手册
南大通用数据技术股份有限公司
626
同时，这一步通常会删除停用词。这些停用词通常因为太常见而对搜索无用。
（总之，token
是文档文本的原片段，而词素被认为是有用的索引和搜索词。
）GBase 8c 使用词典执行这
一步，且提供了各种标准的词典。

保存搜索优化后的预处理文档。
比如，每个文档可以呈现为标准化词素的有序组合。伴随词素，
通常还需要存储词素位
置信息以用于邻近排序。因此文档包含的查询词越密集其排序越高。
词典能够对token 如何标准化做到细粒度控制。使用合适的词典，可以定义不被索引的
停用词。
数据类型tsvector 用于存储预处理文档，
tsquery 用于存储查询条件，
详细请参见16.3.10
文本搜索类型。为这些数据类型提供的函数和操作符请参见16.5.12 文本检索函数和操作
符。其中最重要的是匹配运算符@@，将在16.8.1.3 基本文本匹配中介绍。

gbase数据、南大通用产品文档：GBase8sLOG_INDEX_BUILDS 配置参数