返回首页

gbase数据、南大通用产品文档:GBase8a主要功能

更新日期:2024年09月11日

1.
建立索引与搜索

支持表中所有文本类型字段的索引与查询。

支持参数化管理,
索引建立、
分词、
索引维护、
搜索等过程均可以通过GBase
8a MPP Cluster 的标准配置文件进行方便的配置。

在GBase 8a MPP Cluster 中内嵌文本切分器功能,以实现对文本列、搜索串
的单字切分,并能保证两者的切分规则、切分结果的一致性,防止由上下文
语境导致的切分不一致。

支持全文索引同步查询,在创建索引过程中可支持查询功能。新追加数据可
分批创建索引,当索引数据缓冲区中数据处理完成更新到索引文件后,用户
可立即搜索到这些已创建索引的新内容,而不是等所有新数据都建好索引之
后才能查询。

支持数据库表中已建立全文索引列的词句逻辑表达式查询(AND、OR、
NOT)、NEAR 查询,并支持与非全文索引字段之间的逻辑组合查询。
2.
支持DML

支持数据库表中字符数据类型列已建立全文索引的删除。

列数据UPDATE 后需要手工更新全文索引。
3.
支持DDL。

支持数据库表在建立全文索引列被删除后,索引的自动失效。

支持数据库表重新命名后,索引不失效。

GBase 8a MPP Cluster 产品手册
5 数据库管理指南
文档版本953(2022-04-10)
南大通用数据技术股份有限公司
912
说明

对于列更名和数据删除,GBase 8a MPP Cluster 的处理方法不会影
响到全文索引;

全文检索目前支持UTF-8、GBK 编码。

全文查询不支持子查询,即子查询上不支持创建和使用全文索引。

以上功能均提供标准的SQL 语法支持。

使用 DS_HASHSIZE 配置参数来指定在数据分布高速缓存和其他高速缓存中散列存储区的
数目。数据库服务器存储和访问在数据分布高速缓存中 MEDIUM 或 HIGH 模式下 UPDATE
STATISTICS 语句生成的列统计信息。
onconfig.std 值
DS_HASHSIZE 31

任何正整数;推荐质数
单位
散列存储区或列表的数目
生效
编辑 onconfig 文件并重启数据库服务器之后。
用法
更新 DS_HASHSIZE 和 DS_POOLSIZE 配置参数值来提高在多用户环境中频繁使用的查询性
能。
DS_HASHSIZE 配置参数为下列高速缓存设置散列存储区的数目:
 数据分布高速缓存
 扩展类型名高速缓存
 扩展类型 ID 高速缓存
 GBase 8s cast 高速缓存
 运算符类实例高速缓存
 例程解析高速缓存
 合计高速缓存
 辅助瞬态高速缓存

k-Means 算法通过距离函数来计算点与点之间的距离,目前内置的函数包括:

squared_dist_norm2
欧式距离的平方,计算公式如下:

dist_norm2
欧式距离,计算公式如下:

dist_norm1

GBase 8a MPP Cluster 产品手册
5 数据库管理指南
文档版本953(2022-04-10)
南大通用数据技术股份有限公司
1445
L1 模距离,计算公式如下:

dist_angle
夹角的余弦值,计算公式如下:

dist_tanimotoo
tanimotoo 相似度值,计算公式如下: