gbase数据、南大通用产品文档：gbase,数据,gbase数据,南大通用 GBase8a

扩容报错互信问题
问题现象
Error: execute cmd [ssh -o UserKnownHostsFile=/dev/null -o
StrictHostkeyChecking=no gbase@*.*.*.* ‘rm -rf /tmp/gnode_sys_tbl/
/opt/*.*.*.*/gnode/userdata/gbase/testdb
--exclude=gbase/adult_log.* ./gbase;mv ./gbase.tar /tmp/gnode_sys_tbl/’]failed,error
no[225]
Error cause: ).
build data packet at node [*.*.*.*] failed
解决方法
1.检查扩容节点与管理节点之间的互信。
2.将扩容节点home/ gbase/.bash_profile 这个文件里面的export
SSH_GBASE_PASSWORD 这行参数与扩容前的节点保持一致
3.批量检查SSH_GBASE_PASSWORD 参数，
cexec all: ‘env |grep PASSWD’确保一致
4.采用Python 对上一步输出的SSH_GBASE_PASSWORD 这个参数进行解密转换。
[gbase@localhost sys_tablespace]$ python
Python 2.7.5 (default, Oct 30 2018, 23:45:53)
[GCC 4.8.5 20150623 (Red Hat 4.8.5-36)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import base64
>>>base64.b16decode('ssh_..那串数字')
得到解密后的数字
5.将所有节点的gbase 用户密码改为解密后的数字

GBase 8a MPP Cluster 最佳实践
5 FAQ
文档版本（2022-02-11）
南大通用数据技术股份有限公司
162

UUID 是ISO/IEF 9834-8:2005 以及相关标准定义的通用唯一标识符。
UUID 数据类型可
用于存储RFC 4122。这个标识符是一个由算法产生的128 位标识符，确保在已知的模块中
使用相同算法不可能产生相同的标识符。
UUID 是一个小写十六进制数字的序列，
由分字符分为：
一组8 位数字+三组4 位数字+
一组12 位数字，总共32 个数字代表128 位。标准的UUID 示例如下：
a0eebc99-9c0b-4ef8-bb6d-6bb9bd380a11
GBase 8c 还支持其他的输入方式：大写字母和数字、由花括号包围的标准格式、省略
部分或所有连字符、在任意一组四位数字之后加一个连字符。示例：
A0EEBC99-9C0B-4EF8-BB6D-6BB9BD380A11
{a0eebc99-9c0b-4ef8-bb6d-6bb9bd380a11}
a0eebc999c0b4ef8bb6d6bb9bd380a11

GBase 8c SQL 参考手册
南大通用数据技术股份有限公司
74
a0ee-bc99-9c0b-4ef8-bb6d-6bb9-bd38-0a11
一般是以标准格式输出。

词典用于定义停用词（stop words）
，即全文检索时不搜索哪些词。
词典还可以用于对同一词的不同形式进行规范化，
这样同一个词的不同派生形式都可以
进行匹配。规范化后的词称为词位（lexeme）
。
除了提高检索质量外，
词的规范化和删除停用词可以减少文档tsvector 格式的大小，从
而提高性能。
词的规范化和删除停用词并不总是具有语言学意义，
用户可以根据应用环境在

GBase 8c SQL 参考手册
南大通用数据技术股份有限公司
651
词典定义文件中自定义规范化和删除规则。
一个词典是一个程序，接收标记（token）作为输入，并返回：

如果token 在词典中已知，
返回对应lexeme 数组
（注意，
一个标记可能对应多个lexeme）
。

一个lexeme。一个新token 会代替输入token 被传递给后继词典（当前词典可被称为过
滤词典）
。

如果token 在词典中已知，但它是一个停用词，返回空数组。

如果词典不能识别输入的token，返回NULL。
GBase 8c 提供了多种语言的预定义字典，同时提供了五种预定义的词典模板，分别是
Simple，Synonym，Thesaurus，Ispell，和Snowball，可用于创建自定义参数的新词典。
在使用全文检索时，建议用户：

可以在文本搜索配置中定义一个解析器，以及一组用于处理该解析器的输出标记词典。
对于解析器返回的每个标记类型，
可以在配置中指定不同的词典列表进行处理。
当解析
器输出一种类型的标记后，在对应列表的每个字典中会查阅该标记，直到某个词典识
别它。如果它被识别为一个停用词，或者没有任何词典识别，该token 将被丢弃，即
不被索引或检索到。通常情况下，第一个返回非空结果的词典决定了最终结果，后继词
典将不会继续处理。但是一个过滤类型的词典可以依据规则替换输入token，然后将替
换后的token 传递给后继词典进行处理。

配置字典列表的一般规则是，
第一个位置放置一个应用范围最小的、
最具体化定义的词
典，其次是更一般化定义的词典，最后是一个普适定义的词典，比如Snowball 词干词
典或Simple 词典。在下面例子中，对于一个针对天文学的文本搜
索配置astro_en，可
以定义标记类型asciiword（ASCII 词）对应的词典列表为：天文术语的Synonym 同义
词词典，Ispell 英语词典和Snowball 英语词干词典。
gbase=#ALTER TEXT SEARCH CONFIGURATION astro_en
ADD MAPPING FOR asciiword WITH astro_syn, english_ispell, english_stem;
过滤类型的词典可以放置在词典列表中除去末尾的任何地方，放置在末尾时是无效的。
使用这些词典对标记进行部分规范化，可以有效简化后继词典的处理。

GBase 8c SQL 参考手册
南大通用数据技术股份有限公司
652

gbase数据、南大通用产品文档：GBase8a