返回首页

gbase数据、南大通用产品文档:GBase8a

更新日期:2024年09月11日

扩容报错互信问题
问题现象
Error: execute cmd [ssh -o UserKnownHostsFile=/dev/null -o
StrictHostkeyChecking=no gbase@*.*.*.* ‘rm -rf /tmp/gnode_sys_tbl/
/opt/*.*.*.*/gnode/userdata/gbase/testdb
--exclude=gbase/adult_log.* ./gbase;mv ./gbase.tar /tmp/gnode_sys_tbl/’]failed,error
no[225]
Error cause: ).
build data packet at node [*.*.*.*] failed
解决方法
1.检查扩容节点与管理节点之间的互信。
2.将扩容节点home/ gbase/.bash_profile 这个文件里面的export
SSH_GBASE_PASSWORD 这行参数与扩容前的节点保持一致
3.批量检查SSH_GBASE_PASSWORD 参数,
cexec all: ‘env |grep PASSWD’确保一致
4.采用Python 对上一步输出的SSH_GBASE_PASSWORD 这个参数进行解密转换。
[gbase@localhost sys_tablespace]$ python
Python 2.7.5 (default, Oct 30 2018, 23:45:53)
[GCC 4.8.5 20150623 (Red Hat 4.8.5-36)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import base64
>>>base64.b16decode('ssh_..那串数字')
得到解密后的数字
5.将所有节点的gbase 用户密码改为解密后的数字

GBase 8a MPP Cluster 最佳实践
5 FAQ
文档版本(2022-02-11)
南大通用数据技术股份有限公司
162

UUID 是ISO/IEF 9834-8:2005 以及相关标准定义的通用唯一标识符。
UUID 数据类型可
用于存储RFC 4122。这个标识符是一个由算法产生的128 位标识符,确保在已知的模块中
使用相同算法不可能产生相同的标识符。
UUID 是一个小写十六进制数字的序列,
由分字符分为:
一组8 位数字+三组4 位数字+
一组12 位数字,总共32 个数字代表128 位。标准的UUID 示例如下:
a0eebc99-9c0b-4ef8-bb6d-6bb9bd380a11
GBase 8c 还支持其他的输入方式:大写字母和数字、由花括号包围的标准格式、省略
部分或所有连字符、在任意一组四位数字之后加一个连字符。示例:
A0EEBC99-9C0B-4EF8-BB6D-6BB9BD380A11
{a0eebc99-9c0b-4ef8-bb6d-6bb9bd380a11}
a0eebc999c0b4ef8bb6d6bb9bd380a11

GBase 8c SQL 参考手册
南大通用数据技术股份有限公司
74
a0ee-bc99-9c0b-4ef8-bb6d-6bb9-bd38-0a11
一般是以标准格式输出。

词典用于定义停用词(stop words)
,即全文检索时不搜索哪些词。
词典还可以用于对同一词的不同形式进行规范化,
这样同一个词的不同派生形式都可以
进行匹配。规范化后的词称为词位(lexeme)

除了提高检索质量外,
词的规范化和删除停用词可以减少文档tsvector 格式的大小,从
而提高性能。
词的规范化和删除停用词并不总是具有语言学意义,
用户可以根据应用环境在

GBase 8c SQL 参考手册
南大通用数据技术股份有限公司
651
词典定义文件中自定义规范化和删除规则。
一个词典是一个程序,接收标记(token)作为输入,并返回:

如果token 在词典中已知,
返回对应lexeme 数组
(注意,
一个标记可能对应多个lexeme)


一个lexeme。一个新token 会代替输入token 被传递给后继词典(当前词典可被称为过
滤词典)


如果token 在词典中已知,但它是一个停用词,返回空数组。

如果词典不能识别输入的token,返回NULL。
GBase 8c 提供了多种语言的预定义字典,同时提供了五种预定义的词典模板,分别是
Simple,Synonym,Thesaurus,Ispell,和Snowball,可用于创建自定义参数的新词典。
在使用全文检索时,建议用户:

可以在文本搜索配置中定义一个解析器,以及一组用于处理该解析器的输出标记词典。
对于解析器返回的每个标记类型,
可以在配置中指定不同的词典列表进行处理。
当解析
器输出一种类型的标记后,在对应列表的每个字典中会查阅该标记,直到某个词典识
别它。如果它被识别为一个停用词,或者没有任何词典识别,该token 将被丢弃,即
不被索引或检索到。通常情况下,第一个返回非空结果的词典决定了最终结果,后继词
典将不会继续处理。但是一个过滤类型的词典可以依据规则替换输入token,然后将替
换后的token 传递给后继词典进行处理。

配置字典列表的一般规则是,
第一个位置放置一个应用范围最小的、
最具体化定义的词
典,其次是更一般化定义的词典,最后是一个普适定义的词典,比如Snowball 词干词
典或Simple 词典。在下面例子中,对于一个针对天文学的文本搜
索配置astro_en,可
以定义标记类型asciiword(ASCII 词)对应的词典列表为:天文术语的Synonym 同义
词词典,Ispell 英语词典和Snowball 英语词干词典。
gbase=#ALTER TEXT SEARCH CONFIGURATION astro_en
ADD MAPPING FOR asciiword WITH astro_syn, english_ispell, english_stem;
过滤类型的词典可以放置在词典列表中除去末尾的任何地方,放置在末尾时是无效的。
使用这些词典对标记进行部分规范化,可以有效简化后继词典的处理。

GBase 8c SQL 参考手册
南大通用数据技术股份有限公司
652