gbase数据、南大通用产品文档：gbase,数据,gbase数据,南大通用 GBase8c

语法
gs_dumpall [OPTION]...

GBase 8c 工具参考手册
南大通用数据技术股份有限公司
146

语法
Logistic 回归的训练函数的语法如下：
logregr_train( source_table,
out_table,
dependent_varname,
independent_varname,
max_iter,
optimizer,
tolerance
)
参数说明

GBase 8a MPP Cluster 产品手册
5 数据库管理指南
文档版本953（2022-09-15）
南大通用数据技术股份有限公司
1423

source_table：含训练数据的输入表。

out_table：保存训练结果的结果表。

dependent_varname：因变量的列名。因变量列应为布尔值，非布尔值会在处
理过程中被隐式转换为布尔值。

independent_varname：自变量的列名，数组类型。

max_iter：最大的迭代次数。

optimizer：迭代过程中使用的优化器。

tolerance：容忍度。两次迭代的对数似然差小于该值则结束迭代。
结果表说明
训练函数成功执行后，会创建保存模型信息的结果表，结果表包含如下字段用来
表示模型信息：

coef：相关系数，用于预测。

log_likelihood：对数似然值，训练中评估模型的参数。

std_err：相关系数的标准差。

z_stats：相关系数的z-统计量。

num_rows_processed：处理的数据行数。

num_missing_rows_skipped：略过的数据行数。

num_iterations：迭代次数。
摘要表说明
训练结束还会生出一个摘要表，其名为为结果表表名加上”_summary”，摘要表的
字段说明如下：

method：挖掘算法名称，为logregr。

source_table：输入表名。

out_table：结果表名。

dependent_varname：因变量名。

independent_varname：自变量名。

optimizer_params：优化器参数，最大迭代次数、容忍度等。

GBase 8a MPP Cluster 产品手册
5 数据库管理指南
文档版本953（2022-09-15）
南大通用数据技术股份有限公司
1424

num_failed_groups：训练失败的分组数。

num_rows_processed：处理的数据行数。

num_missing_rows_skipped：略过的数据行数。

Synonym 词典用于定义、识别token 的同义词并转化，不支持词组（词组形式的同义词
可用Thesaurus 词典定义，详细请参见Thesaurus 词典）
。
示例

Synonym 词典可用于解决语言学相关问题，例如，为避免使单词"Paris"变成"pari"，
可在Synonym 词典文件中定义一行"Paris
paris"，并将该词典放置在预定义的
english_stem 词典之前。
gbase=#SELECT * FROM ts_debug('english', 'Paris');
alias | description | token | dictionaries | dictionary | lexemes
-----------+-----------------+-------+----------------+--------------+-------
--
asciiword | Word, all ASCII | Paris | {english_stem} | english_stem | {pari} (1
row)
gbase=#CREATE TEXT SEARCH DICTIONARY my_synonym ( TEMPLATE = synonym,
SYNONYMS = my_synonyms, FILEPATH = 'file:///home/dicts/'
);
gbase=#ALTER TEXT SEARCH CONFIGURATION english ALTER MAPPING FOR asciiword
WITH my_synonym, english_stem;
gbase=#SELECT * FROM ts_debug('english', 'Paris');
alias
|
description
| token |
dictionaries
| dictionary | lexemes
-----------+-----------------+-------+---------------------------+-----------
-+---------
asciiword | Word, all ASCII | Paris | {my_synonym,english_stem} | my_synonym |
{paris} (1 row)
gbase=#SELECT * FROM ts_debug('english', 'paris');
alias
|
description
| token |
dictionaries
| dictionary | lexemes
-----------+-----------------+-------+---------------------------+-----------
-+---------

GBase 8c SQL 参考手册
南大通用数据技术股份有限公司
655
asciiword | Word, all ASCII | Paris | {my_synonym,english_stem} | my_synonym |
{paris} (1 row)
gbase=#ALTER TEXT SEARCH DICTIONARY my_synonym ( CASESENSITIVE=true);
gbase=#SELECT * FROM ts_debug('english', 'Paris');
alias
|
description
| token |
dictionaries
| dictionary | lexemes
-----------+-----------------+-------+---------------------------+-----------
-+---------
asciiword | Word, all ASCII | Paris | {my_synonym,english_stem} | my_synonym |
{paris} (1 row)
gbase=#SELECT * FROM ts_debug('english', 'paris');
alias
|
description
| token |
dictionaries
| dictionary | lexemes
-----------+-----------------+-------+---------------------------+-----------
-+---------
asciiword | Word, all ASCII | Paris | {my_synonym,english_stem} | my_synonym |
{pari} (1 row)
其中，
同义词词典文件全名为my_synonyms.syn，
所在目录为当前连接数据库主节
点的/home/dicts/下。关于创建词典的语法和更多参数，请参见16.14.37 ALTER TEXT
SEARCH DICTIONARY。

星号
（*）
可用于词典文件中的同义词结尾，
表示该同义词是一个前缀。
在to_tsvector()
中该星号将被忽略，
但在to_tsquery()中会匹配该前缀并对应输出结果
（参照16.8.4.2
处理查询一节）
。
假设词典文件synonym_sample.syn 内容如下：
postgres
pgsql
postgresql
pgsql
postgre pgsql
gogle
googl
indices index*
创建并使用词典：
gbase=#CREATE TEXT SEARCH DICTIONARY syn (
TEMPLATE = synonym,
SYNONYMS = synonym_sample
);
gbase=#SELECT ts_lexize('syn','indices');
ts_lexize

GBase 8c SQL 参考手册
南大通用数据技术股份有限公司
656
-----------
{index}
(1 row)
gbase=#CREATE TEXT SEARCH CONFIGURATION tst (copy=simple);
gbase=#ALTER TEXT SEARCH CONFIGURATION tst ALTER MAPPING FOR asciiword WITH syn;
gbase=#SELECT to_tsvector('tst','indices');
to_tsvector
-------------
'index':1
(1 row)
gbase=#SELECT to_tsquery('tst','indices');
to_tsquery
------------
'index':*
(1 row)
gbase=#SELECT 'indexes are very useful'::tsvector;
tsvector
---------------------------------
'are' 'indexes' 'useful' 'very'
(1 row)
gbase=#SELECT 'indexes are very useful'::tsvector @@
to_tsquery('tst','indices');
?column?
----------
t
(1 row)

gbase数据、南大通用产品文档：GBase8c