返回首页

gbase数据、南大通用产品文档:GBase8c

更新日期:2024年09月11日

语法
gs_dumpall [OPTION]...

GBase 8c 工具参考手册
南大通用数据技术股份有限公司
146

语法
Logistic 回归的训练函数的语法如下:
logregr_train( source_table,
out_table,
dependent_varname,
independent_varname,
max_iter,
optimizer,
tolerance
)
参数说明

GBase 8a MPP Cluster 产品手册
5 数据库管理指南
文档版本953(2022-09-15)
南大通用数据技术股份有限公司
1423

source_table:含训练数据的输入表。

out_table:保存训练结果的结果表。

dependent_varname:因变量的列名。因变量列应为布尔值,非布尔值会在处
理过程中被隐式转换为布尔值。

independent_varname:自变量的列名,数组类型。

max_iter:最大的迭代次数。

optimizer:迭代过程中使用的优化器。

tolerance:容忍度。两次迭代的对数似然差小于该值则结束迭代。
结果表说明
训练函数成功执行后,会创建保存模型信息的结果表,结果表包含如下字段用来
表示模型信息:

coef:相关系数,用于预测。

log_likelihood:对数似然值,训练中评估模型的参数。

std_err:相关系数的标准差。

z_stats:相关系数的z-统计量。

num_rows_processed:处理的数据行数。

num_missing_rows_skipped:略过的数据行数。

num_iterations:迭代次数。
摘要表说明
训练结束还会生出一个摘要表,其名为为结果表表名加上”_summary”,摘要表的
字段说明如下:

method:挖掘算法名称,为logregr。

source_table:输入表名。

out_table:结果表名。

dependent_varname:因变量名。

independent_varname:自变量名。

optimizer_params:优化器参数,最大迭代次数、容忍度等。

GBase 8a MPP Cluster 产品手册
5 数据库管理指南
文档版本953(2022-09-15)
南大通用数据技术股份有限公司
1424

num_failed_groups:训练失败的分组数。

num_rows_processed:处理的数据行数。

num_missing_rows_skipped:略过的数据行数。

Synonym 词典用于定义、识别token 的同义词并转化,不支持词组(词组形式的同义词
可用Thesaurus 词典定义,详细请参见Thesaurus 词典)

示例

Synonym 词典可用于解决语言学相关问题,例如,为避免使单词"Paris"变成"pari",
可在Synonym 词典文件中定义一行"Paris
paris",并将该词典放置在预定义的
english_stem 词典之前。
gbase=#SELECT * FROM ts_debug('english', 'Paris');
alias | description | token | dictionaries | dictionary | lexemes
-----------+-----------------+-------+----------------+--------------+-------
--
asciiword | Word, all ASCII | Paris | {english_stem} | english_stem | {pari} (1
row)
gbase=#CREATE TEXT SEARCH DICTIONARY my_synonym ( TEMPLATE = synonym,
SYNONYMS = my_synonyms, FILEPATH = 'file:///home/dicts/'
);
gbase=#ALTER TEXT SEARCH CONFIGURATION english ALTER MAPPING FOR asciiword
WITH my_synonym, english_stem;
gbase=#SELECT * FROM ts_debug('english', 'Paris');
alias
|
description
| token |
dictionaries
| dictionary | lexemes
-----------+-----------------+-------+---------------------------+-----------
-+---------
asciiword | Word, all ASCII | Paris | {my_synonym,english_stem} | my_synonym |
{paris} (1 row)
gbase=#SELECT * FROM ts_debug('english', 'paris');
alias
|
description
| token |
dictionaries
| dictionary | lexemes
-----------+-----------------+-------+---------------------------+-----------
-+---------

GBase 8c SQL 参考手册
南大通用数据技术股份有限公司
655
asciiword | Word, all ASCII | Paris | {my_synonym,english_stem} | my_synonym |
{paris} (1 row)
gbase=#ALTER TEXT SEARCH DICTIONARY my_synonym ( CASESENSITIVE=true);
gbase=#SELECT * FROM ts_debug('english', 'Paris');
alias
|
description
| token |
dictionaries
| dictionary | lexemes
-----------+-----------------+-------+---------------------------+-----------
-+---------
asciiword | Word, all ASCII | Paris | {my_synonym,english_stem} | my_synonym |
{paris} (1 row)
gbase=#SELECT * FROM ts_debug('english', 'paris');
alias
|
description
| token |
dictionaries
| dictionary | lexemes
-----------+-----------------+-------+---------------------------+-----------
-+---------
asciiword | Word, all ASCII | Paris | {my_synonym,english_stem} | my_synonym |
{pari} (1 row)
其中,
同义词词典文件全名为my_synonyms.syn,
所在目录为当前连接数据库主节
点的/home/dicts/下。关于创建词典的语法和更多参数,请参见16.14.37 ALTER TEXT
SEARCH DICTIONARY。

星号
(*)
可用于词典文件中的同义词结尾,
表示该同义词是一个前缀。
在to_tsvector()
中该星号将被忽略,
但在to_tsquery()中会匹配该前缀并对应输出结果
(参照16.8.4.2
处理查询一节)

假设词典文件synonym_sample.syn 内容如下:
postgres
pgsql
postgresql
pgsql
postgre pgsql
gogle
googl
indices index*
创建并使用词典:
gbase=#CREATE TEXT SEARCH DICTIONARY syn (
TEMPLATE = synonym,
SYNONYMS = synonym_sample
);
gbase=#SELECT ts_lexize('syn','indices');
ts_lexize

GBase 8c SQL 参考手册
南大通用数据技术股份有限公司
656
-----------
{index}
(1 row)
gbase=#CREATE TEXT SEARCH CONFIGURATION tst (copy=simple);
gbase=#ALTER TEXT SEARCH CONFIGURATION tst ALTER MAPPING FOR asciiword WITH syn;
gbase=#SELECT to_tsvector('tst','indices');
to_tsvector
-------------
'index':1
(1 row)
gbase=#SELECT to_tsquery('tst','indices');
to_tsquery
------------
'index':*
(1 row)
gbase=#SELECT 'indexes are very useful'::tsvector;
tsvector
---------------------------------
'are' 'indexes' 'useful' 'very'
(1 row)
gbase=#SELECT 'indexes are very useful'::tsvector @@
to_tsquery('tst','indices');
?column?
----------
t
(1 row)