返回首页

gbase数据、南大通用产品文档:GBase8a训练函数

更新日期:2024年09月11日

语法
决策树训练函数的语法如下:
tree_train(
training_table_name,
output_table_name,
id_col_name,
dependent_variable,
list_of_features,
split_criterion,
weights,
max_depth,
min_split,
min_bucket,
n_bins,
pruning_params
)
参数说明

training_table_name:含训练数据的输入表表名。

output_table_name:保存训练结果的结果表。

id_col_name:训练数据中包含ID 信息的列名,每行的值应是唯一的。

dependent_variable:因变量的列名,boolean、integer、text 被视为分类输出,
而double 则被视为回归输出。

list_of_features:以逗号分隔的自变量的列名。

split_criterion:分离标准。对于分类树,可以是'gini', 'entropy', 'misclass',默
认为'gini';对于回归树,则只能是'mse'。

weights:标识每行输入数据权重的列名。

max_depth:树的最大深度。

min_split:结点分叉最小观察数。

min_bucket:叶子结点最小观察数。

GBase 8a MPP Cluster 产品手册
5 数据库管理指南
文档版本953(2022-09-15)
南大通用数据技术股份有限公司
1441

n_bins:连续自变量的分位数。

pruning_params:剪枝参数,格式为逗号分隔的键值对,支持两种:cp(剪枝
成本),n_folds(交叉验证的折叠次数)。
结果表说明
训练函数成功执行后,会创建保存模型信息的结果表,结果表包含如下字段用来
表示模型信息:

pruning_cp:用于修剪训练树的成本复杂度参数。

tree:训练后得到的模型,二进制格式。

cat_levels_in_text:分类变量的有序级

cat_n_levels:每个分类变量的级数

tree_depth:训练后树的最大深度。
摘要表说明
训练结束还会生出一个摘要表,其名为结果表表名加上”_summary”,摘要表的
字段说明如下:

method:‘tree_train’

is_classification:分类决策树为TRUE,回归决策树为FALSE。

source_table:训练数据表表名

model_table:训练结果表表名

id_col_name:训练表中包含ID 信息的列名

dependent_varname:因变量名

independent_varnames: 自变量名

cat_features:分类变量列表,逗号分隔

con_features:连续变量列表,逗号分隔

total_rows_processed:已处理行数

total_rows_skipped:跳过行数

dependent_var_levels:分类因变量的级数

dependent_var_type:因变量类型

GBase 8a MPP Cluster 产品手册
5 数据库管理指南
文档版本953(2022-09-15)
南大通用数据技术股份有限公司
1442

input_cp:用于修剪训练树的代价复杂度参数

independent_var_types: 自变量类型,逗号分隔

SQLNumResultCols 返回结果集中的列数。
下表描述了 SQLNumResultCols 的 SQLSTATE 和错误值。
SQLSTATE
错误值
错误消息
01000
-11001
General warning
S1000
-11060
General error
S1001
-11061
Memory-allocation failure
S1008
-11065
Operation canceled
S1010
-11067
Function-sequence error
S1T00
-11094
Time-out expired
SQLNumResultCols 可以返回在 SQLPrepare 之后,SQLExecute 之前调用
SQLNumResultCols 时,SQLPrepare 或 SQLExecute 返回的任何 SQLSTATE ,这取决于
数据源何时评估与 hstmt 关联的 SQL 语句。

使用 onlog 实用程序显示并解释逻辑日志记录有关使用 onlog 的信息,请参阅
《GBase 8s 管理员参考》。