gbase数据、南大通用产品文档：gbase,数据,gbase数据,南大通用 GBase8a训练函数

语法
决策树训练函数的语法如下：
tree_train(
training_table_name,
output_table_name,
id_col_name,
dependent_variable,
list_of_features,
split_criterion,
weights,
max_depth,
min_split,
min_bucket,
n_bins,
pruning_params
)
参数说明

training_table_name：含训练数据的输入表表名。

output_table_name：保存训练结果的结果表。

id_col_name：训练数据中包含ID 信息的列名，每行的值应是唯一的。

dependent_variable：因变量的列名，boolean、integer、text 被视为分类输出，
而double 则被视为回归输出。

list_of_features：以逗号分隔的自变量的列名。

split_criterion：分离标准。对于分类树，可以是'gini', 'entropy', 'misclass'，默
认为'gini'；对于回归树，则只能是'mse'。

weights：标识每行输入数据权重的列名。

max_depth：树的最大深度。

min_split：结点分叉最小观察数。

min_bucket：叶子结点最小观察数。

GBase 8a MPP Cluster 产品手册
5 数据库管理指南
文档版本953（2022-09-15）
南大通用数据技术股份有限公司
1441

n_bins：连续自变量的分位数。

pruning_params：剪枝参数，格式为逗号分隔的键值对，支持两种：cp（剪枝
成本），n_folds（交叉验证的折叠次数）。
结果表说明
训练函数成功执行后，会创建保存模型信息的结果表，结果表包含如下字段用来
表示模型信息：

pruning_cp：用于修剪训练树的成本复杂度参数。

tree：训练后得到的模型，二进制格式。

cat_levels_in_text：分类变量的有序级

cat_n_levels：每个分类变量的级数

tree_depth：训练后树的最大深度。
摘要表说明
训练结束还会生出一个摘要表，其名为结果表表名加上”_summary”，摘要表的
字段说明如下：

method：‘tree_train’

is_classification：分类决策树为TRUE，回归决策树为FALSE。

source_table：训练数据表表名

model_table：训练结果表表名

id_col_name：训练表中包含ID 信息的列名

dependent_varname：因变量名

independent_varnames: 自变量名

cat_features：分类变量列表，逗号分隔

con_features：连续变量列表，逗号分隔

total_rows_processed：已处理行数

total_rows_skipped：跳过行数

dependent_var_levels：分类因变量的级数

dependent_var_type：因变量类型

GBase 8a MPP Cluster 产品手册
5 数据库管理指南
文档版本953（2022-09-15）
南大通用数据技术股份有限公司
1442

input_cp：用于修剪训练树的代价复杂度参数

independent_var_types: 自变量类型，逗号分隔

SQLNumResultCols 返回结果集中的列数。
下表描述了 SQLNumResultCols 的 SQLSTATE 和错误值。
SQLSTATE
错误值
错误消息
01000
-11001
General warning
S1000
-11060
General error
S1001
-11061
Memory-allocation failure
S1008
-11065
Operation canceled
S1010
-11067
Function-sequence error
S1T00
-11094
Time-out expired
SQLNumResultCols 可以返回在 SQLPrepare 之后，SQLExecute 之前调用
SQLNumResultCols 时，SQLPrepare 或 SQLExecute 返回的任何 SQLSTATE ，这取决于
数据源何时评估与 hstmt 关联的 SQL 语句。

使用 onlog 实用程序显示并解释逻辑日志记录有关使用 onlog 的信息，请参阅
《GBase 8s 管理员参考》。

gbase数据、南大通用产品文档：GBase8a训练函数