语法
决策树训练函数的语法如下:
tree_train(
training_table_name,
output_table_name,
id_col_name,
dependent_variable,
list_of_features,
split_criterion,
weights,
max_depth,
min_split,
min_bucket,
n_bins,
pruning_params
)
参数说明
training_table_name:含训练数据的输入表表名。
output_table_name:保存训练结果的结果表。
id_col_name:训练数据中包含ID 信息的列名,每行的值应是唯一的。
dependent_variable:因变量的列名,boolean、integer、text 被视为分类输出,
而double 则被视为回归输出。
list_of_features:以逗号分隔的自变量的列名。
split_criterion:分离标准。对于分类树,可以是'gini', 'entropy', 'misclass',默
认为'gini';对于回归树,则只能是'mse'。
weights:标识每行输入数据权重的列名。
max_depth:树的最大深度。
min_split:结点分叉最小观察数。
min_bucket:叶子结点最小观察数。
GBase 8a MPP Cluster 产品手册
5 数据库管理指南
文档版本953(2022-09-15)
南大通用数据技术股份有限公司
1441
n_bins:连续自变量的分位数。
pruning_params:剪枝参数,格式为逗号分隔的键值对,支持两种:cp(剪枝
成本),n_folds(交叉验证的折叠次数)。
结果表说明
训练函数成功执行后,会创建保存模型信息的结果表,结果表包含如下字段用来
表示模型信息:
pruning_cp:用于修剪训练树的成本复杂度参数。
tree:训练后得到的模型,二进制格式。
cat_levels_in_text:分类变量的有序级
cat_n_levels:每个分类变量的级数
tree_depth:训练后树的最大深度。
摘要表说明
训练结束还会生出一个摘要表,其名为结果表表名加上”_summary”,摘要表的
字段说明如下:
method:‘tree_train’
is_classification:分类决策树为TRUE,回归决策树为FALSE。
source_table:训练数据表表名
model_table:训练结果表表名
id_col_name:训练表中包含ID 信息的列名
dependent_varname:因变量名
independent_varnames: 自变量名
cat_features:分类变量列表,逗号分隔
con_features:连续变量列表,逗号分隔
total_rows_processed:已处理行数
total_rows_skipped:跳过行数
dependent_var_levels:分类因变量的级数
dependent_var_type:因变量类型
GBase 8a MPP Cluster 产品手册
5 数据库管理指南
文档版本953(2022-09-15)
南大通用数据技术股份有限公司
1442
input_cp:用于修剪训练树的代价复杂度参数
independent_var_types: 自变量类型,逗号分隔