语法
Logistic 回归的训练函数的语法如下:
logregr_train( source_table,
out_table,
dependent_varname,
independent_varname,
max_iter,
optimizer,
tolerance
)
参数说明
GBase 8a MPP Cluster 产品手册
5 数据库管理指南
文档版本953(2022-09-15)
南大通用数据技术股份有限公司
1423
source_table:含训练数据的输入表。
out_table:保存训练结果的结果表。
dependent_varname:因变量的列名。因变量列应为布尔值,非布尔值会在处
理过程中被隐式转换为布尔值。
independent_varname:自变量的列名,数组类型。
max_iter:最大的迭代次数。
optimizer:迭代过程中使用的优化器。
tolerance:容忍度。两次迭代的对数似然差小于该值则结束迭代。
结果表说明
训练函数成功执行后,会创建保存模型信息的结果表,结果表包含如下字段用来
表示模型信息:
coef:相关系数,用于预测。
log_likelihood:对数似然值,训练中评估模型的参数。
std_err:相关系数的标准差。
z_stats:相关系数的z-统计量。
num_rows_processed:处理的数据行数。
num_missing_rows_skipped:略过的数据行数。
num_iterations:迭代次数。
摘要表说明
训练结束还会生出一个摘要表,其名为为结果表表名加上”_summary”,摘要表的
字段说明如下:
method:挖掘算法名称,为logregr。
source_table:输入表名。
out_table:结果表名。
dependent_varname:因变量名。
independent_varname:自变量名。
optimizer_params:优化器参数,最大迭代次数、容忍度等。
GBase 8a MPP Cluster 产品手册
5 数据库管理指南
文档版本953(2022-09-15)
南大通用数据技术股份有限公司
1424
num_failed_groups:训练失败的分组数。
num_rows_processed:处理的数据行数。
num_missing_rows_skipped:略过的数据行数。