gbase数据、南大通用产品文档：gbase,数据,gbase数据,南大通用 GBase8c前提条件

GBase 8c 工具参考手册
南大通用数据技术股份有限公司
XII

可使用本部分中的方法，来将 XML 数据插入至数据库列。
本部分中方法声明中的参数有下列含义：

file 参数是一 XML 文档。可通过 URL（诸
如 http://server/file.xml 或 file:///path/file.xml）或路径名称（诸如 /tmp/file.xml 或
c:\\work\\file.xml）来引用该文档。

handler 参数是您提供的可选类，
包含 SAX 解析器作为它正在解析的文件的回调例
程。如果未指定值，或如果将 handler 设置为 NULL，则驱动程序使用回显成功或
失败的空回调例程（驱动程序以 SQLException 的形式报告失败）。

validating 参数告诉 SAX 解析器 factory 使用验证的解析器，
而不是仅检查形式的
解析器。

GBase 8s JDBC Driver 程序员指南
南大通用数据技术股份有限公司
- 96 -
如果未指定 nsa 或 validating，则驱动程序使用 xml4j 未经验证的 XML 解析器。
要更改缺省值，请参阅指定解析器 factory。

nsa 参数告诉 SAX 解析器 factory，可否使用可处理命名空间的解析器。
下列方法通过使用 SAX 解析文件，并将它转换为一字符串。然后，可使用由这些方法返
回的字符串作为 PreparedStatement.setString() 方法的输入，来将数据插入至数据库列内。
public String XMLtoString(String file, String handler, boolean
validating,boolean nsa) throws SQLException

public String XMLtoString(String file, String handler) throws
SQLException

public String XMLtoString(String file) throws SQLException
下列方法通过使用 SAX 来解析文件，并将它转换为类 InputStream 的对象。然后，可使
用 InputStream 对象作为PreparedStatement.setAsciiStream()、
PreparedStatement.setBinaryStream() 或 PreparedStatement.setObject() 方法的输入，来将数据
插入至数据库列内。
public InputStream XMLtoInputStream(String file, String handler,
boolean validating,boolean nsa) throws SQLException;

public InputStream XMLtoInputStream(String file, String handler)
throws SQLException;

public InputStream XMLtoInputStream(String file) throws
SQLException;
要获取使用这些方法的示例，请参阅插入数据示例。
如果未指定值，或如果将 handler 设置为 NULL，则驱动程序使用缺省的 GBase 8s 处理器。

重要：
驱动程序截断对列来说过长的输入数据。
例如，如果将 x.xml 文件插入至 char (55) 类型
的类内，而不是 char (255) 类型的列，则驱动程序插入截断的文件，且不报错（然而，驱动程
序抛出 SQLWarn 异常）。当选择截断的行时，解析器抛出 SAXParseException，因为该行包
含无效的 XML。

语法
支持向量机分类模型的训练函数的语法如下：
svm_classification(
source_table,
model_table,
dependent_varname,
independent_varname,
params
)
参数说明

source_table：含训练数据的输入表。

model _table：保存训练结果的结果表。

dependent_varname：因变量的列名。

independent_varname：自变量的列名，数组类型。

params：模型训练参数。
其中的模型训练参数(params)是以逗号分割的键-值(key-value)对,支持的键值
如下：
init_stepsize（初始步长）
缺省值: [0.01]. 初始的学习步长。一个比较小的值可以保证收敛结果，而较
大的值可以提高修炼速度。
decay_factor（衰减系数）。
缺省值：[0.9].控制迭代过程中使用的学习步长: 0 表示恒定步长; -1 表示反
向缩放，步长= 初始步长/ 迭代次数; > 0 表示指数衰减, 步长= 初始步
长*衰减系数^迭代次数。
max_iter（最大迭代次数）
缺省值：[100].
tolerance（容忍度）

GBase 8a MPP Cluster 产品手册
5 数据库管理指南
文档版本953（2022-04-10）
南大通用数据技术股份有限公司
1437
缺省值：1e-10. 两次迭代的模型差值小于容忍度时结束迭代。
Lambda（正则化参数）
缺省值：[0.01]. 必须大于0，不能为负值。
结果表说明
训练函数成功执行后，会创建保存模型信息的结果表，结果表包含如下字段用来
表示模型信息：

coef：相关系数，用于预测。

loss：损失函数值。

norm_of_gradient：损失函数的梯度值。

num_iterations：迭代次数。

num_rows_processed：处理的数据行数。

num_rows_skipped：略过的数据行数。

dep_var_mapping：因变量的可能取值。
摘要表说明
训练结束还会生出一个摘要表，其名为结果表表名加上”_summary”，摘要表的字
段说明如下：

method：挖掘算法名称，SVC 代表SVM 分类算法。

source_table：输入表名。

model_table：结果表名。

dependent_varname：因变量名。

independent_varname：自变量名。

grouping_col：分组列名。

optim_params：优化参数。

num_all_groups：全部分组数。

num_failed_groups：训练失败分组数。

total_rows_processed：处理的数据行数。

total_rows_skipped：略过的数据行数。

GBase 8a MPP Cluster 产品手册
5 数据库管理指南
文档版本953（2022-04-10）
南大通用数据技术股份有限公司
1438

gbase数据、南大通用产品文档：GBase8c前提条件