返回首页

gbase数据、南大通用产品文档:GBase8ssbspace 结构

更新日期:2024年09月11日

sbspace 类似于 blobspace ,除了它拥有智能大对象外。
当 sbspace 在数据库创建时,它包含一个 sbspace 描述符。每个 sbspace
chunk 包含以
下结构:
 Sbspace chunk 描述符
 Chunk 可用页列表
 Sbspace元数据区域(每个 chunk 最多一个)
 保留数据区域(每个 chunk 最多两个)
 用户数据区域(每个 chunk 最多两个)

GBase 8s 管理员参考
南大通用数据技术股份有限公司 - 272 -
为了获得最佳性能,建议元数据区域位于 sbspace 的中间。数据库服务器自动将元数据区
域置于正确的位置。然而,要指定元数据区域的位置,请在 onspaces 命令中指定 -Mo 标
志。
如果您未在 onspaces 命令的 -Ms 标志中指定元数据区域的大小,
那么数据库服务器使用
AVG_LO_SIZE 的值
(缺省值为 8千字节)
计算元数据区域的大小、
有关更多信息,
请参阅 使
用 -Df 选项创建 sbspace 。
正常情况下,可以让系统计算元数据的大小。如果想要估计元数据区域的大小,请参阅
GBase 8s 性能指南 中的 表性能注意事项 一章。
图 1 图说明了 sbspace 中 chunk 的结构,它是在 sbspace 创建之后立即显示的,每个
保留区域可以分配给用户数据或元数据区域。保留其总是在 chunk 的用户数据区域中。
图: 一个简单的 sbspace chunk

由于 图 1 图中的 chunk 是 sbspace 的一个 chunk ,
所以它包含一个 sbspace 描述符。
chunk 1 中的 chunk 描述符 tblspace 包含有关 chunk 1 和其后添加到 sbspace 中的所
有块的信息。
元数据区域的结构
每个 sbspace 包含在其中 chunk 的元数据区域。
对于 chunk 头页,四个区域专用于 sbspace 中的第一 chunk :Sbspace 描述符
tblspace 、chunk 附件 tblspace 以及 1 级 和2 级压缩文档 tblspaces。Tblspace 头
部分包含这些 tblspace 中的每一个 tblspace 头(特别的,tblspace
tblspace 除外)。
图 1 显示了单块 sbspace 中元数据的布局。
图: 单个 chunk sbspace 的元数据区域结构

GBase 8s 管理员参考
南大通用数据技术股份有限公司 - 273 -

在 oncheck -ps 选项中指定 Sbspace 名称时,可以显示分配并用于元数据区域中的每个
tblspace 的页数。
以下内容描述元数据区域是如何增长的:
 sbspace 描述符 tblspace 不增长。
 chunk 附件 tblspace 在添加 chunk 时增长。
 LO 头 tblspace 在添加 chunk 时增长。
 如果 chunk 中的可用空间已大量分片,
那么用户数据可用列表的 tblspace 增长。

sbpage 结构
每个 sbpage 由三个元素组成:sbpage 头、实际用户数据和 sbpage 跟踪器。 图 1 图显
示了 sbpage 的结构。Sbpage 头由标准页头构成。sbpage 跟踪器用于检测页上的不完全
写入和检测页毁坏。
图: sbpage 结构

语法
支持向量机分类模型的训练函数的语法如下:
svm_classification(
source_table,
model_table,
dependent_varname,
independent_varname,
params
)
参数说明

source_table:含训练数据的输入表。

model _table:保存训练结果的结果表。

dependent_varname:因变量的列名。

independent_varname:自变量的列名,数组类型。

params:模型训练参数。
其中的模型训练参数(params)是以逗号分割的键-值(key-value)对,支持的键值
如下:
init_stepsize(初始步长)
缺省值: [0.01]. 初始的学习步长。一个比较小的值可以保证收敛结果,而较
大的值可以提高修炼速度。
decay_factor(衰减系数)。
缺省值:[0.9].控制迭代过程中使用的学习步长: 0 表示恒定步长; -1 表示反
向缩放,步长= 初始步长/ 迭代次数; > 0 表示指数衰减, 步长= 初始步
长*衰减系数^迭代次数。
max_iter(最大迭代次数)
缺省值:[100].
tolerance(容忍度)

GBase 8a MPP Cluster 产品手册
5 数据库管理指南
文档版本953(2022-09-15)
南大通用数据技术股份有限公司
1429
缺省值:1e-10. 两次迭代的模型差值小于容忍度时结束迭代。
Lambda(正则化参数)
缺省值:[0.01]. 必须大于0,不能为负值。
结果表说明
训练函数成功执行后,会创建保存模型信息的结果表,结果表包含如下字段用来
表示模型信息:

coef:相关系数,用于预测。

loss:损失函数值。

norm_of_gradient:损失函数的梯度值。

num_iterations:迭代次数。

num_rows_processed:处理的数据行数。

num_rows_skipped:略过的数据行数。

dep_var_mapping:因变量的可能取值。
摘要表说明
训练结束还会生出一个摘要表,其名为结果表表名加上”_summary”,摘要表的字
段说明如下:

method:挖掘算法名称,SVC 代表SVM 分类算法。

source_table:输入表名。

model_table:结果表名。

dependent_varname:因变量名。

independent_varname:自变量名。

grouping_col:分组列名。

optim_params:优化参数。

num_all_groups:全部分组数。

num_failed_groups:训练失败分组数。

total_rows_processed:处理的数据行数。

total_rows_skipped:略过的数据行数。

GBase 8a MPP Cluster 产品手册
5 数据库管理指南
文档版本953(2022-09-15)
南大通用数据技术股份有限公司
1430

功能

GBase 8a MPP Cluster 产品手册
4 管理员指南
文档版本953(2022-09-15)
南大通用数据技术股份有限公司
532
指定表名,该参数不能与query 参数同时使用。
示例
示例1
--table_name='lineorder'
示例2
-t'lineorder'
参数说明
表4- 96 参数说明
参数全称
参数简称
取值范围
默认值
table_name
t