gbase数据、南大通用产品文档：gbase,数据,gbase数据,南大通用 GBase8aInsert value 数据分布参数

gcluster_random_insert
gcluster_random_insert 参数用于控制随机分布表再执行insert value 时，数据
分布到单机的原则。默认取值为0，推荐配置值为1。
取值为0 表示insert value 数据都落在一个节点上（当执行insert values 语句的
节点是复合节点时则数据插入到该节点，否则插入到随机节点）；
取值为1 表示insert value 插入数据，randow 随机均匀的分布到所有节点。

增加列
使用“表设计器”可以向表中添加新列。在“表设计器”中打开一个表
后，您将在其中看到所有当前定义的列，并会在表定义网格底部看到一个空白
行。您可以在该空白行中添加列，或者在现有行之间插入列。
在“对象资源管理器”中，展开用户数据库所属的具体表节点，在“列”
节点上单击右键，选择菜单中的“新建列”选项，如下图所示：

图 7-38 增加列
选择“新建列”菜单项后，将打开表设计器，光标定位在新增列上，如下
图所示：

GBase 8a MPP Cluster 管理工具手册

- 66 -

南大通用数据技术股份有限公司
图 7-39 在表设计器中新建列
在“列名”列的单元格中键入列名。列名是必需设置的值。
按 Tab 键转到“数据类型”单元格，再从下拉列表中选择数据类型。它
也是必需设置的值，如果您没有选择，它将被赋以默认值。
之后依次设置长度、允许为空等值。
保存之后列即增加成功。

kmeanspp 通过k-means++ 算法来选取种子点并开始迭代。k-means++ 算法通过
让初始种子点尽量离散来改进分类结果。
语法
函数的语法如下：

GBase 8a MPP Cluster 产品手册
5 数据库管理指南
文档版本953（2022-09-15）
南大通用数据技术股份有限公司
1436
kmeanspp( source_table,
expr_point,
k,
fn_dist,
max_num_iterations,
min_frac_reassinged,
seeding_sample_rate
)
参数说明

source_table：含训练数据的输入表，形如“库名.表名”，库名不可省略，
以便在对应的库中建立结果表。

expr_point：表达式，用于从表中计算得到坐标点,数组类型。

k：最终的类簇数量。

fn_dist：用于计算点距的函数名，参见
，推荐使用squared_dist_norm2。

max_num_iterations：最大的迭代次数。

min_frac_reassinged：
容忍度，
迭代过程中如发现分组发生变化的点数占总点
数量的比例小于该值则结束迭代。

seeding_sample_rate：采样率，取值范围(0, 1.0]。如果为1.0，则采样时使
用全部数据；小于1.0 则仅使用部分数据。

gbase数据、南大通用产品文档：GBase8aInsert value 数据分布参数