返回首页

gbase数据、南大通用产品文档:GBase8aInsert value 数据分布参数

更新日期:2024年09月11日

gcluster_random_insert
gcluster_random_insert 参数用于控制随机分布表再执行insert value 时,数据
分布到单机的原则。默认取值为0,推荐配置值为1。
取值为0 表示insert value 数据都落在一个节点上(当执行insert values 语句的
节点是复合节点时则数据插入到该节点,否则插入到随机节点);
取值为1 表示insert value 插入数据,randow 随机均匀的分布到所有节点。

增加列
使用“表设计器”可以向表中添加新列。在“表设计器”中打开一个表
后,您将在其中看到所有当前定义的列,并会在表定义网格底部看到一个空白
行。您可以在该空白行中添加列,或者在现有行之间插入列。
在“对象资源管理器”中,展开用户数据库所属的具体表节点,在“列”
节点上单击右键,选择菜单中的“新建列”选项,如下图所示:

图 7-38 增加列
选择“新建列”菜单项后,将打开表设计器,光标定位在新增列上,如下
图所示:


GBase 8a MPP Cluster 管理工具手册

- 66 -

南大通用数据技术股份有限公司
图 7-39 在表设计器中新建列
在“列名”列的单元格中键入列名。列名是必需设置的值。
按 Tab 键转到“数据类型”单元格,再从下拉列表中选择数据类型。它
也是必需设置的值,如果您没有选择,它将被赋以默认值。
之后依次设置长度、允许为空等值。
保存之后列即增加成功。

kmeanspp 通过k-means++ 算法来选取种子点并开始迭代。k-means++ 算法通过
让初始种子点尽量离散来改进分类结果。
语法
函数的语法如下:

GBase 8a MPP Cluster 产品手册
5 数据库管理指南
文档版本953(2022-09-15)
南大通用数据技术股份有限公司
1436
kmeanspp( source_table,
expr_point,
k,
fn_dist,
max_num_iterations,
min_frac_reassinged,
seeding_sample_rate
)
参数说明

source_table:含训练数据的输入表,形如“库名.表名”,库名不可省略,
以便在对应的库中建立结果表。

expr_point:表达式,用于从表中计算得到坐标点,数组类型。

k:最终的类簇数量。

fn_dist:用于计算点距的函数名,参见
,推荐使用squared_dist_norm2。

max_num_iterations:最大的迭代次数。

min_frac_reassinged:
容忍度,
迭代过程中如发现分组发生变化的点数占总点
数量的比例小于该值则结束迭代。

seeding_sample_rate:采样率,取值范围(0, 1.0]。如果为1.0,则采样时使
用全部数据;小于1.0 则仅使用部分数据。