kmeanspp 通过k-means++ 算法来选取种子点并开始迭代。k-means++ 算法通过
让初始种子点尽量离散来改进分类结果。
语法
函数的语法如下:
GBase 8a MPP Cluster 产品手册
5 数据库管理指南
文档版本953(2022-04-10)
南大通用数据技术股份有限公司
1444
kmeanspp( source_table,
expr_point,
k,
fn_dist,
max_num_iterations,
min_frac_reassinged,
seeding_sample_rate
)
参数说明
source_table:含训练数据的输入表,形如“库名.表名”,库名不可省略,
以便在对应的库中建立结果表。
expr_point:表达式,用于从表中计算得到坐标点,数组类型。
k:最终的类簇数量。
fn_dist:用于计算点距的函数名,参见
,推荐使用squared_dist_norm2。
max_num_iterations:最大的迭代次数。
min_frac_reassinged:
容忍度,
迭代过程中如发现分组发生变化的点数占总点
数量的比例小于该值则结束迭代。
seeding_sample_rate:采样率,取值范围(0, 1.0]。如果为1.0,则采样时使
用全部数据;小于1.0 则仅使用部分数据。