返回首页

gbase数据、南大通用产品文档:GBase8a技术特点

更新日期:2024年09月11日

GBase 8a MPP Cluster 具有多样化的平台选择、与时俱进的逻辑架构、海量数据高
效存储、海量数据高速加载、海量数据高性能分析、弹性服务器资源伸缩、完善的
系统资源管理、多级别的高可用、跨数据中心的数据容灾、便捷的数据迁移、可靠
的数据安全、完备的SQL 标准支持和简单便捷的日常运维等技术特征。能满足各
个数据密集型行业日益增大的数据分析、数据挖掘、数据备份和即席查询等需求的
能力。
具体特点如下:
多样化的平台选择

低成本:

可完全使用x86 架构的PC Server;

支持云平台、虚拟机环境的部署。

国产化:

支持国产服务器:华为泰山、曙光海光、浪潮K1、长城等;

GBase 8a MPP Cluster 产品手册
2 产品概述
文档版本953(2022-04-10)
南大通用数据技术股份有限公司
14

支持国产CPU:申威、龙芯、兆芯、鲲鹏、飞腾等;

支持国产操作系统:中标麒麟、银河麒麟、普华Linux、统信、OpenEuler、
中科方德等。

虚拟化:支持基于x86 及PowerPC 的虚拟机,如VMware ESX 等。

云服务:支持主流云平台:阿里云、腾讯云、华为云等。
与时俱进的逻辑架构

联邦架构:采用Shared Nothing+MPP 架构。

部署灵活:
采用计算存储节点和管理节点双集群的两级部署结构,
无单点故障,
扩展性好。

大规模集群:

管理集群最多支持部署64 个管理节点;

单个计算存储集群支持部署300 个以上的数据节点;

整套集群支持部署1000 个以上数据节点。
海量数据高效存储

海量数据规模:

整套集群可处理15PB 以上数据;

单数据节点可处理50TB 以上数据。

灵活的分布策略:

支持HASH、RANDOM 和REPLICATED 三种数据分布存储策略;

支持无数据副本或多数据副本存储;

支持用户按业务场景需求自定义分布策略。

高效压缩:

支持实例级、表级和列级三级压缩存储;

支持不同数据类型采用不同的压缩算法,
理想情况下,
压缩比可以达到20
倍以上。
海量数据高速加载

高速度:单节点加载性能可以达到100M/s。

多网络传输协议:支持使用FTP、SFTP、HTTP 和HTTPS 等多种网络协议进

GBase 8a MPP Cluster 产品手册
2 产品概述
文档版本953(2022-04-10)
南大通用数据技术股份有限公司
15
行加载。

多数据源并行数据加载:

支持直接从HDFS 加载gzip、snappy、lzo 等压缩格式数据文件;

支持基于Kafka 作为数据源进行的实时数据加载;

支持以Amazon S3 对象存储作为数据源进行数据加载。
海量数据高性能分析

智能索引:

高性能、免维护的粗粒度智能索引技术;

低膨胀率:智能索引建立后膨胀率不超过百分之一;

快速定位:智能索引包含基于列的统计信息,在数据检索定位时可被直接
使用,有效过滤数据。

大规模并行:

基于MPP 技术的计划器;

基于规则和基于代价的优化器;

基于异步I/O 技术的调度器。

高并发:

读写分离:支持数据边加载边查询;

小查询并发场景下可支持35000+每秒的吞吐量。

无单点性能瓶颈:集群内的不同数据节点具有对等计算能力。

数据挖掘分析:支持In-Database 方式的数据挖掘分析,比如K-Means 聚类、
逻辑回归、线性回归算法等。

全文索引:支持全单字索引方式,可保证100%的查询召回率。
弹性服务器资源伸缩

灵活的Free Node:

在线快速扩容:业务和数据量增加时,可以从Free Nodes 列表中获取资源
进行扩容;

在线快速缩容:
业务和数据减少时,
可以进行缩容释放节点进入Free Nodes
列表;

GBase 8a MPP Cluster 产品手册
2 产品概述
文档版本953(2022-04-10)
南大通用数据技术股份有限公司
16

在线替换故障节点:当集群节点出现故障时,可快速从Free Nodes 列表中
获取资源进行替换。

高效的执行性能:单节点扩容性能可以达到50M/s。

可控的执行过程:扩容过程可监控、暂停、恢复和取消等灵活的监控及管理。

有力的业务保障:

缩容过程中允许数据追加写;

扩容过程中允许数据追加写;

故障节点替换过程中,支持集群执行DQL/DML/DDL 操作;

资源的伸缩替换均不影响业务的正常运行。
完善的系统资源管理

多资源管控:通过资源池及资源使用计划的灵活配置,支持对CPU、内存、磁
盘空间使用量、磁盘I/O、并发任务数、优先级、运行时间、等待超时等关键
资源和指标进行管控。

多租户:通过虚拟集群技术实现租户间的物理或者逻辑隔离。
多级别的高可用

集群级别高可用技术:

集群双活:

支持两个同构集群间的准实时数据同步;

M-S 架构同步,主集群数据可写,备份集群数据可查询;

基于数据块的增量同步,针对于传统的基于逻辑日志的同步,大大提
高海量数据同步的效率;

虚拟集群的镜像集群支持数据实时一致性,
互为镜像的两个集群同时
写入。

节点级别高可用技术:

调度节点(GCluster)通过Failover 机制保障执行SQL 的数据一致性;

管理节点(GCware)通过虚同步机制保障集群元数据的一致性;

计算节点(GNode)通过自动同步来保障主副本数据的一致性。

集群整体故障的高可用技术:通过Failover 持久化机制来保障网络、服务器以
及电源整体出故障时执行SQL 的数据的完整性和一致性。

GBase 8a MPP Cluster 产品手册
2 产品概述
文档版本953(2022-04-10)
南大通用数据技术股份有限公司
17

核心进程级别高可用技术:
GNode,
GCluster,
GCware 等核心进程被实时监控,
出故障后可及时恢复。
跨数据中心的数据容灾

支持跨中心高可用;

支持站点级集群容灾,保证业务不中断;

支持实例级和表级的全量、增量数据备份;

支持实例级和表级的全量、增量数据恢复;

支持与Hadoop 之间进行数据备份和恢复:

将库内数据备份到Hadoop 中;

将Hadoop 内的数据文件恢复到库内。
便捷的数据迁移

支持同构和异构数据库集群之间的DBLink 功能;

支持源端数据库对目标端DBlink 表的读写操作。
可靠的数据安全

完善的用户认证及权限管理:提供完善的用户、角色和账号控制策略,保证集
群数据库访问的安全性。

高效透明的数据存储加密:

透明加密/解密:数据在后台自动加密和解密;

轻量级数据加密/解密:加解密负载对整体性能影响小于5%;

面向数据列的加密/解密:根据数据字段的安全级别进行加密。

丰富的加密函数:支持多种加密函数,如AES_ENCRYPT、ENCRYPT、MD5、
SHA1、SHA、SHA256、SM4 等。

动态数据脱敏:支持默认脱敏、随机脱敏、自定义脱敏、哈希脱敏和指定位置
脱敏五种数据脱敏函数。

支持非root 用户安装部署、运行。
完备的SQL 标准化支持

支持SQL92 ANSI/ISO、SQL99 标准;

支持ODBC、JDBC、ADO.NET、C API、Python API 和TCL API 等接口;

GBase 8a MPP Cluster 产品手册
2 产品概述
文档版本953(2022-04-10)
南大通用数据技术股份有限公司
18

支持大部分SQL 2003 OLAP 函数。
简单便捷的日常运维

图形化:
提供图形化管理及监控工具,
以简化管理员对数据库集群的管理工作;

日志化:提供多种日志功能,方便问题追溯。

GBase 8a MPP Cluster 产品手册
2 产品概述
文档版本953(2022-04-10)
南大通用数据技术股份有限公司
19

GBA-01BR-0002
错误码
错误标识
错误信息
GBA-01BR-0002

not enough disk space for recover
错误出现原因
恢复所需磁盘空间不足
分析与建议
清理磁盘空间再进行恢复

使用 PC_HASHSIZE 来指定在数据库服务器使用的高速缓存中散列存储区的数目。
PC_HASHSIZE 仅适用于 UDR 高速缓存。
onconfig.std 值
PC_HASHSIZE 31

任何正整数,推荐质数。
生效
编辑 onconfig 文件并重启数据库服务器之后。