返回首页

gbase数据、南大通用产品文档:GBase8a数据加载

更新日期:2024年09月11日

功能简介
GBase 8a MPP Cluster 提供了面向用户的SQL 接口加载方式。
支持如下功能:

支持本地文件加载

支持从通用数据服务器拉取数据加载;

支持FTP/HTTP/HDFS/SFTP 等多种协议;

支持多加载机对单表的并行加载,最大化加载性能;

支持普通文本、gzip 压缩、snappy 压缩、lzo 压缩等多种格式数据文件加载;

支持普通文本与定长文本的加载,并与V8.5.1.2 和V86 版本格式兼容;

支持加载状态和信息的实时查询

支持错误数据溯源功能,可以准确定位错误数据在源文件中的位置;

加载性能可以随着集群规模的扩展而持续提升。
语法
LOAD DATA INFILE 'file_list' INTO TABLE[vcname.] [dbname.]tbl_name [options]
说明
file_list 说明

集群本地数据源加载:
1)支持指定一个或多个数据节点上的本地文件进行加载。使用file://host+abs_path,
多个file://host+abs_path 之间使用逗号分隔,
支持采用直接读取模式加载指定集群
数据节点的本地文件。
2)支持指定所有数据节点并发加载各自节点上的文件。使用file://+abs_path,多个
file://+abs_path 之间使用逗号分隔,
支持采用直接读取模式加载集群所有数据节点
的本地文件。

集群以外的通用文件服务器上的数据源加载:
1)通用文件服务器上需要搭建ftp/http/hdfs/sftp 服务,并将数据文件拷贝到服务配置
的路径下,保证集群节点能通过相应服务访问到数据。

GBase 8a MPP Cluster 产品手册
4 管理员指南
文档版本953(2022-04-10)
南大通用数据技术股份有限公司
125
2)加载时使用URL 的方式指定通用文件服务器上的数据文件路径,以逗号(',')作为
多个文件/目录的分隔符,
格式为
“scheme://host:port/path, scheme://host:port/path”

同时文件名、目录部分均支持使用通配符,默认对路径及文件进行匹配,如:
“http://10.10.1.1/data/??????/*.tbl”。
示例
示例:
LOAD DATA INFILE 'ftp://gbase:gbase@127.0.0.1/data/a.tbl' INTO TABLE test.t
DATA_FORMAT 3;
LOAD DATA INFILE 'http://127.0.0.1/data/b.tbl.gz' INTO TABLE test.t
DATA_FORMAT 3;
LOAD DATA INFILE 'hdp://gbase@127.0.0.1:50070/data/a.tbl.snappy' INTO
TABLE test.t DATA_FORMAT 3;
LOAD DATA INFILE 'ftp://192.168.0.1/pub/lineitem.tbl,
http://192.168.0.2/lineitem.tbl' INTO TABLE test.lineitem FIELDS
TERMINATED BY '|' ENCLOSED BY '"' LINES TERMINATED
BY '\n';
加载状态和结果查看示例:
-- 加载状态监控
gbase> use information_schema;
gbase> select * from load_status;
-- 显示task_id 100 任务的从第1 条开始的后面5 条错误数据信息
gbase> show load logs 100 limit 1,5;
-- 显示所有coordinator 节点上task_id 101 任务的前10 条错误数据信息
gbase> show gcluster load logs 101;
-- 查询所有coordinator 节点,select 查询形式,查询加载信息,表名为:
CLUSTER_LOAD_RESULT
gbase> select * from information_schema.cluster_load_result;

网络安全对允许客户机应用程序做什么有一定的强制限制:

applet 仅可向后与将它们从其下载的主机通讯。

当防火墙位于客户机和数据库服务器之间时,不允许在 JDBC 客户机与数据库之
间的直接 IP 连接。
GBase 8s HTTP 代理同时处理这些问题。代理是在 JDBC 客户机与 GBase 8s 数据库服务
器之间的中间层中运行的 servlet。代理从 JDBC 客户机抽取 SQL 请求,并将它们传至数
据库服务器。客户(终端用户)感觉不到此中间层。
HTTP 代理特性不是 JDBC 2.0 规范的一部分。
下图说明代理如何启用至防火墙之后的数据库的连接。

GBase 8s JDBC Driver 程序员指南
南大通用数据技术股份有限公司
- 51 -
图: 通过防火墙连接


GBA-01BR-0072
错误码
错误标识
错误显示信息
GBA-01BR-0072

backup col error
错误出现原因
备份列失败
分析与建议
查看具体错误码或日志,进一步定位错误