景行数科 - 文档平台

本节介绍 iceberg 在 Spark 3 中的应用。

环境准备

下载 iceberg，https://iceberg.apache.org/docs/latest/getting-started/ ，将 iceberg-spark-runtime-3.1_2.12-0.13.1.jar copy 到 SPARK_HOME/jars/ 下

启动

启动 spark:

shell

bin/spark-sql --master 'local[3]' --name 'HiveSQL' --driver-memory 1G \
  --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions \
  --conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog \
  --conf spark.sql.catalog.spark_catalog.type=hive \
  --conf spark.sql.catalog.local=org.apache.iceberg.spark.SparkCatalog \
  --conf spark.sql.catalog.local.type=hadoop \
  --conf spark.sql.catalog.local.warehouse=$PWD/warehouse

使用

为了区分不同库，创建一个数据库：

sql

create database icebergdb;
use icebergdb;

创建表：

sql

CREATE TABLE test_table (
  id bigint, 
  data string
) 
USING iceberg;

插入数据：

sql

INSERT INTO test_table VALUES (1, 'a'), (2, 'b'), (3, 'c');
select * from test_table;

环境准备 ​

启动 ​

使用 ​

环境准备

启动

使用