Skip to content

本节介绍 iceberg 在 Spark 3 中的应用。

环境准备

下载 iceberg,https://iceberg.apache.org/docs/latest/getting-started/ ,将 iceberg-spark-runtime-3.1_2.12-0.13.1.jar copy 到 SPARK_HOME/jars/ 下

启动

启动 spark:

shell
bin/spark-sql --master 'local[3]' --name 'HiveSQL' --driver-memory 1G \
  --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions \
  --conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog \
  --conf spark.sql.catalog.spark_catalog.type=hive \
  --conf spark.sql.catalog.local=org.apache.iceberg.spark.SparkCatalog \
  --conf spark.sql.catalog.local.type=hadoop \
  --conf spark.sql.catalog.local.warehouse=$PWD/warehouse

使用

为了区分不同库,创建一个数据库:

sql
create database icebergdb;
use icebergdb;

创建表:

sql
CREATE TABLE test_table (
  id bigint, 
  data string
) 
USING iceberg;

插入数据:

sql
INSERT INTO test_table VALUES (1, 'a'), (2, 'b'), (3, 'c');
select * from test_table;