本节介绍 iceberg 在 Spark 3 中的应用。
环境准备
下载 iceberg,https://iceberg.apache.org/docs/latest/getting-started/ ,将 iceberg-spark-runtime-3.1_2.12-0.13.1.jar copy 到 SPARK_HOME/jars/ 下
启动
启动 spark:
shell
bin/spark-sql --master 'local[3]' --name 'HiveSQL' --driver-memory 1G \
--conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions \
--conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog \
--conf spark.sql.catalog.spark_catalog.type=hive \
--conf spark.sql.catalog.local=org.apache.iceberg.spark.SparkCatalog \
--conf spark.sql.catalog.local.type=hadoop \
--conf spark.sql.catalog.local.warehouse=$PWD/warehouse
使用
为了区分不同库,创建一个数据库:
sql
create database icebergdb;
use icebergdb;
创建表:
sql
CREATE TABLE test_table (
id bigint,
data string
)
USING iceberg;
插入数据:
sql
INSERT INTO test_table VALUES (1, 'a'), (2, 'b'), (3, 'c');
select * from test_table;