DataFlow 的 type为 textfile,jsonfile,parquetfile 时,支持压缩格式,属性为compression。没有该属性时,默认不采用压缩 【DataFlow不做处理,但其他的spark 配置可能导致结果压缩,需开发者注意】。
Compression支持的压缩格式如下:
- default: 为 HDFS 提供的默认的压缩格式;
- deflate:和 default 相同,为 HDFS 默认提供的压缩格式;
- gzip:gzip压缩格式;
- snappy:snappy 压缩格式;
- lz4:Hadoop 提供的lz4 格式压缩;