Hive压缩效果不明显踩坑记录 发表于 2020-06-10 更新于 2021-03-21 分类于 大数据 记录一下Hive的配置参数漏配的严重后果 前因1234567项目逻辑 1.Spark实时任务每五分钟生成parquet格式的snappy压缩文件 2.另有一个Spark离线任务对前一天生成的小文件进行合并问题 发现合并前小文件总大小要远远小于合并后的文件总大小 足有两倍的差值 解决12345678建表时漏配置 parquet.page.size parquet.dictionary.page.size导致仍使用默认值1M,压缩效果极其不理想由于表是外部表,删除表重新创建表,或修改表属性ALTER TABLE tableName set TBLPROPERTIES ('parquet.page.size'='33554432');ALTER TABLE tableName set TBLPROPERTIES ('parquet.dictionary.page.size'='33554432');