[spark] Push down variant_get into Paimon shredded Variant scan by chenghuichen · Pull Request #7657 · apache/paimon

chenghuichen · 2026-04-15T11:43:39Z

Purpose

Queries like SELECT variant_get(v, '$.age', 'int') FROM T on a shredded Variant column still read all sub-columns and reassemble the full binary Variant, leaving Paimon's VariantRowType / clipVariantType infrastructure unused.

This PR adds PushDownVariantExtract (Spark 4 only), a Catalyst optimizer rule that replaces VariantGet with GetStructField and sets variantProjections on PaimonScan, so only the accessed typed_value.* Parquet sub-columns are read.

The rule runs in the "User Provided Optimizers" batch (via experimentalMethods.extraOptimizations) to ensure it fires after V2ScanRelationPushDown has built the scan relation.

Part of #4471

Note: Spark 4.0 lacks a V2-compatible variant push-down interface (SupportsPushDownVariantExtractions was introduced in 4.1), so registering a custom optimizer rule via experimentalMethods.extraOptimizations is the right fit for 4.0. For a future paimon-spark-4.1 module, a cleaner approach would be implementing SupportsPushDownVariantExtractions on PaimonScan and letting Spark's built-in V2ScanRelationPushDown handle the rewrite natively.

Tests

VariantTest.scala::VariantPushDownPlanTest (paimon-spark-4.0)

chenghuichen added 5 commits April 15, 2026 19:40

[spark] Push down variant_get into Paimon shredded Variant scan

87869dd

[spark] Push down variant_get into Paimon shredded Variant scan

7556aa1

Merge branch 'apache:master' into spark_variant

453da04

[spark] Push down variant_get into Paimon shredded Variant scan

735066c

[spark] Push down variant_get into Paimon shredded Variant scan

2d19f73

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[spark] Push down variant_get into Paimon shredded Variant scan#7657

[spark] Push down variant_get into Paimon shredded Variant scan#7657
chenghuichen wants to merge 5 commits intoapache:masterfrom
chenghuichen:spark_variant

chenghuichen commented Apr 15, 2026 •

edited

Loading

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

chenghuichen commented Apr 15, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Purpose

Tests

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

chenghuichen commented Apr 15, 2026 •

edited

Loading