datachain-ai · ilongin · Dec 2, 2025 · Oct 13, 2025 · Dec 1, 2025 · Dec 1, 2025
diff --git a/src/datachain/query/dataset.py b/src/datachain/query/dataset.py
@@ -1170,15 +1170,18 @@ def apply_sql_clause(self, query) -> Select:
 
 def _validate_columns(
     left_columns: Iterable[ColumnElement], right_columns: Iterable[ColumnElement]
-) -> set[str]:
-    left_names = {c.name for c in left_columns}
-    right_names = {c.name for c in right_columns}
+) -> list[str]:
+    left_names = [c.name for c in left_columns]
+    right_names = [c.name for c in right_columns]
 
-    if left_names == right_names:
+    if sorted(left_names) == sorted(right_names):
         return left_names
 
-    missing_right = left_names - right_names
-    missing_left = right_names - left_names
+    left_names_set = set(left_names)
+    right_names_set = set(right_names)
+
+    missing_right = left_names_set - right_names_set
+    missing_left = right_names_set - left_names_set
 
     def _prepare_msg_part(missing_columns: set[str], side: str) -> str:
         return f"{', '.join(sorted(missing_columns))} only present in {side}"

diff --git a/tests/unit/lib/test_datachain.py b/tests/unit/lib/test_datachain.py
@@ -4452,3 +4452,55 @@ class Signal2(DataModel):
     assert chain.max("signals.signal.i3") == 15
     assert chain.max("signals.signal.f3") == 7.5
     assert chain.max("signals.signal.s3") == "eee"
+
+
+def test_union_does_not_break_schema_order(test_session):
+    class Meta(BaseModel):
+        name: str
+        count: int
+
+    def add_file(key) -> File:
+        return File(path="")
+
+    def add_meta(file) -> Meta:
+        return Meta(name="meta", count=10)
+
+    keys = ["a", "b", "c", "d"]
+    values = [3, 3, 3, 3]
+
+    (
+        dc.read_values(key=keys, val=values, session=test_session)
+        .map(file=add_file)
+        .map(meta=add_meta)
+        .save("ds1")
+    )
+    (
+        dc.read_values(key=keys, val=values, session=test_session)
+        .map(file=add_file)
+        .map(meta=add_meta)
+        .save("ds2")
+    )
+
+    (
+        dc.read_dataset("ds1", session=test_session)
+        .union(dc.read_dataset("ds2", session=test_session))
+        .save("union")
+    )
+
+    dat = test_session.catalog.get_dataset("union")
+    assert list(dat.versions[0].schema.keys()) == [
+        "key",
+        "val",
+        "file__source",
+        "file__path",
+        "file__size",
+        "file__version",
+        "file__etag",
+        "file__is_latest",
+        "file__last_modified",
+        "file__location",
+        "meta__name",
+        "meta__count",
+        "sys__id",
+        "sys__rand",
+    ]