Support pandas 3 (#7981)

lhoestq · web-flow · commit 224b4e6eaf28 · 2026-02-02T18:34:22.000+01:00
support pandas 3
diff --git a/src/datasets/packaged_modules/folder_based_builder/folder_based_builder.py b/src/datasets/packaged_modules/folder_based_builder/folder_based_builder.py
@@ -215,21 +215,26 @@ def _set_feature(feature):
                 if isinstance(feature, dict):
                     out = type(feature)()
                     for key in feature:
-                        if (key == "file_name" or key.endswith("_file_name")) and feature[key] == datasets.Value(
-                            "string"
+                        if (key == "file_name" or key.endswith("_file_name")) and (
+                            feature[key] == datasets.Value("string") or feature[key] == datasets.Value("large_string")
                         ):
                             key = key[: -len("_file_name")] or self.BASE_COLUMN_NAME
                             out[key] = self.BASE_FEATURE()
                             feature_not_found = False
-                        elif (key == "file_names" or key.endswith("_file_names")) and feature[key] == datasets.List(
-                            datasets.Value("string")
+                        elif (key == "file_names" or key.endswith("_file_names")) and (
+                            feature[key]
+                            == datasets.List(
+                                datasets.Value("string")
+                                or feature[key] == datasets.List(datasets.Value("large_string"))
+                            )
                         ):
                             key = key[: -len("_file_names")] or (self.BASE_COLUMN_NAME + "s")
                             out[key] = datasets.List(self.BASE_FEATURE())
                             feature_not_found = False
-                        elif (key == "file_names" or key.endswith("_file_names")) and feature[key] == [
-                            datasets.Value("string")
-                        ]:
+                        elif (key == "file_names" or key.endswith("_file_names")) and (
+                            feature[key] == [datasets.Value("string")]
+                            or feature[key] == [datasets.Value("large_string")]
+                        ):
                             key = key[: -len("_file_names")] or (self.BASE_COLUMN_NAME + "s")
                             out[key] = [self.BASE_FEATURE()]
                             feature_not_found = False
diff --git a/tests/io/test_parquet.py b/tests/io/test_parquet.py
@@ -5,6 +5,7 @@
 import pyarrow.parquet as pq
 import pytest
 
+import datasets.config
 from datasets import Audio, Dataset, DatasetDict, Features, IterableDatasetDict, List, NamedSplit, Value, config
 from datasets.arrow_writer import get_arrow_writer_batch_size_from_features
 from datasets.features.image import Image
@@ -14,6 +15,9 @@
 from ..utils import assert_arrow_memory_doesnt_increase, assert_arrow_memory_increases
 
 
+STRING_FROM_PANDAS = "large_string" if datasets.config.PANDAS_VERSION.major >= 3 else "string"
+
+
 def _check_parquet_dataset(dataset, expected_features):
     assert isinstance(dataset, Dataset)
     assert dataset.num_rows == 4
@@ -80,8 +84,8 @@ def test_parquet_read_geoparquet(geoparquet_path, tmp_path):
 
     expected_features = {
         "pop_est": "float64",
-        "continent": "string",
-        "name": "string",
+        "continent": STRING_FROM_PANDAS,
+        "name": STRING_FROM_PANDAS,
         "gdp_md_est": "int64",
         "geometry": "binary",
     }
diff --git a/tests/io/test_sql.py b/tests/io/test_sql.py
@@ -4,12 +4,16 @@
 
 import pytest
 
+import datasets.config
 from datasets import Dataset, Features, Value
 from datasets.io.sql import SqlDatasetReader, SqlDatasetWriter
 
 from ..utils import assert_arrow_memory_doesnt_increase, assert_arrow_memory_increases, require_sqlalchemy
 
 
+STRING_FROM_PANDAS = "large_string" if datasets.config.PANDAS_VERSION.major >= 3 else "string"
+
+
 def _check_sql_dataset(dataset, expected_features):
     assert isinstance(dataset, Dataset)
     assert dataset.num_rows == 4
@@ -23,7 +27,7 @@ def _check_sql_dataset(dataset, expected_features):
 @pytest.mark.parametrize("keep_in_memory", [False, True])
 def test_dataset_from_sql_keep_in_memory(keep_in_memory, sqlite_path, tmp_path, set_sqlalchemy_silence_uber_warning):
     cache_dir = tmp_path / "cache"
-    expected_features = {"col_1": "string", "col_2": "int64", "col_3": "float64"}
+    expected_features = {"col_1": STRING_FROM_PANDAS, "col_2": "int64", "col_3": "float64"}
     with assert_arrow_memory_increases() if keep_in_memory else assert_arrow_memory_doesnt_increase():
         dataset = SqlDatasetReader(
             "dataset", "sqlite:///" + sqlite_path, cache_dir=cache_dir, keep_in_memory=keep_in_memory
@@ -44,7 +48,7 @@ def test_dataset_from_sql_keep_in_memory(keep_in_memory, sqlite_path, tmp_path,
 )
 def test_dataset_from_sql_features(features, sqlite_path, tmp_path, set_sqlalchemy_silence_uber_warning):
     cache_dir = tmp_path / "cache"
-    default_expected_features = {"col_1": "string", "col_2": "int64", "col_3": "float64"}
+    default_expected_features = {"col_1": STRING_FROM_PANDAS, "col_2": "int64", "col_3": "float64"}
     expected_features = features.copy() if features else default_expected_features
     features = (
         Features({feature: Value(dtype) for feature, dtype in features.items()}) if features is not None else None
diff --git a/tests/test_arrow_dataset.py b/tests/test_arrow_dataset.py
@@ -24,6 +24,7 @@
 from packaging import version
 
 import datasets.arrow_dataset
+import datasets.config
 from datasets import concatenate_datasets, interleave_datasets, load_from_disk
 from datasets.arrow_dataset import Dataset, transmit_format, update_metadata_with_features
 from datasets.dataset_dict import DatasetDict
@@ -119,6 +120,8 @@ def assert_arrow_metadata_are_synced_with_dataset_features(dataset: Dataset):
     {"testcase_name": name, "in_memory": im} for im, name in [(True, "in_memory"), (False, "on_disk")]
 ]
 
+STRING_FROM_PANDAS = "large_string" if datasets.config.PANDAS_VERSION.major >= 3 else "string"
+
 
 @parameterized.named_parameters(IN_MEMORY_PARAMETERS)
 class BaseDatasetTest(TestCase):
@@ -1656,7 +1659,7 @@ def func_return_single_row_pd_dataframe(x):
                     self.assertEqual(len(dset_test), 30)
                     self.assertDictEqual(
                         dset_test.features,
-                        Features({"id": Value("int64"), "text": Value("string")}),
+                        Features({"id": Value("int64"), "text": Value(STRING_FROM_PANDAS)}),
                     )
                     self.assertEqual(dset_test[0]["id"], 0)
                     self.assertEqual(dset_test[0]["text"], "a")
@@ -1672,7 +1675,7 @@ def func_return_single_row_pd_dataframe_batched(x):
                     self.assertEqual(len(dset_test), 30)
                     self.assertDictEqual(
                         dset_test.features,
-                        Features({"id": Value("int64"), "text": Value("string")}),
+                        Features({"id": Value("int64"), "text": Value(STRING_FROM_PANDAS)}),
                     )
                     self.assertEqual(dset_test[0]["id"], 0)
                     self.assertEqual(dset_test[0]["text"], "a")
@@ -2702,6 +2705,12 @@ def test_to_sql(self, in_memory):
                 self.assertListEqual(list(sql_dset.columns), list(dset.column_names))
 
             # With array features
+            if datasets.config.PANDAS_VERSION.major >= 3:
+                # Pandas 3 can't save and reload string data
+                # pandas/_libs/lib.pyx:732: in pandas._libs.lib.ensure_string_array
+                # E   UnicodeDecodeError: 'utf-8' codec can't decode byte 0x98 in position 0: invalid start byte
+                # pandas/_libs/lib.pyx:846: UnicodeDecodeError
+                return
             with self._create_dummy_dataset(in_memory, tmp_dir, array_features=True) as dset:
                 file_path = os.path.join(tmp_dir, "test_path.sqlite")
                 _ = dset.to_sql("data", "sqlite:///" + file_path, if_exists="replace")
@@ -3285,7 +3294,9 @@ def test_from_pandas(self):
             self.assertSequenceEqual(dset["col_1"], data["col_1"])
             self.assertSequenceEqual(dset["col_2"], data["col_2"])
             self.assertListEqual(list(dset.features.keys()), ["col_1", "col_2"])
-            self.assertDictEqual(dset.features, Features({"col_1": Value("int64"), "col_2": Value("string")}))
+            self.assertDictEqual(
+                dset.features, Features({"col_1": Value("int64"), "col_2": Value(STRING_FROM_PANDAS)})
+            )
 
         features = Features({"col_1": Value("int64"), "col_2": Value("string")})
         with Dataset.from_pandas(df, features=features) as dset:
@@ -4200,7 +4211,7 @@ def _check_sql_dataset(dataset, expected_features):
 @pytest.mark.parametrize("con_type", ["string", "engine"])
 def test_dataset_from_sql_con_type(con_type, sqlite_path, tmp_path, set_sqlalchemy_silence_uber_warning, caplog):
     cache_dir = tmp_path / "cache"
-    expected_features = {"col_1": "string", "col_2": "int64", "col_3": "float64"}
+    expected_features = {"col_1": STRING_FROM_PANDAS, "col_2": "int64", "col_3": "float64"}
     if con_type == "string":
         con = "sqlite:///" + sqlite_path
     elif con_type == "engine":
@@ -4238,7 +4249,7 @@ def test_dataset_from_sql_con_type(con_type, sqlite_path, tmp_path, set_sqlalche
 )
 def test_dataset_from_sql_features(features, sqlite_path, tmp_path, set_sqlalchemy_silence_uber_warning):
     cache_dir = tmp_path / "cache"
-    default_expected_features = {"col_1": "string", "col_2": "int64", "col_3": "float64"}
+    default_expected_features = {"col_1": STRING_FROM_PANDAS, "col_2": "int64", "col_3": "float64"}
     expected_features = features.copy() if features else default_expected_features
     features = (
         Features({feature: Value(dtype) for feature, dtype in features.items()}) if features is not None else None
@@ -4251,7 +4262,7 @@ def test_dataset_from_sql_features(features, sqlite_path, tmp_path, set_sqlalche
 @pytest.mark.parametrize("keep_in_memory", [False, True])
 def test_dataset_from_sql_keep_in_memory(keep_in_memory, sqlite_path, tmp_path, set_sqlalchemy_silence_uber_warning):
     cache_dir = tmp_path / "cache"
-    expected_features = {"col_1": "string", "col_2": "int64", "col_3": "float64"}
+    expected_features = {"col_1": STRING_FROM_PANDAS, "col_2": "int64", "col_3": "float64"}
     with assert_arrow_memory_increases() if keep_in_memory else assert_arrow_memory_doesnt_increase():
         dataset = Dataset.from_sql(
             "dataset", "sqlite:///" + sqlite_path, cache_dir=cache_dir, keep_in_memory=keep_in_memory