broadinstitute
diff --git a/‎ingest/de.py‎
Lines changed: 7 additions & 5 deletions b/‎ingest/de.py‎
Lines changed: 7 additions & 5 deletions
@@ -52,7 +52,7 @@ def __init__(
         self.accession = self.kwargs["study_accession"]
         self.annot_scope = self.kwargs["annotation_scope"]
         # only used in output filename, replacing non-alphanumeric with underscores
-        self.cluster_name = re.sub(r'\W+', '_', self.kwargs["name"])
+        self.cluster_name = re.sub(r'\W', '_', self.kwargs["name"])
         self.method = self.kwargs["method"]
 
         if matrix_file_type == "mtx":
@@ -135,6 +135,8 @@ def process_annots(metadata_file_path, allowed_file_types, headers, dtypes):
             skiprows=2,
             index_col=0,
             dtype=dtypes,
+            keep_default_na=False,
+            na_values=[""],
         )
         group_annots = [k for k, v in dtypes.items() if v == str]
         # Where group metadata is missing values (eg. optional or nonconventional metadata)
@@ -387,8 +389,8 @@ def run_scanpy_de(
         DifferentialExpression.de_logger.info("Gathering DE annotation labels")
         groups = np.unique(adata.obs[annotation]).tolist()
         for group in groups:
-            clean_group = re.sub(r'\W+', '_', group)
-            clean_annotation = re.sub(r'\W+', '_', annotation)
+            clean_group = re.sub(r'\W', '_', group)
+            clean_annotation = re.sub(r'\W', '_', annotation)
             DifferentialExpression.de_logger.info(f"Writing DE output for {group}")
             rank = sc.get.rank_genes_groups_df(adata, key=rank_key, group=group)
             if DifferentialExpression.delimiter_in_gene_name(rank):
@@ -408,8 +410,8 @@ def run_scanpy_de(
 
     @staticmethod
     def string_for_output_match(arguments):
-        cleaned_cluster_name = re.sub(r'\W+', '_', arguments["cluster_name"])
-        cleaned_annotation_name = re.sub(r'\W+', '_', arguments["annotation_name"])
+        cleaned_cluster_name = re.sub(r'\W', '_', arguments["cluster_name"])
+        cleaned_annotation_name = re.sub(r'\W', '_', arguments["annotation_name"])
         files_to_match = f"{cleaned_cluster_name}--{cleaned_annotation_name}*.tsv"
         return files_to_match