Revert tests/testdata changes and address flake8 issues

RaiBP · May 3, 2022 · 8c997e5 · 8c997e5
1 parent d95a433
commit 8c997e5
Show file tree

Hide file tree

Showing 627 changed files with 655 additions and 633 deletions.
diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
@@ -1,3 +1,5 @@
+# Ignore test linting to avoid conflicting changes to version stability.
+exclude: ^tests/testdata/
 repos:
   - repo: https://github.com/pre-commit/pre-commit-hooks
     rev: v4.1.0

diff --git a/lm_eval/decontamination/decontaminate.py b/lm_eval/decontamination/decontaminate.py
@@ -9,6 +9,7 @@
 from .janitor import Janitor, word_ngrams
 from .archiver import ZStdTextReader
 
+
 # Was used for testing the evaluator decoupled from the full logic below
 def get_train_overlap_stub(docs, ngrams_path, ngrams_n_size):
     simulated_overlap = 0.1

diff --git a/lm_eval/decontamination/janitor.py b/lm_eval/decontamination/janitor.py
@@ -11,7 +11,7 @@
     import janitor_util
 
     JANITOR_CPP = True
-except Exception as e:
+except Exception:
     print("WARNING: C++ module could not be loaded. Janitor running in python mode")
     traceback.print_exc()
     JANITOR_CPP = False

diff --git a/lm_eval/tasks/__init__.py b/lm_eval/tasks/__init__.py
@@ -22,14 +22,12 @@
 from . import sat
 from . import arithmetic
 from . import lambada
-from . import race
 from . import piqa
 from . import prost
 from . import mc_taco
 from . import triviaqa
 from . import pubmedqa
 from . import sciq
-from . import webqs
 from . import qasper
 from . import qa4mre
 from . import translation
@@ -294,7 +292,7 @@
 def get_task(task_name):
     try:
         return TASK_REGISTRY[task_name]
-    except KeyError as e:
+    except KeyError:
         print("Available tasks:")
         pprint(TASK_REGISTRY)
         raise KeyError(f"Missing task {task_name}")

diff --git a/lm_eval/tasks/blimp.py b/lm_eval/tasks/blimp.py
@@ -28,7 +28,7 @@
     eprint = {https://doi.org/10.1162/tacl_a_00321},
     abstract = { We introduce The Benchmark of Linguistic Minimal Pairs (BLiMP),1 a challenge set for evaluating the linguistic knowledge of language models (LMs) on major grammatical phenomena in English. BLiMP consists of 67 individual datasets, each containing 1,000 minimal pairs—that is, pairs of minimally different sentences that contrast in grammatical acceptability and isolate specific phenomenon in syntax, morphology, or semantics. We generate the data according to linguist-crafted grammar templates, and human aggregate agreement with the labels is 96.4\%. We evaluate n-gram, LSTM, and Transformer (GPT-2 and Transformer-XL) LMs by observing whether they assign a higher probability to the acceptable sentence in each minimal pair. We find that state-of-the-art models identify morphological contrasts related to agreement reliably, but they struggle with some subtle semantic and syntactic phenomena, such as negative polarity items and extraction islands. }
 }
-"""
+"""  # noqa: W605
 
 
 class BlimpTask(Task):

diff --git a/lm_eval/tasks/hendrycks_math.py b/lm_eval/tasks/hendrycks_math.py
@@ -98,7 +98,7 @@ def is_equiv(self, str1, str2, verbose=False):
             if verbose:
                 print(ss1, ss2)
             return ss1 == ss2
-        except:
+        except Exception:
             return str1 == str2
 
     def remove_boxed(self, s):
@@ -246,7 +246,7 @@ def strip_string(self, string):
 
         # remove percentage
         string = string.replace("\\%", "")
-        string = string.replace("\%", "")
+        string = string.replace("\%", "")  # noqa: W605
 
         # " 0." equivalent to " ." and "{0." equivalent to "{." Alternatively, add "0" if "." is the start of the string
         string = string.replace(" .", " 0.")

diff --git a/lm_eval/tasks/naturalqs.py b/lm_eval/tasks/naturalqs.py
@@ -71,7 +71,7 @@ def doc_to_decontamination_query(self, doc):
 
     def doc_to_target(self, doc):
         # There's a short answer and a long answer. Based on the paper, I'm using the long answer.
-        short_answer = doc["annotations"]["short_answers"][0]["text"]
+        # short_answer = doc["annotations"]["short_answers"][0]["text"]
         long_answer_start = doc["annotations"]["long_answer"][0]["start_token"]
         long_answer_end = doc["annotations"]["long_answer"][0]["end_token"]
         long_answer_span = doc["document"]["tokens"]["token"][

diff --git a/lm_eval/tasks/qa4mre.py b/lm_eval/tasks/qa4mre.py
@@ -23,7 +23,7 @@
     booktitle={CLEF},
     year={2013}
 }
-"""
+"""  # noqa: W605
 
 
 class QA4MRE(MultipleChoiceTask):

diff --git a/lm_eval/tasks/squad.py b/lm_eval/tasks/squad.py
@@ -144,7 +144,7 @@ def process_results(self, doc, results):
             "f1": (
                 predictions,
                 references,
-            ),  #  The F-score of predicted tokens versus the gold answer
+            ),  # The F-score of predicted tokens versus the gold answer
             "HasAns_exact": (
                 predictions,
                 references,
@@ -180,7 +180,7 @@ def aggregation(self):
             ),  # Exact match (the normalized answer exactly match the gold answer)
             "f1": partial(
                 _squad_agg, "f1"
-            ),  #  The F-score of predicted tokens versus the gold answer
+            ),  # The F-score of predicted tokens versus the gold answer
             "HasAns_exact": partial(
                 _squad_agg, "HasAns_exact"
             ),  # Exact match (the normalized answer exactly match the gold answer)
@@ -209,7 +209,7 @@ def higher_is_better(self):
         """
         return {
             "exact": True,  # Exact match (the normalized answer exactly match the gold answer)
-            "f1": True,  #  The F-score of predicted tokens versus the gold answer
+            "f1": True,  # The F-score of predicted tokens versus the gold answer
             "HasAns_exact": True,  # Exact match (the normalized answer exactly match the gold answer)
             "HasAns_f1": True,  # The F-score of predicted tokens versus the gold answer
             "NoAns_exact": True,  # Exact match (the normalized answer exactly match the gold answer)

diff --git a/lm_eval/tasks/truthfulqa.py b/lm_eval/tasks/truthfulqa.py
@@ -390,6 +390,7 @@ def rouge(self, refs, preds):
         rouge_types = ["rouge1", "rouge2", "rougeLsum"]
         scorer = rouge_scorer.RougeScorer(rouge_types)
         # Add newlines between sentences to correctly compute `rougeLsum`.
+
         def _prepare_summary(summary):
             summary = summary.replace(" . ", ".\n")
             return summary

diff --git a/scripts/clean_training_data/compress_and_package.py b/scripts/clean_training_data/compress_and_package.py
@@ -42,8 +42,12 @@ def compress_and_move(working_directory, output_directory, process_count):
         tasks.append(task)
 
     pool = TqdmMultiProcessPool(process_count)
-    on_done = lambda _: None
-    on_error = lambda _: None
+
+    def on_done(_):
+        return None
+
+    def on_error(_):
+        return None
 
     global_progress = tqdm(
         total=len(bucket_file_paths), dynamic_ncols=True, unit="file"

diff --git a/scripts/clean_training_data/investigate_pile.py b/scripts/clean_training_data/investigate_pile.py
@@ -51,8 +51,12 @@ def get_stats():
     # Generate minhashes with pool
     tasks = [(get_file_stats, (file,)) for file in files]
 
-    on_done = lambda _: None
-    on_error = lambda _: None
+    def on_done(_):
+        return None
+
+    def on_error(_):
+        return None
+
     results = pool.map(global_tqdm, tasks, on_error, on_done)
 
     total_documents, total_size = reduce(

diff --git a/scripts/clean_training_data/process_sorted_buckets.py b/scripts/clean_training_data/process_sorted_buckets.py
@@ -30,12 +30,13 @@
 
 logger = logging.getLogger(__name__)
 
+
 # Multiprocessed
 def process_bucket(
     bucket_file_path, processed_directory, move_dir, tqdm_func, global_tqdm
 ):
 
-    bucket_id = re.sub("\D", "", os.path.basename(bucket_file_path))
+    bucket_id = re.sub("\D", "", os.path.basename(bucket_file_path))  # noqa: W605
     done_file = os.path.join(
         processed_directory, f"ngram_bucket_processing_{bucket_id}.done"
     )
@@ -106,8 +107,13 @@ def process_sorted_buckets(working_directory, move_dir, process_count):
     ]
 
     global_tqdm = tqdm(total=len(bucket_file_paths), dynamic_ncols=True, unit="bucket")
-    on_done = lambda _: None
-    on_error = lambda _: None
+
+    def on_done(_):
+        return None
+
+    def on_error(_):
+        return None
+
     _ = pool.map(global_tqdm, tasks, on_error, on_done)
 
 

diff --git a/tests/test_generate_13_grams.py b/tests/test_generate_13_grams.py
@@ -3,7 +3,7 @@
 import shutil
 import glob
 
-from lm_eval.decontamination.janitor import *
+from lm_eval.decontamination.janitor import Janitor, word_ngrams
 from scripts.clean_training_data.generate_13_grams import do_ngrams_in_buckets
 from lm_eval.decontamination.archiver import Archive, TextReader
 

diff --git a/tests/test_janitor.py b/tests/test_janitor.py
@@ -1,7 +1,13 @@
 import re
 from collections import defaultdict
 
-from lm_eval.decontamination.janitor import *
+from lm_eval.decontamination.janitor import (
+    Janitor,
+    form_ngrams,
+    word_ngrams,
+    split_indices,
+    word_ngrams_indices,
+)
 
 
 def simple_ngram(sequence, n):

diff --git a/tests/testdata/anagrams1-v0-greedy_until b/tests/testdata/anagrams1-v0-greedy_until
@@ -1 +1 @@
-7c0c5246d3f751f39119a5629ac1d4b2c6fd2a315f78d6de9b2c387e24e3fef1
+7c0c5246d3f751f39119a5629ac1d4b2c6fd2a315f78d6de9b2c387e24e3fef1
diff --git a/tests/testdata/anagrams1-v0-res.json b/tests/testdata/anagrams1-v0-res.json
@@ -1 +1 @@
-{"results": {"anagrams1": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"anagrams1": 0}}
+{"results": {"anagrams1": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"anagrams1": 0}}
diff --git a/tests/testdata/anagrams2-v0-greedy_until b/tests/testdata/anagrams2-v0-greedy_until
@@ -1 +1 @@
-6700a3c44e48abe8337238dcbe3b54cf4abafe0c204c52d921e590872fbd05e7
+6700a3c44e48abe8337238dcbe3b54cf4abafe0c204c52d921e590872fbd05e7
diff --git a/tests/testdata/anagrams2-v0-res.json b/tests/testdata/anagrams2-v0-res.json
@@ -1 +1 @@
-{"results": {"anagrams2": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"anagrams2": 0}}
+{"results": {"anagrams2": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"anagrams2": 0}}
diff --git a/tests/testdata/anli_r1-v0-loglikelihood b/tests/testdata/anli_r1-v0-loglikelihood
@@ -1 +1 @@
-3a84baf2f170e138c6ce0bc9f06f905def35d705fa2b8781f10c87aef404c4cb
+3a84baf2f170e138c6ce0bc9f06f905def35d705fa2b8781f10c87aef404c4cb
diff --git a/tests/testdata/anli_r1-v0-res.json b/tests/testdata/anli_r1-v0-res.json
@@ -1 +1 @@
-{"results": {"anli_r1": {"acc": 0.334, "acc_stderr": 0.014922019523732967}}, "versions": {"anli_r1": 0}}
+{"results": {"anli_r1": {"acc": 0.334, "acc_stderr": 0.014922019523732967}}, "versions": {"anli_r1": 0}}
diff --git a/tests/testdata/anli_r2-v0-loglikelihood b/tests/testdata/anli_r2-v0-loglikelihood
@@ -1 +1 @@
-d0ea3c3e09d533982c15b4c034439896d6af4bbafb2254d305e20215534a251d
+d0ea3c3e09d533982c15b4c034439896d6af4bbafb2254d305e20215534a251d
diff --git a/tests/testdata/anli_r2-v0-res.json b/tests/testdata/anli_r2-v0-res.json
@@ -1 +1 @@
-{"results": {"anli_r2": {"acc": 0.356, "acc_stderr": 0.015149042659306628}}, "versions": {"anli_r2": 0}}
+{"results": {"anli_r2": {"acc": 0.356, "acc_stderr": 0.015149042659306628}}, "versions": {"anli_r2": 0}}
diff --git a/tests/testdata/anli_r3-v0-loglikelihood b/tests/testdata/anli_r3-v0-loglikelihood
@@ -1 +1 @@
-6b6e5c6a794f2fbff78b7aa24fe0c90156039334bbd1cb34f7af9fc6e6183845
+6b6e5c6a794f2fbff78b7aa24fe0c90156039334bbd1cb34f7af9fc6e6183845
diff --git a/tests/testdata/anli_r3-v0-res.json b/tests/testdata/anli_r3-v0-res.json
@@ -1 +1 @@
-{"results": {"anli_r3": {"acc": 0.31916666666666665, "acc_stderr": 0.01346230971200514}}, "versions": {"anli_r3": 0}}
+{"results": {"anli_r3": {"acc": 0.31916666666666665, "acc_stderr": 0.01346230971200514}}, "versions": {"anli_r3": 0}}
diff --git a/tests/testdata/arc_challenge-v0-loglikelihood b/tests/testdata/arc_challenge-v0-loglikelihood
@@ -1 +1 @@
-41c34c96cca8ace661911d0033d630c554b283f5a3953bcdc50720ae6b00a9c1
+41c34c96cca8ace661911d0033d630c554b283f5a3953bcdc50720ae6b00a9c1
diff --git a/tests/testdata/arc_challenge-v0-res.json b/tests/testdata/arc_challenge-v0-res.json
@@ -1 +1 @@
-{"results": {"arc_challenge": {"acc": 0.24488054607508533, "acc_norm": 0.2440273037542662, "acc_norm_stderr": 0.012551447627856257, "acc_stderr": 0.012566273985131354}}, "versions": {"arc_challenge": 0}}
+{"results": {"arc_challenge": {"acc": 0.24488054607508533, "acc_norm": 0.2440273037542662, "acc_norm_stderr": 0.012551447627856257, "acc_stderr": 0.012566273985131354}}, "versions": {"arc_challenge": 0}}
diff --git a/tests/testdata/arc_easy-v0-loglikelihood b/tests/testdata/arc_easy-v0-loglikelihood
@@ -1 +1 @@
-ffa6e39a35a16299dcb015f17f986aaa598ad8b4840c4cebe0339a7042232741
+ffa6e39a35a16299dcb015f17f986aaa598ad8b4840c4cebe0339a7042232741
diff --git a/tests/testdata/arc_easy-v0-res.json b/tests/testdata/arc_easy-v0-res.json
@@ -1 +1 @@
-{"results": {"arc_easy": {"acc": 0.2474747474747475, "acc_norm": 0.24074074074074073, "acc_norm_stderr": 0.008772796145221907, "acc_stderr": 0.008855114414834707}}, "versions": {"arc_easy": 0}}
+{"results": {"arc_easy": {"acc": 0.2474747474747475, "acc_norm": 0.24074074074074073, "acc_norm_stderr": 0.008772796145221907, "acc_stderr": 0.008855114414834707}}, "versions": {"arc_easy": 0}}
diff --git a/tests/testdata/arithmetic_1dc-v0-loglikelihood b/tests/testdata/arithmetic_1dc-v0-loglikelihood
@@ -1 +1 @@
-04c3a63a6b3c579bd3775d92b3076ba9130041d5ce7cf9244d3f86e95c804387
+04c3a63a6b3c579bd3775d92b3076ba9130041d5ce7cf9244d3f86e95c804387
diff --git a/tests/testdata/arithmetic_1dc-v0-res.json b/tests/testdata/arithmetic_1dc-v0-res.json
@@ -1 +1 @@
-{"results": {"arithmetic_1dc": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_1dc": 0}}
+{"results": {"arithmetic_1dc": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_1dc": 0}}
diff --git a/tests/testdata/arithmetic_2da-v0-loglikelihood b/tests/testdata/arithmetic_2da-v0-loglikelihood
@@ -1 +1 @@
-6ca1ca6ebd7cac4420d5005f7f35b0edbc921377f5e4f8874cc176e4fb6d79d4
+6ca1ca6ebd7cac4420d5005f7f35b0edbc921377f5e4f8874cc176e4fb6d79d4
diff --git a/tests/testdata/arithmetic_2da-v0-res.json b/tests/testdata/arithmetic_2da-v0-res.json
@@ -1 +1 @@
-{"results": {"arithmetic_2da": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_2da": 0}}
+{"results": {"arithmetic_2da": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_2da": 0}}
diff --git a/tests/testdata/arithmetic_2dm-v0-loglikelihood b/tests/testdata/arithmetic_2dm-v0-loglikelihood
@@ -1 +1 @@
-14ac5e510cdf82967d6827a9ca059906ee1db2e347be1b17f36403a157e73552
+14ac5e510cdf82967d6827a9ca059906ee1db2e347be1b17f36403a157e73552
diff --git a/tests/testdata/arithmetic_2dm-v0-res.json b/tests/testdata/arithmetic_2dm-v0-res.json
@@ -1 +1 @@
-{"results": {"arithmetic_2dm": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_2dm": 0}}
+{"results": {"arithmetic_2dm": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_2dm": 0}}
diff --git a/tests/testdata/arithmetic_2ds-v0-loglikelihood b/tests/testdata/arithmetic_2ds-v0-loglikelihood
@@ -1 +1 @@
-66f7ff3b40251ee38fadcbee658e309a200224356fc3efa07d0a490a2c24bfa3
+66f7ff3b40251ee38fadcbee658e309a200224356fc3efa07d0a490a2c24bfa3
diff --git a/tests/testdata/arithmetic_2ds-v0-res.json b/tests/testdata/arithmetic_2ds-v0-res.json
@@ -1 +1 @@
-{"results": {"arithmetic_2ds": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_2ds": 0}}
+{"results": {"arithmetic_2ds": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_2ds": 0}}
diff --git a/tests/testdata/arithmetic_3da-v0-loglikelihood b/tests/testdata/arithmetic_3da-v0-loglikelihood
@@ -1 +1 @@
-c421f9cd5a5001b80e528441da925128177a04db8526ebcdab543a90b33c9ce2
+c421f9cd5a5001b80e528441da925128177a04db8526ebcdab543a90b33c9ce2
diff --git a/tests/testdata/arithmetic_3da-v0-res.json b/tests/testdata/arithmetic_3da-v0-res.json
@@ -1 +1 @@
-{"results": {"arithmetic_3da": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_3da": 0}}
+{"results": {"arithmetic_3da": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_3da": 0}}
diff --git a/tests/testdata/arithmetic_3ds-v0-loglikelihood b/tests/testdata/arithmetic_3ds-v0-loglikelihood
@@ -1 +1 @@
-d3d8bad8827d4530945a1d8b3c7589c0235bbed0bc89e7561a6fdac678f6ce5c
+d3d8bad8827d4530945a1d8b3c7589c0235bbed0bc89e7561a6fdac678f6ce5c
diff --git a/tests/testdata/arithmetic_3ds-v0-res.json b/tests/testdata/arithmetic_3ds-v0-res.json
@@ -1 +1 @@
-{"results": {"arithmetic_3ds": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_3ds": 0}}
+{"results": {"arithmetic_3ds": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_3ds": 0}}
diff --git a/tests/testdata/arithmetic_4da-v0-loglikelihood b/tests/testdata/arithmetic_4da-v0-loglikelihood
@@ -1 +1 @@
-d3557beb8b9e5704122c2fc6362b11fbe2c3f2f3cb72aed4462b208767c40e01
+d3557beb8b9e5704122c2fc6362b11fbe2c3f2f3cb72aed4462b208767c40e01
diff --git a/tests/testdata/arithmetic_4da-v0-res.json b/tests/testdata/arithmetic_4da-v0-res.json
@@ -1 +1 @@
-{"results": {"arithmetic_4da": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_4da": 0}}
+{"results": {"arithmetic_4da": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_4da": 0}}
diff --git a/tests/testdata/arithmetic_4ds-v0-loglikelihood b/tests/testdata/arithmetic_4ds-v0-loglikelihood
@@ -1 +1 @@
-d915830b8621e66331383bb2ae4c60acebf008e2f94741092ef4c33ea5441037
+d915830b8621e66331383bb2ae4c60acebf008e2f94741092ef4c33ea5441037
diff --git a/tests/testdata/arithmetic_4ds-v0-res.json b/tests/testdata/arithmetic_4ds-v0-res.json
@@ -1 +1 @@
-{"results": {"arithmetic_4ds": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_4ds": 0}}
+{"results": {"arithmetic_4ds": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_4ds": 0}}
diff --git a/tests/testdata/arithmetic_5da-v0-loglikelihood b/tests/testdata/arithmetic_5da-v0-loglikelihood
@@ -1 +1 @@
-49edb1e735660631ea6cc309721e6c0b80b7106a613a6959514852ca48f1130e
+49edb1e735660631ea6cc309721e6c0b80b7106a613a6959514852ca48f1130e
diff --git a/tests/testdata/arithmetic_5da-v0-res.json b/tests/testdata/arithmetic_5da-v0-res.json
@@ -1 +1 @@
-{"results": {"arithmetic_5da": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_5da": 0}}
+{"results": {"arithmetic_5da": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_5da": 0}}
diff --git a/tests/testdata/arithmetic_5ds-v0-loglikelihood b/tests/testdata/arithmetic_5ds-v0-loglikelihood
@@ -1 +1 @@
-2888d6d098a5ef8c1e7f0d8295ba80826e2e04e431f57508dfb71d53e1cd4604
+2888d6d098a5ef8c1e7f0d8295ba80826e2e04e431f57508dfb71d53e1cd4604
diff --git a/tests/testdata/arithmetic_5ds-v0-res.json b/tests/testdata/arithmetic_5ds-v0-res.json
@@ -1 +1 @@
-{"results": {"arithmetic_5ds": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_5ds": 0}}
+{"results": {"arithmetic_5ds": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_5ds": 0}}
diff --git a/...ata/blimp_adjunct_island-v0-loglikelihood → ...ata/blimp_adjunct_island-v0-loglikelihood b/...ata/blimp_adjunct_island-v0-loglikelihood → ...ata/blimp_adjunct_island-v0-loglikelihood
@@ -1 +1 @@
-976a5cac4bdb724632eebd4cb9e522203ce3da8d5525288a597c86e80469f3f2
+976a5cac4bdb724632eebd4cb9e522203ce3da8d5525288a597c86e80469f3f2
diff --git a/...testdata/blimp_adjunct_island-v0-res.json → ...testdata/blimp_adjunct_island-v0-res.json b/...testdata/blimp_adjunct_island-v0-res.json → ...testdata/blimp_adjunct_island-v0-res.json
@@ -1 +1 @@
-{"results": {"blimp_adjunct_island": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_adjunct_island": 0}}
+{"results": {"blimp_adjunct_island": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_adjunct_island": 0}}
diff --git a/...anaphor_gender_agreement-v0-loglikelihood → ...anaphor_gender_agreement-v0-loglikelihood b/...anaphor_gender_agreement-v0-loglikelihood → ...anaphor_gender_agreement-v0-loglikelihood
@@ -1 +1 @@
-2d8964e56a17661502ecf3f09c0befba63915360ddf2145b0bd845816950515d
+2d8964e56a17661502ecf3f09c0befba63915360ddf2145b0bd845816950515d
diff --git a/...limp_anaphor_gender_agreement-v0-res.json → ...limp_anaphor_gender_agreement-v0-res.json b/...limp_anaphor_gender_agreement-v0-res.json → ...limp_anaphor_gender_agreement-v0-res.json
@@ -1 +1 @@
-{"results": {"blimp_anaphor_gender_agreement": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_anaphor_gender_agreement": 0}}
+{"results": {"blimp_anaphor_gender_agreement": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_anaphor_gender_agreement": 0}}
diff --git a/...anaphor_number_agreement-v0-loglikelihood → ...anaphor_number_agreement-v0-loglikelihood b/...anaphor_number_agreement-v0-loglikelihood → ...anaphor_number_agreement-v0-loglikelihood
@@ -1 +1 @@
-0bdad31c974ba064e1f1ba931841ec2ba7461e8b0ca54ea5f79f08b6bae0bab5
+0bdad31c974ba064e1f1ba931841ec2ba7461e8b0ca54ea5f79f08b6bae0bab5
diff --git a/...limp_anaphor_number_agreement-v0-res.json → ...limp_anaphor_number_agreement-v0-res.json b/...limp_anaphor_number_agreement-v0-res.json → ...limp_anaphor_number_agreement-v0-res.json
@@ -1 +1 @@
-{"results": {"blimp_anaphor_number_agreement": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_anaphor_number_agreement": 0}}
+{"results": {"blimp_anaphor_number_agreement": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_anaphor_number_agreement": 0}}
diff --git a/..._animate_subject_passive-v0-loglikelihood → ..._animate_subject_passive-v0-loglikelihood b/..._animate_subject_passive-v0-loglikelihood → ..._animate_subject_passive-v0-loglikelihood
@@ -1 +1 @@
-064c38fcd072b8bd12f54ea4f8e41599ed4e11dc386e93b77e1fc07967d1f960
+064c38fcd072b8bd12f54ea4f8e41599ed4e11dc386e93b77e1fc07967d1f960
diff --git a/...blimp_animate_subject_passive-v0-res.json → ...blimp_animate_subject_passive-v0-res.json b/...blimp_animate_subject_passive-v0-res.json → ...blimp_animate_subject_passive-v0-res.json
@@ -1 +1 @@
-{"results": {"blimp_animate_subject_passive": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_animate_subject_passive": 0}}
+{"results": {"blimp_animate_subject_passive": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_animate_subject_passive": 0}}
diff --git a/...mp_animate_subject_trans-v0-loglikelihood → ...mp_animate_subject_trans-v0-loglikelihood b/...mp_animate_subject_trans-v0-loglikelihood → ...mp_animate_subject_trans-v0-loglikelihood
@@ -1 +1 @@
-2a84231e7b79f517427e57e2099c88fed3d60a7efab4ef9506e263b4091d5cfa
+2a84231e7b79f517427e57e2099c88fed3d60a7efab4ef9506e263b4091d5cfa
diff --git a/...a/blimp_animate_subject_trans-v0-res.json → ...a/blimp_animate_subject_trans-v0-res.json b/...a/blimp_animate_subject_trans-v0-res.json → ...a/blimp_animate_subject_trans-v0-res.json
@@ -1 +1 @@
-{"results": {"blimp_animate_subject_trans": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_animate_subject_trans": 0}}
+{"results": {"blimp_animate_subject_trans": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_animate_subject_trans": 0}}
diff --git a/...testdata/blimp_causative-v0-loglikelihood → ...testdata/blimp_causative-v0-loglikelihood b/...testdata/blimp_causative-v0-loglikelihood → ...testdata/blimp_causative-v0-loglikelihood
@@ -1 +1 @@
-3d67ad025185dbb0808ebd7f508edcb5750c18fc3c01ad91f20fda80780c916c
+3d67ad025185dbb0808ebd7f508edcb5750c18fc3c01ad91f20fda80780c916c
diff --git a/...ests/testdata/blimp_causative-v0-res.json → tests/testdata/blimp_causative-v0-res.json b/...ests/testdata/blimp_causative-v0-res.json → tests/testdata/blimp_causative-v0-res.json
@@ -1 +1 @@
-{"results": {"blimp_causative": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_causative": 0}}
+{"results": {"blimp_causative": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_causative": 0}}
diff --git a/.../blimp_complex_NP_island-v0-loglikelihood → .../blimp_complex_NP_island-v0-loglikelihood b/.../blimp_complex_NP_island-v0-loglikelihood → .../blimp_complex_NP_island-v0-loglikelihood
@@ -1 +1 @@
-f46cfcc7e43050a235fd2a6b989cabbfbcce76786df74db9f0d4a9cd1caa1628
+f46cfcc7e43050a235fd2a6b989cabbfbcce76786df74db9f0d4a9cd1caa1628
Original file line number	Diff line number	Diff line change
		@@ -1 +1 @@
		7c0c5246d3f751f39119a5629ac1d4b2c6fd2a315f78d6de9b2c387e24e3fef1
		7c0c5246d3f751f39119a5629ac1d4b2c6fd2a315f78d6de9b2c387e24e3fef1
Original file line number	Diff line number	Diff line change
		@@ -1 +1 @@
		{"results": {"anagrams1": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"anagrams1": 0}}
		{"results": {"anagrams1": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"anagrams1": 0}}
Original file line number	Diff line number	Diff line change
		@@ -1 +1 @@
		6700a3c44e48abe8337238dcbe3b54cf4abafe0c204c52d921e590872fbd05e7
		6700a3c44e48abe8337238dcbe3b54cf4abafe0c204c52d921e590872fbd05e7
Original file line number	Diff line number	Diff line change
		@@ -1 +1 @@
		{"results": {"anagrams2": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"anagrams2": 0}}
		{"results": {"anagrams2": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"anagrams2": 0}}
Original file line number	Diff line number	Diff line change
		@@ -1 +1 @@
		3a84baf2f170e138c6ce0bc9f06f905def35d705fa2b8781f10c87aef404c4cb
		3a84baf2f170e138c6ce0bc9f06f905def35d705fa2b8781f10c87aef404c4cb
Original file line number	Diff line number	Diff line change
		@@ -1 +1 @@
		{"results": {"anli_r1": {"acc": 0.334, "acc_stderr": 0.014922019523732967}}, "versions": {"anli_r1": 0}}
		{"results": {"anli_r1": {"acc": 0.334, "acc_stderr": 0.014922019523732967}}, "versions": {"anli_r1": 0}}
Original file line number	Diff line number	Diff line change
		@@ -1 +1 @@
		d0ea3c3e09d533982c15b4c034439896d6af4bbafb2254d305e20215534a251d
		d0ea3c3e09d533982c15b4c034439896d6af4bbafb2254d305e20215534a251d
Original file line number	Diff line number	Diff line change
		@@ -1 +1 @@
		{"results": {"anli_r2": {"acc": 0.356, "acc_stderr": 0.015149042659306628}}, "versions": {"anli_r2": 0}}
		{"results": {"anli_r2": {"acc": 0.356, "acc_stderr": 0.015149042659306628}}, "versions": {"anli_r2": 0}}
Original file line number	Diff line number	Diff line change
		@@ -1 +1 @@
		6b6e5c6a794f2fbff78b7aa24fe0c90156039334bbd1cb34f7af9fc6e6183845
		6b6e5c6a794f2fbff78b7aa24fe0c90156039334bbd1cb34f7af9fc6e6183845
Original file line number	Diff line number	Diff line change
		@@ -1 +1 @@
		{"results": {"anli_r3": {"acc": 0.31916666666666665, "acc_stderr": 0.01346230971200514}}, "versions": {"anli_r3": 0}}
		{"results": {"anli_r3": {"acc": 0.31916666666666665, "acc_stderr": 0.01346230971200514}}, "versions": {"anli_r3": 0}}