Make explain command filters more robust

soheilrt · soheilrt · commit 521e46a2d879 · 2021-12-14T20:35:47.000+03:30
diff --git a/explain.py b/explain.py
@@ -39,6 +39,7 @@ def get_arguments() -> argparse.Namespace:
         '-ot', '--output-type', help='the output file type, Default = json', type=str,
         choices=['json', 'csv'], default='json'
     )
+    parser.add_argument('--csv-write-header', help='write header in csv output', action='store_true')
     parser.add_argument(
         '--cefr-level', help='minimum word\'s cefr level to consider, default = B1', type=str,
         choices=['A1', 'A2', 'B1', 'B2', 'C1', 'C2'], default='B1'
@@ -50,6 +51,24 @@ def get_arguments() -> argparse.Namespace:
     parser.add_argument(
         '-v', '--verbose', help='verbose mode', default=False, action='store_true'
     )
+
+    parser.add_argument(
+        '--disable-meaningful-words-filter',
+        help='by default we try to filter out meaningless words, this option disable it',
+        action='store_true'
+    )
+
+    parser.add_argument(
+        '--char-limiter-min-length',
+        help='minimum length of the word to consider, default = 3',
+        type=int, default=3
+    )
+
+    parser.add_argument(
+        '--disable-char-limiter-filter',
+        help='by default we try to filter out words with too few characters, this option disable it',
+        action='store_true'
+    )
     args = parser.parse_args()
     return args
 
@@ -89,13 +108,16 @@ def get_tokenizer(_: argparse.Namespace) -> Tokenizer:
 
 
 def get_middlewares(args: argparse.Namespace) -> List[Middleware]:
-    return [
-        Number(),
-        CharLengthValidator(min_length=3),
-        MeaningfulWords(),
-        CEFRLimiter(min_cefr=args.cefr_level, filter_unknowns=args.ignore_unknown_cefr)
+    rules = [
+        (Number(), True),
+        (CharLengthValidator(min_length=args.char_limiter_min_length), not args.disable_char_limiter_filter),
+        (MeaningfulWords(), not args.disable_meaningful_words_filter),
+        (CEFRLimiter(min_cefr=args.cefr_level, filter_unknowns=not args.ignore_unknown_cefr),
+         not args.disable_meaningful_words_filter)
     ]
 
+    return list(rule[0] for rule in rules if rule[1])
+
 
 def get_definer(_: argparse.Namespace) -> Definer:
     return MultiSourceDefinerWithStorage(
diff --git a/readers/voice_speech_recognition.py b/readers/voice_speech_recognition.py
@@ -0,0 +1,21 @@
+from speech_recognition import AudioData, Recognizer
+
+from models.reader import Reader
+import speech_recognition as sr
+
+
+class VoiceRecognition(Reader):
+    def __init__(self, file_name: str):
+        super().__init__()
+        self.__file_name: str = file_name
+        self.__r: Recognizer = sr.Recognizer()
+
+    def read(self) -> str:
+        with sr.AudioFile(open(self.__file_name,'rb')) as audio_file:
+            print("reading audio file...")
+            audio_data = self.__r.record(audio_file)
+            print("extracting text from audio file...")
+            return self.__recognize(audio_data)
+
+    def __recognize(self, audio_data: AudioData) -> str:
+        return self.__r.recognize_google(audio_data)