Pista-Latente-ML
- Andrea Berenice Ek Hobak
- Gabriela Marali Mundo Cortes
- Mario Xavier Canche Uc
- Myrna Citlali Castillo Silva
- Ramón Sidonio Aparicio García
En este repositorio se encontrara el código fuente de los algoritmos desarrollados para el reto 1 y 2, durante el Hackathon RIIAA 2021 "JusticIA para los desaparecidos". De igual forma, los entregables csv para cada reto podrán ser encontrados dentro de la carpeta output de cada reto.
- Lectura de la imagen.
- Detección y registro de la ficha (eliminacion de ruido, umbralizacion,limpieza morfologica,deteccion de perfiles, recorte de la ficha a color).
- Eliminación de ruido de la imagen a color.
- Umbralización adaptativa.
- Análisis de componentes conectados.
- Eliminación de regiones pequeñas.
- Extracción de características con una red neuronal VGG16.
- Eliminación de columnas constantes de cero.
- Proyección PCA.
- Clusterización con K-Means.
- Identificación de clusters de firmas, sellos, líneas, texto.
- Identificar rostros en las imágenes.
- Lectura de la imagen.
- Detección y registro de la ficha (eliminacion de ruido, umbralizacion,limpieza morfologica,deteccion de perfiles, recorte de la ficha a color).
- Eliminación de ruido de la imagen a color.
- Umbralización adaptativa.
- Análisis de componentes conectados.
- Eliminación de regiones pequeñas.
- Detección de texto con Tesseract.
- Guardar el texto detectado en un csv de salida.
- Procesar la siguiente imagen y agregar resultados al csv.
- Separar el texto en palabras.
- Etiquetar palabras según corpus de vocabulario espanol.
- Las palabras que no son etiquetadas dentro del vocabulario, como sustantivos, compararlas mediante expresiones regulares con las posibles entidades (enjuiciados, servidores publicos, lugares, organizaciones) proporcionadas por los organizadores, además
- Una vez etiquetadas todas las palabras, utilizar estructuras gramaticales para encontrar y determinar si son expresiones de nombres completos, lugares u organizaciones.
- Para generar el entregable del reto 1, ejecutar primero el notebook Reto1/Genera_Entregable_Reto1.ipynb y luego Reto1/Genera_Entregable_Reto1_FaceRecog.ipynb. La salida lo encontraran en la carpeta Reto1/output.
- Para generar el entregable del reto 2, ejecutar el notebook Reto2/Genera_Entregable_Reto2A.ipynb y luego el Reto2/Notebook_ExtraccionDeEntidades.ipynb.
- Para ver paso a paso la clusterización del reto 1, ejecutar el notebook Reto1/StepByStep_Reto1.ipynb.
- Para ver paso a paso el algoritmo de extracción de texto del reto 2, ejecutar el notebook Reto2/StepByStep_Reto2A.ipynb.