Hackathon RIIAA 2021 "JusticIA para los desaparecidos"

Reto 1 y Reto 2

Nombre del equipo

Pista-Latente-ML

Integrantes

Andrea Berenice Ek Hobak
Gabriela Marali Mundo Cortes
Mario Xavier Canche Uc
Myrna Citlali Castillo Silva
Ramón Sidonio Aparicio García

Descripión

En este repositorio se encontrara el código fuente de los algoritmos desarrollados para el reto 1 y 2, durante el Hackathon RIIAA 2021 "JusticIA para los desaparecidos". De igual forma, los entregables csv para cada reto podrán ser encontrados dentro de la carpeta output de cada reto.

Pipeline

Reto 1

Lectura de la imagen.
Detección y registro de la ficha (eliminacion de ruido, umbralizacion,limpieza morfologica,deteccion de perfiles, recorte de la ficha a color).
Eliminación de ruido de la imagen a color.
Umbralización adaptativa.
Análisis de componentes conectados.
Eliminación de regiones pequeñas.
Extracción de características con una red neuronal VGG16.
Eliminación de columnas constantes de cero.
Proyección PCA.
Clusterización con K-Means.
Identificación de clusters de firmas, sellos, líneas, texto.
Identificar rostros en las imágenes.

Reto 2

Segmentación de Texto

Lectura de la imagen.
Detección y registro de la ficha (eliminacion de ruido, umbralizacion,limpieza morfologica,deteccion de perfiles, recorte de la ficha a color).
Eliminación de ruido de la imagen a color.
Umbralización adaptativa.
Análisis de componentes conectados.
Eliminación de regiones pequeñas.
Detección de texto con Tesseract.
Guardar el texto detectado en un csv de salida.
Procesar la siguiente imagen y agregar resultados al csv.

Procesar texto

Separar el texto en palabras.
Etiquetar palabras según corpus de vocabulario espanol.
Las palabras que no son etiquetadas dentro del vocabulario, como sustantivos, compararlas mediante expresiones regulares con las posibles entidades (enjuiciados, servidores publicos, lugares, organizaciones) proporcionadas por los organizadores, además
Una vez etiquetadas todas las palabras, utilizar estructuras gramaticales para encontrar y determinar si son expresiones de nombres completos, lugares u organizaciones.

Instrucciones de ejecución:

Para generar el entregable del reto 1, ejecutar primero el notebook Reto1/Genera_Entregable_Reto1.ipynb y luego Reto1/Genera_Entregable_Reto1_FaceRecog.ipynb. La salida lo encontraran en la carpeta Reto1/output.
Para generar el entregable del reto 2, ejecutar el notebook Reto2/Genera_Entregable_Reto2A.ipynb y luego el Reto2/Notebook_ExtraccionDeEntidades.ipynb.
Para ver paso a paso la clusterización del reto 1, ejecutar el notebook Reto1/StepByStep_Reto1.ipynb.
Para ver paso a paso el algoritmo de extracción de texto del reto 2, ejecutar el notebook Reto2/StepByStep_Reto2A.ipynb.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Hackathon RIIAA 2021 "JusticIA para los desaparecidos"

Reto 1 y Reto 2

Nombre del equipo

Integrantes

Descripión

Pipeline

Reto 1

Reto 2

Segmentación de Texto

Procesar texto

Instrucciones de ejecución:

Files

README.md

Latest commit

History

README.md

File metadata and controls

Hackathon RIIAA 2021 "JusticIA para los desaparecidos"

Reto 1 y Reto 2

Nombre del equipo

Integrantes

Descripión

Pipeline

Reto 1

Reto 2

Segmentación de Texto

Procesar texto

Instrucciones de ejecución: