Nombre del equipo
Los No Supervisados
Integrantes
- Juan Francisco Mandujano Reyes
- Daniela Andaluz Ramírez
- Judith Tavarez Rodríguez
- Erick Salvador Alvarez Valencia
- José Daniel Maldonado Núñez
Este flujo de trabajo resuelve la tarea de procesar imágenes, extraer texto e identificar entidades (nombres, lugares, organizaciones y fechas) de capturas de fichas de información tomadas entre 1965 y 1984 relacionadas con individuos desaparecidos en México.
- La imagen entra al modelo, se corrige la calidad rotándola si es necesario y cambiando la escala de colores a blanco y negro.
- Posteriormente se extrae el texto utilizando el framework pytesseract.
- Luego, el texto extraído se somete a un proceso de limpieza: corrección ortográfica utilizando la librería de autocorrect de python y retirando caracteres especiales.
- Finalmente el texto limpio entra al modelo para reconocer entidades generando un resultado en un archivo CSV.
Ejecutar el codigo del archivo JusticIA_AccesoDatos.ipynb siguiendo el orden de las celdas.
Acerca de los README