Lo primero es que existen dos tipos diferentes de estructura de PDF, nativo y escaneado:
- Native: Es originalmente creado por ordenador
- Escaneado: Se han escaneado los documentos
En la automatizacion de PDF la información puede ser extraída usando dos actividades separadas:
- Extrae información usando la actividad de ‘leer PDF’
- Extrae información usando la actividad de ‘leer PDF’ con OCR
‘Leer PDF’ es el más preciso de los dos, pero solo funciona con PDF nativo, en cambio el ‘Leer PDF con OCR’ es menos preciso, pero puede extraer información de los documentos PDF escaneados.