El Reconocimiento Óptico de Caracteres, conocido por sus siglas en inglés OCR (Optical Character Recognition), es una tecnología que extrae texto de imágenes, documentos escaneados y fotografías. Funciona analizando los patrones visuales en una imagen, identificando caracteres individuales y convirtiéndolos en texto digital que los ordenadores pueden procesar. Los sistemas modernos de OCR utilizan modelos de aprendizaje profundo que pueden manejar una amplia variedad de fuentes tipográficas, estilos de escritura manual, calidades de imagen y diseños de documentos con una precisión notable.
En la atención sanitaria, el OCR es un puente fundamental entre los flujos de trabajo basados en papel y los sistemas digitales. A pesar del crecimiento de las historias clínicas electrónicas, una parte significativa de la documentación médica — particularmente en países en desarrollo e instalaciones clínicas más pequeñas — todavía existe en papel. Los informes de laboratorio, las recetas y las notas clínicas se imprimen, envían por fax o fotografían con frecuencia, creando una enorme brecha entre los datos que existen y los datos que son digitalmente accesibles.
El OCR para informes de laboratorio presenta desafíos únicos en comparación con la digitalización general de documentos. Los informes de laboratorio contienen datos tabulares densos con valores numéricos, unidades de medida, rangos de referencia y terminología médica especializada. Vienen en cientos de formatos diferentes según el laboratorio, el país y el tipo de análisis. Un sistema robusto de OCR de laboratorio no solo debe extraer el texto con precisión, sino también comprender la estructura del documento — identificando qué valores pertenecen a qué pruebas y preservando las relaciones entre nombres de pruebas, resultados, unidades y rangos de referencia.
Los enfoques modernos del OCR de informes de laboratorio utilizan motores de extracción potenciados por inteligencia artificial que pueden comprender tanto el texto como la estructura del documento. Estos sistemas logran alta precisión incluso en casos difíciles como imágenes degradadas, estructuras de tablas complejas o anotaciones manuscritas. El texto extraído se procesa luego para mapear los resultados a códigos estandarizados como LOINC, produciendo finalmente recursos FHIR estructurados.