Aprender a “leer”

 

Javier Sánchez Rois, Gradiant

La capacidad de los nuevos dispositivos para entender cada vez mejor el entorno que los rodea aumenta año a año. Es habitual que las nuevas aplicaciones móviles y páginas web utilicen lo que ven y oyen para potenciar nuevas formas de interacción con el usuario, proporcionar nuevas formas de acceso y autentificación; o, simplemente, obtener información sobre su entorno. La demanda de tecnologías que posibiliten este tipo de aprendizaje está en auge, y los gigantes tecnológicos muestran un creciente interés por este tipo de sistemas. Al igual que ocurre con la detección de objetos o el reconocimiento de voz, el reconocimiento de texto escrito no es ajeno a esta demanda, y es precisamente una de las claves para el futuro de los smart devices.

El reconocimiento de caracteres (OCR) es una tecnología veterana. Con su origen en la década de 1970, su evolución ha sido posible gracias a los sucesivos avances en areas como el procesado de imagen y el reconocimiento de patrones. Así, es posible afirmar que en la actualidad el reconocimiento de texto en documentos e imágenes en condiciones controladas es parte de una tecnología ya madura. Prueba de ello son las diferentes soluciones software existentes en la actualidad, muchas de ellas integradas en procesadores de texto o sistemas de almacenamiento en la nube (GoogleDrive con su motor Tesseract). Sin embargo, la era de los dispositivos móviles plantea un nuevo reto: localizar y reconocer el texto presente en entornos no controlados, donde una serie de factores (iluminación irregular, cambios de perspectiva, oclusiones..) dificultan enormemente el proceso.
El interés por desarrollar algoritmos capaces de leer texto en entornos naturales ha motivado diferentes eventos académicos como las conferencias ICDAR, que en sus sucesivas convocatorias ha contemplado la aparición de novedosas técnicas. Por otra parte, en los últimos años se han presentado nuevos sistemas relacionados con el reconocimiento de texto: el plugin Naptha, por ejemplo, permite detectar y reconocer texto en cualquier elemento presente en un navegador web, mientras que Google presentaba recientemente una tecnología capaz de reconocer más del 90% de texto en captchas e imágenes de GoogleStreetView. El interés que suscita este tipo de sistemas es aún mayor si lo relacionamos con la aparición de nuevos smart devices (como las Google Glass) y con el auge de la realidad aumentada.
Aunque obtener un sistema capaz de reconocer el texto que vemos cada día por la calle supone todo un desafío para las tecnologías actuales, es muy probable que en los próximos años podamos presenciar la aparición de nuevos dispositivos capaces de leer por nosotros. GRADIANT quiere formar parte de este gran reto, y por ello, en proyectos como MAVEN, el centro trabaja en el desarrollo de sistemas capaces de reconocer texto en imágenes naturales.