Deep Learning: El siguiente paso en el Procesado de Lenguaje natural.

Deep Learning - Gradiant

El Procesamiento del Lenguaje Natural (PLN)  automático de textos  se ha aplicado con distintos niveles de éxito en el pasado. Por ejemplo, la traducción automática de textos atrajo mucha atención durante las primeras etapas del PLN. Hoy en día, con el uso generalizado de redes sociales, los usuarios crean un gran volumen de información. Esta información es  interesante para las empresas que necesitan la realimentación de los usuarios sobre sus  productos o que buscan generar información personalizada para abrir nuevos mercados.

De ahí que aparezcan nuevas aplicaciones como el análisis de sentimiento (extracción de opiniones en un comentario de un usuario sobre un producto), detección de demandas y necesidades y la generación de perfiles de usuario incluyendo sus gustos. Los seres humanos no pueden procesar esta información a tiempo sin un despliegue enorme de recursos y dinero por lo que soluciones tecnológicas automáticas se presentan como la única alternativa dada su mayor velocidad cuando se trata de procesar grandes volúmenes de datos.

Glik - Deep Learning - GradiantLa comprensión del lenguaje empleado por los usuarios en redes sociales es extremadamente complejo para los ordenadores. Los seres humanos pueden expresarse en lenguaje natural de infinidad de maneras. Además los textos informales están plagados de erratas, errores gramaticales y a mayores en redes sociales es común la presencia de construcciones específicas (p.e. Hashtags o emoticonos) que complican todavía más su análisis automático. A mayores, los seres humanos aprenden fácilmente nuevas palabras, lo hacen por contexto, mientras que este proceso en los ordenadores es mucho más complejo. Gracias a tecnologías Deep Learning este proceso puede realizarse de forma automática.

Deep Learning es actualmente una tendencia, ya que se utiliza en muchas aplicaciones que realizan operaciones complejas, en el pasado reservadas exclusivamente a los seres humanos. Este es el caso del sistemas para el reconocimiento de voz (e.g. Siri, Cortana o Google Talk) o visión por computador (reconocimiento facial o de objetos).

Dos factores han supuesto un gran progreso en PLN en los últimos años:

Word Embeddings: traducción de palabras a un dominio matemático donde las palabras se representan con números que tratan de capturar la semántica de la palabra. Este proceso se realiza automáticamente usando millones de dominio público (p.e. en redes sociales). Así, los ordenadores aprenden la representación de billones de palabras sin intervención humana alguna.

Abstracción de más alto nivel de textos: gracias a Deep Learning las representaciones de las palabras se combinan inteligentemente para obtener una visión semántica de documentos más complejos, como frases o documentos. Con esta información se puede obtener una comprensión del significado real de textos complejos, obteniendo así mejores resultados en comparación con sistemas de PLN previos que realizan análisis de sentimiento, traducción automática, detección de entidades, sistemas de pregunta/respuesta, etc.

En definitiva, aunque los expertos todavía son mejores que los ordenadores en la mayoría de aplicaciones de PLN, Deep Learning ha supuesto una gran mejora que ha reducido la distancia existente entre ambos de forma dramática durante los últimos cinco años. Además, Deep Learning se encuentra en la actualidad en una situación muy dulce, con una comunidad académica muy entusiasta y grandes compañías como Google, Apple o Microsoft invirtiendo dinero en esas tecnologías. No es demasiado arriesgado aventurar que el siguiente salto en tecnologías PLN no tardará mucho en llegar.

Gradiant ha adoptado las tecnologías Deep Learning para ganar competitividad internacional en tecnologías de PLN. Así, desde Gradiant se desarrollan algoritmos propios basados en los principios de Deep Learning para construir las tecnologías inteligentes del futuro.

Una sencilla introducción técnica a Deep Learning para PLN en el siguiente enlace:

http://colah.github.io/posts/2014-07-NLP-RNNs-Representations/

Para más información:

Glik: Customer listening

Gradiant Data Analytics

Eforos: Inteligencia para el Marketing de Contenidos

Contacta con nosotros

comercial@gradiant.org

Share on FacebookGoogle+Tweet about this on TwitterShare on LinkedIn