Procesado de señales sociales

Aunque los seres humanos empleamos la comunicación oral como medio habitual de interacción con otras personas, lo cierto es que, inconscientemente, también usamos un segundo canal de comunicación no verbal, existente desde antes incluso que el habla. La interpretación de las llamadas señales sociales, que conforman este segundo canal, ayuda a conocer el estado de ánimo de una persona, así como ciertos aspectos de su personalidad. La propia apariencia física del individuo (altura, forma, o constitución) parece jugar un papel determinante en la personalidad del mismo, tal y como revelan distintos estudios

En Psicología, uno de los métodos más comúnmente aceptados para describir emociones humanas es el basado en categorías discretas. El ejemplo más popular lo encontramos en las 6 emociones básicas: enfado, miedo, sorpresa, tristeza, alegría y disgusto (además de la neutra) propuestas por el Dr. Ekman, quien demostró que las expresiones faciales que reflejan estas emociones son universales e independientes de factores culturales.

Si bien los estudios para la clasificación psicológica de los estados de ánimo y de la personalidad a partir de señales audiovisuales llevan en vigor más de 50 años, los avances de las últimas décadas en procesado de voz y audio permiten plantear una clasificación de forma automática, dando lugar a lo que se denomina como computación afectiva («affective computing»). El procesado automático de estas señales sociales conlleva, por tanto, el análisis de señales visuales y auditivas, de las cuales se extraen una serie de características que permitirán discernir las distintas componentes indicadoras del estado de ánimo o la personalidad.

Dentro del «affective computing», las expresiones faciales constituyen una de las fuentes de información más importantes, como constatan numerosos estudios. Por tanto, aunque existen otras fuentes de información visual, como la gesticulación corporal, el procesado de señales visuales se ha centrado en el análisis de las expresiones faciales. En este ámbito, el sistema más empleado hoy en día es el sistema conocido como FACS (Facial Action Coding System), desarrollado también por el Dr. Ekman, y que se basa en la segmentación de los movimientos musculares de la cara en una serie de unidades de acción (Action Units, AU), que permiten evaluar de forma objetiva cuál es la expresión facial de una persona. A partir de estos datos, puede determinarse cuál es su estado de ánimo.

20101022_seales_sociales1

Mientras que las 6 emociones básicas (expresadas de forma no espontánea) son reconocidas de forma sencilla por numerosos sistemas, el reconocimiento en condiciones realistas presenta grandes dificultades debido a: 1) la diferencia en apariencia entre el comportamiento espontáneo y el fingido, y 2) la problemática inherente al procesado facial en entornos no controlados (pose o iluminación). Así, el verdadero reto se centra en el estudio de técnicas para el reconocimiento de emociones básicas y complejas (p.ej. interés o aburrimiento) y de detección de AU’s basándose en combinaciones de características faciales geométricas y de apariencia. Entre las técnicas empleadas para la extracción de características faciales geométricas y de apariencia se encuentran los modelos de forma (ASM’s), y los modelos de apariencia (AAM’s), que permiten determinar, por ejemplo, si un sujeto frunce el ceño, sonríe, levanta las cejas o muestra dolor. Igualmente existen trabajos enfocados a discernir expresiones verdaderas de fingidas (p.ej. sonrisas).

Por su parte, las señales vocales contienen dos tipos de información básica: semántica y no semántica. La información semántica se refiere al significado de las palabras empleadas en una frase, y a cómo éstas son seleccionadas, mientras que la no semántica se refiere a la calidad de la voz, la vocalización lingüística y no lingüística, los silencios y los patrones de turnos de una conversación. Este tipo de información (no semántica), permite discernir si una persona está nerviosa o no, por ejemplo, o si tiene miedo. Además, se puede determinar quién lleva la voz dominante en una conversación, lo que permite realizar estudios de afinidad de personas a la hora de formar grupos de trabajo. El procesado de las señales auditivas distingue el procesado de los tramos con voz y los tramos sin voz. A través de modelos de mezclas gaussianas puede separarse la voz del resto de la información auditiva que no comprende la voz. El análisis de voz comprende la extracción de una serie de características espectrales (LPC y MFCC), y de prosodia (pitch, tempo y energía). Para los tramos sin voz, se han desarrollado técnicas que permiten detectar dudas, silencios, risa, llanto, y cambios de turno. Sin embargo, aún queda mucho por explorar en el campo del procesado de señales auditivas. En el mundo de la computación, el conocimiento del estado emocional y cognitivo de los usuarios a partir de información heterogénea (facial, gestual, vocal) abre las puertas a nuevos tipos de interacción afectiva, permitiendo la creación de interfaces centradas en las necesidades humanas. Es tal el auge de este tipo de investigación, que el IEEE acaba de publicar el primer número de su nueva revista, la IEEE Transactions on Affective Computing, que recoge los últimos avances en estos campos. Por otro lado, se ha creado una red de excelencia en inteligencia social y procesado de señales sociales (SSPNET), de cara a reunir los trabajos realizados en este campo de investigación. Además, ya se pueden encontrar una serie de aplicaciones aisladas que emplean este tipo de señales, como un sistema de detección automática de conductores que presentan síntomas de sueño, o un sistema inteligente que modela las acciones de los usuarios delante de la pantalla de un ordenador. El éxito del procesado de señales sociales no ha sido pasado por alto en Gradiant. Tal y como se ha comentado, los AAM’s permiten modelar los distintos AU’s. Asi, en el Centro se está trabajando en el desarrollo de AAM’s robustos, que además se están empleando en un gran número de aplicaciones, que pasan por la caricaturización automática, el reconocimiento facial, o el seguimiento de caras a lo largo de un flujo de vídeo.

20101022_seales_sociales2