El profesor Ángel Serrano, en el XXX congreso de la SEPLN (1ª parte)

Compartir en:

El profesor del Grado en Ingeniería Informática Ángel Serrano ha asistido al XXX congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN), que ha tenido lugar del 16 al 19 de septiembre en la ciudad de Gerona. La asistencia al congreso ha corrido a cargo de un proyecto de investigación sobre reputación online en redes sociales financiado por la Universidad Francisco de Vitoria y del que Ángel Serrano es el investigador principal.

Como anticipo al congreso, en la jornada del 16 se celebró un Workshop de Análisis de Sentimientos, en el que se presentaron los resultados más relevantes de una competición científica denominada TASS, que ya va por su tercera edición. Dicha competición tenía dos objetivos: evaluar la evolución de las diferentes técnicas de análisis de sentimiento y clasificación de textos en español (para lo cual se repitieron corpus textuales de ediciones anteriores); y por otro lado, avanzar en la investigación del análisis de la polaridad de los textos a nivel de frase (es decir, indicar si cada frase es positiva o negativa, mejor que dar una polaridad global de todo el texto).

Para ello, se crearon cuatro tareas o apartados en la competición:

  1. Análisis de sentimiento a nivel global, lo cual es una tarea rescatada de ediciones anteriores de la competición. Se admitirán dos niveles de detalle en la polaridad: con 6 niveles (P+, P, NEU, N, N+, NONE) y con 4 niveles (P, N, NEU, NONE), donde P = positivo, NEU = neutral, N = negativo, NONE = ninguno.
  2. Clasificación de temas: el objetivo es construir un clasificador que identifique automáticamente el tema de cada mensaje en el conjunto de prueba. También es una tarea de ediciones anteriores.
  3. Detección de aspectos: La idea es detectar los diferentes aspectos expresados por los usuarios en las opiniones vertidas en sus tuits, tomados de una lista predefinida. Para ello se ha utilizado un corpus inédito para este año sobre los tuits publicados durante la Final de la Copa del Rey de fútbol.
  4. Análisis de sentimiento basado en aspectos: consistirá en identificar la polaridad del aspecto detectado en la tarea anterior, con tres niveles: P, NEU y N.

Las tareas 1 y 2 se aplicaron al denominado “Corpus General”. Está formado por un conjunto de 68017 mensajes de Twitter escritos en español por unos 150 personajes famosos del mundo de la política, economía, comunicación, medios y cultura. Las fechas de los tuits oscilan entre noviembre de 2011 y marzo de 2012. Aunque los mensajes están en español y su contenido está relacionado con España, los autores son de múltiples nacionalidades, a saber: España, México, Colombia, Puerto Rico, Estados Unidos, etc.

Este corpus de trabajo fue dividido en dos partes disjuntas: el conjunto de entrenamiento (alrededor 10%) y el de test (el 90% restante). El conjunto de entrenamiento sirve para entrenar los sistemas de clasificación, mientras que el conjunto de test sirve para evaluar el grado de acierto de dichos sistemas. Cada mensaje del corpus está etiquetado según su polaridad global: si expresa un sentimiento positivo,
negativo o neutro, o si no expresa sentimiento alguno, hasta un total de 6 niveles, como hemos indicado antes (P+, P, NEU, N, N+, NONE). Asimismo los mensajes tienen asignado un tema. Los temas tratados en los mensajes son muy diversos: política, fútbol, literatura, entretenimiento, economía, etc., así hasta un total de 10 temas.

El etiquetado de los mensajes del corpus se realizó de manera semiautomática: primero un algoritmo de aprendizaje automático clasificó los mensajes y posteriormente fueron comprobados por expertos humanos.

Por otro lado, los objetivos 3 y 4 de la competición TASS fueron aplicados al llamado “Corpus Social‐TV”. Corresponde a un conjunto de algo más de un millón de tuits que fueron publicados el 16 de abril de 2014 durante la final de la Copa del Rey de fútbol entre el Real Madrid y el F.C. Barcelona, desde 15 minutos antes del partido hasta 15 minutos después de su finalización. Tras realizar una exhaustiva
limpieza de mensajes inservibles o escritos en otros idiomas, se seleccionaron 2773 mensajes para formar parte del corpus.

En este caso se seleccionaron 31 aspectos, como pueden ser: afición, árbitro, Jugador‐Andrés Iniesta, Jugador‐Iker Casillas, etc. El sentimiento de los mensajes fue etiquetado desde el punto de vista de la persona que escribe el tuit, usando tres niveles: P, NEU y N.

Posteriormente este corpus fue dividido aleatoriamente en dos conjuntos: el de entrenamiento (1773 tuits) y el de test (1000 tuits), con una distribución similar de aspectos y sentimientos.

Principales resultados presentados en el Workshop TASS:

Según los organizadores del TASS, se registraron 35 grupos de investigación de toda España, si bien solo 7 enviaron resultados. Los grupos pertenecían a la Universidade da Coruña, a la Comisión Europea, Universitat Politècnica de València, Universidad de Jaén (2 grupos), Fundación Elhuyar (País Vasco), CINVESTAV‐IPN (México).

  • David Vilares, Yerai Doval, Miguel A. Alonso, Carlos Gómez‐Rodríguez (Universidade da Coruña): «LyS at TASS 2014: A Prototype for Extracting and Analysing Aspects from Spanish tweets»

Se basan en un análisis sintáctico automático, en el que se va creando un árbol de dependencias entre los elementos de la frase.

  • José M. Perea‐Ortega, Alexandra Balahur (Comisión Europea): «Experiments on feature replacements for polarity classification of Spanish tweets» 

Este grupo utiliza la técnica de los n‐gramas (secuencias de palabras que aparecen consecutivamente) y los skip‐gramas, n‐gramas en los que hay saltos intermedios entre palabras. Su principal conclusión fue que obtuvieron mejores resultados con los bigramas que con otros n‐gramas, y que los skip‐gramas no tuvieron un buen rendimiento, quizá porque no eliminaron las palabras vacías (stop words).

  • Lluís F. Hurtado, Ferran Pla (Universitat Politècnica de València): «ELiRF‐UPV en TASS 2014: Análisis de Sentimientos, Detección de Tópicos y Análisis de Sentimientos de Aspectos en Twitter»

Este grupo destacó, entre otras cosas, por el uso de expresiones regulares aplicadas al corpus del fútbol, en particular para la detección de los nombres de los jugadores.

  • A. Montejo‐Ráez, M.A. García‐Cumbreras, M.C. Díaz‐Galiano (Universidad de Jaén): «Participación de SINAI Word2Vec en TASS 2014» 

Lo interesante de este grupo fue que propusieron un modelo vectorial para representar los tuits, por el cual cada palabra es un vector y un tuit es una suma vectorial. Este modelo fue entrenado con toda la Wikipedia, al que posteriormente se le redujo la dimensión hasta 200 componentes. Posteriormente con un proceso de Deep Learning, o conjunto de redes neuronales con 1 capa oculta pero con muchísimos nodos, consiguieron entrenar el sistema. Con esta representación vectorial, se podría obtener el siguiente resultado:

vector(“reina”) = vector(“rey”) – vector(“hombre”) + vector(“mujer”).

Es decir, si al vector que representa el concepto de “rey” se le resta el vector que se refiere a un “hombre” y se le suma el vector de “mujer”, el resultado es un vector que puede asignarse al concepto “reina”.

  • Salud María Jiménez Zafra, Eugenio Martínez Cámara, M. Teresa Martín Valdivia, L. Alfonso Ureña López (Universidad de Jaén): «SINAI‐ESMA: An unsupervised approach for Sentiment Analysis in Twitter» 

Este grupo hace un especial hincapié en el estudio de las palabras que expresan negación (como “no”, “nada”, “ninguno”, etc.), así como el ámbito de la misma (saber qué es lo que se está negando exactamente, una palabra o toda la frase). Posteriormente cuentan las palabras según una lista previa conocida (palabras que expresan risa, tristeza, etc). Estos conteos son aplicados a fórmulas empíricas sobre la polaridad de la frase completa, cuyos coeficientes han sido calculados durante la fase de entrenamiento.

  • Iñaki San Vicente Roncal, Xabier Saralegi Urizar (Fundación Elhuyar): «Looking for Features for Supervised Tweet Polarity Classification» 

Este grupo utiliza varias técnicas, como pueden ser: la frecuencia de las palabras que expresan sentimientos, el uso de mayúsculas, las categorías gramaticales de las palabras (POS = part‐of‐speech), emoticonos, interjecciones, signos de puntuación, uso de locuciones y frases hechas (n‐gramas), uso de la negación, etc.

Continuar leyendo sobre el resto de ponencias del XXX congreso de la SEPLN.

Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información. ACEPTAR

Aviso de cookies