Durante el XXX congreso de la Sociedad Española de Procesamiento de Lenguaje Natural de Gerona se presentaron ponencias de distintos temas, como son:
- Extracción de información.
- Desambiguación de palabras.
- Aprendizaje automático para Procesamiento de Lenguaje Natural.
- Aplicaciones del Procesamiento de Lenguaje Natural.
- Demos.
- Herramientas de Procesamiento de Lenguaje Natural.
- Extracción de Terminología y Lexiconos de Opinión.
A continuación pasamos a resumir los principales trabajos presentados. Los enlaces son a los artículos en formato PDF:
- Enrique Alfonseca (Google): “News understanding through event pattern clustering” (charla invitada)
Alfonseca habló de las estrategias que persigue Google para el futuro, como entender la intencionalidad del usuario, el contexto, la audiencia y ser flexible en múltiples dispositivos. Google recibe unos 100 mil millones de búsquedas al mes, de las cuales el 16% son nuevas. Se están acelerando los cambios, especialmente cuando el 60% de la población de Estados Unidos tiene un smartphone y el 40% del tráfico de YouTube es de móviles.
Google tiene un producto llamado Google Now el cual muestra respuestas antes de hacer las preguntas. Vivimos en un paradigma de búsqueda basado en diálogo, donde las claves son entender el contexto, las anáforas (referencias a cosas anteriores o posteriores), etc.
También es importante la compresión de frases y la construcción de árboles sintácticos. Esto se puede conseguir por ejemplo entrenando un sistema que compara frases de noticias con el titular (que suele ser breve). Las noticias es un mundo nuevo disponible a los investigadores, ya que son de dominio abierto y suelen ser de fuentes fiables de información, aunque no tienen un esquema o estructura concreta.
Otra manera de aprender es buscar patrones en las frases del tipo: «[actor] se ha casado con [actriz]», «[actor] contrae matrimonio con [actriz]», «[actor] se casó con [actriz]», etc. Este tipo de patrones permite detectar nuevas frases con significados similares.
A pesar de los grandes avances en Procesamiento de Lenguaje Natural, hay que tener cuidado con las principales fuentes de error, que son: la negación, la desambiguación de palabras, las correferencias y las metáforas.
- Pablo Gamallo, Juan Carlos Pichel, Marcos Garcia, José Manuel Abuín, Tomás Fernández Pena (Centro de Investigación en Tecnoloxías da Información CITIUS): «Análisis morfosintáctico y clasificación de entidades nombradas en un entorno Big Data»
Este grupo aplicó técnicas de Big Data, en concreto utilizó una arquitectura Hadoop Streaming, a un sistema basado en módulos lingüísticos, con etiquetado gramatical (POS) basado en clasificadores bayesianos, análisis morfosintáctico y clasificador de entidades nombradas (NEC). Los textos de entrada se dividen en subconjuntos y cada uno de ellos se procesa en paralelo en diferentes módulos del clúster de Hadoop.
Con esto se consiguen reducir enormemente los tiempos de ejecución de los algoritmos, con tasas de acelaración superiores a un factor 30 en el caso de un clúster con 68 nodos.
- Marcos Garcia, Pablo Gamallo (Centro Singular de Investigación en Tecnoloxías da Información CiTIUS y Universidade de Santiago de Compostela): «Entity‐Centric Coreference Solving of Person Entities for Open Information Extraction»
Este trabajo se centra en el estudio de correferencias para identificar las entidades de persona que aparecen en los mensajes. En concreto analiza los problemas subyacentes en casos de sujetos elípticos, pronombres, anáforas, sinónimos, etc. Se centraron en los idiomas español, gallego y portugués.
- Fernando Martínez Santiago, Miguel Ángel García Cumbreras, Arturo Montejo Ráez, Manuel Carlos Díaz Galiano (Departamento de Informática, Escuela Politécnica Superior, Universidad de Jaén): «Etiquetado de metáforas lingüísticas en un conjunto de documentos en español»
Este grupo analiza el problema de las metáforas que utilizamos en el lenguaje. Por ejemplo en la frase “Alicia no ve el problema”, el verbo “ve” no se refiere a algo visual. Otros ejemplos de metáforas son: “Resolveremos el problema más adelante” (tiempo es movimiento); “Él va sin dirección por la vida “ (vida es viaje); “Tus declaraciones son indefendibles” (argumento es guerra); “Tengo la mente puesta en otro lugar” (mente es objeto físico); “¿Cómo puedo matar un proceso?” (proceso es ser vivo), “ Parad el mundo, que me bajo” (mundo es transporte). Según estos autores, cada 3 frases hay 1 término que es una metáfora.
- Xavier Gómez Guinovart, Antoni Oliver (Universidade de Vigo y Universitat Oberta de Catalunya): «Methodology and evaluation of the Galician WordNet expansion with the WN‐Toolkit»
Este grupo estudia el WordNet gallego (GalNet). WordNet es una base de datos léxica basada en conjuntos de sinónimos (“synsets”). Los conceptos están basados en relaciones semánticas. El conjunto de herramientas incluido en el WN‐Toolkit permite la creación o expansión de wordnets siguiendo la estrategia de expansión. En los experimentos presentados en este artículo se han utilizado estrategias basadas en diccionarios y en corpus paralelos.
- Agustín D. Delgado, Raquel Martínez, Soto Montalvo, Víctor Fresno (Universidad Nacional de Educación a Distancia y Universidad Rey Juan Carlos): «An unsupervised Approach for Person Name Disambiguation in Web People Search»
Estos investigadores están más preocupados en la desambiguación de nombres de personas en las búsquedas por Internet en portales como pipl, 123people, zoominfo, etc. Este problema lo analizan mediante técnicas basadas en n‐gramas de diferente tamaño e información, clustering, etc. Con ello, son capaces de agrupar los resultados de búsqueda de un determinado nombre según la identidad de la persona (en caso de personas que se llaman igual).
- Sanja Stajner (Research Group in Computational Linguistics, University of Wolverhampton, Reino Unido): «Translating sentences from ‘original’ to ‘simplified’ Spanish»
Esta investigadora se centra en el problema de la simplificación de textos escritos en español, es decir, el proceso de convertir frases complejas en otras más sencillas manteniendo el significado. Esto puede ser de utilidad para determinadas personas con problemas de comprensión, como aquellas con síndrome de Down, haciendo a su vez el texto accesible para todos. Presenta dos niveles de simplificación (fuerte y débil), donde los resultados son mejores para simplificaciones débiles. La investigadora comentó la dificultad de este tipo de trabajos debido a la falta de grupos que se dediquen a este tema concreto con los que realizar colaboraciones o sinergias.
- Sergio Cajal, Horacio Rodríguez (TALP Research Center, Universitat Politècnica de Catalunya): «Boosting Terminology Extraction through Crosslingual Resources»
Presentaron un extractor de terminología dada una fuente de información y un dominio de conocimiento. Se analizaron las dificultades de distinguir una palabra del vocabulario general de una lengua de un término específico de un dominio. Su método de trabajo consiste en analizar Wikipedia como un doble grafo, según las páginas concretas y según las categorías de las páginas, teniendo a su vez en cuenta las relaciones entre ellas y los enlaces entre Wikipedias de distintos idiomas. Uno de los problemas con el que se encontraron al analizar estos grafos es la presencia de ciclos (estructuras circulares en los enlaces), así como enlaces a categorías que se salen del dominio (por ejemplo: “vulcanología” apunta a “Islandia”).
- Alicia Pérez, Arantza Casillas, Koldo Gojenola, Maite Oronoz, Nerea Aguirre, Estibaliz Amillano (IXA Taldea, Universidad del País Vasco): «The aid of machine learning to overcome the classification of real health discharge reports written in Spanish»
Este grupo se centró en el estudio de informes médicos en formato electrónico y su clasificación. Existe un código llamado CIE‐9 para la clasificación internacional de enfermedades, según el cual se debe escoger un código concreto para el diagnóstico. Sin embargo, el diagnóstico médico (escrito a mano) no sigue un método estándar, pues está plagado de acrónimos, abreviaturas, errores ortográficos, etc. En definitiva, se trata de construrir un sistema de lenguaje natural orientado a médicos. Algunos de los métodos de aprendizaje estadístico empleados son Naive Bayes, árboles de decisión, random forests y máquinas de vectores soporte (SVM, en sus siglas en inglés).
- Julio Villena‐Román, Janine García‐Morera, José Carlos González Cristóbal (Daedalus y Universidad Politécnica de Madrid): «track‐It! Sistema de Análisis de Reputación en Tiempo Real»
Estos investigadores presentaron una demo de un analizador de reputación online en tiempo real de las empresas del Ibex 35. En concreto, el sistema automatiza la recogida de información en la red y permite la elaboración de análisis de reputación. Se encuentra en fase beta y en proyecto de implantación en diferentes escenarios. En el piloto del IBEX35 se han recogido más de 10,2 millones de piezas de información desde agosto de 2013, con 500 mil de entidades y 17 millones de etiquetas.
Dicho sistema se compone de los siguientes módulos: Recolector de mensajes de Twitter; analizador de mensajes: detección de idioma, método de clasificación estadístico combinado con reglas, análisis de sentimiento, extracción de entidades; almacenamiento de información; agregación y visualización.