Resumen de texto automático – Lincoln, Introducción al resumen automático – El blog de datos

Un blog sobre datos, inteligencia artificial y mis proyectos

El resumen automático es tomar un texto largo, o incluso un conjunto de textos, y generar automáticamente un texto mucho más corto que contiene la mayoría de la información. Sencillo ? No tanto. Primero, debe estar de acuerdo con qué información es realmente importante. Entonces, debemos poder extraerlos adecuadamente, reorganizarlos, todo en un texto gramatical y sin intervención humana. Y eso es sin contar con la gran cantidad de variantes de posibles resúmenes !

Resumen de texto automático

Con la explosión de la recopilación y el almacenamiento de la textura, la necesidad de analizar y extraer información relevante de esta masa es cada vez más presente.

Además, el auge de los modelos de aprendizaje profundo para el procesamiento automático del lenguaje natural (TALN) facilitó el uso de datos textuales en problemas operativos. El resumen de texto automático, de la misma manera que la pregunta de respuesta, el análisis de similitud, la clasificación de documentos y otras tareas vinculadas a la talla son parte de estos temas.

Es en este contexto que el Innovación de laboratorio De Lincoln ha decidido realizar trabajo en el resumen de texto automático. Estos trabajos han permitido establecer un punto de referencia de los modelos de resumen automáticos disponibles para el idioma Francésa, para causar nuestro propio modelo y finalmente ponerlo en producción.

�� Entrenamiento modelo

El resumen automático del mundo

Los datos

Antes de que pudiéramos comenzar nuestro trabajo, primero tuvimos que construir una base de datos para aprender modelos de resumen automático. Hemos recuperado artículos de prensa de varios sitios de noticias francesas. Esta base contiene ~ 60k artículos y se actualiza continuamente.

Lo último

Los algoritmos de resumen automático se pueden separar en dos categorías: resúmenes extractivo y resúmenes abstractivo. En el marco extractivo, Los resúmenes se construyen a partir de oraciones extraídas del texto mientras los resúmenes abstractivo se generan a partir de nuevas oraciones.

Los modelos de resumen automático son bastante comunes en inglés, pero son mucho menos en francés.

Métrica

Para la evaluación de los modelos utilizamos las siguientes métricas:

ROJO : Sin lugar a dudas, la medición se informa con mayor frecuencia en tareas resumidas, el suplente orientado al recuerdo para la evaluación de la evaluación (Lin, 2004) calcula el número de n-gramos similares entre el resumen evaluado y el resumen de referencia humana.

Meteorito: La métrica para la evaluación de la traducción con pedidos explícitos (Banerjee y Lavie, 2005) fue diseñado para la evaluación de resultados de traducción automática. Se basa en el promedio armónico de precisión y recuerdo en unigramas, el recuerdo que tiene una ponderación mayor que la precisión. El meteorito se usa a menudo en publicaciones de resumen automático (ver et al., 2017; Dong et al., 2019), además de rojo.

Novedad: Se ha notado que algunos modelos abstractos descansan demasiado en la extracción (ver et al., 2017; Krysci ‘Nski et al.‘, 2018). Por lo tanto, se ha vuelto común medir el porcentaje de nuevos N-gramos producidos dentro de los resúmenes generados.

Fuente: Traducción del papel mlsum [2].

La implementación de modelos

Para la capacitación del modelo, utilizamos el servicio ML Cloud Azure que proporciona un entorno completo para la capacitación, el monitoreo y la implementación de modelos.

Modelo de resumen automático

Hemos utilizado con mayor precisión el SDK de Python que le permite administrar todo el entorno Azureml de manera programática, desde el lanzamiento de “trabajos” hasta la implementación de modelos.

Sin embargo, encapsulamos nuestro modelo final en una aplicación de matraz en contenedores y luego se implementó a través de tuberías de CI/CD en un clúster de Kubernetes

Los resultados

En primer lugar, hicimos varios intentos, liderando los modelos en artículos de 10k, variando el número de tokens dados al comienzo del modelo (512 o 1024) y diferentes arquitecturas.

Primera observación: las métricas rojas y meteoritas no parecen muy adecuadas para la evaluación del rendimiento de nuestros modelos. Por lo tanto, elegimos basar nuestras comparaciones solo en la partitura de novedad y seleccionados arquitectura favorecer resúmenes más abstractores.

Después de impulsar el entrenamiento de nuestro modelo en artículos de 700k, mejoramos significativamente los resultados y validamos una primera versión que encontrará a continuación.

Puntos de atención

Más allá del rendimiento, este experimento nos permitió resaltar algunos límites Resumen automático:

Actualmente, el tamaño del texto en entradas de los modelos de tipo Transformar está limitado por la capacidad en memoria de las GPU. El costo en la memoria es cuadrático con el tamaño del texto como entrada, esto plantea un problema real para las tareas del resumen automático donde el texto a resumir a menudo es lo suficientemente largo.

Es muy difícil encontrar métricas relevantes para evaluar las tareas de generación de texto.

Prestar atención el peso del extractor : También hemos encontrado varios problemas relacionados con los datos en sí mismos. El principal problema es que el artículo del artículo fue a menudo una parafrase o incluso un duplicado de las primeras oraciones del artículo. Esto tuvo la consecuencia de alentar a nuestros modelos a ser más extractivos que Abstractive simplemente devolviendo las primeras oraciones del artículo. Por lo tanto, era necesario hacer un trabajo de curación eliminando los artículos que plantean problemas para evitar este tipo de sesgo.

Un blog sobre datos, inteligencia artificial y mis proyectos.

El resumen automático es tomar un texto largo, o incluso un conjunto de textos, y generar automáticamente un texto mucho más corto que contiene la mayoría de la información. Sencillo ? No tanto. Primero, debe estar de acuerdo con qué información es realmente importante. Entonces, debemos poder extraerlos adecuadamente, reorganizarlos, todo en un texto gramatical y sin intervención humana. Y eso es sin contar con la gran cantidad de variantes de posibles resúmenes !

Pude trabajar durante aproximadamente un año en este tema emocionante justo antes de mi doctorado, esta publicación es, por lo tanto, una oportunidad para sumergirme en este tema y hacer un balance de las últimas innovaciones en el dominio.

Entonces, tomemos una visión general de este tema, creando describiendo los diferentes tipos de resúmenes que existen, antes de pensar en dos tipos de sistemas ligeramente en detalle: los de las redes de IA y las neurales, y aquellos que están bastante enfocados en la extracción óptima de información.

Los diferentes tipos de resumen

Cuando hablamos de resumen, a menudo pensamos en la contraportada de un libro o la descripción del guión para una película. En general, evitan estropear el final, cuando esto es precisamente lo que uno pediría una herramienta de resumen automático clásico: decir la intriga, para que el resumen sea suficiente para conocer lo esencial. Aquí se trata Resúmenes de mono documentos, Es decir que solo resumimos un solo documento (una película, un libro, un artículo, …).

Por el contrario, podríamos querer un Resumen multi-documental, que nos reunimos con más frecuencia en el contexto de las revisiones de prensa: queremos tener un resumen de la información más importante según lo informado por varias organizaciones de prensa.

Una vez que hemos decidido sobre el tipo de datos que buscamos resumir, mono o multi-documental, tenemos la opción entre dos enfoques: elextractivo, que consiste en extraer como qué de la información antes de volver a ponerla para crear un resumen y el enfoque generativo, que consiste en la creación de nuevas oraciones, que no aparecen originalmente en los documentos, para tener un resumen más fluido y más libre.

Además de estos criterios, hay varios estilos de resúmenes, que no nos acercaremos aquí: actualizar resúmenes que consistan en resumir la información que aparece en un nuevo documento y que no se enumeró hasta ahora, dirigido dirigido que consiste en adoptar un ángulo preciso de un ángulo preciso. Dado por el usuario, ..

AI y redes neuronales revolucionan el resumen automático

Hasta mediados de los 2010, la mayoría de los resúmenes eran extractivos. Sin embargo, ya existía una gran diversidad en estos algoritmos que podrían variar desde la selección y extracción de oraciones completas hasta la extracción de información precisa recolectada y luego en textos con agujeros preparados de antemano llamadas plantillas llamadas. La llegada de nuevos enfoques basados ​​en redes neuronales ha cambiado considerablemente la situación. Estos algoritmos son mucho más efectivos que los anteriores para generar texto gramatical y fluido, como lo que se puede hacer con esta demostración de GPT.

Sin embargo, las redes neuronales requieren grandes cantidades de datos para ser capacitados y están relativamente desmite. Trabajan perfectamente para generar comentarios para los cuales la veracidad es de poca importancia, pero pueden generar información contradictoria o simplemente incorrecta que es problemática en el contexto de los artículos de prensa, por ejemplo,. Muchos artículos de investigación están interesados ​​en estas “alucinaciones” de las redes neuronales.

Un ejemplo de una herramienta híbrida: Potara

El resumen automático fue el primer sujeto de investigación en el que estaba interesado, y tuve la oportunidad de desarrollar durante mi maestro un sistema híbrido de resumen por extracción/generación para un enfoque de documentos múltiples, es decir, resumir un conjunto de documentos que hablan que hablan del mismo tema.

La idea era comenzar desde una extracción clásica, a saber, identificar las oraciones más importantes y reunirlas para generar un resumen. El problema con este enfoque es que las oraciones más importantes a menudo podrían mejorarse aún más. Por ejemplo, en un artículo que habla de un desplazamiento presidencial, la frase “Emmanuel Macron conoció a su contraparte estadounidense y discutió la economía” podría mejorarse en “Emmanuel Macron conoció a Joe Biden y discutió la economía”. Periodistas que evitan cuidadosamente los ensayos, nos encontramos con frecuencia confrontados con este tipo de fenómeno.

Para superar este defecto, podemos identificar oraciones similares presentes en diferentes documentos e intentar fusionarlas para obtener una mejor oración. Ansi, de las siguientes dos oraciones:

  • Emmanuel Macron conoció a su contraparte estadounidense en Washington y habló sobre economía en detalle.
  • El presidente francés se reunió con Joe Biden y discutió la economía.

Podemos crear una oración corta e informativa:

  • Emmanuel Macron conoció a Joe Biden en Washington y discutió la economía.

Se necesitan varios pasos para lograr este resultado: encontrar oraciones similares, encontrar la mejor fusión, verificar que la fusión es mucho mejor que una oración original. Trabajan parte de muchas tecnologías: Word2 con redes neuronales para encontrar oraciones similares, gráficos de co-cccurence para fusionarlas, optimización de ILP para seleccionar las mejores fusiones.

Si quieres ver más, Potara es de código abierto, pero no se ha mantenido por un tiempo. Este proyecto había servido notablemente como un escaparate cuando fui lanzado y, por lo tanto, tenía documentación, pruebas, integración continua, implementación en PYPI, ..

¿Cuál es un buen resumen automático? ?

Si ciertos criterios parecen obvios y relativamente simples de evaluar (la gramaticalidad de las oraciones, por ejemplo), otros son mucho más complejos. Decidir cuál es la información más importante de un texto ya es una tarea muy subjetiva en sí misma. Evaluar la fluidez, la elección correcta de las palabras utilizadas, vuelve a publicar el trabajo y no hablemos de la orientación política que puede tomar un resumen !

Es probable que los nuevos modelos generativos basados ​​en redes neuronales introduzcan juicios o clasificatorios peyorativos (o amigos), un efecto buscado cuando se trata de generar un crítico de cine, pero mucho menos cuando se habla del programa de un candidato presidencial !

Por lo tanto, el resumen automático sigue siendo un tema muy activo en la investigación, y puede ser por un momento, particularmente con respecto a la capacidad de guiar el resultado del algoritmo, precisamente hacia un sentimiento particular, un estilo específico, un color político dado. En la industria, solo comienza a ingresar a ejecutivos muy específicos (resumen de las reuniones, por ejemplo).

Presidencial 2022: a sus datos !

3 ejemplos de proyectos de datos que se llevarán a cabo para las elecciones presidenciales de 2022.