SEGUIMOS HACIENDO TRADUCCIONES JURADAS, FIRMADAS Y SELLADAS... AHORA DESDE CASA SEGUIMOS TRADUCIENDO DESDE CASA
30 marzo, 2020 Traductor en el congreso NAACL 2019
30 marzo, 2020 Traductor en el congreso NAACL 2019

Highlights del congreso NAACL 2019

Traducci√≥n del art√≠culo de Sebastian Ruder sobre los asuntos m√°s destacados discutidosen el Congreso NAACL 2019, publicado originalmente en Ingl√©s en la web ruder.io y traducido aqu√≠ a Espa√Īol.

congresointerpretetraductor inglés

Max, traductor int√©rprete de Ingl√©s en conferencias y congresos, no ofrece la traducci√≥n a Espa√Īol del art√≠culo ¬ęNAACL 2019 Highlights¬Ľ, escrito por Sebastian Ruder y publicado originalmente en Ingl√©s en: https://ruder.io/

* * *

Esta publicaci√≥n discute los aspectos m√°s destacados del Congreso NAACL 2019, especialmente el aprendizaje de transferencia, el razonamiento de sentido com√ļn, la generaci√≥n de lenguaje natural, el sesgo, las lenguas no inglesas, y la diversidad e inclusi√≥n.

Sebastian Ruder
Lea m√°s publicaciones de este autor.

Sebastian Ruder
9 de junio de 2019 – 8 minutos de lectura

Este post discute los aspectos m√°s destacados del Congreso Anual del Cap√≠tulo Norteamericano de la Asociaci√≥n de Ling√ľ√≠stica Computacional de 2019 (NAACL 2019).

Puede encontrar los aspectos más destacados de las conferencias anteriores aquí. La conferencia aceptó 424 ponencias (que puede encontrar aquí) y tuvo 1575 participantes (véase la diapositivas de la sesión de apertura para más detalles). Estos son los temas que más me llamaron la atención:

Aprendizaje de transferencia


La sala del tutorial Aprendizaje de transferencia en PNL (Foto: Luca Soldaini)

El inter√©s en el aprendizaje de la transferencia sigue siendo alto. El tutorial de Aprendizaje de transferencia en PNL (ilustrado arriba y organizado por Matthew Peters, Swabha Swayamdipta, Thomas Wolf y yo) estaba lleno. La NAACL 2019 otorg√≥ el premio al mejor trabajo largo a BERT, posiblemente el m√©todo de aprendizaje de transferencia m√°s impactante de los √ļltimos a√Īos. A pesar de su reciente aparici√≥n, los documentos de la conferencia ya aprovecharon el BERT para an√°lisis del sentimiento basado en el aspecto, revisar la comprensi√≥n de la lectura, el razonamiento del sentido com√ļn y respuesta a una pregunta de dominio abierto.

En el taller de RepEval, Kristina Toutanova discuti√≥ c√≥mo usar el aprendizaje de transferencia para responder a preguntas de dominio abierto. Con el entrenamiento previo apropiado, usando una Tarea de Clausura Inversa, el recuperador y el lector pueden ser afinados directamente en pares QA sin un sistema IR intermedio. Esto demuestra que una inicializaci√≥n cuidadosa + un buen ajuste son dos ingredientes clave para el Aprendizaje de transferencia y el trabajo incluso en tareas complicadas. Esto tambi√©n se ha demostrado en el pasado para aprender a integrar palabras en varios lenguas y MT sin supervisi√≥n. Tambi√©n se√Īal√≥ que las representaciones de frases/p√°rrafos de un solo vector son muy √ļtiles para la recuperaci√≥n y que debemos seguir trabajando en ellas. En general, hay muchas direcciones de investigaci√≥n interesantes en el aprendizaje de la transferencia en PNL, algunas de las cuales hemos esbozado en el final de nuestro tutorial. Mis otros puntos destacados incluyen:

  • Aprendizaje de transferencia de p√©rdidas auxiliares de un solo paso (SiATL Chronopoulou y otros), un enfoque ¬ęvergonzosamente simple¬Ľ que reduce parte de la complejidad de ULMFiT a trav√©s de un aprendizaje multitarea y decayendo exponencialmente la p√©rdida auxiliar.
  • AutoSeM (Guo y otros), una tuber√≠a de dos etapas para el aprendizaje de tareas m√ļltiples que utiliza bandidos multiarmados y optimizaci√≥n bayesiana para aprender la mejor tarea auxiliar y la mejor proporci√≥n de mezcla de tareas respectivamente.
  • Una evaluaci√≥n de la representaci√≥n contextual a trav√©s de 16 tareas (Liu y otros) que muestra que son malos para captar el conocimiento ling√ľ√≠stico de grano fino y que las capas superiores de los RNN son m√°s espec√≠ficas de la tarea que en los Transformadores.

Razonamiento de sentido com√ļn

La elaboraci√≥n de modelos de lenguaje es una tarea previa a la capacitaci√≥n que ha demostrado aprender representaciones generalmente √ļtiles a escala. Sin embargo, hay algunas cosas que simplemente nunca se escriben, incluso en miles de millones de fichas.La superaci√≥n de este sesgo informativo es un desaf√≠o clave para adaptar los modelos de lenguaje a tareas m√°s complejas. Para probar el razonamiento con el conocimiento que a menudo se deja sin decir, el mejor trabajo sobre recursos utiliz√≥ la base de conocimiento de sentido com√ļn ConceptNet como ¬ęsemilla¬Ľ. Crearon CommonsenseQA, un conjunto de preguntas de opci√≥n m√ļltiple en el que la mayor√≠a de las respuestas tienen la misma relaci√≥n con el concepto de objetivo (v√©ase m√°s adelante).

Ejemplo de pares pregunta-respuesta en CommonsenseQA (Fuente: Talmor y otros)

Esto requiere que el modelo utilice el sentido com√ļn en lugar de solo informaci√≥n relacional o de coocurrencia para responder a la pregunta. El BERT alcanza una precisi√≥n del 55,9 % en este conjunto de datos, y se estima que alcanza alrededor del 75 % con ejemplos de 100k, muy por debajo del rendimiento humano del 88,9 %. ¬ŅQu√© se necesita para llegar a ese 88,9 %? Lo m√°s probable es que conocimiento estructurado, aprendizaje interactivo y multimodal. En su charla en el Taller sobre las deficiencias en la visi√≥n y el lenguaje (SiLV), Yoav Artzi discuti√≥ la diversidad ling√ľ√≠stica en la CLN anclado se√Īalando que necesitamos pasar de im√°genes sint√©ticas a im√°genes m√°s realistas para aprender representaciones ancladas.

Otro prerrequisito para la comprensi√≥n del lenguaje natural es el razonamiento compositivo. El Tutorial de Aprendizaje Profundo para la Inferencia del Lenguaje Natural discuti√≥ la inferencia del lenguaje natural, un punto de referencia com√ļn para evaluar a fondo esas formas de razonamiento. Me gustaron particularmente los siguientes documentos:

  • Un marco de coherencia de la etiqueta para la comprensi√≥n del texto de procedimiento (Du y otros) que fomenta la coherencia entre las predicciones de las descripciones del mismo proceso. Esta es una forma inteligente de usar la intuici√≥n y los datos adicionales para incorporar un sesgo inductivo en el modelo.
  • Razonamiento discreto sobre el contenido de los p√°rrafos (DROP; Dua y otros), que requiere modelos para resolver las referencias en una cuesti√≥n y realizar operaciones discretas (por ejemplo, adici√≥n, recuento, clasificaci√≥n) sobre m√ļltiples referencias en el texto.

Generación de lenguaje natural

En el taller de NeuralGen, Graham Neubig discutió los métodos para optimizar una función objetiva no diferenciable como el BLEU directamente, incluyendo entrenamiento de riesgo mínimo y REFUERZO y trucos para lidiar con su inestabilidad y hacerlos trabajar. Mientras que nosotros habíamos tocado el Aprendizaje de transferencia para la generación del lenguaje natural (NLG) en nuestro tutorial, Sasha Rush proporcionó muchos más detalles y discutió los diferentes métodos de utilización de los modelos de lenguaje para mejorar la calidad del NLG. Otra forma de mejorar la calidad de las muestras es centrarse en la decodificación. Yejin Choi discutió un nuevo método de muestreo, que muestrea del jefe de la distribución y conduce a una mejor calidad de texto. También habló de la generación de noticias falsas y de cómo los grandes modelos de lenguaje preformados como Grover pueden ser usado para defenderse de ellos.

Las redes generativas de adversarios (GAN) son una forma popular de generar imágenes, pero hasta ahora han tenido un rendimiento inferior en cuanto al lenguaje. El Tutorial de PNL de Aprendizaje Adversarial Profundo argumentaba que no debíamos renunciar a ellos, ya que el aprendizaje no supervisado o autosupervisado realizado por las GAN tiene muchas aplicaciones en PNL.

Otro aspecto convincente de la generaci√≥n es permitir que m√ļltiples agentes se comuniquen eficazmente. Adem√°s de proporcionar una ventana a la forma en que surge el lenguaje, puede ser necesario para el aprendizaje interactivo y la transferencia de conocimientos entre los agentes. Angeliki Lazaridou discuti√≥ en su charla del taller de SiLV que las herramientas de aprendizaje de refuerzo profundo parecen funcionar bien para este escenario, pero argument√≥ que se necesitan mejores sesgos. Adem√°s, todav√≠a es dif√≠cil conectar el lenguaje emergente al lenguaje natural.

Compensación entre la calidad y la diversidad de los diferentes modelos (círculos) en las tareas de NLG (Crédito de imagen: Hashimoto y otros)

También disfruté con los siguientes trabajos:

  • Humano Unificado con Evaluaci√≥n Estad√≠stica (HUSE Hashimoto y otros), una nueva m√©trica para la generaci√≥n de lenguaje natural que puede considerar tanto la diversidad como la calidad, y que produce una frontera de Pareto al intercambiar una de las dos (ver arriba). M√©todos como el recocido a temperatura dan como resultado una mayor calidad, pero reducen la diversidad.
  • Separar la planificaci√≥n de la realizaci√≥n (Moryossef y otros) puede mejorar la calidad del texto generado a partir de datos estructurados como trillizos RDF, ya que a menudo hay m√ļltiples formas de realizar informaci√≥n estructurada en el texto.
  • Desacoplando la sintaxis y la generaci√≥n de la forma de superficie (Cao y Clark) es otra forma de abordar el problema no especificado de la generaci√≥n de textos a partir de datos estructurados (en este caso, representaciones de significado abstracto).
  • Un an√°lisis sistem√°tico que comprueba la utilidad de la modalidad visual para la traducci√≥n multimodal (Caglayan y otros) y fue premiado con el premio al mejor trabajo corto. Observa que los modelos con menos informaci√≥n textual se basan m√°s fuertemente en el contexto visual, en contra de las creencias actuales.

Sesgos

El tema de la conferencia era un sesgo de modelo. Los diversos conjuntos de notas clave encajan muy bien en este tema. El primer discurso de apertura de Arvind Narayanan en particular destacó un aspecto menospreciado del sesgo, es decir, que podemos aprovechar el sesgo de nuestros modelos para mejorar nuestra comprensión de la cultura humana.

En general, hay una fina l√≠nea entre el sesgo deseable y el no deseable.A menudo tratamos de codificar el sesgo inductivo sobre c√≥mo funciona el mundo, como los objetos son invariables a la traducci√≥n. Por otro lado, no queremos que nuestros modelos aprendan claves o relaciones superficiales que no son parte de nuestra posible percepci√≥n idealizada del mundo, tales como sesgos de g√©nero. En √ļltima instancia, el rendimiento superhumano no solo deber√≠a implicar que los modelos superen cuantitativamente a los humanos, sino tambi√©n que sean menos sesgados y falibles.

Por √ļltimo, debemos ser conscientes de que la tecnolog√≠a tiene un impacto duradero en el mundo real. Como un v√≠vido ejemplo de esto, Kieran Snyder cont√≥ en su discurso de apertura la vez que tuvo que dise√Īar un algoritmo de clasificaci√≥n para Sinhala (v√©ase m√°s abajo). La clasificaci√≥n de los nombres cingaleses fue necesaria para que el gobierno de Sri Lanka pudiera buscar supervivientes tras el tsunami de 2004. Su decisi√≥n de c√≥mo alfabetizar el lengua se convirti√≥ m√°s tarde en parte de una pol√≠tica oficial del gobierno.

Vocales en cingalés (Crédito de la imagen: Omniglot)

Algunos de mis artículos favoritos sobre la parcialidad incluyen:

  • Los m√©todos de desajuste solo eliminan superficialmente el sesgo en la incrustaci√≥n de palabras (Gonen y Goldberg); el sesgo todav√≠a se refleja en ‚ÄĒy puede ser recuperado desde‚ÄĒ las distancias en las incrustaciones desviadas.
  • Una evaluaci√≥n del sesgo en la incorporaci√≥n de palabras contextualizadas (Zhao y otros) encuentran que ELMo codifica sint√°ctica y desigualmente la informaci√≥n de g√©nero y ‚ÄĒlo que es m√°s importante‚ÄĒ que este sesgo es heredado por modelos posteriores, como un sistema de referencia central.

Lenguas no inglesas

En cuanto al tema de los diferentes lenguas, durante la conferencia, la ¬ęRegla de Bender¬Ľ ‚ÄĒnombrado por Emily Bender, que es conocida por su defensa del procesamiento ling√ľ√≠stico multiling√ľe, entre otras cosas‚ÄĒ se nombr√≥ frecuentemente despu√©s de presentaciones. En resumen, la regla dice: ¬ęSiempre nombra la(s) lengua(s) en que est√°s trabajando.¬Ľ El hecho de que no se identifique expl√≠citamente la lengua examinada hace que el ingl√©s se perciba como la lengua por defecto y como sustituto de otras lenguas, lo que resulta problem√°tico en muchos sentidos (v√©ase Las diapositivas de Emily para una justificaci√≥n exhaustiva).

En este sentido, algunos de mis trabajos favoritos de la conferencia investigan cómo cambia el rendimiento de nuestros modelos al aplicarlos a otras lenguas:

  • Representaciones contextuales pol√≠glotas (Mulcaire y otros) que se entrenan en el ingl√©s y una lengua adicional mediante la inicializaci√≥n de incrustaciones de palabras con representaciones en varias lenguas. En algunos entornos (SRL chino, NER √°rabe), la capacitaci√≥n en varias lenguas produce grandes mejoras.
  • Un estudio sobre la transferencia de analizadores de dependencia formados en ingl√©s a otras 30 lenguas (Ahmad y otros) encuentra que los RNNs entrenados en ingl√©s se transfieren bien a lenguas cercanas al ingl√©s, pero los modelos de autoatenci√≥n se transfieren mejor a lenguas lejanas.
  • Un etiquetador POS no supervisado para lenguas de bajos recursos (C√°rdenas y otros) que ¬ędescifra¬Ľ las identificaciones de los clusters de Brown para generar la secuencia POS y logra un rendimiento de √ļltima generaci√≥n en cingal√©s (v√©ase m√°s arriba).

Diversidad e inclusión

Pegatinas de placas en la NAACL 2019 (Foto: Natalie Schluter)

A medida que la comunidad crece, es importante que los nuevos miembros se sientan incluidos y que sus voces sean escuchadas. La NAACL 2019 puso en marcha una amplia gama de iniciativas a este respecto, desde toques reflexivos como las pegatinas para las placas (v√©ase m√°s arriba) hasta la combinaci√≥n de los reci√©n llegados con los mentores y los ¬ęhermanos mayores¬Ľ, pasando por iniciativas fundamentales como el cuidado de los ni√Īos (v√©ase m√°s abajo) y subt√≠tulos en vivo. Apreci√© particularmente los tuits en vivo, lo que hizo que la conferencia fuera accesible para la gente que no pod√≠a asistir.

Sala de guardería en la NAACL 2019 (Foto: Kieran Snyder)

Imagen de la portada: La sala del tutorial Aprendizaje de transferencia en PNL (Foto: Dan Simonson)

. . .

 

[Nota del Traductor Jurado / Intérprete]

Traductor intérprete de Inglés en conferencias y congresos

Esta traducci√≥n de Ingl√©s del art√≠culo ¬ęNAACL 2019 Highlights¬Ľ, ha sido realizada por Max Cuesta dentro del programa formativo en Interpretaci√≥n Simult√°nea y Consecutiva para Eventos. En este art√≠culo se recogen las impresiones de Sebastian Ruder, y sirvi√≥ de pr√°ctica de traducci√≥n escrita durante el curso 2019. Max es traductor biling√ľe espa√Īol – ingl√©s y est√° cursando formaci√≥n especializada para formarse como int√©rprete de Ingl√©s para conferencias y congresos.

Valora este artículo

Articulos relacionados


Traducci√≥n Ingl√©s Espa√Īol del art√≠culo ¬ęNotes On The PhD Degree¬Ľ: preguntas frecuentes sobre los programas de doctorado, diplomas, certificados de notas, expedientes acad√©micos, traducciones juradas, etc.

Traducci√≥n al espa√Īol del art√≠culo de Robert G. Brown titulado "Axiomas" y publicado originalmente en Ingl√©s. Una reflexi√≥n valiente sobre las bases de lo que creemos saber, que har√° que te plantees muchas cosas...

Traducci√≥n al Espa√Īol de un art√≠culo de Richard Heinberg criticando la escasa responsabilidad de los seres humanos, a quienes compara con conductores distraidos.