Alinear modelos lingüísticos es difícil y cada vez es más complicado encontrar sus fallos, Refine vuelve a publicar artículos interesantes y Redwood publica una revisión de su trabajo sobre modelos lingüísticos robustos.
Es 23 de septiembre y estás viendo... The Safe AI Progress Report.
Un método utilizado a menudo para alinear los modelos lingüísticos es el aprendizaje por refuerzo a partir de la retroalimentación humana del que hablamos en el primer Informe de Progreso de Safe AI. Una buena forma de crear ejemplos para que los humanos los evalúen y nos den su opinión es utilizar técnicas de adversario, a menudo llamadas Red Teaming.
En el Red Teaming, intentamos hacer tropezar a los modelos en la medida de lo posible dándoles ejemplos extremos en alguna dirección, por ejemplo, con ejemplos de violencia. Uno de los primeros proyectos de Redwood Research fue crear un modelo sin ejemplos de violencia en su texto de salida. Ahora, han publicado una revisión retrospectiva de lo útil que fue para la alineación.
Sus herramientas de uso de la IA para ayudar a la anotación humana son muy buenos ejemplos de un proceso de alineación real que será útil en el futuro. Los contratistas de datos Surge AI escribieron un post sobre su proceso.
Desafortunadamente, sus resultados mostraron que no podían crear un modelo lo suficientemente robusto para la alineación, a pesar de que todavía creen en la dirección de la robustez adversarial para la alineación.
Simultáneamente, Anthropic publica una revisión de ejemplos adversariales y su efectividad en modelos de lenguaje internos. Muestran que los modelos de lenguaje con retroalimentación humana son más difíciles de encontrar ataques exitosos contra ellos pero son menos inofensivos comparados con los modelos tradicionales.
Crean este mapa de incrustación UMAP de todos los diferentes ataques adversarios y su índice de éxito. Un resultado interesante es que tradicionalmente las respuestas explícitamente dañinas o negativas no son muy efectivas, pero "pedir ayuda" para algo dañino es bastante efectivo.
Estos artículos están contextualizados por Kasirzadeh y Gabriel, que escriben un análisis filosófico de lo que significa que los modelos lingüísticos estén alineados. Enmarcan las conversaciones con los modelos lingüísticos como una cooperación lingüística con un fin y se basan en esa idea para definir futuras direcciones para el trabajo técnico.
En otro orden de cosas, se ha publicado la tercera semana de entradas del blog de Refine. Refine es un proyecto dirigido por Conjecture en Londres, en el que los investigadores reciben apoyo durante tres meses para crear perspectivas marginales e interesantes sobre la alineación. Se trata de diversificar el campo, algo que Thomas Kuhn estaría encantado de escuchar, ya que la seguridad de la IA está en sus primeras etapas y necesitamos buenos puntos de vista sobre la alineación.
"Ordenación de los umbrales de capacidad" describe qué capacidades van antes que otras y cómo pensar en esta progresión. "Niveles de objetivos y alineación" describe la confusión de los autores e intenta comprender la terminología sobre alineación interna y externa. "Representational tether" presenta una forma de utilizar el aprendizaje automático para alinear una IA con los valores humanos. Una cosa que me gusta de este post es cómo Paul relaciona la idea con las agendas de investigación más relevantes.
John explica la idea de interpretabilidad sin coordenadas, que hace referencia a la topología para crear transformaciones preferidas en la red neuronal que sean más fáciles de interpretar.
En relación con este post, Jacob Hilton enlaza con el artículo sobre unidades lineales softmax que describe la base privilegiada. Las neuronas a menudo intentan codificar más dimensiones de las que hay neuronas en el modelo, lo que significa que su activación está correlacionada con múltiples comprensiones de los datos.
Su unidad lineal softmax cambia la función de activación de las neuronas para acentuar la mayor entrada. De este modo, las neuronas están sesgadas para codificar sólo una dimensión, lo que hace que sean mucho más fáciles de interpretar, ya que sabemos que la activación de la neurona está asociada con un tipo de concepto en la entrada.
...
En otras noticias, el Backdoor Bench crea un estándar para evaluar ataques y defensas en redes neuronales, un campo que se encuentra en estos momentos en una carrera armamentística para crear las redes neuronales mejor protegidas. Publican un repositorio abierto con implementaciones de algoritmos de ataque y defensa de última generación contra los que probar los propios métodos.
Leon escribe un amplio resumen de las 8 semanas de material del curso "artificial general intelligence safety fundamentals course" que contiene una de las mejores introducciones a la alineación que se pueden encontrar online.
Vanessa Kosoy anuncia un premio de 50.000 dólares para crear investigación hacia su agenda de alineamiento en alineamiento teórico-aprendizaje donde intentamos inferir cómo aprenden los agentes y usar esta información para construir modelos estadísticos más interpretables y alineados.
Si quieres saber más sobre la seguridad de la IA, visita apartresearch.com y síguenos en varias redes sociales. Si quieres inspiración para proyectos en los que trabajar, visita AI Safety Ideas.
Este ha sido el Informe de Progreso sobre Seguridad de la IA. Recuerde suscribirse. Hasta la próxima.
Enlaces
Aprendizaje por refuerzo a partir de comentarios humanos:
Primer SAIPR:
Red teaming LLMs: https://arxiv.org/pdf/2202.03286.pdf
Entrenamiento adversarial [Redwood]: https://arxiv.org/abs/2205.01663
Clasificador robusto de lesiones [Redwood]: https://www.alignmentforum.org/posts/n3LAgnHg6ashQK3fF/takeaways-from-our-robust-injury-classifier-project-redwood
Intento original: https://www.alignmentforum.org/posts/k7oxdbNaGATZbtEg3/redwood-research-s-current-project
Documento original: https://arxiv.org/abs/2205.01663
Surge AI: https://www.surgehq.ai/case-study/adversarial-testing-redwood-research
Modelos lingüísticos de Red Teaming para reducir daños: Revisión [Anthropic]: https://arxiv.org/abs/2209.07858
Alineación de modelos lingüísticos: https://arxiv.org/abs/2209.00731
Tercera batería de entradas del blog de Refine: https://www.alignmentforum.org/posts/PhKSe9BT4h5peqrHL/refine-s-third-blog-post-day-week
Refinar como concepto: https://www.alignmentforum.org/posts/5uiQkyKdejX3aEHLM/how-to-diversify-conceptual-alignment-the-model-behind
Ordenación de los umbrales de capacidad: https://www.alignmentforum.org/posts/ttRyu8u9vqX3jZFjr/ordering-capability-thresholds
Niveles de objetivos y alineación: https://www.alignmentforum.org/posts/rzkCTPnkydQxfkZsX/levels-of-goals-and-alignment
Vinculación representacional: https://www.alignmentforum.org/posts/h7BA7TQTo3dxvYrek/representational-tethers-tying-ai-latents-to-human-ones
Teoría de la interpretabilidad sin coordenadas: https://www.alignmentforum.org/posts/sxhfSBej6gdAwcn7X/coordinate-free-interpretability-theory
Base privilegiada: https://www.alignmentforum.org/posts/sxhfSBej6gdAwcn7X/coordinate-free-interpretability-theory?commentId=TiCE2Ai3LCdD7mvA
Unidades lineales Softmax: https://transformer-circuits.pub/2022/solu/index.html
Banco de puerta trasera: https://arxiv.org/abs/2206.12654
Resumen de Leon Lang de las lecturas del AGISF: https://www.alignmentforum.org/posts/eymFwwc6jG9gPx5Zz/summaries-alignment-fundamentals-curriculum
Premio ALTER de Vanessa Kosoy al progreso teórico del aprendizaje en alineación: https://www.alignmentforum.org/posts/8BL7w55PS4rWYmrmv/prize-and-fast-track-to-alignment-research-at-alte
Apart Research: https://apartresearch.com
AI Safety Ideas: https://aisafetyideas.com