Esta semana analizamos las increíbles habilidades del ChatGPT, artículos provenientes de la conferencia de NeurlPS y regulación sobre AGI a nivel de la UE.
Mi nombre es Esben, ¡Bienvenido a la actualización semanal nº48 del campo de ML & AI Safety! ¡Prepárense!
Lanzamiento del ChatGPT
Hace apenas dos días ChatGPT ha sido lanzado y ya se le comienza a describir como GPT-3.5. Observamos muchas correcciones de errores desde previos lanzamientos así como un sistema extremadamente competente.
Ahora podemos ver que encuentra errores en cripto-contratos, explica y soluciona errores, reemplaza el buscador de Google y, lo más importante de todo, ¡muestra la capacidad de despistar a la vista humana!
Pese a ser significativamente más segura que la versión anterior (texto-Davinci-002), todavía podemos observar la habilidad de planear en torno a las preferencias humanas con un uso de ataques muy simples
El lunes también se lanzó el texto-David I-003 que es la siguiente generación de un modelo de lenguaje más refinado de OpenAI. Hay rumores de que el GPT-4 será lanzado en febrero y veremos las nuevas e incluye capacidades que se han desarrollado hasta el momento.
La aplicación demo se encuentra disponible en chat.openai.com.
NeurIPS
Actualmente estoy en NeurIPS y he tenido la maravillosa oportunidad de navegar entre los numerosos pósters y artículos presentados. Todos tienen ya un año y veremos los últimos artículos cuando empiecen hoy los talleres.
Chalmers fue el primer orador principal y creó peligrosamente una línea de tiempo para crear una IA consciente, una que crea tanto un riesgo S como un riesgo X. Estableció el objetivo de la conciencia AGI a nivel de pez para 2032, aunque todo esto realmente parece depender de sus definiciones de conciencia y sé que muchos de nosotros lo esperaríamos antes de 2032.
Más allá de eso, aquí hay una breve lista de algunos documentos interesantes que he visto mientras caminaba alrededor:
Ejemplos adversarios de AlphaGo: Este artículo muestra lo fácil que es encontrar ataques incluso para sistemas de aprendizaje por refuerzo altamente capaces como AlphaGo. Básicamente encuentra posiciones del tablero en las que insertar el siguiente movimiento (para blanco y negro) arruina la capacidad de la IA para predecir el siguiente movimiento.
(Documento InstructGPT) Aquí, OpenAI ajusta un modelo de lenguaje a la retroalimentación humana y logra un modelo mejor y más seguro con muy poco cálculo necesario. Fue interesante hablar con los autores y conocer más detalles, como el proceso de recopilación de datos y otros aspectos.
MatPlotLib es todo lo que necesitas: Este artículo muestra problemas con la privacidad diferencial (compartir datos privados como estadísticas para evitar problemas de privacidad) con redes neuronales. En lugar de enviar las imágenes privadas, la aplicación envía los gradientes ("números internos") de una red neuronal. Aquí, simplemente utilizan MatPlotLib y trazan los gradientes (junto con una transformación) y reconstruyen fácilmente las imágenes de entrada privadas.
Sistema 3: Este es un trabajo de nuestro propio Fazl Barez en el que introducimos restricciones del entorno en el modelo de recompensa para realizar una mejor exploración de seguridad crítica. Con ello se consigue un mejor rendimiento en entornos de alto riesgo utilizando OpenAI Safety Gym.
LAION-5B: Este proyecto de código abierto ha recopilado 5.850 millones de pares texto-imagen y ha creado explícitamente una división NSFW y SFW del conjunto de datos, aunque han entrenado los modelos en el conjunto de datos completo (caótico).
Ataques automatizados de copiar y pegar: Se trata de un interesante artículo basado en su trabajo anterior, en el que muestran que se puede tomar una pequeña imagen sobre una imagen de prueba (un "parche") y utilizarla para comprender cómo se relacionan las clases de elementos en las imágenes. Este trabajo automatiza ese proceso y están trabajando en implementarlo para modelos lingüísticos, una tarea que, y cito textualmente, "debería ser relativamente sencilla".
GriddlyJS: Un marco JS para crear entornos RL fácilmente. Puede que incluso lo utilicemos en el “Testing AI” hackathon que se celebrará en un par de semanas. Pruébalo aquí
Qué es y qué no es fuera de distribución: Aquí, Farquhar y Gal desambiguan el término "fuera de distribución" (OOD) en cuatro términos diferentes: distribuciones transformadas, distribuciones relacionadas, distribuciones complementarias y distribuciones sintéticas. Dado que OOD es muy importante para la alineación, es importante entender con precisión el uso que hacemos de la palabra.
Y, por supuesto, estos son sólo algunos de los interesantes artículos de NeurIPS. Puede consultar la lista completa de publicaciones, los artículos aceptados para el taller sobre seguridad en ML y el taller sobre leyes de escalado que se celebra hoy.
Proclamación sobre IA de la UE & AGI
En otras grandes noticias, la Ley de IA de la UE recibió una enmienda Sobre los sistemas de IA de propósito general (como la AGI) que detalla su uso ético. Incluso parece aplicarse a los sistemas de código abierto, aunque no está claro si se aplica a los modelos liberados fuera del control de las organizaciones, por ejemplo, en colectivos de código abierto.
Una cláusula interesante es la §4b.5, que exige la cooperación entre organizaciones que deseen utilizar IA de propósito general en escenarios de toma de decisiones de alto riesgo.
Los proveedores de sistemas de IA de propósito general cooperarán con otros proveedores que pretendan poner en servicio o introducir en el mercado de la Unión dichos sistemas como sistemas de IA de alto riesgo o como componentes de sistemas de IA de alto riesgo, y les facilitarán la información necesaria para que estos últimos puedan cumplir las obligaciones que les impone el presente Reglamento. Dicha cooperación entre proveedores preservará, en su caso, los derechos de propiedad intelectual, así como la información comercial confidencial o los secretos comerciales.
En este texto, también vemos que se trata de cualquier sistema puesto en uso en "el mercado de la Unión", lo que significa que los sistemas pueden proceder de GODAM (Google, OpenAI, DeepMind, Anthropic y Meta) pero seguir estando bajo regulación de la misma forma que se aplica el RGPD para los datos de cualquier ciudadano europeo.
En general, la Ley de IA de la UE parece muy interesante y altamente positiva para la seguridad de la AGI en comparación con lo que muchos esperarían y tenemos que agradecer a muchos individuos del campo de la seguridad de la IA por este desarrollo. Véase también un artículo de Gutiérrez, Aguirre y Uuk sobre la definición de sistemas de IA de propósito general (GPAIS) de la Ley de IA de la UE.
Detección mecanicista de anomalías
Paul Christiano ha publicado una actualización sobre el problema ELK, en la que detalla el enfoque actual del Centro de Investigación de Alineación.
El problema ELK se definió en diciembre de 2021 y se centra en conseguir que un modelo explique sus conocimientos a pesar de incentivar lo contrario. Su ejemplo es el de una IA que vigila una cámara acorazada que contiene un diamante y el humano evalúa si tiene éxito basándose en una cámara que mira el diamante.
Sin embargo, un ladrón podría manipular la señal de vídeo para mostrar exactamente la imagen correcta y engañar al humano, lo que llevaría a una recompensa para la IA a pesar de que ésta (utilizando otros sensores) supiera que el diamante ha desaparecido. El problema es cómo saber lo que sabe la IA.
En este artículo, Christiano describe su enfoque para inferir cuál es el comportamiento interno del modelo cuando el diamante está en la cámara acorazada (la situación normal) y detectar anomalías en este comportamiento interno normal. Esto está relacionado tanto con la interpretabilidad mecanicista como con el campo de la detección de troyanos, en el que intentamos detectar anomalías en los modelos.
Oportunidades
Y ahora pasemos a nuestras maravillosas oportunidades semanales.
Inscríbete en el campamento virtual de seguridad de IA de 3,5 meses que comienza en marzo, donde podrás dirigir tu propio equipo de investigación. Envía tus ideas de investigación y colaborarán contigo para elaborar un plan con un equipo de investigación.
Dentro de dos semanas tendrá lugar el hackatón de pruebas de IA. En él colaboramos para encontrar formas novedosas de probar la seguridad de la IA mediante la interacción con modelos de lenguaje de última generación y el juego dentro de entornos de aprendizaje por refuerzo.
Un grupo de diseñadores busca probadores para un juego de mesa en el que se simulan escenarios de riesgo de IA. Parece bastante divertido, así que échale un vistazo aquí.
El Centro para la Seguridad de la Inteligencia Artificial impartirá un curso de introducción a la seguridad de la Inteligencia Artificial durante 8 semanas en primavera en las que puedes inscribirte como participante o como facilitador.
Gracias por seguirnos una semana más y recuerda hacer AGI segura. Nos vemos la semana que viene.