¿Se apoderarán de los humanos las IA tridimensionales que juegan al ajedrez? - S47
Hace 5 años, el AlphaGo de Google derrotó al actual número 1 del mundo en Go, Ke Jie, pero si crees que las IA de juegos de mesa han dejado de evolucionar desde entonces, ¡piénsalo dos veces!
Hoy analizaremos las habilidades engañosas del nuevo modelo lingüístico, Cicero, y reflexionaremos sobre lo que las IA de juegos de mesa nos enseñan sobre el desarrollo de la IA.
Hoy es 25 de noviembre y esta es la actualización semanal de seguridad en ML e IA de Apart Research.
El poder de la búsqueda del modelo lingüístico Cicero
¿Alguna vez has sentido que eres el mejor estratega de juegos de mesa de tu familia? Pues tenemos malas noticias para ti: Esta semana, un grupo de investigación de Meta Fundamental AI Research Diplomacy Team (FAIR) ha presentado su modelo de lenguaje, Cicero, entrenado para el juego de mesa estratégico Diplomacy.
Diplomacy es probablemente uno de los juegos de mesa estratégicos más pesados que existen y lo que lo hace genuino es su énfasis en el diálogo privado uno a uno entre todos los jugadores antes de que todos jueguen su turno simultáneamente. Los jugadores actúan como imperios en Europa y su objetivo es controlar los centros de suministro estratégicos moviendo unidades a ellos. Sin embargo, para jugar eficazmente, los jugadores deben interactuar y cooperar, al tiempo que desconfían unos de otros, y esto es lo que hace que Cicero sea tan innovador como aterrador.
En 40 partidas de una liga anónima de Diplomacia en línea, Cicerón obtuvo el doble de la puntuación media de los jugadores humanos y se situó entre el 10% de los participantes que han jugado más de una partida.
Así que estate atento cuando tu hermano utilice su teléfono en la próxima noche de juegos de mesa: podrías estar jugando contra una IA engañosa disfrazada de filósofo romano y no estar en el ajo.
Los algoritmos tridimensionales para jugar al ajedrez no buscan necesariamente el poder
Sin embargo, aunque Cicero parece estar a la vanguardia de lo que empezó como algoritmos de ajedrez que superan a Kasparov, dos profesores de los grupos de Teoría de la Computación y Fundamentos del Aprendizaje Automático de Harvard no creen que un "Gran Hermano de los juegos de mesa" como Cicerón sea representativo de la conquista del mundo por la IA.
Según ellos, los continuos avances de la IA no nos conducen necesariamente hacia un sistema unitario de IA nigromnipotente que actúe de forma autónoma para perseguir objetivos a largo plazo. Si bien la IA puede ser extremadamente adecuada para resolver problemas, cuando se le da un resultado que optimizar, puede que no sea tan adecuada para definir su estrategia por sí misma, o al menos no mucho mejor que los agentes humanos apoyados por herramientas de IA a corto plazo. Esto se debe a que la superior capacidad de procesamiento de información de la IA no se extrapola tan bien a los objetivos a largo plazo en entornos del mundo real con mucha incertidumbre y, por tanto, no estará muy lejos de la capacidad humana para elaborar estrategias en un entorno tan caótico.
Según esta visión del mundo, los sistemas de IA con objetivos a largo plazo que deben alinearse podrían no ser el objetivo principal de la seguridad de la IA, sino que deberíamos centrarnos más en construir sistemas de IA igual de potentes que puedan limitarse a horizontes temporales cortos.
Formalizar la presunción de independencia
En un artículo de Paul Christiano, Eric Neyman y Mark Xu, arroja nueva luz sobre cómo podemos utilizar argumentos heurísticos para complementar el trabajo de seguridad de la IA.
El artículo trata principalmente de cómo los argumentos heurísticos actúan como complementos matemáticos de las pruebas formales deductivas, pero como simplifican y presuponen la independencia, estos argumentos funcionan mejor con nuevas entradas de datos que las pruebas formales matemáticas de la vieja escuela.
En su apéndice final, los tres investigadores extrapolan estas conclusiones al contexto de la investigación sobre alineación, afirmando que los argumentos heurísticos podrían proponer importantes complementos a los trabajos de interpretabilidad y verificación formal en la seguridad de la IA. Se centran especialmente en evitar fallos catastróficos y obtener conocimientos latentes.
Lo que es importante observar aquí es el uso de la "presunción" (o lo que ya se da por "heurística"). Simplificando las matemáticas, uno puede ser capaz de generalizar más y hacer que los modelos sean aplicables a rangos más amplios, pero los argumentos heurísticos también pueden ser derribados mostrando la correlación ignorada entre parámetros; el razonamiento basado en esta heurística es común, intuitivamente convincente y a menudo bastante exitoso, pero completamente informal y no riguroso.
Monosematicidad en modelos de juguete
También esta semana, Adam Jermyn, Evan Hubinger y Nicholas Schiefer han publicado un artículo sobre la interpretabilidad la monosematicidad de las neuronas individuales en las redes neuronales.
Se sabe que algunas neuronas de las redes neuronales representan características "naturales" de la entrada y que estas unidades monosemánticas son mucho más fáciles de interpretar que su contrapartida: las neuronas polisemánticas. Hasta aquí todo bien.
Sin embargo, este artículo explora cómo diferentes restricciones de numeración de unidades por capa u otros giros arquitectónicos pueden cambiar la cantidad de unidades monosemánticas sin aumentar la pérdida del modelo. Esto puede hacerse, por ejemplo, cambiando los mínimos locales que encuentra la función de entrenamiento.
Además, el artículo concluye que
Las entradas con rasgos dispersos pueden hacer que los modelos sean más monosemánticos.
Los mínimos de pérdida más monosemánticos tienen un sesgo negativo moderado y esto puede utilizarse para aumentar la monosemanticidad y, por último,
Que un mayor número de neuronas por capa hace que los modelos sean más monosemánticos, pero que ello conlleva un mayor coste computacional.
Otras noticias
En noticias menores, Leo Gao aclara el término wire-heading, que considera que causa confusión, debido a sus amplias aplicaciones.
Además, LessWrong sigue desbordando con análisis y consideraciones sobre la situación del FTX. En una lectura de casi horas, ,el usuario Zvi, expone el caso sus secuelas de forma muy exhaustiva. Si te interesa saber cómo el accidente ha dejado algunas cosas en el aire, te recomendamos que leas este artículo.
El usuario Nick Gabs, también ha publicado su aprehensión del MIRI "How Likely Is Deceptive Alignment" de Evan Hubinger. Básicamente, explica cómo la alineación engañosa es un resultado muy probable del entrenamiento de una IA suficientemente inteligente utilizando el descenso de gradiente. El resultado engañoso es a la vez más simple y requiere menos potencia de cálculo que la alineación genuina. Así que no hay puntos de vista positivos de MIRI una vez más.
Por último, queremos mencionar a nuestros colegas de Conjecture, que esta semana han publicado un informe sobre sus últimos 8 meses de trabajo en un campo como el de la seguridad de la IA, que a veces (algunos dirían que siempre) es un poco desordenado, siempre es agradable contar con una meta-visión sobre consideraciones estratégicas y plazos.
Oportunidades
Recuerda que también puedes participar en la investigación sobre seguridad de la IA de muchas maneras. Esta semana nos gustaría señalar una muestra de las oportunidades disponibles:
Conjecture parece estar creciendo rápidamente y está contratandopuestos técnicos como no técnicos. Como escriben en el post: "Nuestra cultura tiene un sabor único. En nuestro sitio web decimos algunas cosas picantes sobre la pillería hacker/pirata, el empirismo académico y la ambición salvaje. Pero también hay muchos memes, escalada, karaoke nocturno y filosofías locas". https://ais.pub/conj2
Si no te apetece trabajar en Conjecture, también puedes echar un vistazo al programa AI safety Mentors and Mentess, que pretende emparejar a mentores y mentorados para mejorar su trabajo de seguridad en IA. El programa está diseñado para ser "muy flexible y ligero y se espera que se realice junto a una ocupación actual". https://ais.pub/mentor
También queremos dejar una nota sobre el preanuncio Del Concurso de visiones del mundo de la IA de Open Philantrophy, que se celebrará a principios de 2023. Puedes encontrar más información en el foro de EA, aunque la información es todavía bastante escasa.
Por último, Apart recibió un correo que nos llamó la atención sobre los recién lanzados AI Alignment Awards. El objetivo de estos premios es ofrecer hasta 100.000 dólares a quien consiga avanzar en dos problemas abiertos en el campo de la investigación de la alineación de la IA. Visita su página web si crees que es algo para ti.
Hasta aquí la actualización sobre seguridad en ML & AI. Esperamos veros la semana que viene.