¿Están amenazadas las opciones de financiación para la seguridad de la IA? - S45
El gigante de las criptomonedas FTX se desploma, creando gran incertidumbre para la financiación de proyectos de seguridad en IA, los humanos cooperan mejor con IA mentirosa, y la interpretabilidad es prometedora pero no.
Hoy trataremos esta y otras noticias del mundillo de la seguridad de IA.
Es 11 de noviembre, ¡y bienvenido a esta actualización de seguridad en IA & ML!
FTX cae
Dado que se trata de una noticia importante, vamos a sumergirnos en lo que ocurrió realmente con la Fundación FTX.
Cuando Sam Bankman-Fried, el CEO de FTX, anunció The Future Fund a finales de febrero de 2022 con el objetivo de mejorar las perspectivas a largo plazo de la humanidad otra gran iniciativa en apoyo de la comunidad de AI Safety y su capacidad para operar fuera del sistema de incentivos de las empresas con fines de lucro.
Hace tres días, Sam Bankman-Fried tuiteó sobre sus problemas de liquidez como criptointercambio, marcando el comienzo de una serie de revelaciones sobre FTX, cómo han manejado mal el dinero de los usuarios, movido fondos a sus propias cuentas y violado sus propios términos de servicio. El Departamento de Justicia ha iniciado una investigación sobre FTX y su fondo de cobertura de criptomonedas, Alameda Research.
Además, el reciente desplome de las acciones de Meta ha hecho que el segundo gran financiador de la investigación sobre la seguridad de la IA, Open Philanthropy, pierda gran parte de su dinero procedente de las acciones de Meta de Dustin Moskovitz, por lo que el futuro de la seguridad de la IA se presenta, como mínimo, interesante.
Cooperación entre humanos e IA
Seguimos esta grave noticia con la investigación de un equipo de Stanford. Demuestran que la cooperación entre humanos e IA es mejor cuando la IA se calibra en función de la relación con el humano en lugar de la precisión.
Los autores utilizan la IA para asesorar en la toma de decisiones a los participantes y descubren que la IA modulada para adaptarse a la interacción entre humanos e IA ofrece un mejor rendimiento general en comparación con un sistema de IA de máxima precisión para el sistema de colaboración entre humanos e IA.
Esto introduce interesantes consideraciones sobre cómo la IA interactúa realmente con los humanos en relación con varias formas en que podríamos salvaguardar la IA futura.
Escalado inverso en forma de U
Y justo cuando pensábamos que habíamos encontrado algún tipo de linealidad en las leyes de escalado inverso, Google muestra que pueden llegar a tener forma de U. Basta con escalar los modelos hasta tamaños extremos. Si esto es cierto, podría refutar las leyes de escalado inverso y Google llega incluso a afirmar: "Esto sugiere que el término tarea de escalado inverso no está bien especificado: una tarea determinada puede ser de escalado inverso para una indicación, pero de escalado positivo o en forma de U para otra indicación diferente".
Sin embargo, no todos están satisfechos con sus métodos. Ethan Pérez llama la atención del equipo por desviar sus pruebas de ley de escala inversa de las que describen como réplicas en el artículo.
Interpretabilidad en la práctica
¡Seguimos adelante! Redwood Research ha llevado a cabo un magnífico trabajo contemporáneo sobre interpretabilidad: usando GPT-2 Small, investigan la "identificación indirecta de objetos" de principio a fin en términos de las partes internas del circuito de un transformador, evaluando incluso la fiabilidad del modelo.
Lo ingenioso del trabajo de interpretabilidad no es sólo que se tome realmente en serio la tarea de investigar la interpretabilidad, sino que también muestra cuánta información valiosa puede encontrar una investigación adecuada de la interpretabilidad.
El equipo logra identificar 26 cabezas de atención agrupadas en 7 categorías, que componen el circuito indirecto de clasificación de objetos. Por el camino, el equipo también identificó estructuras interesantes del modelo interno, por ejemplo, que las cabezas de atención se comunicaban utilizando punteros para compartir una pieza de información, en lugar de copiarla.
Te recomendamos que le eches un vistazo a este trabajo de investigación sobre interpretabilidad.
Otras noticias
En otras noticias, Eric Drexler y Yudkowsky debaten sobre la superinteligencia en el foro de alineación: Porque ¿cuántas IA superinteligentes son realmente el mejor escenario posible cuando empiezan a interactuar entre sí?
Además, el equipo Janus de Conjecture ha descubierto resultados de los modelos humanos afinados de OpenAI tienen resultados muy seguros en situaciones bastante específicas, con claras preferencias por números concretos, respuestas y similares.
MadHatter duda de algunos de los escenarios de pensamiento de los mesa-optimizadores propuestos por los investigadores del campo y pide que se considere una investigación mucho más empírica sobre los mesa-optimizadores.
David Krueger pone en duda el verdadero valor de la interpretabilidad y la ingeniería inversa, sugiriendo que deberíamos hacer bien nuestra ingeniería en lugar de "invertir" esa ingeniería con la interpretabilidad.
Nate Soares duda de los enfoques cognitivos de la interpretabilidad, porque no estamos construyendo mentes, sino entrenándolas, y tenemos muy poca idea de su pensamiento interno. Duda de nuestra capacidad para predecir si un sistema AGI tendrá resultados positivos para la humanidad.
Y, por último, Apart Research ha lanzado un sitio web para la investigación de la interpretabilidad. Te recomendamos que les eches un vistazo y que te plantees si deberías participar en el hackatón sobre interpretabilidad que se celebrará este mismo fin de semana. Más información en los siguientes enlaces.
Oportunidades
Esta semana tenemos unas cuantas vacantes muy interesantes:
AI impacts sigue buscando un analista de investigación senior.
Y Anthropic sigue buscando un ingeniero de software senior
Mientras que Center of AI Safety busca un jefe de personal
Hasta aquí la actualización sobre seguridad en ML & AI. Les esperamos la semana que viene.