Cambia la opinión de FTX por 1,5 millones de dólares, obtén una nueva perspectiva en interpretabilidad, participa en el speed prior y únete a nuestro hackatón.
Hoy es 30 de septiembre, me llamo Esben, y estás viendo... el Informe de Progreso de Safe AI.
El FTX Future Fund anuncia un premio de 1,5 millones de dólares para que cambien de opinión sobre los riesgos de la inteligencia artificial. Hasta ahora, han donado más de 31 millones de dólares a esta causa y cambiar de opinión podría cambiar completamente el destino de este dinero. Si cambias drásticamente sus estimaciones de probabilidad sobre lo peligrosa que es la AGI y cuándo llegará, podrás optar a un premio.
Una de las primeras propuestas es este post que defiende que la temible IA llegará pronto. Trata de cómo esperamos que la inteligencia general temprana dé más miedo que la IA tardía, ya que no tendremos tanto tiempo para prepararnos, y de que hay varias variables en la comprensión de la precocidad de la aparición de la IA que dan miedo de las que no podemos estar seguros. Muy buen artículo.
La conjetura lanza una gran investigación en interpretabilidad, la lente de Polytopes sobre el espacio de características. Argumentan que no deberíamos entender los rasgos como direcciones, sino como estructuras geométricas en el espacio de rasgos debido a las funciones de activación no lineales y a la polisemanticidad.
A pesar de que una neurona puede codificar múltiples rasgos, pueden identificar "politopos monosemánticos", lo que significa que si no estudiamos los rasgos como direcciones sino como formas geométricas, podemos identificar mejor dónde se interpretan los distintos tipos de entrada. Esto desafía la interpretabilidad de los circuitos de la que hemos hablado antes con un experimento en el que escalan las activaciones y ven una diferencia en lo que la red entiende. Lo que esto implica es que no podemos utilizar direcciones lineales como características (figura).
Anthropic trabaja mucho en la interpretabilidad de los circuitos y, al mismo tiempo, ha publicado un trabajo asombroso sobre la comprensión de la superposición de características, que no es más que la comprensión de características repartidas entre muchas neuronas, por ejemplo, una neurona que responde tanto a coches como a perros. Esto permite que la red comprenda más cosas, pero, por desgracia, hace que nos resulte más difícil comprenderla.
Su trabajo muestra una serie de experimentos interesantes, estudiando cuándo se produce la superposición de características, como en esta figura donde el amarillo indica una mayor superposición (figura) y gráficos de geometría de características que muestran cómo las superposiciones son posibles a través de la codificación de la información en las direcciones más distintas posibles (figura). Hay más experimentos y te recomiendo que leas el artículo si quieres saber más.
Pérez y McKenzie dan a conocer los ganadores de la primera ronda del premio de escalado inverso. Este reto trata de encontrar tareas en las que los modelos lingüísticos más grandes rinden peor que los modelos más pequeños, lo cual es sumamente importante para saber dónde modelos mucho más grandes podrían toparse con obstáculos en su compatibilidad con los valores humanos.
Los ganadores demuestran que 1) los modelos más grandes son peores a la hora de entender la negación, 2) repiten más a menudo lo que han visto en su conjunto de entrenamiento, 3) son peores a la hora de redefinir definiciones y 4) son peores a la hora de entender futuros comportamientos de riesgo.
Evan Hubinger ha publicado sus experimentos de verano que se basan en su trabajo sobre los llamados "Speed priors". Esperamos que las futuras IA peligrosas engañen a los humanos, por lo que necesitamos una forma de castigar a los algoritmos que engañan. Una forma es encontrar un "regularizador", o una penalización a las redes, que esté sesgado hacia modelos no engañosos. La prioridad a la velocidad intenta conseguirlo seleccionando el modelo más rápido en una tarea, ya que suponemos que el engaño requiere pasos adicionales en comparación con la realización de la tarea en cuestión.
Su nuevo trabajo presenta intentos de utilizar las priorizaciones de velocidad en múltiples niveles, resolviendo también la desalineación interna. Como explicamos en el segundo Informe de Progreso de Safe AI, la desalineación interna se produce cuando un modelo parece hacer lo correcto pero es engañoso o tiene sus propios objetivos por debajo de la primera capa. Para paliar este problema, queremos que la velocidad previa funcione en ambos niveles. La mayoría de los enfoques que presenta no son muy prometedores, pero justifican futuras investigaciones.
Leo Gao describe cómo las políticas de aprendizaje por refuerzo no pueden preocuparse por la recompensa en un entorno incrustado, pero que siguen siendo capaces de hacer wireheading. Esto se extiende al hecho de que no hay ningún mecanismo especial en los humanos que nos haga preocuparnos por las cosas del mundo. El escrito de Leo es una respuesta a un texto de Alex Turner con la afirmación más débil de que los agentes de aprendizaje por refuerzo probablemente no optimizarán para la recompensa.
En noticias más pequeñas, Holden Karnofsky analiza cómo el despliegue de la IA es increíblemente importante y cuestiona la opinión entre los teóricos de que sólo tenemos que resolver los problemas técnicos de la alineación y no tendremos que preocuparnos demasiado por cómo el mundo despliega estos modelos.
Akash y Thomas describen los 7 errores de los nuevos investigadores de alineación y cómo a menudo acaban estancados en el "perfeccionamiento" y no cuestionan a las figuras de autoridad.
Pero algunos lugares donde los nuevos investigadores podrían surgir con mejores fundamentos es el hackatón de modelos lingüísticos que estamos llevando a cabo durante el fin de semana, ¡a partir de hoy! Te invitamos a participar en el hackatón durante el fin de semana y podrás ganar hasta 1.000 dólares. Únete a nosotros para averiguar si podemos obtener resultados de investigación novedosos en un fin de semana.
Otro evento que se está celebrando es la conferencia AI Safety de ALTER en Israel para poner más énfasis en la seguridad de la IA en el país. Nuestro Fazl Barez intervendrá en este evento.
Y como siempre, si quieres saber más, visita apartresearch.com, y si quieres encontrar proyectos en los que trabajar, visita AI Safety Ideas.
Este ha sido el Informe de Progreso de Safe AI y esperamos verle la semana que viene.
Enlaces
Concurso sobre la visión del mundo del Future Fund: https://ftxfuturefund.org/
Una AGI general fuerte llega pronto: https://forum.effectivealtruism.org/posts/kRNLsBLoCryMMipoJ
Lentes de politopes: https://www.alignmentforum.org/posts/eDicGjD9yte6FLSie/interpreting-neural-networks-through-the-polytope-lens
Publicaciones de Anthropic: https://www.anthropic.com/research
Modelos de juguete de superposiciones https://transformer-circuits.pub/2022/toy_model/index.html
Premio de la primera ronda del Escalado inverso https://www.alignmentforum.org/posts/iznohbCPFkeB9kAJL/inverse-scaling-prize-round-1-winners
Premio del escalado inverso https://github.com/inverse-scaling/prize
Speed prior and forwarding speed priors: https://www.alignmentforum.org/posts/bzkCWEHG2tprB3eq2/attempts-at-forwarding-speed-priors
¿Son los circuitos sencillos engañosos? Are minimal circuits deceptive?: https://www.lesswrong.com/posts/fM5ZWGDbnjb7ThNKJ/are-minimal-circuits-deceptive
Musings on the speed prior: https://www.alignmentforum.org/posts/GC69Hmc6ZQDM9xC3w/musings-on-the-speed-prior
Un wireheading des-confuso https://www.alignmentforum.org/posts/jP9cKxqwqk2qQ6HiM/towards-deconfusing-wireheading-and-reward-maximization
La recompensa no es el foco de optimización: https://www.alignmentforum.org/posts/pdaGN6pQyQarFHXF4/reward-is-not-the-optimization-target
Nearcasting AGI: https://www.alignmentforum.org/posts/vZzg8NS7wBtqcwhoJ/nearcast-based-deployment-problem-analysis
7 trampas en las que las investigaciones de las nuevas alineaciones caen https://www.lesswrong.com/posts/h5CGM5qwivGk2f5T9
Hackatón de modelo de lenguajes: https://itch.io/jam/llm-hackathon
AI Safety conferencia en Israel: https://aisic2022.net.technion.ac.il/
Apart Research: https://apartresearch.com
AI Safety Ideas: https://aisi.ai