Analizamos cómo podemos protegernos contra la AGI, miramos nuevas investigaciones sobre la ley de Goodhart, vemos un conjunto de datos de código abierto con 60.000 vídeos emocionales y compartimos nuevas oportunidades en seguridad ML e IA.
Hoy es 28 de octubre, mi nombre es Thomas y bienvenidos al ML Safety Update de esta semana.
Defenderse de la AGI
¿Qué hace falta para defender el mundo contra la inteligencia general artificial?
Esto es lo que se pregunta Steve Byrnes en un nuevo post. Imagina un mundo en el que una AGI alineada se desarrolla un par de años antes que una AGI no alineada y comenta la optimista suposición de Paul Christiano de que una primera AGI alineada puede hacer cosas que eviten futuras AGI no alineadas.
Los temores generales son que 1) podría ser más fácil destruir que defender, 2) los humanos podrían no confiar en la IA alineada, 3) las estrategias de alineación en realidad hacen que la AGI alineada sea peor que una IA mal alineada, y 4) es muy difícil cambiar la sociedad rápidamente mientras se adhieren a las leyes humanas.
Byrnes propone una serie de soluciones que no cree que resuelvan el problema:
El despliegue generalizado de una AGI para implementar defensas es difícil en un mundo en el que los actores importantes no confían los unos en los otros y no son expertos en AGI.
Si la AGI se utiliza para crear una sociedad más sabia, por ejemplo, siendo los asesores de los líderes del gobierno, probablemente no se le pedirá consejo a menudo, ya que podría no decir lo que quieren oír.
Las medidas de defensa no relacionadas con la AGI, como la mejora de la ciberseguridad a nivel mundial, no parecen ser lo suficientemente seguras.
Detener el desarrollo de AGI en los laboratorios específicos con más posibilidades de crear AGI también parece que sólo nos hará ganar tiempo.
Detener por la fuerza la investigación AGI tiene un montón de advertencias que son similares a los otros puntos, pero parece una de nuestras mejores oportunidades.
En definitiva, parece que el acceso generalizado a una inteligencia general artificial puede llevar a un pequeño grupo a destruir el mundo y cualquier defensa contra esto es poco probable que funcione.
La ley de Goodhart
Leo Gao, John Schulman y Jacob Hilton investigan en su nuevo artículo cómo modelos de distintos tamaños sobreoptimizan un objetivo de recompensa. Esto se conoce comúnmente como la ley de Goodhart y puede describirse como el efecto de que la optimización de una representación imperfecta de la verdadera preferencia fallará porque esa representación se optimiza en lugar de lo que realmente queremos optimizar. En la seguridad de la IA, las verdaderas preferencias pueden ser los valores humanos, y entrenar un modelo con una representación aproximada de los mismos puede dar lugar a desajustes.
Es difícil evitar la ley de Goodhart porque se necesita una supervisión humana constante para actualizar continuamente las preferencias humanas. Los autores crean aquí un ejemplo de juguete con un modelo de recompensa como sustituto del humano y simulan una señal de recompensa imperfecta, no humana, cambiando la recompensa de este patrón oro de diferentes maneras.
Encuentran leyes de escala que pueden utilizarse para predecir lo bien que funciona el aprendizaje por refuerzo a partir de la retroalimentación humana para modelos más grandes y describen los resultados en relación con cuatro formas de pensar sobre la ley de Goodhart. Una de ellas es la regresión de Goodhart cuando la recompensa sustitutiva es una representación ruidosa de la recompensa real. En su experimento, un proxy ruidoso conduce a una recompensa menor sobre la preferencia verdadera que la que daría un humano.
Otras noticias
En otras noticias, un nuevo artículo publica un conjunto de datos con 60.000 vídeos marcados manualmente por sus cualidades emocionales. Los autores esperan que esto pueda ayudar a aprender mejor las preferencias humanas a partir de ejemplos de vídeo, entrenando nuestras redes neuronales para obtener una mejor empatía cognitiva.
Neel Nanda publica una lista de habilidades necesarias para investigar la interpretabilidad mecanicista.
Oldenziel y Shai afirman que la complejidad de Kolmogorov y la entropía de Shannon son medidas engañosas de la estructura para la interpretabilidad y que necesitamos una nueva medida; sin embargo, reciben el rechazo de Sherlis, que señala que probablemente no sea cierto.
Una nueva agenda de investigación intenta diseñar las representaciones en el espacio latente de los autocodificadores según nuestras preferencias.
Un nuevo entorno de aprendizaje por refuerzo puede utilizarse para medir el grado de búsqueda de poder de una IA. Cada estado del entorno se asocia a un valor instrumental, que indica cuánto poder da un estado concreto. El entorno ha sido lanzado por Gladstone AI, que ya ha publicado varios artículos utilizándolo.
Oportunidades
Ahora, vamos a entrar en algunas de las nuevas formas disponibles para entrar en el aprendizaje automático y la seguridad AI comisariada por BlueDot Impact. Hay bastantes puestos de trabajo disponibles.
Anthropic busca ingenieros de software sénior para construir sistemas ML desde cero, AI Impacts busca un asistente de investigación, un investigador sénior y un analista de investigación. Berkeley Existential Risks Initiative abre una vacante para un asistente de investigación y Ought tiene un puesto vacante para un becario de ingeniería de aprendizaje automático. Presente ahora su candidatura a estos puestos a través de los enlaces que figuran en la descripción. Las vacantes de la semana pasada también siguen abiertas.
Todavía puedes ganar hasta 1,5 millones de dólares para hacer cambiar de opinión al equipo del Fondo Futuro FTX.
Únete a nuestro hackatón de investigación en interpretabilidad que empieza dentro de dos semanas y dura un fin de semana. Puede participar en línea, así como en Londres, Aarhus y Tallin.
Echa un vistazo a la nueva funcionalidad del sitio web de AI Safety Ideas En el que puede enviar y probar hipótesis.
Presenta tu solicitud al Fondo de Futuro a Largo Plazo para recibir subvenciones para proyectos relacionados con la seguridad en ML.
Esta ha sido la actualización sobre seguridad en ML. Gracias por seguirnos y esperamos verte la semana que viene.