Esta semana analizaremos los contraargumentos al argumento básico de por qué la IA es un riesgo existencial para la humanidad, veremos cómo la IA fuerte podría llegar muy pronto y compartiremos artículos interesantes.
Pero antes, una pequeña nota: ahora puedes suscribirte a nuestro boletín y escuchar estas actualizaciones en tu aplicación de podcast favorita. Consulta newsletter.apartresearch.com y podcast.apartresearch.com.
Hoy es 20 de octubre y esta es la actualización sobre los avances en seguridad ML.
Contraargumentos del riesgo X de la IA
El riesgo existencial de la IA no parece abrumadoramente probable según Katja Grace de AI Impacts. Escribe un largo artículo argumentando en contra de las principales perspectivas sobre cómo la IA puede llegar a ser muy peligrosa y señala que la suficiente incertidumbre hace que la seguridad de la IA parezca una preocupación relevante.
Sus contraargumentos van en contra de los tres argumentos principales de por qué la IA superinteligente se convertirá en un riesgo existencial: 1) los sistemas de IA superhumanos estarán dirigidos por objetivos, 2) los objetivos de los sistemas de IA dirigidos por objetivos serán malos, y 3) la IA superhumana dominará a los humanos.
Sus argumentos para justificar que los sistemas de IA no estén dirigidos por objetivos son que muchos sistemas altamente funcionales pueden ser “pseudoagentes”, modelos que no persiguen la maximización de la utilidad, sino que optimizan para que se cumplan una serie de subobjetivos. Además, para ser un riesgo, el listón de la orientación por objetivos es muy alto.
Sus argumentos para explicar por qué los objetivos de los sistemas de IA dirigidos por objetivos podrían no ser malos son los siguientes 1) Incluso los seres humanos malvados se corresponden en líneas generales con los valores humanos, por lo que una ligera desviación de la política óptima parece correcta. 2) La IA podría simplemente aprender lo correcto del conjunto de datos, ya que los humanos también parecen obtener su comportamiento de los diversos datos de entrenamiento del mundo. 3) El aprendizaje profundo parece muy bueno aprendiendo cosas difusas a partir de los datos y los valores parecen aprendibles de forma ligeramente similar a la generación de caras (y no vemos caras sin narices, por ejemplo). El último contraargumento es que 4) las IA que aprenden objetivos a corto plazo serán muy funcionales y tendrán pocas posibilidades de optimizar objetivos peligrosos a largo plazo, como la búsqueda de poder.
También es posible que una IA sobrehumana no supere a los humanos, ya que: 1) A un humano genial de la Edad de Piedra le costaría mucho más llegar al espacio que a un humano de inteligencia media en la actualidad, lo que demuestra que la inteligencia es un concepto mucho más matizado de lo que creemos. 2) La IA podría no ser mejor que las combinaciones de humano e IA. 3) La IA necesitará nuestra confianza para hacerse cargo de infraestructuras críticas. 4) Hay muchas otras propiedades además de la inteligencia que parecen muy relevantes. 5) Muchos objetivos no acaban en la conquista del universo. 6) Los bucles de retroalimentación de la inteligencia pueden tomar muchas velocidades y se necesita mucha confianza en que es rápido para decir que lleva a la perdición. Y 7) los conceptos clave en la literatura son bastante vagos, lo que significa que carecemos de una comprensión de cómo conducirán al riesgo existencial.
Erik Jenner y Johannes Treutlein dan su respuesta sus contraargumentos. Su principal argumento es que hay pruebas fehacientes de que la diferencia entre la IA y los humanos será grande y que necesitamos la IA ligeramente alineada de Grace para ayudarnos a alcanzar un estado en el que no construyamos sistemas mucho más capaces y más desalineados.
Servicios integrales de IA (CAIS)
Un texto relevante a mencionar en relación con estos argumentos es el intento de Eric Drexler de reformular la superinteligencia en algo más realista en un mundo económico. Aquí, utiliza el término “servicios de IA” para describir tareas singulares que serán económicamente relevantes. Lo integral en servicios integrales de IA es lo que solemos llamar general. El punto principal es que veremos mucha IA altamente capaz pero especializada antes de que consigamos la inteligencia general artificial monolítica. Le recomendamos que lea el informe si tiene tiempo.
Una AGI fuerte en breve
En el extremo opuesto del espectro de Grace, Porby comparte por qué creen que la AGI llegará en los próximos 20 años con argumentos convincentes sobre 1) lo fácil que es el problema de la inteligencia, 2) lo inmaduro que está el aprendizaje automático actual, 3) lo rápido que alcanzaremos el nivel de hardware necesario y 4) cómo no podemos fijarnos en los sistemas de IA actuales para predecir las capacidades futuras.
Otras noticias
En otras noticias, en una nueva encuesta publicada en Nature, los usuarios no expertos de sistemas de IA piensan que la interpretabilidad es importante, sobre todo en escenarios críticos para la seguridad. Sin embargo, prefieren la precisión en la mayoría de las tareas.
Neel Nanda comparte una lectura sesuda de su trabajo favorito sobre interpretabilidad en Circuits.
Un nuevo método de aprendizaje por refuerzo muestra buenos resultados tanto en rendimiento como en moralidad de sus acciones. Toman un juego basado en texto y entrenan a un agente de aprendizaje por refuerzo tanto con una política de tareas como con una política moral.
Wentworth señala cómo los mercados de predicción podrían ser útiles para la investigación de la alineación.
DeepMind ha dado a un modelo lingüístico acceso a una simulación física para aumentar su capacidad de razonamiento físico.
Nate Soares describe los seres superinteligentes no dejan necesariamente con vida a los humanos por motivos de teoría de juegos.
Una nueva agenda de investigación en seguridad de la IA pretende estudiar la teoría del aprendizaje profundo utilizando un enfoque pragmático para comprender conceptos clave.
Oportunidades
Y ahora, ¡a bucear en las muchas oportunidades disponibles para todos los interesados en aprender y hacer más investigación en seguridad ML!
SERI MATS está aceptando solicitudes para una beca presencial de 2 meses totalmente remunerada para realizar investigación independiente en seguridad de IA. Presente su solicitud ahora que las solicitudes se cierran este domingo.
El Future of Life Institute está aceptando solicitudes para financiar tu doctorado o postdoctorado en un campo relacionado con la seguridad de la IA.
También puedes dedicarte directamente a la investigación solicitando un puesto en el equipo técnico de Redwood Research o incorporarte como becario al Center for Human-Compatible AI.
Hemos estrenado nuestro nuevo sitio web para los hackatones alignmentjam.com, que estamos orgullosos de mostrar al mundo. Solo tienes que entrar en alignmentjam.com, participar en el próximo hackatón de noviembre y suscribirte para recibir actualizaciones.
Ahora también puedes seguirnos en nuestro boletín o escuchar estos episodios en tu aplicación de podcasting favorita.
Esta ha sido la Actualización de Progreso en Seguridad de ML y ¡esperamos verle la semana que viene!