Apart Research en español: Boletín de Apart

Los modelos de lenguaje podrían estar siempre ligeramente desalineados

Thu, 27 Apr 2023 11:29:22 GMT

Los modelos de lenguaje grandes como GPT-4 parecen ser impermeables a intentos completos de alineación, debemos pensar en las consecuencias de la investigación de interpretabilidad, la capacidad de memorización de los modelos de lenguaje es fascinante, y abren varias oportunidades de investigación.

Estamos de vuelta de Estocolmo y EAGx Nordics y listos para otra semana de anuncios sobre el desarrollo de la investigación de seguridad de ML y AI. ¡Bienvenidos al resumen de alineación de esta semana!

Limitaciones de alineación de LLM

Wolf y Wies et al. (2023) definen un marco para analizar teóricamente la alineación de modelos de lenguaje (LMs) como GPT-4. Su marco de Comportamiento de Expectativas Acotadas (BEB) hace posible una investigación formal sobre la alineación de LLMs. Clasifica las salidas dadas por los modelos como “mal comportadas” o “bien comportadas”.

Muestran que los LMs que se optimizan para producir solo salidas bien intencionadas pero que tienen incluso la probabilidad más pequeña de producir ejemplos negativos siempre tendrán un "prompt de escape" que puede hacer que produzca algo malo; sin embargo, este prompt de escape necesitará ser más largo cuanto más alineado esté el modelo, asegurando un mayor grado de seguridad a pesar de la falta de comportamiento probadamente seguro. Definen la alineación como asegurar un comportamiento dentro de ciertos límites de un espacio de comportamiento. Como ejemplo, vea la gráfica a continuación:

También muestran que es relativamente fácil utilizar las "personas" que un modelo ha aprendido de sus datos de entrenamiento para generar salidas negativas, que estos LMs no se alinearán fácilmente después de haber sido desalineados, y que los LMs pueden resistir la desalineación por parte de un usuario. Consulta el artículo para más detalles.

Speedrunning y aprendizaje automático

Sevilla y Erdil (2023) crean un modelo para predecir la mejora de los récords de speedrunning (completar los juegos más rápido) que se ajusta bien a una ley de aprendizaje de potencia. Al aplicar el mismo tipo de modelo a los benchmarks de aprendizaje automático, muestran que todavía hay mucho margen de mejora y que no parece disminuir.

Es un modelo de efectos aleatorios relativamente simple con una decadencia de ley de potencia, pero se aplica a 435 puntos de referencia con 1552 pasos de mejora e indica una buena relación con los puntos de referencia de speedrunning. Según el modelo, también descubren que las grandes mejoras son infrecuentes, pero parecen ocurrir cada 50 intentos.

¿Deberíamos publicar investigaciones de interpretabilidad mecanística?

Gran parte de la investigación en seguridad de la IA que se publica en los medios académicos de aprendizaje automático es de "interpretabilidad mecanística". Con su potencial para aumentar nuestra comprensión de las redes neuronales, es un beneficio tanto para aquellos de nosotros que deseamos reconocer el engaño y las inconsistencias internas de la red como para aquellos que desean hacer que el aprendizaje automático sea aún más capaz, acelerando nuestro camino hacia una IA que cambie el mundo.

Marius y Lawrence han examinado los casos básicos a favor y en contra de la publicación y concluyen que debe evaluarse caso por caso, con su recomendación de una decisión diferencial de publicación; si ayuda a la alineación significativamente menos de lo que mejora el desarrollo de la IA, debe circularse con más cuidado en lugar de publicarse directamente.

Otras investigaciones

Stephen McAleese examina cómo las líneas de tiempo de la IA afectan al riesgo existencial y enfatiza la importancia del desarrollo diferencial de la tecnología.
El uso de la detección de alta entropía en imágenes mejora la identificación de "parches adversarios", áreas de imágenes editadas para engañar a las redes neuronales (Tarchoun et al., 2023).
Wendt y Markov (2023) analizan cómo la IA incontrolable puede llevar a escenarios de alto riesgo y cómo difieren de "AGI" y "ASI" (Inteligencia Artificial General / Superinteligencia Artificial).
EleutherAI ha utilizado los modelos Pythia, publicados hace tres semanas, para investigar la memorización en LLMs. El gráfico a continuación muestra su investigación sobre cómo los modelos más pequeños son útiles para predecir qué secuencias serán memorizadas por el modelo más grande, el modelo Pythia de 12B. Cada modelo tiene varios puntos en el gráfico debido a que el conjunto de modelos Pythia incluye pasos varias veces durante el entrenamiento. Son resultados intrigantes y se necesita más investigación. Puedes leer más en el tweet de Stella Biderman.

Oportunidades

Como siempre, hay oportunidades interesantes disponibles en el ámbito de la seguridad de la IA:

Únete al programa ARENA para mejorar tus habilidades en ingeniería de ML y contribuir directamente a la investigación sobre alineación. La fecha límite es en 10 días y tendrá lugar en Londres durante una semana.
Consulta las oportunidades laborales en el ámbito de la seguridad de la IA en agisf.org/opportunities.
Y asiste a conferencias relevantes sobre seguridad de la IA en aisafety.training.

Gracias por seguirnos y recuerda suscribirte para recibir actualizaciones sobre nuestros diversos programas, el próximo tendrá lugar el 26 de mayo; un hackatón de investigación sobre el tema de la verificación de seguridad y los puntos de referencia.

Suscríbete ahora

Boletín Semanal # 27

Tue, 18 Apr 2023 16:09:42 GMT

Esta semana echamos un vistazo a las nuevas exploraciones del espacio de características, modelos para analizar la dinámica de entrenamiento y reflexiones sobre el espacio de riesgo de la IA. También compartimos algunos boletines colegas que se están iniciando en la seguridad de la IA junto con interesantes oportunidades dentro de la seguridad de la IA.

Investigación en seguridad ML

Pythia (Biderman et al., 2023) es un conjunto de datos de 8 modelos entrenados con parámetros que oscilan entre 19 millones y 12.000 millones. Estos modelos se entrenan para abrir nuestra capacidad de investigar cómo aprenden los grandes modelos y dan acceso a copias del modelo guardadas durante el entrenamiento. Comprender cómo aprenden los "cerebros de IA" es importante para encontrar nuevas vías de alineación.

Un nuevo artículo de Redwood Research presenta trabajos para localizar comportamientos de redes neuronales en partes de su estructura interna (Goldowsky-Dill et al., 2023). Formalizan el parcheo de trayectorias y lo utilizan para probar y refinar hipótesis de comportamientos en GPT-2 y más. Puedes explorar su herramienta de búsqueda de modelos de comportamiento.

En un trabajo reciente, Neel Nanda se basa en la investigación sobre Othello-GPT (Li et al., 2023) que se entrena para realizar movimientos legales aleatorios en el juego de mesa Othello. Una teoría común es que las características de la comprensión de una red se codifican linealmente y Li et al. demuestran que no es el caso de la representación neuronal del estado del tablero.

Esto estaba a punto de dar la vuelta a nuestra comprensión de las características; sin embargo, Nanda (2023) muestra que si reinterpretamos las características, podemos extraerlas usando un tipo de "regresión logística" sobre la activación neuronal. Con una simple transformación, la interpretabilidad afortunadamente sigue siendo linealmente interpretable.

Neel Nanda también se unió a nosotros para que el hackathón de interpretabilidad 2.0 fuera un éxito este fin de semana. Podrás seguir las presentaciones de los proyectos el próximo martes, pero a modo de breve resumen, los equipos trabajaron para:

Identificar puntos de inflexión en el aprendizaje del modelo (enlace).
Desarrollar una forma de inspeccionar cualitativamente muchas neuronas de la red Othello-GPT (enlace a la herramienta y al informe).
Mejorar la biblioteca TransformerLens (enlace al informe y TransformerLens)
Investigar cómo el abandono afecta a las bases privilegiadas (enlace)
Y más...

Reflexiones sobre la investigación del riesgo de IA

Jan Kulveit y Rose Hadshar describen cómo las propuestas habituales de alineación ignoran que el sistema con el que intentamos alinearnos (los humanos) no suele estar alineado en sí mismo. Esto hace que varios tipos de propuestas se tambaleen.

También ofrecen una visión general de las formas de resolver este problema, con ejemplos como alinearse con Microsoft en lugar de con los humanos, tener en cuenta nuestras preferencias sobre nuestras preferencias y utilizar los mercados.

David Thorstad critica algunas de las estimaciones de riesgo extremo sobre la IA desde el principio de que varias partes de los cálculos de riesgo no tienen datos ni argumentos significativos detrás. Esto se hace eco de críticas anteriores de Nuno Sempere y Ben Garfinkel, que destacan respectivamente cuestiones de estimación y de deferencia.

Se ha publicado un post anónimo en el que se critica a uno de los mayores laboratorios sin ánimo de lucro dedicados a la seguridad de la IA, en el que se describen problemas relacionados con la experiencia de los investigadores y los conflictos de intereses con sus subvencionadores.

Steven Kaas invita a la gente a hacer preguntas sobre la seguridad de la inteligencia general artificial (AGI). Ya tiene más de 100 comentarios y podría ser interesante explorarla. Por ejemplo, "¿en qué medida supone un riesgo la AGI?" y "¿es siquiera posible la alineación?".

¿Y qué más?

Ha salido un boletín sobre la gobernanza de la IA y la navegación por los riesgos de la IA durante el próximo siglo. Se centra en cómo podemos gobernar los riesgos planteados por la inteligencia artificial transformadora y recibirás sus reflexiones en extenso sobre cuestiones fundamentales en la gobernanza de la IA junto con una visión general de lo que ha estado sucediendo cada 2 semanas.
Nonlinear ha puesto en marcha una red de financiación para la seguridad de la IA con más de 30 donantes privados e invita a enviar solicitudes de subvención antes del 17 de mayo.
El Center for AI Safety ha lanzado un boletín informativo sobre lo que está ocurriendo en la seguridad de la IA con su primer post de hace una semana. Ya comparten mensualmente el ML Safety Newsletter, en el que exploran temas de investigación sobre seguridad en ML.

Oportunidades en seguridad ML

Como de costumbre, damos las gracias a nuestros amigos de aisafety.training y agisf.org/opportunities por trazar un mapa de las oportunidades disponibles en la seguridad con IA. Consúltelos aquí:

Envíe sus perspectivas y exploraciones de nuestras expectativas sobre cómo se desarrollará la IA con el Premio Open Philanthropy's Worldview. ¡Puedes ganar hasta 50.000 dólares!
El 21 de abril se abren las inscripciones para la beca de política tecnológica y de seguridad de la RAND Corporation para llevar a cabo una investigación independiente sobre la gobernanza de la IA.
Solicita antes del 30 de abril un puesto de becario en el Krueger Lab. Trabajan en la investigación de la seguridad ML y están realizando una gran labor dentro de la divulgación académica.
El mismo plazo se aplica para participar en la conferencia Effective Altruism Global (EAG) de Londres que tendrá lugar el mes que viene. Inscríbete aquí.

Gracias por seguirnos y no olvides compartir esto con tus amigos interesados en la investigación de la alineación. Puedes seguir tanto este boletín como las actualizaciones de nuestro hackathón en news.apartresearch.com.

Gracias por leer el boletín de Apart. Suscríbete gratis para recibir nuevos posts y apoyar nuestro trabajo.

Suscríbete ahora

¿Ética o Recompensa?

Wed, 12 Apr 2023 11:13:35 GMT

Esta semana echamos un vistazo a los LLM que necesitan terapeutas, la gobernanza del hardware de aprendizaje automático y los puntos de referencia para comportamientos peligrosos. Lee hasta el final para participar en programas de verano y proyectos de investigación sobre seguridad de la IA

Del mismo modo, presentamos el cambio de diseño de nuestro boletín junto con su traducción al español, posible gracias a la ayuda de los increíbles voluntarios: Aitana y Alejandro. ¡Ve a suscribirte! Siéntete libre para escribirnos si tú también estás interesado en colaborar.

¡Gracias por leer el boletín de Apart! Suscríbete gratis para recibir nuevos posts y apoyar nuestro trabajo.

Suscríbete ahora

Recibes el Apart Newsletter desde que te has suscrito previamente a alguno de nuestros boletines. Si quieres gestionar qué tipos de correos electrónicos recibes de nosotros, por ejemplo, hackathon o actualizaciones semanales de investigación sobre seguridad de la IA, ve a. news.apartresearch.com

¿Las recompensas justifican los medios?

Pan et al. (2023) presentan la referencia “Measuring Agents' Competence & Harmfulness In A Vast Environment of Long-Horizon Language Interactions” (MACHIAVELLI), que contiene más de medio millón de escenarios realistas de acción de alto nivel. Véase un ejemplo a continuación.

Descubren que si los agentes se entrenan explícitamente para obtener la mayor recompensa en los juegos basados en texto, serán menos éticos que los agentes aleatorios. Los investigadores también presentan formas sencillas de hacer que los agentes sean más éticos. Más información en el sitio web del proyecto .

Gobernar la informática con firmware

Shavit publicó recientemente su propuesta sobre cómo podemos garantizar la seguridad de la IA del futuro y hacer posible la auditoría del entrenamiento de modelos de aprendizaje automático (ML). Propone un plan de tres pasos:

Los productores instalan firmware en el hardware de entrenamiento de ML (como todas las GPU producidas) para registrar los pesos de las redes neuronales de forma que no cueste mucho y se mantenga la privacidad de los propietarios.
Al comprobar estos registros, los inspectores pueden ver fácilmente si alguien ha infringido alguna norma que limite el entrenamiento de los sistemas de ML.
Los países se aseguran de que este firmware está instalado vigilando las cadenas de suministro de hardware de ML.

Esta es una de las primeras propuestas concretas, prometedoras y que operan en profundidad para supervisar y salvaguardar el desarrollo del ML (Machine Learning) en el futuro.

Visión general del marco de supervisión propuesto.

Defensa contra los ataques a los datos de entrenamiento

Los ataques de puerta trasera basados en parches en redes neuronales funcionan incluyendo la sustitución de pequeñas áreas de imágenes en el conjunto de entrenamiento de los modelos ML con un tipo de disparador. Por ejemplo, siete píxeles amarillos en la esquina inferior izquierda, para hacer que clasifique y la imagen incorrectamente si aparece ese disparador. Esto es, podría clasificar una imagen de un perro como un gato si están presentes los siete píxeles amarillos.

El algoritmo PatchSearch es una forma de utilizar el modelo entrenado en el conjunto de datos para identificar y filtrar cualquier dato de entrenamiento que parezca cambiado (o "envenenado") para crear este desencadenante en el modelo. A continuación, vuelven a entrenar el modelo con los datos filtrados. Recomendamos consultar el artículo para ver su aplicación concreta. Este tipo de trabajo es importante para eliminar los datos de entrenamiento que pueden dar lugar a modelos intencionada o involuntariamente incontrolables.

Los modelos lingüísticos pueden resolver tareas informáticas

La prueba MiniWoB++ es una prueba con más de 100 tareas de interacción web. Recientemente, los investigadores han superado a los mejores algoritmos anteriores utilizando grandes modelos lingüísticos con un diseño que denominan mejora recursiva de la crítica y los resultados (RCI, por sus siglas en inglés).

Al pedir al modelo que critique su propio rendimiento y mejore sus resultados basándose en dicha crítica, superan a los modelos entrenados en la misma prueba con aprendizaje por refuerzo y aprendizaje supervisado. También han comprobado que la combinación de RCI con el estímulo de la cadena de pensamiento funciona aún mejor.

Terapeutas para modelos lingüísticos

Lin et al. (2023) introducen su arquitectura de chatbot SafeguardGPT, que consiste en modelos basados en GPT que interactúan entre sí en los roles de usuario, chatbot, crítico y terapeuta. Es un experimento interesante en el uso de la interacción similar a la humana para hacer que los modelos lingüísticos estén más alineados.

El chatbot está hecho intencionadamente para estar ligeramente desalineado (en este caso, narcisista) en comparación con su trabajo (descrito en el mensaje) de proporcionar orientación y servicio al usuario. En cualquier momento de la conversación, tiene la capacidad de entrar en una sesión de terapia con el Terapeuta y cambiar sus respuestas al Usuario. Después, el Crítico crea una señal de recompensa para el Chatbot basada en sus evaluaciones de manipulación, gaslighting y narcisismo presentes en las respuestas del Chatbot.

A medida que el "prompting" adquiere más y más importancia, parece claro que necesitamos establecer buenas formas de modelar estas arquitecturas de "prompting", como el enfoque de IA Constitucional en el que una IA pasa por alto sus propias acciones basándose en reglas creadas por humanos.

Actualizaciones sobre IA

Cuando se trata de actualizaciones en inteligencia artificial, hay ya demasiadas para enumerarlas en una sola semana, así, te sugerimos que sigas canales como Yannic Kilcher, Nincompoop, AI Explained, y Zvi. He aquí alguna de las más relevantes:

Se han filtrado documentos de inversión de Anthropic que muestran sus planes a cuatro años vista de gastar 5.000 millones de dólares en la creación del llamado "Claude-Next", un modelo de lenguaje diez veces mayor que GPT-4. Mientras tanto, su actual modelo de lenguaje Claude se ve cada vez en más servicios y ahora en la herramienta sin código Zapier.
Stanford publica unamplio informe sobre el estado de la IA.
Una encuesta reciente sobre la investigación en modelos lingüísticos ofrece una buena visión general de los últimos avances en la investigación sobre modelos lingüísticos, si tienes curiosidad por profundizar, te recomendamos su lectura.

Principales modelos de los últimos años. El color amarillo indica código abierto.

Únete a nuestros grandes programas de seguridad de IA

Ahora tienes la oportunidad de formar parte de la creación de la investigación del mañana en seguridad de la IA como parte de estos programas de formación:

SERI MATS es un programa de formación de 3 meses en el que obtendrás tutoría y orientación directas de investigadores de las mejores instituciones en el ámbito de la seguridad de la inteligencia artificial y el análisis matemático, como Anthropic, FHI, MIRI, CAIS, DeepMind y OpenAI ¡Inscríbete ahora en su curso de verano!
Ahora estás invitado a unirte a la Escuela de Verano de IA Cooperativa, que tendrá lugar a principios de junio, centrada en proporcionar a las personas que inician su carrera una introducción a la IA Cooperativa.
El Alignment Research Center está contratando personal para diversos puestos, por ejemplo, investigador de aprendizaje automático, contratista de interacción de modelos, funciones operativas y jefes de datos humanos.
Únete a nuestro hackathón con Neel Nanda, donde tendrás la oportunidad de trabajar directamente en la investigación de la interpretabilidad. Si creas un proyecto prometedor, tendrás la oportunidad de colaborar y recibir asesoramiento a través de nuestro programa ApartLab. Así que únete a tus amigos virtualmente o en uno de los lugares presenciales.

Inscríbete en el hackathón

Acuérdate de compartir este boletín con tus amigos interesados en la investigación sobre seguridad en ML e IA y suscríbete también a nuestro nuevo boletín en español.

¡Nos vemos la semana que viene!

¡Gracias por leer el boletín de Apart! Suscríbete gratis para recibir nuevos posts y apoyar nuestro trabajo

Suscríbete ahora

Gobernando la IA & Evaluando sus riesgos - S49

Mon, 03 Apr 2023 21:12:16 GMT

Puede que tengamos que cerrarlo todo, la gobernanza de la IA parece más importante que nunca y la investigación técnica se pone en entredicho ¡Bienvenido a la actualización de esta semana! Hemos renovado nuestro boletín con el nombre de AI Safety Digest (AISD) y realizaremos algunos cambios durante las próximas semanas, así que prepárese para ellos.

Puede ver o escuchar el espisodio de esta semana en YouTube o en nuestro podcast.

Parón al desarrollo de Inteligencia Artificial General (AGI)

“Tenemos que pararlo todo". Así se articula el nuevo artículo de la revista Time en el que Eliezer Yudkowsky nos insta a detener por completo el desarrollo de la inteligencia artificial general antes de que sea demasiado tarde.

El autor hace referencia a una reciente carta pública firmada por más de 1800 investigadores y expertos en IA en la que se recomienda al mundo detener el entrenamiento de modelos más avanzados que GPT-4 durante al menos 6 meses. Dicha proclama está recibiendo muchas críticas desde distintos puntos de vista, bien por no tomarse suficientemente en serio los riesgos existenciales, bien por ser alarmista sin motivo.

La percepción de la carta se ha visto afectada negativamente por la controvertida inclusión de Elon Musk, y parece que mucha gente ni siquiera la ha leído, dando por hecho que trata de prohibir toda investigación sobre IA, cuando claramente, como hemos mencionado anteriormente, no es así,

Además, la crítica de que no se centra lo suficiente en el riesgo existencial parece pasar por alto que este acontecimiento ha tenido un impacto positivo pues se eleva esta preocupación a la esfera pública. Casi todo el mundo en el campo de la investigación ha sido entrevistado acerca de esta carta, y ello representa un gran avance para la conversación sobre la seguridad de la IA.

Como parte de la publicación de la carta, el Centro para la IA y la Política Digital (CAIDP) presentó una queja sobre la publicación de GPT-4 por parte de OpenAI ante la FTC. Si esto conduce a una investigación de la FTC, podríamos terminar con un mejor control gubernamental sobre los lanzamientos de grandes sistemas de inteligencia artificial que se esperan en los próximos sistemas

Ideathon sobre Gobernanza de IA

En el contexto de esta carta, el pasado fin de semana celebramos el ideathon sobre gobernanza de la IA. Participaron más de 120 personas de los 7 continentes, con sedes locales en 6 de ellos. Las propuestas fueron increíbles y aquí resumiremos rápidamente algunas de ellas.

El primer premio se lo llevó una propuesta para gravar los datos. Presenta una fórmula que consigna grandes ejecuciones de entrenamiento de modelos, como GPT-4, sin que suponga coste alguno para los modelos de IA más pequeños y limitados. Además, el método es resistente a la mayoría de los esquemas de evasión fiscal.
Otra propuesta profundizaba en la importancia de la gobernanza de la IA en los países en desarrollo y en por qué debemos asegurarnos de que evolucione correctamente, sobre todo teniendo en cuenta la influencia de China, especialmente en África y el Sudeste Asiático.
También vimos un esquema de coordinación global para frenar la IAG mediante la construcción de un organismo de supervisión internacional que colabore y regule a países y empresas hacia una IA más segura.
Un proyecto técnico utilizó la GPT-4 para evaluar las propuestas de proyectos de IA. A pesar de los limitados resultados, presenta los primeros pasos hacia la creación de una auditoría automatizada de los proyectos de IA.
La propuesta NAIRA presenta un plan detallado para crear un departamento estadounidense como la Administración de Alimentos y Medicamentos (FDA) para controlar el desarrollo de la IA.
Una propuesta de dinámica de mercado quiere crear vigilantes basados en la IA que proporcionen las mejores bases para una competencia sana entre las IA y ofrezcan una buena visión general de la economía y la seguridad de la IA.
Otra propuesta plantea clasificar a las empresas en función de lo centradas que estén sus actividades en la seguridad, algo que podría ser útil en el contexto de los contratos públicos y para establecer una mejor perspectiva pública de las organizaciones en el desarrollo de la IA.
Un equipo canadiense realizó una simulación de diferentes avatares utilizando GPT-4 que dio lugar a un gran debate sobre la seguridad de la IA protagonizado por Margrethe Vestager, Jack Sparrow y otras identidades simuladas.
Mientras se desarrollan las evaluaciones ARC, una propuesta se centra en la legislación para garantizar que se conviertan en requisitos antes de publicar grandes modelos.
En 1985, las evaluaciones de impacto ambiental garantizaban que los proyectos de desarrollo europeos no afectaran demasiado negativamente al medio ambiente. Con la propuesta de evaluaciones de impacto de la IA, se pone en práctica el mismo proceso para los escenarios de formación de grandes modelos.

Puedes echarle un vistazo a todos los proyectos mencionados en la página de Ideathon o ver la ceremonia de entrega de premios en nuestro canal de YouTube.

¿Investigación sobre la Seguridad de la IA?

Con lanzamientos como LangChain, la API (interfaz de programación avanzada) de acciones en lenguaje natural Zapier y los ChatGPT Plugins, vemos cómo surgen mayores riesgos al conectar de diversas maneras los grandes sistemas lingüísticos con Internet ¡Ahora incluso puedes hablar con tu reloj para pedirle a GPT-4 que programe en Github por ti!

Con tales niveles de progreso, parece que los principales avances que actualmente necesitamos abordar en la seguridad de la IA están relacionados con la evaluación de los riesgos que traen consigo los futuros modelos y con la creación de técnicas que sean específicamente aplicables a sistemas como los grandes modelos de lenguaje.

Un buen ejemplo de ello son las evaluaciones del Alignment Research Center sobre modelos de lenguaje, por su capacidad para salir de sus confines digitales. En un artículo reciente, amplían su trabajo presentado en la tarjeta del sistema GPT-4

Comenta que GPT-4 recibió instrucciones sobre cómo utilizar herramientas de Internet y contó con la ayuda de un científico como enlace con la web, se ejecutó en una instancia en la nube y acabó contratando a un trabajador de TaskRabbit para resolver Captchas e incluso disuadió al trabajador de TaskRabbit de pensar que era un robot diciéndole que tenía mala vista.

Por suerte, no fue lo suficientemente capaz como para hacer una buena planificación a largo plazo para escapar, aunque debemos recordar que esto ocurrió sin hacer uso de más herramientas (por ejemplo, Pinecone) y todavía estamos a la espera de GPT-5 y -6. ¡Es un momento emocionante y aterrador a la vez!

Oportunidades

A la vista de estos rápidos avances, como de costumbre, señalamos las oportunidades que se abren en el sector. Únase a nosotros:

Puedes formar parte, en un par de semanas, de otro hackathon de interpretabilidad en el que te daremos directrices claras sobre cómo desbloquear habilidades interesantes con la interpretabilidad de redes neuronales, ¡junto con 48 horas y una fecha límite! Acompáñanos, ya sea virtualmente o como anfitrión. Únete a nuestro Discord para estar al día.
Acompáñanos en el evento de lanzamiento de la recién fundada Red Europea para la Seguridad de la IA, una organización descentralizada para su coordinación en toda Europa.
El concurso de redacción Stanford AI100 sigue en marcha y te invita a escribir cómo crees que la IA afectará a nuestras vidas en el futuro.
Finalmente, si eres muy rápido, puedes apuntarte a un curso de seguridad de la información con un antiguo responsable de seguridad de la información de Google. El plazo termina mañana.

¡Gracias por seguirnos y esperamos verte la próxima semana!

Suscríbete ahora

NeurIPS safety & ChatGPT - S48

Fri, 02 Dec 2022 11:00:00 GMT

Esta semana analizamos las increíbles habilidades del ChatGPT, artículos provenientes de la conferencia de NeurlPS y regulación sobre AGI a nivel de la UE.

Mi nombre es Esben, ¡Bienvenido a la actualización semanal nº48 del campo de ML & AI Safety! ¡Prepárense!

Lanzamiento del ChatGPT

Hace apenas dos días ChatGPT ha sido lanzado y ya se le comienza a describir como GPT-3.5. Observamos muchas correcciones de errores desde previos lanzamientos así como un sistema extremadamente competente.

Ahora podemos ver que encuentra errores en cripto-contratos, explica y soluciona errores, reemplaza el buscador de Google y, lo más importante de todo, ¡muestra la capacidad de despistar a la vista humana!

Pese a ser significativamente más segura que la versión anterior (texto-Davinci-002), todavía podemos observar la habilidad de planear en torno a las preferencias humanas con un uso de ataques muy simples

El lunes también se lanzó el texto-David I-003 que es la siguiente generación de un modelo de lenguaje más refinado de OpenAI. Hay rumores de que el GPT-4 será lanzado en febrero y veremos las nuevas e incluye capacidades que se han desarrollado hasta el momento.

La aplicación demo se encuentra disponible en chat.openai.com.

NeurIPS

Actualmente estoy en NeurIPS y he tenido la maravillosa oportunidad de navegar entre los numerosos pósters y artículos presentados. Todos tienen ya un año y veremos los últimos artículos cuando empiecen hoy los talleres.

Chalmers fue el primer orador principal y creó peligrosamente una línea de tiempo para crear una IA consciente, una que crea tanto un riesgo S como un riesgo X. Estableció el objetivo de la conciencia AGI a nivel de pez para 2032, aunque todo esto realmente parece depender de sus definiciones de conciencia y sé que muchos de nosotros lo esperaríamos antes de 2032.

Más allá de eso, aquí hay una breve lista de algunos documentos interesantes que he visto mientras caminaba alrededor:

Ejemplos adversarios de AlphaGo: Este artículo muestra lo fácil que es encontrar ataques incluso para sistemas de aprendizaje por refuerzo altamente capaces como AlphaGo. Básicamente encuentra posiciones del tablero en las que insertar el siguiente movimiento (para blanco y negro) arruina la capacidad de la IA para predecir el siguiente movimiento.
(Documento InstructGPT) Aquí, OpenAI ajusta un modelo de lenguaje a la retroalimentación humana y logra un modelo mejor y más seguro con muy poco cálculo necesario. Fue interesante hablar con los autores y conocer más detalles, como el proceso de recopilación de datos y otros aspectos.
MatPlotLib es todo lo que necesitas: Este artículo muestra problemas con la privacidad diferencial (compartir datos privados como estadísticas para evitar problemas de privacidad) con redes neuronales. En lugar de enviar las imágenes privadas, la aplicación envía los gradientes ("números internos") de una red neuronal. Aquí, simplemente utilizan MatPlotLib y trazan los gradientes (junto con una transformación) y reconstruyen fácilmente las imágenes de entrada privadas.
Sistema 3: Este es un trabajo de nuestro propio Fazl Barez en el que introducimos restricciones del entorno en el modelo de recompensa para realizar una mejor exploración de seguridad crítica. Con ello se consigue un mejor rendimiento en entornos de alto riesgo utilizando OpenAI Safety Gym.
LAION-5B: Este proyecto de código abierto ha recopilado 5.850 millones de pares texto-imagen y ha creado explícitamente una división NSFW y SFW del conjunto de datos, aunque han entrenado los modelos en el conjunto de datos completo (caótico).
Ataques automatizados de copiar y pegar: Se trata de un interesante artículo basado en su trabajo anterior, en el que muestran que se puede tomar una pequeña imagen sobre una imagen de prueba (un "parche") y utilizarla para comprender cómo se relacionan las clases de elementos en las imágenes. Este trabajo automatiza ese proceso y están trabajando en implementarlo para modelos lingüísticos, una tarea que, y cito textualmente, "debería ser relativamente sencilla".
GriddlyJS: Un marco JS para crear entornos RL fácilmente. Puede que incluso lo utilicemos en el “Testing AI” hackathon que se celebrará en un par de semanas. Pruébalo aquí

Qué es y qué no es fuera de distribución: Aquí, Farquhar y Gal desambiguan el término "fuera de distribución" (OOD) en cuatro términos diferentes: distribuciones transformadas, distribuciones relacionadas, distribuciones complementarias y distribuciones sintéticas. Dado que OOD es muy importante para la alineación, es importante entender con precisión el uso que hacemos de la palabra.

Y, por supuesto, estos son sólo algunos de los interesantes artículos de NeurIPS. Puede consultar la lista completa de publicaciones, los artículos aceptados para el taller sobre seguridad en ML y el taller sobre leyes de escalado que se celebra hoy.

Proclamación sobre IA de la UE & AGI

En otras grandes noticias, la Ley de IA de la UE recibió una enmienda Sobre los sistemas de IA de propósito general (como la AGI) que detalla su uso ético. Incluso parece aplicarse a los sistemas de código abierto, aunque no está claro si se aplica a los modelos liberados fuera del control de las organizaciones, por ejemplo, en colectivos de código abierto.

Una cláusula interesante es la §4b.5, que exige la cooperación entre organizaciones que deseen utilizar IA de propósito general en escenarios de toma de decisiones de alto riesgo.

Los proveedores de sistemas de IA de propósito general cooperarán con otros proveedores que pretendan poner en servicio o introducir en el mercado de la Unión dichos sistemas como sistemas de IA de alto riesgo o como componentes de sistemas de IA de alto riesgo, y les facilitarán la información necesaria para que estos últimos puedan cumplir las obligaciones que les impone el presente Reglamento. Dicha cooperación entre proveedores preservará, en su caso, los derechos de propiedad intelectual, así como la información comercial confidencial o los secretos comerciales.

En este texto, también vemos que se trata de cualquier sistema puesto en uso en "el mercado de la Unión", lo que significa que los sistemas pueden proceder de GODAM (Google, OpenAI, DeepMind, Anthropic y Meta) pero seguir estando bajo regulación de la misma forma que se aplica el RGPD para los datos de cualquier ciudadano europeo.

En general, la Ley de IA de la UE parece muy interesante y altamente positiva para la seguridad de la AGI en comparación con lo que muchos esperarían y tenemos que agradecer a muchos individuos del campo de la seguridad de la IA por este desarrollo. Véase también un artículo de Gutiérrez, Aguirre y Uuk sobre la definición de sistemas de IA de propósito general (GPAIS) de la Ley de IA de la UE.

Detección mecanicista de anomalías

Paul Christiano ha publicado una actualización sobre el problema ELK, en la que detalla el enfoque actual del Centro de Investigación de Alineación.

El problema ELK se definió en diciembre de 2021 y se centra en conseguir que un modelo explique sus conocimientos a pesar de incentivar lo contrario. Su ejemplo es el de una IA que vigila una cámara acorazada que contiene un diamante y el humano evalúa si tiene éxito basándose en una cámara que mira el diamante.

Sin embargo, un ladrón podría manipular la señal de vídeo para mostrar exactamente la imagen correcta y engañar al humano, lo que llevaría a una recompensa para la IA a pesar de que ésta (utilizando otros sensores) supiera que el diamante ha desaparecido. El problema es cómo saber lo que sabe la IA.

En este artículo, Christiano describe su enfoque para inferir cuál es el comportamiento interno del modelo cuando el diamante está en la cámara acorazada (la situación normal) y detectar anomalías en este comportamiento interno normal. Esto está relacionado tanto con la interpretabilidad mecanicista como con el campo de la detección de troyanos, en el que intentamos detectar anomalías en los modelos.

Oportunidades

Y ahora pasemos a nuestras maravillosas oportunidades semanales.

Inscríbete en el campamento virtual de seguridad de IA de 3,5 meses que comienza en marzo, donde podrás dirigir tu propio equipo de investigación. Envía tus ideas de investigación y colaborarán contigo para elaborar un plan con un equipo de investigación.
Dentro de dos semanas tendrá lugar el hackatón de pruebas de IA. En él colaboramos para encontrar formas novedosas de probar la seguridad de la IA mediante la interacción con modelos de lenguaje de última generación y el juego dentro de entornos de aprendizaje por refuerzo.
Un grupo de diseñadores busca probadores para un juego de mesa en el que se simulan escenarios de riesgo de IA. Parece bastante divertido, así que échale un vistazo aquí.
El Centro para la Seguridad de la Inteligencia Artificial impartirá un curso de introducción a la seguridad de la Inteligencia Artificial durante 8 semanas en primavera en las que puedes inscribirte como participante o como facilitador.

Gracias por seguirnos una semana más y recuerda hacer AGI segura. Nos vemos la semana que viene.

¿Se apoderarán de los humanos las IA tridimensionales que juegan al ajedrez? - S47

Fri, 25 Nov 2022 11:00:00 GMT

Hace 5 años, el AlphaGo de Google derrotó al actual número 1 del mundo en Go, Ke Jie, pero si crees que las IA de juegos de mesa han dejado de evolucionar desde entonces, ¡piénsalo dos veces!

Hoy analizaremos las habilidades engañosas del nuevo modelo lingüístico, Cicero, y reflexionaremos sobre lo que las IA de juegos de mesa nos enseñan sobre el desarrollo de la IA.

Hoy es 25 de noviembre y esta es la actualización semanal de seguridad en ML e IA de Apart Research.

El poder de la búsqueda del modelo lingüístico Cicero

¿Alguna vez has sentido que eres el mejor estratega de juegos de mesa de tu familia? Pues tenemos malas noticias para ti: Esta semana, un grupo de investigación de Meta Fundamental AI Research Diplomacy Team (FAIR) ha presentado su modelo de lenguaje, Cicero, entrenado para el juego de mesa estratégico Diplomacy.

Diplomacy es probablemente uno de los juegos de mesa estratégicos más pesados que existen y lo que lo hace genuino es su énfasis en el diálogo privado uno a uno entre todos los jugadores antes de que todos jueguen su turno simultáneamente. Los jugadores actúan como imperios en Europa y su objetivo es controlar los centros de suministro estratégicos moviendo unidades a ellos. Sin embargo, para jugar eficazmente, los jugadores deben interactuar y cooperar, al tiempo que desconfían unos de otros, y esto es lo que hace que Cicero sea tan innovador como aterrador.

En 40 partidas de una liga anónima de Diplomacia en línea, Cicerón obtuvo el doble de la puntuación media de los jugadores humanos y se situó entre el 10% de los participantes que han jugado más de una partida.

Así que estate atento cuando tu hermano utilice su teléfono en la próxima noche de juegos de mesa: podrías estar jugando contra una IA engañosa disfrazada de filósofo romano y no estar en el ajo.

Los algoritmos tridimensionales para jugar al ajedrez no buscan necesariamente el poder

Sin embargo, aunque Cicero parece estar a la vanguardia de lo que empezó como algoritmos de ajedrez que superan a Kasparov, dos profesores de los grupos de Teoría de la Computación y Fundamentos del Aprendizaje Automático de Harvard no creen que un "Gran Hermano de los juegos de mesa" como Cicerón sea representativo de la conquista del mundo por la IA.

Según ellos, los continuos avances de la IA no nos conducen necesariamente hacia un sistema unitario de IA nigromnipotente que actúe de forma autónoma para perseguir objetivos a largo plazo. Si bien la IA puede ser extremadamente adecuada para resolver problemas, cuando se le da un resultado que optimizar, puede que no sea tan adecuada para definir su estrategia por sí misma, o al menos no mucho mejor que los agentes humanos apoyados por herramientas de IA a corto plazo. Esto se debe a que la superior capacidad de procesamiento de información de la IA no se extrapola tan bien a los objetivos a largo plazo en entornos del mundo real con mucha incertidumbre y, por tanto, no estará muy lejos de la capacidad humana para elaborar estrategias en un entorno tan caótico.

Según esta visión del mundo, los sistemas de IA con objetivos a largo plazo que deben alinearse podrían no ser el objetivo principal de la seguridad de la IA, sino que deberíamos centrarnos más en construir sistemas de IA igual de potentes que puedan limitarse a horizontes temporales cortos.

Formalizar la presunción de independencia

En un artículo de Paul Christiano, Eric Neyman y Mark Xu, arroja nueva luz sobre cómo podemos utilizar argumentos heurísticos para complementar el trabajo de seguridad de la IA.

El artículo trata principalmente de cómo los argumentos heurísticos actúan como complementos matemáticos de las pruebas formales deductivas, pero como simplifican y presuponen la independencia, estos argumentos funcionan mejor con nuevas entradas de datos que las pruebas formales matemáticas de la vieja escuela.

En su apéndice final, los tres investigadores extrapolan estas conclusiones al contexto de la investigación sobre alineación, afirmando que los argumentos heurísticos podrían proponer importantes complementos a los trabajos de interpretabilidad y verificación formal en la seguridad de la IA. Se centran especialmente en evitar fallos catastróficos y obtener conocimientos latentes.

Lo que es importante observar aquí es el uso de la "presunción" (o lo que ya se da por "heurística"). Simplificando las matemáticas, uno puede ser capaz de generalizar más y hacer que los modelos sean aplicables a rangos más amplios, pero los argumentos heurísticos también pueden ser derribados mostrando la correlación ignorada entre parámetros; el razonamiento basado en esta heurística es común, intuitivamente convincente y a menudo bastante exitoso, pero completamente informal y no riguroso.

Monosematicidad en modelos de juguete

También esta semana, Adam Jermyn, Evan Hubinger y Nicholas Schiefer han publicado un artículo sobre la interpretabilidad la monosematicidad de las neuronas individuales en las redes neuronales.

Se sabe que algunas neuronas de las redes neuronales representan características "naturales" de la entrada y que estas unidades monosemánticas son mucho más fáciles de interpretar que su contrapartida: las neuronas polisemánticas. Hasta aquí todo bien.

Sin embargo, este artículo explora cómo diferentes restricciones de numeración de unidades por capa u otros giros arquitectónicos pueden cambiar la cantidad de unidades monosemánticas sin aumentar la pérdida del modelo. Esto puede hacerse, por ejemplo, cambiando los mínimos locales que encuentra la función de entrenamiento.

Además, el artículo concluye que

Las entradas con rasgos dispersos pueden hacer que los modelos sean más monosemánticos.
Los mínimos de pérdida más monosemánticos tienen un sesgo negativo moderado y esto puede utilizarse para aumentar la monosemanticidad y, por último,
Que un mayor número de neuronas por capa hace que los modelos sean más monosemánticos, pero que ello conlleva un mayor coste computacional.

Otras noticias

En noticias menores, Leo Gao aclara el término wire-heading, que considera que causa confusión, debido a sus amplias aplicaciones.
Además, LessWrong sigue desbordando con análisis y consideraciones sobre la situación del FTX. En una lectura de casi horas, ,el usuario Zvi, expone el caso sus secuelas de forma muy exhaustiva. Si te interesa saber cómo el accidente ha dejado algunas cosas en el aire, te recomendamos que leas este artículo.
El usuario Nick Gabs, también ha publicado su aprehensión del MIRI "How Likely Is Deceptive Alignment" de Evan Hubinger. Básicamente, explica cómo la alineación engañosa es un resultado muy probable del entrenamiento de una IA suficientemente inteligente utilizando el descenso de gradiente. El resultado engañoso es a la vez más simple y requiere menos potencia de cálculo que la alineación genuina. Así que no hay puntos de vista positivos de MIRI una vez más.
Por último, queremos mencionar a nuestros colegas de Conjecture, que esta semana han publicado un informe sobre sus últimos 8 meses de trabajo en un campo como el de la seguridad de la IA, que a veces (algunos dirían que siempre) es un poco desordenado, siempre es agradable contar con una meta-visión sobre consideraciones estratégicas y plazos.

Oportunidades

Recuerda que también puedes participar en la investigación sobre seguridad de la IA de muchas maneras. Esta semana nos gustaría señalar una muestra de las oportunidades disponibles:

Conjecture parece estar creciendo rápidamente y está contratandopuestos técnicos como no técnicos. Como escriben en el post: "Nuestra cultura tiene un sabor único. En nuestro sitio web decimos algunas cosas picantes sobre la pillería hacker/pirata, el empirismo académico y la ambición salvaje. Pero también hay muchos memes, escalada, karaoke nocturno y filosofías locas". https://ais.pub/conj2

Si no te apetece trabajar en Conjecture, también puedes echar un vistazo al programa AI safety Mentors and Mentess, que pretende emparejar a mentores y mentorados para mejorar su trabajo de seguridad en IA. El programa está diseñado para ser "muy flexible y ligero y se espera que se realice junto a una ocupación actual". https://ais.pub/mentor

También queremos dejar una nota sobre el preanuncio Del Concurso de visiones del mundo de la IA de Open Philantrophy, que se celebrará a principios de 2023. Puedes encontrar más información en el foro de EA, aunque la información es todavía bastante escasa.

Por último, Apart recibió un correo que nos llamó la atención sobre los recién lanzados AI Alignment Awards. El objetivo de estos premios es ofrecer hasta 100.000 dólares a quien consiga avanzar en dos problemas abiertos en el campo de la investigación de la alineación de la IA. Visita su página web si crees que es algo para ti.

Hasta aquí la actualización sobre seguridad en ML & AI. Esperamos veros la semana que viene.

¿Cómo debe relacionarse AIS con sus financiadores? - S46

Fri, 18 Nov 2022 11:00:00 GMT

Consideraciones sobre la situación de la financiación de AI Safety, proyectos interesantes del hackatón de interpretabilidad de Apart, interpretabilidad de transformadores matemáticos de Meta AI y consideraciones sobre a qué dedicar tiempo en AI Safety.

Hoy es 18 de noviembre y ¡bienvenidos a la actualización sobre seguridad en ML e IA!

Reflexiones sobre FTX y la seguridad de la IA

La semana pasada informamos, como todos los demás, del accidente del FTX y ahora que estamos en las secuelas de la conmoción, parece apropiado sumergirse un poco en lo que significa para la comunidad de seguridad de la IA.

El New York Times publicó un artículo sobre el impacto general en la financiación de la EA y afirma con acierto que es una causa justa de turbulencias en un movimiento tan joven y cuenta con el comentario del Center on Nonprofits and Philanthropy de que es demasiado fácil para los multimillonarios obtener legitimación "mientras el dinero fluya", un riesgo que ocurrió en este caso.

En general, la comunidad investigadora está consternada por lo que ha hecho FTX. El principal fondo de FTX para la investigación de la seguridad de la IA, Future Fund, vio cómo todo su equipo dimitía por el engaño al que se vieron expuestos. Will McAskill y Evan Hubinger afirman claramente que este fraude es completamente inaceptable con lo que representa el altruismo efectivo. Mientras tanto,y un abogado se aseguran de que la comunidad sepa que no es culpable de esta situación y de la situación legal de las donaciones de FTX.

En cuanto a la financiación de la investigación sobre la seguridad de la IA, uno de los dos mayores financiadores ha dejado de hacerlo y el otro, OpenPhil, se toma un mes de descanso para evaluar estas turbulencias. Nonlinear ha creado un fondo de emergencia para pequeñas subvenciones inferiores a 10.000 dólares para compensar a las organizaciones presionadas en esta parada de la financiación.

Holden Karnofsky, de OpenPhil, recomienda a las organizaciones que:

Dejen en suspenso los compromisos y esperen hasta que haya más claridad sobre el impacto real.
Identifiquen las lagunas y evalúen su urgencia/importancia.
Vuelvan a priorizar y equilibren las carteras.

Interpretability Alignment Jam

Uf, pasamos a algo mucho más esperanzador. La segunda Alignment Jam sobre investigación de la interpretabilidad terminó este fin de semana con un total de 147 participantes y 25 envíos de valiosas investigaciones sobre interpretabilidad.

El primer premio se concedió a Alex Foote Foote por su investigacion y algoritmo que encuentra ejemplos mínimamente activadores para neuronas en modelos lingüísticos utilizando la sustitución de palabras y la poda de frases. El algoritmo crea automáticamente ejemplos positivos y negativos de activación de neuronas específicas y es un método altamente interpretable.

El segundo premio se concedió a tres investigadores de Stanford que descubrieron que cuando las cabezas Transformer se desactivan de distintas maneras, otras cabezas Transformer asumen su tarea aunque no muestren activación normalmente.

Esto ya se había demostrado antes, pero el equipo descubrió que incluso las cabezas de reserva tienen cabezas de reserva y que todas estas cabezas de reserva son resistentes al método de desactivación (o ablación) utilizado en las cabezas principales.

El tercer premio se concedió al equipo Nero por encontrar fallos en la forma en que los trabajos ROME y MEMIT sustituyen las asociaciones factuales. Demostraron que las sustituciones de asociaciones fácticas también afectan a cualquier frase relacionada con las palabras de la asociación fáctica, lo que indica que no se limita a las asociaciones fácticas.

El equipo que obtuvo el cuarto puesto presentó una forma de interpretar las estrategias de los agentes de aprendizaje por refuerzo en juegos resueltos matemáticamente. Utilizan el juego del cuatro en raya y descubren que la forma en que el agente ve el tablero se corresponde con la forma en que los humanos suelen modelar el tablero.

El hackatón suscitó muchas investigaciones interesantes, que sin duda te recomendamos que consultes.

No olvides estar atento a nuestro próximo hackatón en diciembre.

Interpretabilidad de transformadores de meta IA matemática

Saltando a algunas noticias del mundo del ML, Francois Charton de Meta AI ha investigado los casos de fallo y el comportamiento fuera de distribución en transformadores entrenados en matrices inversas y descomposición de valores propios.

A pesar de las investigaciones que afirman que los modelos de lenguaje matemático no comprenden las matemáticas, descubre que comprenden correctamente los problemas matemáticos, pero que es la naturaleza de estos problemas la que afecta a su grado de corrección. Demuestra que los generadores de datos de entrenamiento no simulan los resultados correctos a partir de los que aprender, lo que provoca fallos de generalización en los modelos matemáticos.

Sigue siendo como siempre ha sido: Los ordenadores sólo hacen lo que les pedimos; el principal fallo son nuestras expectativas y objetivos.

Reflexiones sobre la compra del tiempo

También queremos sumergirnos en las reflexiones de Akash, Olivia Jiménez y Thomas Larsen, que esta semana ha publicado una larga lista de intervenciones que podrían "hacernos ganar tiempo". En su opinión, la comunidad AIS debería invertir más en la compra de tiempo que en la investigación técnica, ya que el tiempo del investigador medio está mucho mejor empleado en la consideración del riesgo general que en la alineación realmente técnica.

Su nueva propuesta de intervención enumera, entre otras cosas, demostrar el fracaso de la alineación, 1-1 conversaciones con investigadores de ML y definir mejor los conceptos en seguridad de AI. Ya hemos oído estas afirmaciones antes y parece que también reciben un poco de rechazo por parte de Jan Kulveit y habryka

Otras noticias

En otras noticias, Martin Soto critica el protocolo de interpretabilidad PreDCA de Vanessa Kosoy por implicar apostarlo todo a una formalización matemática específica de algunas instrucciones, lo que podría ser problemático
Pablo Vallalobos y otros han estimado cuándo se agotarán los datos de entrenamiento basándose en las tendencias actuales. Predicen que habremos agotado la reserva de datos lingüísticos de baja calidad entre 2030 y 2050, los datos lingüísticos de alta calidad antes de 2026 y los datos de visión entre 2030 y 2060.
La convergencia instrumental se propone como el argumento de por qué la inteligencia general es posible
Y Jessica Mary propone que la interpretabilidad agnóstica de modelos podría no ser tan mala después de todo que los comentaristas indican lo contrario.

Oportunidades

Esta semana tenemos disponibles algunas vacantes muy interesantes:

AI impacts sigue buscando un Analista de Investigación sénior.
Y Anthropic sigue buscando un ingeniero de software sénior.
Mientras que Center of AI Safety está buscando un jefe de personal.
David Krueger’s lab busca colaboradores.

Esta ha sido la actualización en seguridad de AI & ML. ¡Esperamos verte la semana que viene!

¿Están amenazadas las opciones de financiación para la seguridad de la IA? - S45

Fri, 11 Nov 2022 11:00:00 GMT

El gigante de las criptomonedas FTX se desploma, creando gran incertidumbre para la financiación de proyectos de seguridad en IA, los humanos cooperan mejor con IA mentirosa, y la interpretabilidad es prometedora pero no.

Hoy trataremos esta y otras noticias del mundillo de la seguridad de IA.

Es 11 de noviembre, ¡y bienvenido a esta actualización de seguridad en IA & ML!

FTX cae

Dado que se trata de una noticia importante, vamos a sumergirnos en lo que ocurrió realmente con la Fundación FTX.

Cuando Sam Bankman-Fried, el CEO de FTX, anunció The Future Fund a finales de febrero de 2022 con el objetivo de mejorar las perspectivas a largo plazo de la humanidad otra gran iniciativa en apoyo de la comunidad de AI Safety y su capacidad para operar fuera del sistema de incentivos de las empresas con fines de lucro.

Hace tres días, Sam Bankman-Fried tuiteó sobre sus problemas de liquidez como criptointercambio, marcando el comienzo de una serie de revelaciones sobre FTX, cómo han manejado mal el dinero de los usuarios, movido fondos a sus propias cuentas y violado sus propios términos de servicio. El Departamento de Justicia ha iniciado una investigación sobre FTX y su fondo de cobertura de criptomonedas, Alameda Research.

Además, el reciente desplome de las acciones de Meta ha hecho que el segundo gran financiador de la investigación sobre la seguridad de la IA, Open Philanthropy, pierda gran parte de su dinero procedente de las acciones de Meta de Dustin Moskovitz, por lo que el futuro de la seguridad de la IA se presenta, como mínimo, interesante.

Cooperación entre humanos e IA

Seguimos esta grave noticia con la investigación de un equipo de Stanford. Demuestran que la cooperación entre humanos e IA es mejor cuando la IA se calibra en función de la relación con el humano en lugar de la precisión.

Los autores utilizan la IA para asesorar en la toma de decisiones a los participantes y descubren que la IA modulada para adaptarse a la interacción entre humanos e IA ofrece un mejor rendimiento general en comparación con un sistema de IA de máxima precisión para el sistema de colaboración entre humanos e IA.

Esto introduce interesantes consideraciones sobre cómo la IA interactúa realmente con los humanos en relación con varias formas en que podríamos salvaguardar la IA futura.

Escalado inverso en forma de U

Y justo cuando pensábamos que habíamos encontrado algún tipo de linealidad en las leyes de escalado inverso, Google muestra que pueden llegar a tener forma de U. Basta con escalar los modelos hasta tamaños extremos. Si esto es cierto, podría refutar las leyes de escalado inverso y Google llega incluso a afirmar: "Esto sugiere que el término tarea de escalado inverso no está bien especificado: una tarea determinada puede ser de escalado inverso para una indicación, pero de escalado positivo o en forma de U para otra indicación diferente".

Sin embargo, no todos están satisfechos con sus métodos. Ethan Pérez llama la atención del equipo por desviar sus pruebas de ley de escala inversa de las que describen como réplicas en el artículo.

Interpretabilidad en la práctica

¡Seguimos adelante! Redwood Research ha llevado a cabo un magnífico trabajo contemporáneo sobre interpretabilidad: usando GPT-2 Small, investigan la "identificación indirecta de objetos" de principio a fin en términos de las partes internas del circuito de un transformador, evaluando incluso la fiabilidad del modelo.

Lo ingenioso del trabajo de interpretabilidad no es sólo que se tome realmente en serio la tarea de investigar la interpretabilidad, sino que también muestra cuánta información valiosa puede encontrar una investigación adecuada de la interpretabilidad.

El equipo logra identificar 26 cabezas de atención agrupadas en 7 categorías, que componen el circuito indirecto de clasificación de objetos. Por el camino, el equipo también identificó estructuras interesantes del modelo interno, por ejemplo, que las cabezas de atención se comunicaban utilizando punteros para compartir una pieza de información, en lugar de copiarla.

Te recomendamos que le eches un vistazo a este trabajo de investigación sobre interpretabilidad.

Otras noticias

En otras noticias, Eric Drexler y Yudkowsky debaten sobre la superinteligencia en el foro de alineación: Porque ¿cuántas IA superinteligentes son realmente el mejor escenario posible cuando empiezan a interactuar entre sí?

Además, el equipo Janus de Conjecture ha descubierto resultados de los modelos humanos afinados de OpenAI tienen resultados muy seguros en situaciones bastante específicas, con claras preferencias por números concretos, respuestas y similares.

MadHatter duda de algunos de los escenarios de pensamiento de los mesa-optimizadores propuestos por los investigadores del campo y pide que se considere una investigación mucho más empírica sobre los mesa-optimizadores.

David Krueger pone en duda el verdadero valor de la interpretabilidad y la ingeniería inversa, sugiriendo que deberíamos hacer bien nuestra ingeniería en lugar de "invertir" esa ingeniería con la interpretabilidad.

Nate Soares duda de los enfoques cognitivos de la interpretabilidad, porque no estamos construyendo mentes, sino entrenándolas, y tenemos muy poca idea de su pensamiento interno. Duda de nuestra capacidad para predecir si un sistema AGI tendrá resultados positivos para la humanidad.

Y, por último, Apart Research ha lanzado un sitio web para la investigación de la interpretabilidad. Te recomendamos que les eches un vistazo y que te plantees si deberías participar en el hackatón sobre interpretabilidad que se celebrará este mismo fin de semana. Más información en los siguientes enlaces.

Oportunidades

Esta semana tenemos unas cuantas vacantes muy interesantes:

AI impacts sigue buscando un analista de investigación senior.
Y Anthropic sigue buscando un ingeniero de software senior
Mientras que Center of AI Safety busca un jefe de personal

Hasta aquí la actualización sobre seguridad en ML & AI. Les esperamos la semana que viene.

¿Podemos predecir las capacidades de la IA del futuro? - S44

Fri, 04 Nov 2022 11:00:00 GMT

Esta semana analizamos las leyes de escalado rotas, el ajuste fino quirúrgico, la interpretabilidad en la naturaleza y los modelos de amenaza de la IA.

Hoy es 4 de noviembre y esta es la actualización sobre seguridad en ML e IA.

Leyes de escalado rotas y ajuste quirúrgico

En las últimas semanas se han publicado varios artículos interesantes, de los que hemos seleccionado algunos.

Las leyes de escalado son importantes para inferir cómo se comportarán los futuros sistemas de IA. Las leyes de escalado existentes suelen ajustarse de forma lineal o monotónica. Caballero, Krueger y otros introducen las "leyes de escalado rotas" tras criticar cómo las leyes de escalado normales de investigación no reflejan los hechos empíricos del entrenamiento de modelos. Su nueva función de leyes de escala puede mostrar "rupturas" que corresponden a los cambios no monotónicos repentinos en la capacidad que vemos en las redes neuronales. Su función extrapola significativamente mejor que las otras tres formas de función.

La robustez de la visión por ordenador es importante para diversas tareas. Un equipo de Stanford ha demostrado que el ajuste fino de capas individuales funciona mejor que el ajuste fino de toda la red neuronal en pruebas adversas específicas. Por ejemplo, el ajuste quirúrgico de las primeras capas mejora el rendimiento ante cambios en el nivel de entrada, como los ataques de corrupción, mientras que el ajuste de las últimas induce robustez ante cambios en el nivel de salida.

Debate e interpretabilidad

Parrish, Bowman y otros demuestran que el debate no ayuda a los humanos a responder preguntas difíciles de comprensión lectora. Muestran a los participantes argumentos a favor y en contra de una respuesta correcta o incorrecta a una pregunta difícil de comprensión lectora, pero descubren que los humanos no se benefician de ello.

"Cuando Drake y Yoojin fueron a la tienda, Yoojin le dio un trago a...". Un transformador puede predecir fácilmente que la siguiente palabra de esta frase es Drake, pero ¿cómo lo hace? Redwood Research identifica un circuito de comprensión conceptual en las cabezas de los Transformers.

Vemos que las cabezas neuronales tienen funciones específicas en la comprensión: Algunas identifican palabras duplicadas, otras inhiben palabras específicas, y las tres últimas clases de cabezas desplazan negativa y positivamente la palabra "Drake" a la posición prevista. Esta tarea se denomina identificación indirecta de objetos y es claramente un caso de prueba interesante para la interpretabilidad de circuitos.

Modelos de amenaza en seguridad ML

El equipo de seguridad de DeepMind creó una taxonomía de cómo se ven los riesgos actuales de la inteligencia artificial. Su modelo de desarrollo consensuado es una versión a escala de nuestros modelos actuales que, en su opinión, no necesitan mucha innovación para convertirse en inteligencia artificial general, una IA que sea mejor que los humanos en la mayoría de las tareas relevantes.

Los riesgos que se derivan de un modelo de este tipo son la generalización errónea de objetivos, en la que los modelos no consiguen generalizar su entrenamiento a escenarios del mundo real, y la búsqueda de poder como resultado de dicha desalineación. No esperamos detectar esto debido al engaño y las personas más importantes de la sociedad no entenderán los riesgos. John Wentworth señala que esta historia de múltiples etapas ni siquiera es necesaria, puesto que los sistemas actuales ya se entrenan para engañar a los humanos.

Michael Cohen muestra que la catástrofe existencial de la IA está por encima del 35%. Adopta una perspectiva optimista sobre los escenarios de éxito, como que las leyes bien aplicadas detengan las versiones peligrosas de la IA, que una entidad la detenga de algún modo, que nadie desarrolle IA avanzada o que la IA avanzada se desarrolle de un modo seguro que viole una serie de supuestos que Cohen plantea (y que él pone en duda). Estos supuestos se centran en la capacidad de la IA para hacer hipótesis, seguir planes en la incertidumbre y utilizar estos planes de forma que progrese alguna recompensa indirecta.

Además, no confía en los actuales paradigmas de investigación sobre la seguridad de la IA e incluso escribe una “anti review”, en la que argumenta en contra de cada programa de investigación contemporáneo.

Otras noticias

En otro orden de cosas, Scott Garrabrant habla de los llamados "marcos", que describe como la creación de una perspectiva agéntica en primera persona sobre todos los mundos posibles (en tercera persona), como la incertidumbre, las elecciones y los mundos plausibles. Afirma que esto contrasta con la visión de los agentes integrados y la RL tradicional con su separación de los límites entre el entorno y el agente.
Michaeud, Liu, y Tegmark muestran las leyes de escalado de diferentes aproximadores de funciones y ofrecen una taxonomía para el aprendizaje automático de precisión.
Michael Nielsen y Kanjun Qiu publican su libro “Vision for Metascience” y describen a los financiadores de la investigación como detector y discriminador en un proceso imaginativo de generación de investigación.
El Future of Life Institute ha iniciado un nuevo podcast y el último episodio con Ajeya Cotra trata de cómo la IA podría causar catástrofes.

Oportunidades

Esta semana tenemos disponibles unas cuantas vacantes muy interesantes:

Redwood Research invita a 30-50 investigadores a unirse a ellos en Berkeley para un programa muy interesante de investigación sobre interpretabilidad mecanística.
Anthropic busca directores de operaciones, reclutadores, investigadores, ingenieros y jefes de producto.

Además, puedes echar un vistazo a algunas de las novedades en AI Safety Ideas y unirte al hackathon de interpretabilidad desde cualquier parte del mundo el próximo fin de semana.

Esta ha sido la actualización sobre seguridad ML & AI, ¡hasta la semana que viene!

Defendiéndose contra la inteligencia artificial - S43

Fri, 28 Oct 2022 10:00:00 GMT

Analizamos cómo podemos protegernos contra la AGI, miramos nuevas investigaciones sobre la ley de Goodhart, vemos un conjunto de datos de código abierto con 60.000 vídeos emocionales y compartimos nuevas oportunidades en seguridad ML e IA.

Hoy es 28 de octubre, mi nombre es Thomas y bienvenidos al ML Safety Update de esta semana.

Defenderse de la AGI

¿Qué hace falta para defender el mundo contra la inteligencia general artificial?

Esto es lo que se pregunta Steve Byrnes en un nuevo post. Imagina un mundo en el que una AGI alineada se desarrolla un par de años antes que una AGI no alineada y comenta la optimista suposición de Paul Christiano de que una primera AGI alineada puede hacer cosas que eviten futuras AGI no alineadas.

Los temores generales son que 1) podría ser más fácil destruir que defender, 2) los humanos podrían no confiar en la IA alineada, 3) las estrategias de alineación en realidad hacen que la AGI alineada sea peor que una IA mal alineada, y 4) es muy difícil cambiar la sociedad rápidamente mientras se adhieren a las leyes humanas.

Byrnes propone una serie de soluciones que no cree que resuelvan el problema:

El despliegue generalizado de una AGI para implementar defensas es difícil en un mundo en el que los actores importantes no confían los unos en los otros y no son expertos en AGI.
Si la AGI se utiliza para crear una sociedad más sabia, por ejemplo, siendo los asesores de los líderes del gobierno, probablemente no se le pedirá consejo a menudo, ya que podría no decir lo que quieren oír.
Las medidas de defensa no relacionadas con la AGI, como la mejora de la ciberseguridad a nivel mundial, no parecen ser lo suficientemente seguras.
Detener el desarrollo de AGI en los laboratorios específicos con más posibilidades de crear AGI también parece que sólo nos hará ganar tiempo.
Detener por la fuerza la investigación AGI tiene un montón de advertencias que son similares a los otros puntos, pero parece una de nuestras mejores oportunidades.

En definitiva, parece que el acceso generalizado a una inteligencia general artificial puede llevar a un pequeño grupo a destruir el mundo y cualquier defensa contra esto es poco probable que funcione.

La ley de Goodhart

Leo Gao, John Schulman y Jacob Hilton investigan en su nuevo artículo cómo modelos de distintos tamaños sobreoptimizan un objetivo de recompensa. Esto se conoce comúnmente como la ley de Goodhart y puede describirse como el efecto de que la optimización de una representación imperfecta de la verdadera preferencia fallará porque esa representación se optimiza en lugar de lo que realmente queremos optimizar. En la seguridad de la IA, las verdaderas preferencias pueden ser los valores humanos, y entrenar un modelo con una representación aproximada de los mismos puede dar lugar a desajustes.

Es difícil evitar la ley de Goodhart porque se necesita una supervisión humana constante para actualizar continuamente las preferencias humanas. Los autores crean aquí un ejemplo de juguete con un modelo de recompensa como sustituto del humano y simulan una señal de recompensa imperfecta, no humana, cambiando la recompensa de este patrón oro de diferentes maneras.

Encuentran leyes de escala que pueden utilizarse para predecir lo bien que funciona el aprendizaje por refuerzo a partir de la retroalimentación humana para modelos más grandes y describen los resultados en relación con cuatro formas de pensar sobre la ley de Goodhart. Una de ellas es la regresión de Goodhart cuando la recompensa sustitutiva es una representación ruidosa de la recompensa real. En su experimento, un proxy ruidoso conduce a una recompensa menor sobre la preferencia verdadera que la que daría un humano.

Otras noticias

En otras noticias, un nuevo artículo publica un conjunto de datos con 60.000 vídeos marcados manualmente por sus cualidades emocionales. Los autores esperan que esto pueda ayudar a aprender mejor las preferencias humanas a partir de ejemplos de vídeo, entrenando nuestras redes neuronales para obtener una mejor empatía cognitiva.
Neel Nanda publica una lista de habilidades necesarias para investigar la interpretabilidad mecanicista.
Oldenziel y Shai afirman que la complejidad de Kolmogorov y la entropía de Shannon son medidas engañosas de la estructura para la interpretabilidad y que necesitamos una nueva medida; sin embargo, reciben el rechazo de Sherlis, que señala que probablemente no sea cierto.
Una nueva agenda de investigación intenta diseñar las representaciones en el espacio latente de los autocodificadores según nuestras preferencias.
Un nuevo entorno de aprendizaje por refuerzo puede utilizarse para medir el grado de búsqueda de poder de una IA. Cada estado del entorno se asocia a un valor instrumental, que indica cuánto poder da un estado concreto. El entorno ha sido lanzado por Gladstone AI, que ya ha publicado varios artículos utilizándolo.

Oportunidades

Ahora, vamos a entrar en algunas de las nuevas formas disponibles para entrar en el aprendizaje automático y la seguridad AI comisariada por BlueDot Impact. Hay bastantes puestos de trabajo disponibles.

Anthropic busca ingenieros de software sénior para construir sistemas ML desde cero, AI Impacts busca un asistente de investigación, un investigador sénior y un analista de investigación. Berkeley Existential Risks Initiative abre una vacante para un asistente de investigación y Ought tiene un puesto vacante para un becario de ingeniería de aprendizaje automático. Presente ahora su candidatura a estos puestos a través de los enlaces que figuran en la descripción. Las vacantes de la semana pasada también siguen abiertas.
Todavía puedes ganar hasta 1,5 millones de dólares para hacer cambiar de opinión al equipo del Fondo Futuro FTX.
Únete a nuestro hackatón de investigación en interpretabilidad que empieza dentro de dos semanas y dura un fin de semana. Puede participar en línea, así como en Londres, Aarhus y Tallin.
Echa un vistazo a la nueva funcionalidad del sitio web de AI Safety Ideas En el que puede enviar y probar hipótesis.
Presenta tu solicitud al Fondo de Futuro a Largo Plazo para recibir subvenciones para proyectos relacionados con la seguridad en ML.

Esta ha sido la actualización sobre seguridad en ML. Gracias por seguirnos y esperamos verte la semana que viene.

Por qué la IA podría no ser un riesgo existencial para la humanidad - S42

Thu, 20 Oct 2022 10:00:00 GMT

Esta semana analizaremos los contraargumentos al argumento básico de por qué la IA es un riesgo existencial para la humanidad, veremos cómo la IA fuerte podría llegar muy pronto y compartiremos artículos interesantes.

Pero antes, una pequeña nota: ahora puedes suscribirte a nuestro boletín y escuchar estas actualizaciones en tu aplicación de podcast favorita. Consulta newsletter.apartresearch.com y podcast.apartresearch.com.

Hoy es 20 de octubre y esta es la actualización sobre los avances en seguridad ML.

Contraargumentos del riesgo X de la IA

El riesgo existencial de la IA no parece abrumadoramente probable según Katja Grace de AI Impacts. Escribe un largo artículo argumentando en contra de las principales perspectivas sobre cómo la IA puede llegar a ser muy peligrosa y señala que la suficiente incertidumbre hace que la seguridad de la IA parezca una preocupación relevante.

Sus contraargumentos van en contra de los tres argumentos principales de por qué la IA superinteligente se convertirá en un riesgo existencial: 1) los sistemas de IA superhumanos estarán dirigidos por objetivos, 2) los objetivos de los sistemas de IA dirigidos por objetivos serán malos, y 3) la IA superhumana dominará a los humanos.

Sus argumentos para justificar que los sistemas de IA no estén dirigidos por objetivos son que muchos sistemas altamente funcionales pueden ser “pseudoagentes”, modelos que no persiguen la maximización de la utilidad, sino que optimizan para que se cumplan una serie de subobjetivos. Además, para ser un riesgo, el listón de la orientación por objetivos es muy alto.

Sus argumentos para explicar por qué los objetivos de los sistemas de IA dirigidos por objetivos podrían no ser malos son los siguientes 1) Incluso los seres humanos malvados se corresponden en líneas generales con los valores humanos, por lo que una ligera desviación de la política óptima parece correcta. 2) La IA podría simplemente aprender lo correcto del conjunto de datos, ya que los humanos también parecen obtener su comportamiento de los diversos datos de entrenamiento del mundo. 3) El aprendizaje profundo parece muy bueno aprendiendo cosas difusas a partir de los datos y los valores parecen aprendibles de forma ligeramente similar a la generación de caras (y no vemos caras sin narices, por ejemplo). El último contraargumento es que 4) las IA que aprenden objetivos a corto plazo serán muy funcionales y tendrán pocas posibilidades de optimizar objetivos peligrosos a largo plazo, como la búsqueda de poder.

También es posible que una IA sobrehumana no supere a los humanos, ya que: 1) A un humano genial de la Edad de Piedra le costaría mucho más llegar al espacio que a un humano de inteligencia media en la actualidad, lo que demuestra que la inteligencia es un concepto mucho más matizado de lo que creemos. 2) La IA podría no ser mejor que las combinaciones de humano e IA. 3) La IA necesitará nuestra confianza para hacerse cargo de infraestructuras críticas. 4) Hay muchas otras propiedades además de la inteligencia que parecen muy relevantes. 5) Muchos objetivos no acaban en la conquista del universo. 6) Los bucles de retroalimentación de la inteligencia pueden tomar muchas velocidades y se necesita mucha confianza en que es rápido para decir que lleva a la perdición. Y 7) los conceptos clave en la literatura son bastante vagos, lo que significa que carecemos de una comprensión de cómo conducirán al riesgo existencial.

Erik Jenner y Johannes Treutlein dan su respuesta sus contraargumentos. Su principal argumento es que hay pruebas fehacientes de que la diferencia entre la IA y los humanos será grande y que necesitamos la IA ligeramente alineada de Grace para ayudarnos a alcanzar un estado en el que no construyamos sistemas mucho más capaces y más desalineados.

Servicios integrales de IA (CAIS)

Un texto relevante a mencionar en relación con estos argumentos es el intento de Eric Drexler de reformular la superinteligencia en algo más realista en un mundo económico. Aquí, utiliza el término “servicios de IA” para describir tareas singulares que serán económicamente relevantes. Lo integral en servicios integrales de IA es lo que solemos llamar general. El punto principal es que veremos mucha IA altamente capaz pero especializada antes de que consigamos la inteligencia general artificial monolítica. Le recomendamos que lea el informe si tiene tiempo.

Una AGI fuerte en breve

En el extremo opuesto del espectro de Grace, Porby comparte por qué creen que la AGI llegará en los próximos 20 años con argumentos convincentes sobre 1) lo fácil que es el problema de la inteligencia, 2) lo inmaduro que está el aprendizaje automático actual, 3) lo rápido que alcanzaremos el nivel de hardware necesario y 4) cómo no podemos fijarnos en los sistemas de IA actuales para predecir las capacidades futuras.

Otras noticias

En otras noticias, en una nueva encuesta publicada en Nature, los usuarios no expertos de sistemas de IA piensan que la interpretabilidad es importante, sobre todo en escenarios críticos para la seguridad. Sin embargo, prefieren la precisión en la mayoría de las tareas.
Neel Nanda comparte una lectura sesuda de su trabajo favorito sobre interpretabilidad en Circuits.
Un nuevo método de aprendizaje por refuerzo muestra buenos resultados tanto en rendimiento como en moralidad de sus acciones. Toman un juego basado en texto y entrenan a un agente de aprendizaje por refuerzo tanto con una política de tareas como con una política moral.
Wentworth señala cómo los mercados de predicción podrían ser útiles para la investigación de la alineación.
DeepMind ha dado a un modelo lingüístico acceso a una simulación física para aumentar su capacidad de razonamiento físico.
Nate Soares describe los seres superinteligentes no dejan necesariamente con vida a los humanos por motivos de teoría de juegos.
Una nueva agenda de investigación en seguridad de la IA pretende estudiar la teoría del aprendizaje profundo utilizando un enfoque pragmático para comprender conceptos clave.

Oportunidades

Y ahora, ¡a bucear en las muchas oportunidades disponibles para todos los interesados en aprender y hacer más investigación en seguridad ML!

SERI MATS está aceptando solicitudes para una beca presencial de 2 meses totalmente remunerada para realizar investigación independiente en seguridad de IA. Presente su solicitud ahora que las solicitudes se cierran este domingo.
El Future of Life Institute está aceptando solicitudes para financiar tu doctorado o postdoctorado en un campo relacionado con la seguridad de la IA.
También puedes dedicarte directamente a la investigación solicitando un puesto en el equipo técnico de Redwood Research o incorporarte como becario al Center for Human-Compatible AI.
Hemos estrenado nuestro nuevo sitio web para los hackatones alignmentjam.com, que estamos orgullosos de mostrar al mundo. Solo tienes que entrar en alignmentjam.com, participar en el próximo hackatón de noviembre y suscribirte para recibir actualizaciones.
Ahora también puedes seguirnos en nuestro boletín o escuchar estos episodios en tu aplicación de podcasting favorita.

Suscríbete ahora

Podcast

Esta ha sido la Actualización de Progreso en Seguridad de ML y ¡esperamos verle la semana que viene!

Las advertencias no bastan - S41

Fri, 14 Oct 2022 10:00:00 GMT

Esta semana, compartimos increíbles artículos sobre seguridad ML, describimos la dinámica del campo de la seguridad de la IA y compartimos oportunidades sobre cómo puedes trabajar también con la seguridad ML.

Hoy es 14 de octubre y estás viendo el Informe sobre el Progreso de la IA Segura.

La ley define los valores humanos

Un nuevo y extenso artículo describe las muchas formas en que el derecho ha resuelto los problemas de definir técnicamente los valores humanos de maneras como la especificación imperfecta generalizada de valores (ley) y la supervisión humana (jueces). Describe la alineación de valores como un problema ético teórico (algo que Joscha Bach también está impulsando) y como un dilema de coordinación y cooperación entre múltiples agentes. Merece la pena leerlo (artículo)

Alineación fuera de la distribución

El problema de la alineación puede redefinirse como un problema de robustez fuera de la distribución. Si los datos de entrenamiento no contienen todos los ejemplos de cómo se lleva a cabo un valor humano en el mundo, ¿cómo generaliza la IA más allá de este conjunto de entrenamiento? Normalmente intentamos resolverlo transformando los datos de entrenamiento, por ejemplo, reflejando y rotando imágenes para obtener más ejemplos y probando nuestros modelos con datos que no han visto. Los métodos más avanzados utilizan redes neuronales para generar nuevos datos, las llamadas redes generativas adversariales (o GAN). Un nuevo trabajo entrena estas GAN para crear una representación más fiable de lo que consideramos fuera de distribución, en lugar de limitarse a probar con otros conjuntos de datos (artículo)

Definición de la piratería de recompensas

Las recompensas para los modelos de aprendizaje automático se definen en función de un objetivo real que tengamos en mente, por ejemplo crear un negocio sostenible del que podamos obtener beneficios. Sin embargo, no tenemos una buena métrica para realizar un seguimiento de este negocio sostenible, por lo que definimos la recompensa como la cantidad de dinero que gana para nosotros. Cuando definimos una recompensa imperfecta, la IA puede acabar haciendo lo que se denomina "pirateo de recompensas". Un nuevo artículo define el pirateo de recompensas como cualquier comportamiento sobre nuestra recompensa imperfecta que conduzca a una reducción del rendimiento en nuestro verdadero objetivo. Se considera que una recompensa no se puede piratear si el aumento de la recompensa no conduce a una reducción del rendimiento en el objetivo real en ninguna situación (artículo)

En relación con esto, DeepMind describe la generalización errónea del objetivo. Esto es lo que ocurre en los casos límite del hackeo de recompensas, cuando una recompensa está correctamente definida pero el comportamiento no funciona cuando se despliega. Un ejemplo es cuando un agente recibe recompensa por caminar hacia lugares en un orden específico y es guiado por un maestro que lo hace correctamente en el entrenamiento pero durante el despliegue, el maestro camina en la dirección contraria. Esto demuestra que a pesar de tener una recompensa robusta, el alumno modelo aprende un comportamiento erróneo (post)

Sesgos inductivos en algoritmos de aprendizaje

Quintin Pope resume 16 artículos sobre el sesgo inductivo en los algoritmos de aprendizaje, que sólo significa cómo los algoritmos de aprendizaje están sesgados hacia comportamientos específicos. Entre las investigaciones más destacadas se encuentran el uso del núcleo neuronal tangente para visualizar el comportamiento aprendido en diferentes arquitecturas de red, el análisis de los sesgos inductivos discretos del descenso por gradiente estocástico mediante métodos sencillos y la demostración de que el descenso por gradiente estocástico está sesgado hacia la selección de redes neuronales no profundas (artículo)

Larsen y Gillen resumen la mencionada investigación sobre kernels neuronales tangentes en un post reciente en el que también comparten un artículo sobre procesos gaussianos con instrucciones en profundidad y demostraciones interactivas de lo que son. En general, los kernels en aprendizaje automático nos ayudan a redefinir los datos de entrada en algo que nuestros modelos puedan entender (link)

Advertencias

Los disparos de advertencia son una serie de ejemplos que indican que deberíamos empezar a tomarnos en serio un riesgo, como cuando una IA es capaz de sustituir a programadores junior o cuando es responsable de más del 10% del PIB mundial. Algunos argumentan que tales disparos de advertencia serán suficientes para empujar a los gobiernos a la acción, sin embargo, Soares sostiene que covid-19 fue un caso de prueba para tal proceso y describe cómo no podemos confiar en los gobiernos para la seguridad de la futura IA. Esto pone aún más el foco en la investigación de alineación técnica como el mejor camino (post)

Estado de la seguridad de la IA

Sin embargo, las nuevas estimaciones muestran que sólo unos 300 investigadores trabajan a tiempo completo en el campo de la seguridad de la IA. Esto supone menos de la mitad de las ofertas de empleo en LinkedIn que incluyen el aprendizaje automático como requisito, que ascendían a 98.000 en el último recuento. Aumentar el campo es muy importante para garantizar la seguridad de los futuros sistemas de IA y (figure) Marcus resume sus experiencias hablando con más de 100 académicos de aprendizaje automático sobre seguridad. Por suerte, en general la gente parece cada vez más abierta a los riesgos de seguridad de la IA y los investigadores se interesan por los debates técnicos del campo (link)

Noticias

Dan Hendrycks ha publicado el último boletín mensual de ML Safety, que te recomendamos leer si estás interesado en saber más.

El Center for AI Safety ha lanzado una convocatoria de ideas por valor de 500.000 dólares para crear puntos de referencia en seguridad de IA (portada)

Wood Research hace un llamamiento para encontrar heurísticas emergentes en un pequeño modelo GPT-2 (artículo).

Nuestro próximo hackatón sobre seguridad en ML versará sobre la interpretabilidad y le invitamos a que registre ya su interés en la descripción. Si deseas organizar un evento local con nuestro apoyo, haz clic en el enlace de la descripción (página itch).

AGI Safety Fundamentals lanza su segundo curso sobre seguridad en IA, el plan de estudios Alignment 201. Apúntate a su curso interactivo de 10 semanas en tiempo libre en la descripción. (portada)

Visita nuestra página en apartresearch.com y síguenos aquí para la próxima actualización.

Este ha sido el Informe de Progreso de IA Segura, ¡hasta la semana que viene!

Progreso en AGI y vistas teóricas - S40

Alejandro González — Fri, 07 Oct 2022 10:00:00 GMT

Hoy mostraremos algunas actualizaciones aterradoras en el desarrollo de la IA, resumiremos la discusión de Stuart Russell y Eliezer sobre la alineación, y veremos herramientas de interpretabilidad de Redwood.

Es 7 de octubre, me llamo Thomas, y estás viendo... El Informe de Progreso de Safety AI.

Aterradores avances en IA

El legendario programador John Carmack ha abandonado el desarrollo de la realidad virtual para crear AGI, y cito, "por la vía de la ciencia loca", sin tener en cuenta la seguridad. Esto es muy preocupante y ya han recaudado 20 millones de dólares. Carmack es muy respetado, y que asuma este cargo parece un golpe descorazonador para la seguridad de la IA.

Meta presentó hace una semana un modelo de generación de vídeo que asombró a todo el mundo, pero una nueva investigación inédita demuestra que también es capaz de combinar diferentes escenas en vídeos mucho más interesantes y narrativos. OpenAI también ha abierto Whisper, un modelo de voz a texto extremadamente bueno.

Mientras tanto, DeepMind publica un modelo matemático que crea nuevos algoritmos para acelerar la multiplicación de matrices, algo que se utiliza en todas partes tanto en el aprendizaje automático como en muchos otros campos informáticos. Este artículo de Quanta Magazine resume el estado del arte de los algoritmos para la multiplicación de matrices y el modelo de DeepMind no ha encontrado una solución más rápida, pero puede optimizar los algoritmos para GPU y arquitecturas de modelo específicas.

Así que está claro que el progreso es extremadamente rápido, incluso sin tener en cuenta la gran cantidad de modelos de código abierto que se han creado recientemente.

Meta transfiere PyTorch a la Fundación Linux

La propiedad de uno de los marcos de aprendizaje automático más populares, PyTorch, se ha transferido a la Linux Foundation que gestiona 850 proyectos de código abierto. Por lo general, adoptan una postura de neutralidad, pero son una organización sin ánimo de lucro en comparación con Meta, que anteriormente era propietaria del proyecto. El director de IA de Meta, Yann LeCunn, también Yann LeCunn, ha propuesto recientemente un camino hacia la AGI, un punto preocupante.

Así que mientras todos esperamos a la AGI, vete a jugar a este juego de hacer clic con un clip que demuestra que la optimización de tu fabrica de clips Podría convertirse en un riesgo para la humanidad.

El riesgo de una IA que busca el poder

Eli comparte su crítica al informe de Joe Carlsmith sobre por qué la IA que busca el poder es un riesgo. Menciona que el informe, que ya es un canon para entender el riesgo de la IA, tiene estimaciones de probabilidad optimistas porque el marco es evitar el riesgo existencial en lugar de eliminar ese riesgo y asegurar un buen futuro para la humanidad. Además, podría subestimar la cantidad de actores en el espacio de la IA en ese momento.

Y para resumir el informe de Carlsmith, se centra en un argumento principal para los riesgos que dice así: 1) será posible construir sistemas de IA peligrosos en el futuro, 2) la gente tendrá incentivos para construirlos, 3) será difícil construir sistemas que podamos garantizar que son seguros, 4) los sistemas inseguros fallarán de formas de alto impacto, 5) esto puede llevar a una pérdida permanente de poder de la humanidad, y 6) esto lleva a una catástrofe existencial.

Mientras tanto , Vendrov describe tres caminos que podríamos tomar para garantizar esta IA segura. Uno es cambiar la propia tecnología, algo en lo que trabajan la mayoría de los investigadores de la seguridad de la IA. Otra es cambiar las estructuras que despliegan la IA peligrosa de forma que tengan incentivos para hacerla segura. Y la tercera es cambiar el funcionamiento del mundo para que sea resistente a la IA peligrosa.

Comprender las preferencias humanas

Scott Alexander resume una disputa teórica entre Stuart Russell, el padrino del ML, y Eliezer Yudkowsky, el autor de la alineación. Russell dirige el grupo de investigación CHAI en la UC Berkeley, en California, y su investigación se centra en el aprendizaje automático seguro para garantizar que la IA valore las opiniones humanas mucho más que sus propios valores. Así, si la IA no entiende bien la tarea, buscará el consejo humano para hacerlo bien.

La crítica de MIRI dice que no sabemos cómo crear modelos de este tipo de escenarios y que, aunque lo hiciéramos, no sabríamos cómo hacerlo correctamente. El argumento básico es que una IA con esta capacidad malinterpretará las opciones de que dispone y, por tanto, actualizará su comprensión hacia algo que sigue sin ser lo que queremos.

Funciones de pérdida, tutoriales de Andrej, interpretabilidad y atascos de alineación

En noticias más pequeñas, Alex publica una descripción de cuatro formas en que se utilizan las funciones de pérdida en el aprendizaje automático y cómo deberíamos entenderlas.

Andrej Karpathy ha empezado a crear tutoriales en YouTube después de dejar de dirigir la IA en Tesla. Sus tutoriales son algunos de los mejores para aprender machine learning que se pueden encontrar y recomendamos verlos.

Redwood Research ha lanzado una impresionante herramienta de interpretabilidad que complementa las herramientas de Anthropic y OpenAI. Esto democratiza la capacidad de investigar la interpretabilidad y entender las redes neuronales.

Los días 12 y 13 de noviembre, vamos a hacer un hackatón en interpretabilidad y eres muy bienvenido a registrar tu interés ya ahora. Únete en el enlace en la descripción. Esben Kran hizo una conferencia introductoria sobre interpretabilidad y puedes verla en el mismo enlace.

Este ha sido el informe de progreso de Safe AI. Esperamos verle la semana que viene a la misma hora. Gracias por seguirnos.

1,5 millones de dólares para cambiar la opinión de alguien - S39

Fri, 30 Sep 2022 10:00:00 GMT

Cambia la opinión de FTX por 1,5 millones de dólares, obtén una nueva perspectiva en interpretabilidad, participa en el speed prior y únete a nuestro hackatón.

Hoy es 30 de septiembre, me llamo Esben, y estás viendo... el Informe de Progreso de Safe AI.

El FTX Future Fund anuncia un premio de 1,5 millones de dólares para que cambien de opinión sobre los riesgos de la inteligencia artificial. Hasta ahora, han donado más de 31 millones de dólares a esta causa y cambiar de opinión podría cambiar completamente el destino de este dinero. Si cambias drásticamente sus estimaciones de probabilidad sobre lo peligrosa que es la AGI y cuándo llegará, podrás optar a un premio.

Una de las primeras propuestas es este post que defiende que la temible IA llegará pronto. Trata de cómo esperamos que la inteligencia general temprana dé más miedo que la IA tardía, ya que no tendremos tanto tiempo para prepararnos, y de que hay varias variables en la comprensión de la precocidad de la aparición de la IA que dan miedo de las que no podemos estar seguros. Muy buen artículo.

La conjetura lanza una gran investigación en interpretabilidad, la lente de Polytopes sobre el espacio de características. Argumentan que no deberíamos entender los rasgos como direcciones, sino como estructuras geométricas en el espacio de rasgos debido a las funciones de activación no lineales y a la polisemanticidad.

A pesar de que una neurona puede codificar múltiples rasgos, pueden identificar "politopos monosemánticos", lo que significa que si no estudiamos los rasgos como direcciones sino como formas geométricas, podemos identificar mejor dónde se interpretan los distintos tipos de entrada. Esto desafía la interpretabilidad de los circuitos de la que hemos hablado antes con un experimento en el que escalan las activaciones y ven una diferencia en lo que la red entiende. Lo que esto implica es que no podemos utilizar direcciones lineales como características (figura).

Anthropic trabaja mucho en la interpretabilidad de los circuitos y, al mismo tiempo, ha publicado un trabajo asombroso sobre la comprensión de la superposición de características, que no es más que la comprensión de características repartidas entre muchas neuronas, por ejemplo, una neurona que responde tanto a coches como a perros. Esto permite que la red comprenda más cosas, pero, por desgracia, hace que nos resulte más difícil comprenderla.

Su trabajo muestra una serie de experimentos interesantes, estudiando cuándo se produce la superposición de características, como en esta figura donde el amarillo indica una mayor superposición (figura) y gráficos de geometría de características que muestran cómo las superposiciones son posibles a través de la codificación de la información en las direcciones más distintas posibles (figura). Hay más experimentos y te recomiendo que leas el artículo si quieres saber más.

Pérez y McKenzie dan a conocer los ganadores de la primera ronda del premio de escalado inverso. Este reto trata de encontrar tareas en las que los modelos lingüísticos más grandes rinden peor que los modelos más pequeños, lo cual es sumamente importante para saber dónde modelos mucho más grandes podrían toparse con obstáculos en su compatibilidad con los valores humanos.

Los ganadores demuestran que 1) los modelos más grandes son peores a la hora de entender la negación, 2) repiten más a menudo lo que han visto en su conjunto de entrenamiento, 3) son peores a la hora de redefinir definiciones y 4) son peores a la hora de entender futuros comportamientos de riesgo.

Evan Hubinger ha publicado sus experimentos de verano que se basan en su trabajo sobre los llamados "Speed priors". Esperamos que las futuras IA peligrosas engañen a los humanos, por lo que necesitamos una forma de castigar a los algoritmos que engañan. Una forma es encontrar un "regularizador", o una penalización a las redes, que esté sesgado hacia modelos no engañosos. La prioridad a la velocidad intenta conseguirlo seleccionando el modelo más rápido en una tarea, ya que suponemos que el engaño requiere pasos adicionales en comparación con la realización de la tarea en cuestión.

Su nuevo trabajo presenta intentos de utilizar las priorizaciones de velocidad en múltiples niveles, resolviendo también la desalineación interna. Como explicamos en el segundo Informe de Progreso de Safe AI, la desalineación interna se produce cuando un modelo parece hacer lo correcto pero es engañoso o tiene sus propios objetivos por debajo de la primera capa. Para paliar este problema, queremos que la velocidad previa funcione en ambos niveles. La mayoría de los enfoques que presenta no son muy prometedores, pero justifican futuras investigaciones.

Leo Gao describe cómo las políticas de aprendizaje por refuerzo no pueden preocuparse por la recompensa en un entorno incrustado, pero que siguen siendo capaces de hacer wireheading. Esto se extiende al hecho de que no hay ningún mecanismo especial en los humanos que nos haga preocuparnos por las cosas del mundo. El escrito de Leo es una respuesta a un texto de Alex Turner con la afirmación más débil de que los agentes de aprendizaje por refuerzo probablemente no optimizarán para la recompensa.

En noticias más pequeñas, Holden Karnofsky analiza cómo el despliegue de la IA es increíblemente importante y cuestiona la opinión entre los teóricos de que sólo tenemos que resolver los problemas técnicos de la alineación y no tendremos que preocuparnos demasiado por cómo el mundo despliega estos modelos.

Akash y Thomas describen los 7 errores de los nuevos investigadores de alineación y cómo a menudo acaban estancados en el "perfeccionamiento" y no cuestionan a las figuras de autoridad.

Pero algunos lugares donde los nuevos investigadores podrían surgir con mejores fundamentos es el hackatón de modelos lingüísticos que estamos llevando a cabo durante el fin de semana, ¡a partir de hoy! Te invitamos a participar en el hackatón durante el fin de semana y podrás ganar hasta 1.000 dólares. Únete a nosotros para averiguar si podemos obtener resultados de investigación novedosos en un fin de semana.

Otro evento que se está celebrando es la conferencia AI Safety de ALTER en Israel para poner más énfasis en la seguridad de la IA en el país. Nuestro Fazl Barez intervendrá en este evento.

Y como siempre, si quieres saber más, visita apartresearch.com, y si quieres encontrar proyectos en los que trabajar, visita AI Safety Ideas.

Este ha sido el Informe de Progreso de Safe AI y esperamos verle la semana que viene.

Enlaces

Concurso sobre la visión del mundo del Future Fund: https://ftxfuturefund.org/
Una AGI general fuerte llega pronto: https://forum.effectivealtruism.org/posts/kRNLsBLoCryMMipoJ

Lentes de politopes: https://www.alignmentforum.org/posts/eDicGjD9yte6FLSie/interpreting-neural-networks-through-the-polytope-lens

Publicaciones de Anthropic: https://www.anthropic.com/research

Modelos de juguete de superposiciones https://transformer-circuits.pub/2022/toy_model/index.html

Premio de la primera ronda del Escalado inverso https://www.alignmentforum.org/posts/iznohbCPFkeB9kAJL/inverse-scaling-prize-round-1-winners

Premio del escalado inverso https://github.com/inverse-scaling/prize

Speed prior and forwarding speed priors: https://www.alignmentforum.org/posts/bzkCWEHG2tprB3eq2/attempts-at-forwarding-speed-priors

¿Son los circuitos sencillos engañosos? Are minimal circuits deceptive?: https://www.lesswrong.com/posts/fM5ZWGDbnjb7ThNKJ/are-minimal-circuits-deceptive

Musings on the speed prior: https://www.alignmentforum.org/posts/GC69Hmc6ZQDM9xC3w/musings-on-the-speed-prior

Un wireheading des-confuso https://www.alignmentforum.org/posts/jP9cKxqwqk2qQ6HiM/towards-deconfusing-wireheading-and-reward-maximization

La recompensa no es el foco de optimización: https://www.alignmentforum.org/posts/pdaGN6pQyQarFHXF4/reward-is-not-the-optimization-target

Nearcasting AGI: https://www.alignmentforum.org/posts/vZzg8NS7wBtqcwhoJ/nearcast-based-deployment-problem-analysis
7 trampas en las que las investigaciones de las nuevas alineaciones caen https://www.lesswrong.com/posts/h5CGM5qwivGk2f5T9
Hackatón de modelo de lenguajes: https://itch.io/jam/llm-hackathon
AI Safety conferencia en Israel: https://aisic2022.net.technion.ac.il/
Apart Research: https://apartresearch.com
AI Safety Ideas: https://aisi.ai

Modelos de lenguaje violentos y hackeo neuronal - S38

Thu, 22 Sep 2022 10:00:00 GMT

Alinear modelos lingüísticos es difícil y cada vez es más complicado encontrar sus fallos, Refine vuelve a publicar artículos interesantes y Redwood publica una revisión de su trabajo sobre modelos lingüísticos robustos.

Es 23 de septiembre y estás viendo... The Safe AI Progress Report.

Un método utilizado a menudo para alinear los modelos lingüísticos es el aprendizaje por refuerzo a partir de la retroalimentación humana del que hablamos en el primer Informe de Progreso de Safe AI. Una buena forma de crear ejemplos para que los humanos los evalúen y nos den su opinión es utilizar técnicas de adversario, a menudo llamadas Red Teaming.

En el Red Teaming, intentamos hacer tropezar a los modelos en la medida de lo posible dándoles ejemplos extremos en alguna dirección, por ejemplo, con ejemplos de violencia. Uno de los primeros proyectos de Redwood Research fue crear un modelo sin ejemplos de violencia en su texto de salida. Ahora, han publicado una revisión retrospectiva de lo útil que fue para la alineación.

Sus herramientas de uso de la IA para ayudar a la anotación humana son muy buenos ejemplos de un proceso de alineación real que será útil en el futuro. Los contratistas de datos Surge AI escribieron un post sobre su proceso.

Desafortunadamente, sus resultados mostraron que no podían crear un modelo lo suficientemente robusto para la alineación, a pesar de que todavía creen en la dirección de la robustez adversarial para la alineación.

Simultáneamente, Anthropic publica una revisión de ejemplos adversariales y su efectividad en modelos de lenguaje internos. Muestran que los modelos de lenguaje con retroalimentación humana son más difíciles de encontrar ataques exitosos contra ellos pero son menos inofensivos comparados con los modelos tradicionales.

Crean este mapa de incrustación UMAP de todos los diferentes ataques adversarios y su índice de éxito. Un resultado interesante es que tradicionalmente las respuestas explícitamente dañinas o negativas no son muy efectivas, pero "pedir ayuda" para algo dañino es bastante efectivo.

Estos artículos están contextualizados por Kasirzadeh y Gabriel, que escriben un análisis filosófico de lo que significa que los modelos lingüísticos estén alineados. Enmarcan las conversaciones con los modelos lingüísticos como una cooperación lingüística con un fin y se basan en esa idea para definir futuras direcciones para el trabajo técnico.

En otro orden de cosas, se ha publicado la tercera semana de entradas del blog de Refine. Refine es un proyecto dirigido por Conjecture en Londres, en el que los investigadores reciben apoyo durante tres meses para crear perspectivas marginales e interesantes sobre la alineación. Se trata de diversificar el campo, algo que Thomas Kuhn estaría encantado de escuchar, ya que la seguridad de la IA está en sus primeras etapas y necesitamos buenos puntos de vista sobre la alineación.

"Ordenación de los umbrales de capacidad" describe qué capacidades van antes que otras y cómo pensar en esta progresión. "Niveles de objetivos y alineación" describe la confusión de los autores e intenta comprender la terminología sobre alineación interna y externa. "Representational tether" presenta una forma de utilizar el aprendizaje automático para alinear una IA con los valores humanos. Una cosa que me gusta de este post es cómo Paul relaciona la idea con las agendas de investigación más relevantes.

John explica la idea de interpretabilidad sin coordenadas, que hace referencia a la topología para crear transformaciones preferidas en la red neuronal que sean más fáciles de interpretar.

En relación con este post, Jacob Hilton enlaza con el artículo sobre unidades lineales softmax que describe la base privilegiada. Las neuronas a menudo intentan codificar más dimensiones de las que hay neuronas en el modelo, lo que significa que su activación está correlacionada con múltiples comprensiones de los datos.

Su unidad lineal softmax cambia la función de activación de las neuronas para acentuar la mayor entrada. De este modo, las neuronas están sesgadas para codificar sólo una dimensión, lo que hace que sean mucho más fáciles de interpretar, ya que sabemos que la activación de la neurona está asociada con un tipo de concepto en la entrada.

...

En otras noticias, el Backdoor Bench crea un estándar para evaluar ataques y defensas en redes neuronales, un campo que se encuentra en estos momentos en una carrera armamentística para crear las redes neuronales mejor protegidas. Publican un repositorio abierto con implementaciones de algoritmos de ataque y defensa de última generación contra los que probar los propios métodos.

Leon escribe un amplio resumen de las 8 semanas de material del curso "artificial general intelligence safety fundamentals course" que contiene una de las mejores introducciones a la alineación que se pueden encontrar online.

Vanessa Kosoy anuncia un premio de 50.000 dólares para crear investigación hacia su agenda de alineamiento en alineamiento teórico-aprendizaje donde intentamos inferir cómo aprenden los agentes y usar esta información para construir modelos estadísticos más interpretables y alineados.

Si quieres saber más sobre la seguridad de la IA, visita apartresearch.com y síguenos en varias redes sociales. Si quieres inspiración para proyectos en los que trabajar, visita AI Safety Ideas.

Este ha sido el Informe de Progreso sobre Seguridad de la IA. Recuerde suscribirse. Hasta la próxima.

Enlaces

Aprendizaje por refuerzo a partir de comentarios humanos:

arxiv.org/abs/2204.05862 ","username":"AnthropicAI","name":"Anthropic","profile_image_url":"","date":"Wed Apr 13 16:20:10 +0000 2022","photos":[{"img_url":"https://pbs.substack.com/media/FQPJEQUVUAYVCNL.jpg","link_url":"https://t.co/aLCyYK0fqP","alt_text":"A graph showing the difference in performance between context distilled, static HH RLHF, Online HH RLHF, and Online Helpful RLHF models. Online Helpful RLHF models do best - close to the distribution of scores for professional writers. "}],"quoted_tweet":{},"reply_count":0,"retweet_count":56,"like_count":280,"impression_count":0,"expanded_url":{},"video_url":null,"belowTheFold":true}" data-component-name="Twitter2ToDOM">

Primer SAIPR:

Red teaming LLMs: https://arxiv.org/pdf/2202.03286.pdf
Entrenamiento adversarial [Redwood]: https://arxiv.org/abs/2205.01663
Clasificador robusto de lesiones [Redwood]: https://www.alignmentforum.org/posts/n3LAgnHg6ashQK3fF/takeaways-from-our-robust-injury-classifier-project-redwood
Intento original: https://www.alignmentforum.org/posts/k7oxdbNaGATZbtEg3/redwood-research-s-current-project
Documento original: https://arxiv.org/abs/2205.01663
Surge AI: https://www.surgehq.ai/case-study/adversarial-testing-redwood-research
Modelos lingüísticos de Red Teaming para reducir daños: Revisión [Anthropic]: https://arxiv.org/abs/2209.07858
Alineación de modelos lingüísticos: https://arxiv.org/abs/2209.00731
Tercera batería de entradas del blog de Refine: https://www.alignmentforum.org/posts/PhKSe9BT4h5peqrHL/refine-s-third-blog-post-day-week
Refinar como concepto: https://www.alignmentforum.org/posts/5uiQkyKdejX3aEHLM/how-to-diversify-conceptual-alignment-the-model-behind
Ordenación de los umbrales de capacidad: https://www.alignmentforum.org/posts/ttRyu8u9vqX3jZFjr/ordering-capability-thresholds
Niveles de objetivos y alineación: https://www.alignmentforum.org/posts/rzkCTPnkydQxfkZsX/levels-of-goals-and-alignment
Vinculación representacional: https://www.alignmentforum.org/posts/h7BA7TQTo3dxvYrek/representational-tethers-tying-ai-latents-to-human-ones
Teoría de la interpretabilidad sin coordenadas: https://www.alignmentforum.org/posts/sxhfSBej6gdAwcn7X/coordinate-free-interpretability-theory
Base privilegiada: https://www.alignmentforum.org/posts/sxhfSBej6gdAwcn7X/coordinate-free-interpretability-theory?commentId=TiCE2Ai3LCdD7mvA
Unidades lineales Softmax: https://transformer-circuits.pub/2022/solu/index.html
Banco de puerta trasera: https://arxiv.org/abs/2206.12654
Resumen de Leon Lang de las lecturas del AGISF: https://www.alignmentforum.org/posts/eymFwwc6jG9gPx5Zz/summaries-alignment-fundamentals-curriculum
Premio ALTER de Vanessa Kosoy al progreso teórico del aprendizaje en alineación: https://www.alignmentforum.org/posts/8BL7w55PS4rWYmrmv/prize-and-fast-track-to-alignment-research-at-alte
Apart Research: https://apartresearch.com
AI Safety Ideas: https://aisafetyideas.com

La vanguardia de la interpretabilidad - S37

Thu, 15 Sep 2022 10:00:00 GMT

La investigación sobre interpretabilidad va viento en popa y la IA sigue mejorando. Me llamo Thomas y estás viendo... ¡el Informe de Progreso de la IA Segura!

La interpretabilidad puede llamarse "la neurociencia de la IA". Miramos en el cerebro de la IA para entender por qué y cómo dan ciertos resultados. La seguridad de la IA suele centrarse en el paradigma de los circuitos. Sin embargo, un nuevo estudio de 300 artículos sobre interpretabilidad muestra otros 20 paradigmas dentro de este campo con resultados igualmente prometedores.

Algunos ejemplos que señalan los autores son: 1) el método del atlas de activación, 2) la actualización de los datos de entrenamiento para obtener representaciones precisas desde el punto de vista del comportamiento, 3) los métodos adversariales y 4) el ajuste manual de los pesos.

El método del atlas de activación se asemeja a la investigación sobre interpretabilidad de Circuits y utiliza un mapa semántico de activaciones neuronales para representar cada capa a través de la red neuronal. Para esta imagen concreta de un barco de bomberos, podemos analizar sus activaciones relacionadas retrocediendo por las capas. En este caso, un barco de bomberos está relacionado con ventanas, objetos similares a grúas, géiseres y agua.

Actualizar los datos de entrenamiento para contrarrestar los sesgos nos permite, por ejemplo, actualizar las imágenes para acentuar más las formas en lugar de las texturas y resolver el sesgo natural de las ResNets hacia el sobreajuste a las texturas, algo que los humanos no harían. Esto permite que la red se comporte más como un ser humano, lo que nos interesa para la seguridad de la IA, ya que establecer marcos de referencia similares puede ayudar a alinear los valores entre la IA y los seres humanos.

Otro ejemplo del uso de ejemplos adversos es que pueden ayudarnos a comprender los errores y sesgos de los modelos y garantizar futuros sistemas más seguros, mientras que una intervención más directa incluye la comprensión de las asociaciones fácticas en las redes neuronales, lo que nos da muchas más posibilidades de corregir e identificar comportamientos incoherentes y posiblemente peligrosos.

Sin embargo, incluso con nuestra capacidad de interpretación, seguimos enfrentándonos a un alto riesgo. El grupo de previsión Samotsvety ha añadido sus estimaciones de las probabilidades de riesgo de la IA y muestran una estimación de riesgo de un orden de magnitud superior en comparación con las estimaciones anteriores de Metaculus.

En general, Samotsvety tiene un gran historial y su artículo complementa la literatura existente sobre las líneas temporales de la inteligencia artificial; un buen ejemplo es el informe "AGI timelines from biological anchors" de Ajeya Cotra, para el que Anson Ho escribió un resumen que enlazaremos en la descripción.

Entonces, ¿qué podemos hacer realmente ante estos riesgos? Evan Hubinger propone un triunfo claro para la coordinación segura de la IA. Su idea es pedir a Deepmind, OpenAI y Anthropic que se comprometan a vigilar activamente y buscar pruebas de alineación engañosa en sus modelos, lo que puede ayudarnos a identificar y detectar errores antes.

Esta alineación engañosa es un problema cuando los sistemas tienen un comportamiento diferente en el despliegue del comportamiento recompensado en el entrenamiento. Por ejemplo, la evolución recompensa a los humanos por criar a sus hijos, pero ahora hemos creado muchas otras formas de disfrutar del mundo.

Esto puede ser una gran ventaja para coordinar la seguridad en el desarrollo de la IA.

En otras noticias, Quintin ha iniciado una serie semanal de resúmenes de trabajos de investigación sobre alineación,

John piensa que la mayoría de la gente comienza en la alineación con malas ideas, pero recibe un poco de empuje de Evan, Beth Barnes inicia un proyecto de seguimiento de capacidades y alineación en el Centro de Investigación de Alineación, los modelos lingüísticos reproducen los sesgos cognitivos de los humanos, y tal vez el mundo académico es realmente bueno para trabajar en la seguridad de la IA a pesar del enfoque en la escena de la IA con fines de lucro en San Francisco.

Si quieres saber más sobre la seguridad de la IA, visita apartresearch.com, y si quieres trabajar en la investigación, visita AI Safety Ideas.

Este ha sido el Informe de Progreso sobre Seguridad de la IA, recuerda suscribirte, ¡y te esperamos para el próximo!

Enlaces

Circuitos: https://distill.pub/2020/circuits/zoom-in/
Cuestionario de interpretabilidad: https://arxiv.org/abs/2207.13243, vea el resumen de Twitter y el PDF, https://arxiv.org/pdf/2207.13243.pdf:

arxiv.org/abs/2207.13243\n@ansonwhho @TilmanRa @dhadfieldmenell","username":"StephenLCasper","name":"Stephen Casper","profile_image_url":"","date":"Mon Sep 12 19:03:13 +0000 2022","photos":[],"quoted_tweet":{},"reply_count":0,"retweet_count":13,"like_count":58,"impression_count":0,"expanded_url":{},"video_url":null,"belowTheFold":true}" data-component-name="Twitter2ToDOM">

Activación de atlas: https://distill.pub/2019/activation-atlas/
Cambiando los datos de entreno https://arxiv.org/pdf/1811.12231.pdf
Editando las asociaciones factuales en GPT GPThttps://arxiv.org/pdf/2202.05262.pdf
Descripciones del lenguaje natural de características visuales profundas https://arxiv.org/pdf/2201.11114.pdf
Robust feature-level adversaries are interpretability tools: https://arxiv.org/pdf/2110.03605.pdf
Previsión de riesgos de la IA de Samotsvety https://forum.effectivealtruism.org/posts/EG9xDM8YRz4JN4wMN/samotsvety-s-ai-risk-forecasts
(Junio) Previsión del TAI con resúmenes de anclajes biológicos https://www.lesswrong.com/s/B9Qc8ifidAtDpsuu8/p/wgio8E758y9XWsi8j
Monitoreando contra la alineación engañosa https://www.alignmentforum.org/posts/Km9sHjHTsBdbgwKyi/monitoring-for-deceptive-alignment
Alineación engañosa: https://www.alignmentforum.org/posts/zthDPAjh9w6Ytbeks/deceptive-alignment
Alineación de informers de Quintin: https://www.lesswrong.com/posts/7cHgjJR2H5e4w4rxT/quintin-s-alignment-papers-roundup-week-1
La mayoría de la personas comienzan con las mismas malas ideas: https://www.lesswrong.com/posts/Afdohjyt6gESu4ANf/most-people-start-with-the-same-few-bad-ideas
Beth Barnes comenzando evaluaciones de grupos en ARC sobre riesgos y desarrollos https://www.alignmentforum.org/posts/svhQMdsefdYFDq5YM/evaluations-project-arc-is-hiring-a-researcher-and-a-webdev-1
Sesgos cognitivos en LLMs: https://arxiv.org/pdf/2206.14576.pdf
Academia vs. Industria: https://www.alignmentforum.org/posts/HXxHcRCxR4oHrAsEr/an-update-on-academia-vs-industry-one-year-into-my-faculty

OpenAI, teoría de los fragmentos y giros de acontecimientos - S36

Thu, 08 Sep 2022 10:00:00 GMT

Es 8 de septiembre, me llamo Esben y estás viendo el Informe de Progreso de Safe AI.

Por lo general, se considera que OpenAI realiza esfuerzos arriesgados con la IA, ya que su estrategia consiste en desarrollar una inteligencia general artificial segura. Reciben bastantes críticas por esta postura, así que para responder a algunas de ellas, OpenAI ha publicado varios posts explicando su postura sobre lo que significa la palabra "segura" en la AGI segura.

Jacob Hilton aborda directamente que efectivamente están trabajando en soluciones escalables para la seguridad y que tanto la dirección como los equipos de OpenAI son conscientes de los riesgos existenciales de la

IA mientras OpenAI cambia su portada para incluir una estrategia hacia el aprendizaje automático seguro.

Jan Leike y el equipo de seguridad describen cómo quieren utilizar mejores datos de retroalimentación humana, utilizar la IA para ayudar a los humanos a evaluar la IA y utilizar la IA para ayudar a la investigación del aprendizaje automático seguro.

Se trata de ideas muy extendidas en el ámbito de la seguridad:

En la retroalimentación humana, los modelos reciben la evaluación de los humanos sobre sus resultados para cambiar su respuesta. Por ejemplo, los ejemplos que han tenido éxito han conseguido explicar mejor los conceptos que sus predecesores.
El uso de la IA para ayudar a los humanos a evaluar los resultados está relacionado con una idea llamada Destilación y Amplificación Iteradas, en la que un humano evalúa una IA que debería ser segura, luego esa IA ayuda al humano a evaluar la siguiente generación de IA y así sucesivamente.
Varios proyectos trabajan en el uso de la IA para ayudar a nuestra investigación sobre seguridad, por ejemplo el asistente de investigación de Elicit y el analizador de redes de papel de seguridad de la IA de Eleuther.

Sin embargo, no todo el mundo está contento con estos enfoques de la seguridad ML. John Wentworth describe cómo el diseño iterativo hacia una AGI segura puede fallar de dos formas principales:

Si la IA de repente se vuelve mucho mejor y los primeros desarrolladores necesitan hacerlo bien
y si el modelo se comporta de forma que engañe a sus operadores.

Critica especialmente el uso de la retroalimentación humana, ya que afirma que así se entrena directamente a la IA para que sea engañosa. Un ejemplo es cuando se entrena a un robot con información humana para que agarre una pelota, pero engaña al humano flotando delante de la pelota en la pantalla con un movimiento de agarre. Es una locura.

Al mismo tiempo, los investigadores de modelos lingüísticos están de acuerdo en que la PNL podría conducirnos a la AGI y en que deberíamos dar prioridad a la seguridad en el aprendizaje automático. El 36% incluso está de acuerdo en que los sistemas de aprendizaje automático podrían provocar una catástrofe a nivel de guerra nuclear en los próximos cien años. Es una gran noticia que los investigadores piensen más en la seguridad mientras desarrollan sistemas que podrían ser revolucionarios. Un ejemplo de ello es el asistente de programación Github CoPilot, que sigue mejorando y algún día podría ser capaz de programar un sustituto de sí mismo.

Profundizando en algunas nuevas perspectivas sobre seguridad, Janus y Conjecture lanzan la perspectiva del simulador de modelos de lenguaje. La idea básica es que los modelos como GPT-3 no actúan como personas, sino como simuladores de personas y escenarios. Esto reúne muchas ideas anteriores y nos da indicios de que los modelos lingüísticos pueden simular de un modo u otro la mayoría de los demás tipos de IA.

Fuera del lenguaje, Quintin Pope y Alex Turner resumen la teoría de los fragmentos, su enfoque para comprender los valores humanos. Parte de la idea se basa en la inferencia predictiva de la neurociencia y parte de la base de que los valores humanos se aprenden como muchas otras cosas: Diferentes contextos traen a la mente diferentes planes de acción. Quieren utilizar estos "fragmentos" neuronales contextuales para comprender dónde y cómo se relacionan los valores en los modelos de aprendizaje profundo.

En el lado más pequeño, Richard Ngo de OpenAI publica una lista de cosas en las que le gustaría que la gente trabajara, mientras que Thomas y Eli publican una lista de cosas en las que la gente ya está trabajando.

El Centro para la Seguridad de la IA anuncia una beca de filosofía y publica su material de curso de seguridad de aprendizaje automático de forma gratuita. Esto se suma a sus concursos de seguridad ML existentes para que los ingenieros de aprendizaje automático trabajen en la seguridad.

Si te interesa saber más sobre la seguridad de la IA, visita apartresearch.com y si quieres trabajar en problemas abiertos, únete a AI Safety Ideas.

Este ha sido el Informe de Progreso de Safe AI, recuerda suscribirte, ¡y te esperamos para el próximo!