Esta semana echamos un vistazo a los LLM que necesitan terapeutas, la gobernanza del hardware de aprendizaje automático y los puntos de referencia para comportamientos peligrosos. Lee hasta el final para participar en programas de verano y proyectos de investigación sobre seguridad de la IA
Del mismo modo, presentamos el cambio de diseño de nuestro boletín junto con su traducción al español, posible gracias a la ayuda de los increíbles voluntarios: Aitana y Alejandro. ¡Ve a suscribirte! Siéntete libre para escribirnos si tú también estás interesado en colaborar.
¡Gracias por leer el boletín de Apart! Suscríbete gratis para recibir nuevos posts y apoyar nuestro trabajo.
Recibes el Apart Newsletter desde que te has suscrito previamente a alguno de nuestros boletines. Si quieres gestionar qué tipos de correos electrónicos recibes de nosotros, por ejemplo, hackathon o actualizaciones semanales de investigación sobre seguridad de la IA, ve a. news.apartresearch.com
¿Las recompensas justifican los medios?
Pan et al. (2023) presentan la referencia “Measuring Agents' Competence & Harmfulness In A Vast Environment of Long-Horizon Language Interactions” (MACHIAVELLI), que contiene más de medio millón de escenarios realistas de acción de alto nivel. Véase un ejemplo a continuación.
Descubren que si los agentes se entrenan explícitamente para obtener la mayor recompensa en los juegos basados en texto, serán menos éticos que los agentes aleatorios. Los investigadores también presentan formas sencillas de hacer que los agentes sean más éticos. Más información en el sitio web del proyecto .
Gobernar la informática con firmware
Shavit publicó recientemente su propuesta sobre cómo podemos garantizar la seguridad de la IA del futuro y hacer posible la auditoría del entrenamiento de modelos de aprendizaje automático (ML). Propone un plan de tres pasos:
Los productores instalan firmware en el hardware de entrenamiento de ML (como todas las GPU producidas) para registrar los pesos de las redes neuronales de forma que no cueste mucho y se mantenga la privacidad de los propietarios.
Al comprobar estos registros, los inspectores pueden ver fácilmente si alguien ha infringido alguna norma que limite el entrenamiento de los sistemas de ML.
Los países se aseguran de que este firmware está instalado vigilando las cadenas de suministro de hardware de ML.
Esta es una de las primeras propuestas concretas, prometedoras y que operan en profundidad para supervisar y salvaguardar el desarrollo del ML (Machine Learning) en el futuro.
Visión general del marco de supervisión propuesto.
Defensa contra los ataques a los datos de entrenamiento
Los ataques de puerta trasera basados en parches en redes neuronales funcionan incluyendo la sustitución de pequeñas áreas de imágenes en el conjunto de entrenamiento de los modelos ML con un tipo de disparador. Por ejemplo, siete píxeles amarillos en la esquina inferior izquierda, para hacer que clasifique y la imagen incorrectamente si aparece ese disparador. Esto es, podría clasificar una imagen de un perro como un gato si están presentes los siete píxeles amarillos.
El algoritmo PatchSearch es una forma de utilizar el modelo entrenado en el conjunto de datos para identificar y filtrar cualquier dato de entrenamiento que parezca cambiado (o "envenenado") para crear este desencadenante en el modelo. A continuación, vuelven a entrenar el modelo con los datos filtrados. Recomendamos consultar el artículo para ver su aplicación concreta. Este tipo de trabajo es importante para eliminar los datos de entrenamiento que pueden dar lugar a modelos intencionada o involuntariamente incontrolables.
Los modelos lingüísticos pueden resolver tareas informáticas
La prueba MiniWoB++ es una prueba con más de 100 tareas de interacción web. Recientemente, los investigadores han superado a los mejores algoritmos anteriores utilizando grandes modelos lingüísticos con un diseño que denominan mejora recursiva de la crítica y los resultados (RCI, por sus siglas en inglés).
Al pedir al modelo que critique su propio rendimiento y mejore sus resultados basándose en dicha crítica, superan a los modelos entrenados en la misma prueba con aprendizaje por refuerzo y aprendizaje supervisado. También han comprobado que la combinación de RCI con el estímulo de la cadena de pensamiento funciona aún mejor.
Terapeutas para modelos lingüísticos
Lin et al. (2023) introducen su arquitectura de chatbot SafeguardGPT, que consiste en modelos basados en GPT que interactúan entre sí en los roles de usuario, chatbot, crítico y terapeuta. Es un experimento interesante en el uso de la interacción similar a la humana para hacer que los modelos lingüísticos estén más alineados.
El chatbot está hecho intencionadamente para estar ligeramente desalineado (en este caso, narcisista) en comparación con su trabajo (descrito en el mensaje) de proporcionar orientación y servicio al usuario. En cualquier momento de la conversación, tiene la capacidad de entrar en una sesión de terapia con el Terapeuta y cambiar sus respuestas al Usuario. Después, el Crítico crea una señal de recompensa para el Chatbot basada en sus evaluaciones de manipulación, gaslighting y narcisismo presentes en las respuestas del Chatbot.
A medida que el "prompting" adquiere más y más importancia, parece claro que necesitamos establecer buenas formas de modelar estas arquitecturas de "prompting", como el enfoque de IA Constitucional en el que una IA pasa por alto sus propias acciones basándose en reglas creadas por humanos.
Actualizaciones sobre IA
Cuando se trata de actualizaciones en inteligencia artificial, hay ya demasiadas para enumerarlas en una sola semana, así, te sugerimos que sigas canales como Yannic Kilcher, Nincompoop, AI Explained, y Zvi. He aquí alguna de las más relevantes:
Se han filtrado documentos de inversión de Anthropic que muestran sus planes a cuatro años vista de gastar 5.000 millones de dólares en la creación del llamado "Claude-Next", un modelo de lenguaje diez veces mayor que GPT-4. Mientras tanto, su actual modelo de lenguaje Claude se ve cada vez en más servicios y ahora en la herramienta sin código Zapier.
Stanford publica unamplio informe sobre el estado de la IA.
Una encuesta reciente sobre la investigación en modelos lingüísticos ofrece una buena visión general de los últimos avances en la investigación sobre modelos lingüísticos, si tienes curiosidad por profundizar, te recomendamos su lectura.
Principales modelos de los últimos años. El color amarillo indica código abierto.
Únete a nuestros grandes programas de seguridad de IA
Ahora tienes la oportunidad de formar parte de la creación de la investigación del mañana en seguridad de la IA como parte de estos programas de formación:
SERI MATS es un programa de formación de 3 meses en el que obtendrás tutoría y orientación directas de investigadores de las mejores instituciones en el ámbito de la seguridad de la inteligencia artificial y el análisis matemático, como Anthropic, FHI, MIRI, CAIS, DeepMind y OpenAI ¡Inscríbete ahora en su curso de verano!
Ahora estás invitado a unirte a la Escuela de Verano de IA Cooperativa, que tendrá lugar a principios de junio, centrada en proporcionar a las personas que inician su carrera una introducción a la IA Cooperativa.
El Alignment Research Center está contratando personal para diversos puestos, por ejemplo, investigador de aprendizaje automático, contratista de interacción de modelos, funciones operativas y jefes de datos humanos.
Únete a nuestro hackathón con Neel Nanda, donde tendrás la oportunidad de trabajar directamente en la investigación de la interpretabilidad. Si creas un proyecto prometedor, tendrás la oportunidad de colaborar y recibir asesoramiento a través de nuestro programa ApartLab. Así que únete a tus amigos virtualmente o en uno de los lugares presenciales.
Acuérdate de compartir este boletín con tus amigos interesados en la investigación sobre seguridad en ML e IA y suscríbete también a nuestro nuevo boletín en español.
¡Nos vemos la semana que viene!
¡Gracias por leer el boletín de Apart! Suscríbete gratis para recibir nuevos posts y apoyar nuestro trabajo