26/05/2026
📄 𝐏𝐚𝐩𝐞𝐫 𝐝𝐞 𝐥𝐚 𝐬𝐞𝐦𝐚𝐧𝐚
¿Podemos confiarle la edición de nuestros documentos a una IA?
🤖 ¿𝐐𝐮é 𝐞𝐬 𝐮𝐧 𝐋𝐋𝐌?
Un Modelo de Lenguaje Grande (Large Language Model) es una inteligencia artificial entrenada con grandes cantidades de texto para predecir, generar y editar lenguaje. Gemini (Google), Claude (Anthropic) y los modelos GPT (OpenAI) son ejemplos de LLMs evaluados en este estudio.
📊¿𝐐𝐮é 𝐞𝐧𝐜𝐨𝐧𝐭𝐫ó 𝐥𝐚 𝐢𝐧𝐯𝐞𝐬𝐭𝐢𝐠𝐚𝐜𝐢ó𝐧?
El estudio DELEGATE-52 de Philippe Laban, Tobias Schnabel y Jennifer Neville (Microsoft Research, 2026) simuló flujos de trabajo en 310 entornos a través de 52 dominios profesionales, evaluando 19 LLMs.
𝐏𝐫𝐢𝐧𝐜𝐢𝐩𝐚𝐥𝐞𝐬 𝐡𝐚𝐥𝐥𝐚𝐳𝐠𝐨𝐬:
• Los mejores modelos corrompen el 25% del contenido tras solo 20 interacciones.
• El 80% de la degradación proviene de errores repentinos y graves.
• Los modelos más débiles tienden a borrar información; los más potentes tienden a corromperla.
• Documentos más largos aceleran drásticamente la corrupción.
𝐑𝐞𝐧𝐝𝐢𝐦𝐢𝐞𝐧𝐭𝐨 𝐟𝐢𝐧𝐚𝐥:
🥇 Gemini 3.1 Pro — 80.9%
🥈 Claude 4.6 Opus — 73.1%
🥉 GPT 5.4 — 71.5%
Ve la infografía adjunta para el resumen completo 👇
Fuente: Laban, Schnabel & Neville — Microsoft Research (2026)
🔗 https://arxiv.org/abs/2604.15597