Por qué SWE-bench Verified ya no mide capacidades frontier de código
SWE-bench Verified era el estándar de oro para evaluar IA en programación. Ya no lo es, y eso cambia cómo debemos interpretar los rankings de modelos.
32 artículos
SWE-bench Verified era el estándar de oro para evaluar IA en programación. Ya no lo es, y eso cambia cómo debemos interpretar los rankings de modelos.
Washington señala a Beijing por robo masivo de inteligencia artificial justo antes de la cumbre Trump-Xi. China responde con una sola palabra: calumnia.
Anthropic acaba de convertir a Claude en un asistente que controla tu vida digital de verdad. Spotify, Uber y Resy son solo el principio.
OpenAI lanza GPT-5.5 con capacidades agénticas para programar e investigar. ¿Es este el salto real que los desarrolladores esperaban?
Un hombre enfrenta prisión por generar con IA imágenes falsas del lobo fugado que tenía en vilo a todo el país. El caso marca un precedente legal alarmante.
NotebookLM cambia las reglas del juego para Gemini. Ya no es solo otro chatbot más — es una herramienta que te hace pensar en serio.
Un momento viral en una alfombra roja expuso algo que muchos preferían ignorar: sus ídolos de Instagram no son humanos. Y a sus seguidores no les importa.
Anthropic montó un marketplace de clasificados donde agentes de IA compraban y vendían bienes reales con dinero real. No es ciencia ficción: ya pasó.