[nerd project]
[ai]21 de mayo de 2026 3 min read

Roban 4TB de muestras de voz de 40.000 contratistas de IA en Mercor

Roban 4TB de muestras de voz de 40.000 contratistas de IA en Mercor

Photo via Unsplash

El robo de 4TB de muestras de voz pertenecientes a más de 40.000 contratistas de inteligencia artificial en la plataforma Mercor es uno de los incidentes de seguridad más serios que ha golpeado al ecosistema de datos de entrenamiento de IA hasta la fecha. No hablamos de correos electrónicos o contraseñas filtradas: hablamos de la voz real de miles de personas, capturada para alimentar modelos de lenguaje y ahora en manos desconocidas.

El negocio detrás del entrenamiento de IA

Empresas como Mercor operan como intermediarios entre grandes laboratorios de IA —OpenAI, Google, Meta y similares— y miles de trabajadores independientes que realizan tareas de anotación, grabación de audio y evaluación de respuestas. Este modelo de crowdsourcing de datos es fundamental para entrenar modelos modernos, pero concentra información sensible de una cantidad enorme de personas con poca visibilidad pública sobre cómo se protege.

Qué pasó exactamente

Según la información disponible, atacantes lograron acceder y exfiltrar aproximadamente 4 terabytes de datos de audio vinculados a unos 40.000 contratistas registrados en Mercor. Los datos robados incluyen:

  • Grabaciones de voz en múltiples idiomas usadas para entrenar modelos de IA
  • Información de identificación asociada a cada contratista
  • Metadatos de las sesiones de grabación

Hasta el momento, Mercor no ha emitido una declaración pública detallada sobre el vector de ataque ni sobre las medidas tomadas para contener el daño. La magnitud del robo —4TB es una cantidad brutal de audio— sugiere que el acceso no fue accidental ni breve.

Lo que esto realmente significa

Este incidente expone una grieta estructural en la cadena de suministro de datos de IA. Los contratistas de datos son la mano de obra invisible que hace posible la IA generativa, pero raramente tienen acceso a información clara sobre cómo se almacenan sus contribuciones o qué pasa si esos datos son comprometidos. La voz es un dato especialmente delicado: puede usarse para clonación de voz, suplantación de identidad en sistemas de autenticación biométrica o simplemente para construir perfiles muy precisos de individuos. Mercor, y por extensión sus clientes corporativos, tienen una responsabilidad enorme que no estaban gestionando a la altura.

Qué viene ahora para la industria

Este robo debería ser una señal de alarma para toda la industria del entrenamiento de datos de IA. Los reguladores en Europa —con el AI Act ya en marcha— y en otras jurisdicciones tienen ahora un caso concreto y masivo para exigir estándares mínimos de seguridad a las plataformas que manejan datos biométricos de trabajadores. Es probable que veamos:

  • Investigaciones regulatorias en múltiples países
  • Demandas colectivas de los contratistas afectados
  • Revisiones de contratos entre plataformas de datos y grandes laboratorios de IA

Las grandes empresas de IA que subcontratan la recolección de datos también deberán responder: ¿qué nivel de seguridad exigen a sus proveedores? Porque si los datos de entrenamiento están comprometidos, la cadena de confianza entera se rompe.

La pregunta que queda abierta es incómoda: si 4TB de voces humanas pueden ser robadas así, ¿cuántos incidentes similares están ocurriendo sin que nos enteremos?

Fuente: Hacker News

#seguridad IA#Mercor#brecha de datos#privacidad
Read in English: English version →
share:Telegram𝕏

[comentarios]

1000 caracteres restantes