Acceder

Data centers: Concentración, fragilidad y el riesgo de un solo punto de falla

La gente cree que construir un data center es como construir un edificio de oficinas. No es así. No sólo no es fácil, sino que es como colocar todos los huevos en una sola canasta.

Cuando te hablan de invertir en IA, crees que se trata sólo de software, de algo virtual y no físico.  Pero te sorprendería saber el riesgo inherente a los data centers.

Lecciones del incendio en Corea del Sur


Un data center se ha quemado en Corea del Sur, 858 TB de datos perdidos porque no estaban respaldados. 8 años de trabajo y millones de dólares se convirtieron en cenizas. (A data center fire in South Korea sees 858 TB of government files and 'eight years’ worth of work' stored in the cloud go up in smoke). ¿El impacto? 163 servicios afectados y pérdida de datos utilizados por más de 100.000 funcionarios.

En EEUU lo mismo podría ocurrir. Hay varios problemas.

Hay una hipercentralización, pues el Data Center Alley en el condado de Loudoun, el estado de Virginia, tiene la mayor concentración mundial de infraestructura de internet y fibra óptica, con más del 20% del tráfico global de internet.

Los centros de datos de EEUU están concentrados cerca de fuentes de energía baratas e infraestructura de fibra óptica, como el condado de Maricopa, los estados de Arizona, Washington, Texas y el centro de California. Requieren grandes cantidades de agua para refrigeración, incentivos fiscales y proximidad a oficinas gubernamentales y corporativas, lo que limita las ubicaciones adecuadas.

¿El riesgo? Una interrupción repentina en un centro importante, especialmente en Virginia, podría tener efectos de dominó, paralizando la infraestructura digital de agencias federales enteras, desde el Servicio de Impuestos Internos y el Departamento de Defensa, hasta la CIA y la Agencia de Seguridad Nacional (NSA), sin mencionar los servicios estatales y locales.

El consumo de energía también es un problema porque los centros de datos representan el 4,4% del consumo de electricidad de EEUU, según el Departamento de Energía (DoE). Para 2030, esto podría alcanzar el 12%. Solo los centros del condado de Loudoun consumen más de 6 gigavatios (GW) y se espera que esta cifra se duplique para 2030.

¿El riesgo? Con la red eléctrica estadounidense anticuada, cada vez más sobrecargada por la demanda (centros de datos, infraestructura del internet de las cosas, automóviles eléctricos), el Departament de Energía advierte que los apagones podrían aumentar 100 veces en cinco años, si no hay fuentes de energía confiables. En otras palabras, EEUU podría no tener suficiente energía para sostener su crecimiento de centros de datos.

Los problemas técnicos son un problema porque la misma tecnología de baterías de iones de litio, culpada por el incendio en Corea del Sur, se usa globalmente, incluso en los centros de datos estadounidenses, representa cerca del 40% del mercado en 2025.

¿El riesgo? Los datos federales ya enfrentan riesgos, desde recortes de programas hasta esfuerzos insuficientes de preservación. Lo último que necesita EEUU es una complicación técnica o una emergencia.

  • En septiembre de 2025, un centro de inteligencia artificial y almacenamiento en la nube de Google en el condado de Chesterfield, Virginia, sufrió su cuarto incendio del año, causado por una batería.  
  • En 2024, 60 centros de datos del norte de Virginia se desconectaron de la red debido a una falla causada por un pararrayos.  
  • Incidentes similares fueron reportados en los estados de California (mayo de 2023), Oregón (mayo de 2025), Georgia (abril, junio de 2025) y Texas (julio de 2025).

Los desafíos técnicos de la construcción de un data center


El proyecto Colossus, en su segunda iteración (Colossus 2), es un enorme data center de IA que se describe como una máquina del tamaño de una ciudad y el superordenador de IA más grande del mundo. Construido por X AI, es una inversión de 20 mil millones de dólares diseñada para entrenar modelos a gran escala como Grok y potenciar los futuros sistemas de conducción autónoma total de Tesla y el robot Optimus. 

El centro albergará cerca de un millón de GPUs (incluidas las NVIDIA Blackwell y Hopper) y está conceptualizado como cuatro fábricas esenciales en una: poder, refrigeración, redes y cómputo.

Colossus 2 exige hasta 1.2 gigavatios de potencia, lo que requirió que X AI construyera su propia fábrica de energía con siete turbinas de gas clase Titan y 168 Tesla Megapacks para garantizar un suministro estable. 

Además, debido a la enorme cantidad de calor que genera, se construyó una fábrica de agua en el campus que recicla 13 millones de galones diarios de aguas residuales de la ciudad para el enfriamiento. La capacidad de rendimiento del proyecto se basa en un tejido de red (fabric) que utiliza tecnologías como NVIDIA Spectrum X y NVLink, lo que permite que cientos de miles de GPUs actúen en sincronía como un solo cerebro coherente a velocidades de terabits.

La ingeniería detrás del proyecto Colossus 2 presentó desafíos enormes, abarcando cuatro áreas clave (energía, refrigeración, redes y cómputo) que debían construirse simultáneamente:

  • Suministro de energía estable: Obtener la capacidad de energía necesaria (hasta 1.2 gigavatios) y mantenerla perfectamente estable. Los picos de las GPUs en milisegundos pueden provocar caídas de voltaje que podrían paralizar toda la sala, resultando en pérdidas de millones de dólares. La alta densidad de los nuevos chips Nvidia Blackwell elevó el consumo por rack a 130 kW, demandando una infraestructura de estabilidad extrema.
  • Gestión de calor a escala de ciudad: Disipar el gigavatio de calor que genera el centro de datos. Si la refrigeración falla incluso por dos minutos, las GPUs pueden sufrir daños permanentes. Las técnicas de refrigeración que funcionaban en centros de datos antiguos colapsaron ante las densidades modernas.
  • Garantía del suministro de agua: El enorme consumo de agua (millones de galones diarios) necesario para la refrigeración. Para mitigar el agotamiento de los suministros locales, se tuvo que construir una "fábrica de agua" para reciclar 13 millones de galones diarios de aguas residuales de la ciudad para el enfriamiento.
  • Sincronización de la red (Fabric): Lograr que cientos de miles de GPUs (más de 550,000) actúen como un único cerebro coherente. El desafío está en mantener la sincronización perfecta a velocidades de terabits, ya que si los datos llegan tarde incluso por milisegundos, la eficiencia de procesamiento se reduce a la mitad.

Se habla de que Meta planea construir un data center del tamaño de Manhattan.  ¿Qué podría salir mal? 

  • La realidad física de la construcción: El mundo de la tecnología, a pesar de la percepción de que "todo está construido sobre código", en realidad se construye con cemento y acero. Esto significa que erigir una estructura tan grande es una hazaña de ingeniería civil masiva.
  • El tiempo para la llenar el data center (Racking): Una de las principales consecuencias de su tamaño es que llevaría mucho tiempo poblar completamente un único centro de datos del tamaño de Manhattan. Hay un gran desafío logístico al simplemente instalar suficientes servidores (racking).  Se requiere imaginar la cantidad de racks de servidores (cada uno de 40 a 50 unidades U) que se necesitarían, y el número de servidores que cabrían en cada uno (entre 13 y 52 servidores por rack, dependiendo de si son servidores de 1U a 4U).
  • Eliminación del límite de espacio: Tradicionalmente, el ciclo de actualización (refresh cycle) se utilizaba para retirar equipos antiguos y hacer espacio para equipos nuevos más eficientes, especialmente cuando había una cantidad limitada de espacio físico. Sin embargo, en un entorno de "espacio de centro de datos ilimitado", si el espacio de piso deja de ser una consideración, se plantea la pregunta de por qué apagar un rack de servidores a menos que sea absolutamente necesario. Este tamaño virtualmente ilimitado altera la estrategia tradicional de gestión y depreciación.

Para comprender la magnitud del desafío logístico de la instalación (racking), se deben considerar las siguientes dimensiones físicas y de equipo:

  • Escala de la instalación: Hay que imaginar lo que significa poblar por completo un centro de datos del tamaño de Manhattan.
  • Unidades de servidores: Un rack de servidores estándar tiene entre 40 y 50 unidades U.
  • Capacidad por rack: Dependiendo de si se utilizan servidores de 1U o 4U, un solo rack puede albergar entre 13 y 52 servidores.
  • Dimensiones del rack: Físicamente, un rack mide aproximadamente 2.5 pies de ancho por unos 4 pies de profundidad.

El desafío logístico radica en que, al multiplicar estas cantidades por el área de Manhattan, la tarea manual y temporal de simplemente instalar suficientes servidores se convierte en una empresa de una escala sin precedentes.

Depreciación, un juego de números


Las grandes empresas tecnológicas están ajustando sus políticas financieras. El enfoque principal está en la ampliación de los ciclos de depreciación para activos clave como servidores y Unidades de Procesamiento Gráfico (GPU), moviéndose de tres o cuatro años a seis años. 

Si bien este cambio contable permite a las empresas aumentar sus ganancias operativas al repartir los costos de capital a largo plazo, también tiene una base técnica. La justificación técnica reside en que el hardware moderno, incluidos los costosos equipos de IA, mantienen una vida útil prolongada, pasando de tareas exigentes de entrenamiento a tareas rentables de inferencia y análisis de menor demanda. 

En respuesta a los crecientes costos y dificultades de obtener hardware, otras organizaciones deberían considerar alargar sus propios ciclos de actualización y restablecer las habilidades de reparación física de hardware en sus departamentos de TI.

El cambio en el cronograma de depreciación ha tenido un impacto financiero cuantificable en las ganancias operativas. Amazon, por ejemplo, aumentó el ciclo de tres a cuatro años, luego a cinco años y, más recientemente, de cinco a seis años a principios de 2024.  El cambio más reciente añadió aproximadamente $3,200 millones a sus ingresos operativos en 2024.  Se estima que esto representa un aumento (tailwind) de ganancias operativas del 10% al 12%, lo cual es notable pero no indica realmente si la empresa está ganando o perdiendo en el mercado.

Los riesgos cuando tu inversión depende de un data center


Riesgos de Concentración y Single Point of Failure
  • Hipercentralización geográfica (Virginia, Data Center Alley concentra 20% del tráfico global).
  • Dependencia excesiva de regiones con energía barata y fibra óptica, reduciendo las opciones de ubicación.
  • Efecto dominó ante la caída de un solo centro de datos crítico que puede paralizar agencias federales, servicios estatales y empresas.
  • Exposición sistémica porque demasiados servicios públicos y privados dependen de pocas ubicaciones específicas.

Riesgos de Incendio y Fallas Catastróficas
  • Incendios provocados por baterías de ion-litio, tecnología ampliamente usada y ligada a múltiples incidentes.
  • Eventos recientes: Corea del Sur, Google VA, California, Oregón, Georgia, Texas.
  • Pérdida total de datos no respaldados, como los 858 TB destruidos en Corea del Sur.
  • Daño irreparable a hardware, interrupciones de servicios y costos de recuperación extremadamente altos.

Riesgos Energéticos
  • Enorme demanda eléctrica (4.4% del consumo de EE.UU. proyectado a 12% para 2030).
  • Riesgo de apagones en una red eléctrica envejecida y sobrecargada.
  • Advertencias del Departamento de Energía: posibilidad de incremento de apagones 100× en cinco años.
  • Variabilidad de voltaje por cargas intensivas de GPUs que pueden causar fallos instantáneos.
  • Dependencia creciente de fuentes energéticas propias (como las fábricas de energía en Colossus 2).

Riesgos de Agua y Refrigeración
  • Consumo extremo de agua para refrigeración (millones de galones diarios).
  • Dependencia de aguas residuales tratadas o fábricas de agua que requieren inversión masiva.
  • Riesgo de daño permanente a GPUs si falla la refrigeración por más de 2 minutos.
  • Impacto en comunidades locales y posibles restricciones reguladoras por estrés hídrico.

Riesgos Técnicos y Operativos
  • Fallas de infraestructura eléctrica, como por rayos (60 centros de datos desconectados).
  • Obsolescencia de técnicas tradicionales de refrigeración ante nuevas densidades térmicas.
  • Sincronización de red a escala masiva: si los datos llegan tarde milisegundos, el rendimiento colapsa.
  • Riesgos por enormes telas de red (fabrics) complejas basadas en NVIDIA Spectrum X y NVLink.
  • Sobrecargas instantáneas por picos de GPUs.

Riesgos de Construcción y Escalabilidad
  • Gigantismo físico en proyectos del tamaño de ciudades (Colossus 2 o el data center de Meta).
  • Riesgos logísticos porenormes tiempos para “racking” (instalación física de servidores).
  • Escala sin precedentes que puede generar retrasos, sobrecostos, falta de mano de obra especializada, fallas en sincronización de subproyectos (energía, agua, redes, cómputo).
  • Materialidad del hardware porque los centros de datos se construyen con cemento, acero y turbinas, no solo código.

Riesgos de Cadena de Suministro y Hardware
  • Capacidad limitada de GPUs, especialmente Blackwell / Hopper.
  • Dependencia de proveedores únicos (NVIDIA, Tesla Megapack).
  • Ciclos de vida del hardware cada vez más largos, que pueden generar equipos obsoletos operando más tiempo, presión sobre mantenimiento, problemas de compatibilidad.
  • Demoras en entregas de servidores, retrasando la entrada en operación.

Riesgos Contables y Financieros
  • Cambios en ciclos de depreciación (de 3 o 4 años a 6 años) usados para inflar ganancias operativas.
  • Percepción engañosa para inversionistas donde mayores utilidades contables no implican mejor desempeño real.
  • Mayor exposición a fallos físicos, dado que hardware más viejo permanece activo más tiempo.
  • Dependencia de incentivos fiscales locales que pueden cambiar con la política.

Riesgos de Protección de Datos y Cumplimiento
  • Pérdidas masivas de datos por incendios o fallas técnicas.
  • Falta de respaldos adecuados, incluso en instituciones gubernamentales.
  • Preservación insuficiente de datos críticos.

Riesgos reputacionales y regulatorios
  • Riesgos Ambientales y de Infraestructura Urbana
  • Impacto sobre la red eléctrica local y potencia disponible.
  • Conflictos por uso de agua con comunidades locales.
  • Riesgo de emisiones por megaturbinas y consumo energético enorme.
  • Interrupción de servicios públicos locales ante fallas del data center.

Y aquí no he mencionado los riesgos en caso de que haya una burbuja de IA.  Pero ya con esto tienes bastante información para evaluar los riesgos asociados a la IA y los data center en caso de que quieras invertir en este campo.

Y recuerda que es mejor sólo invertir en un área donde tu conozcas y puedas tomar tus propias decisiones.  Hacer caso a otros es peligroso, porque es tu dinero el que se arriesga, y solo tú serás quien obtenga las ganancias o pérdidas.
¿Te ha gustado el artículo?

Si quieres saber más y estar al día de mis reflexiones, suscríbete a mi blog y sé el primero en recibir las nuevas publicaciones en tu correo electrónico.

Accede a Rankia
¡Sé el primero en comentar!