Parte 2: Almacenamiento NVMe vs SATA

Parte 2

La Superautopista de los Datos

Un procesador que ejecuta miles de millones de operaciones por segundo es inútil si los datos no llegan lo suficientemente rápido. En IA, los datasets pesan cientos de gigabytes: cargar 100GB desde un disco lento puede ser el mayor cuello de botella de todo el sistema — más que la GPU, más que la CPU.

La Batalla de los SSD: NVMe vs SATA

HDD 7200 RPM150 MB/s

1 carril

SSD SATA III550 MB/s

2 carriles

NVMe PCIe 4.07,000 MB/s

8 carriles

NVMe PCIe 5.014,000 MB/s

16 carriles

SATA — El Protocolo del Pasado

AHCI (2004), diseñado para discos mecánicos
Ancho de banda: 600 MB/s máximo
32 comandos simultáneos
Latencia: ~100 microsegundos

NVMe — Diseñado para Flash

Protocolo NVMe sobre bus PCIe
PCIe 4.0 x4: ~8 GB/s teórico
65,535 comandos simultáneos
Latencia: ~20-30 microsegundos

El cuello de botella del protocolo: Usar un SSD SATA es como instalar un motor de Fórmula 1 en un chasis de 1960. El protocolo AHCI limita el potencial del hardware moderno.

Cargando un dataset de 100GB para entrenamiento de IA

Almacenamiento	Tiempo de carga
HDD 7200 RPM	⏳ ~11 minutos
SSD SATA III	⏱ ~3 minutos
SSD NVMe PCIe 4.0	⚡ ~14 segundos
SSD NVMe PCIe 5.0	🚀 ~7 segundos

El Veredicto de los Números

Velocidad de Lectura Secuencial (MB/s · escala log)

Mirando al Horizonte: Tecnologías del Futuro

⚡

PCIe 5.0 SSDs — El Presente del Futuro

Llegaron al mercado masivo en 2024-2025 con hasta 14,000 MB/s — casi el doble que PCIe 4.0. Líderes: Crucial T705 y Sabrent Rocket 5. Leer un corpus de 1TB para tokenizar un LLM pasa de 142s (PCIe 4.0) a 72s (PCIe 5.0). Contrapartida: más calor y disipadores activos.

🗄️

DirectStorage — La API que Revoluciona el Data Loading

API de Microsoft (Windows 11) que envía assets directo del NVMe a la VRAM del GPU, sin pasar por la CPU ni la RAM del sistema. En entrenamiento de visión computarizada con imágenes de alta resolución, reduce el data loading hasta 4×.

🧬

CXL Memory y Storage Class Memory

CXL (Compute Express Link) es el futuro de la memoria en servidores de IA. Basado en PCIe 5.0, expande la memoria con módulos externos de baja latencia (~300ns). Google, Meta y Microsoft ya invierten en infraestructura CXL.

Más Allá del NAND: Tecnologías Experimentales

El TP nos pide mirar lo que viene. La memoria flash NAND domina hoy, pero hay alternativas que prometen latencias de RAM con persistencia de SSD — el santo grial del almacenamiento para IA.

MRAM

Memoria magnetorresistiva

Usa campos magnéticos en vez de carga eléctrica. Latencias de ~10ns, resistencia infinita a escrituras. Hoy se usa como caché de SSDs empresariales (Everspin).

PCM / 3D XPoint

Cambio de fase

Intel Optane (descontinuado en 2022) probó el concepto: 1000× más rápido que NAND, pero costo prohibitivo. Su muerte enseñó que la jerarquía RAM/SSD es muy difícil de romper.

HBM3e

Memoria apilada en GPUs

La RTX 5090 usa GDDR7 (1.79 TB/s). Los aceleradores de datacenter (H200, B200) usan HBM3e con hasta 4.8 TB/s — clave para entrenar GPT-5 y Llama 4.

Computational Storage

El cómputo va al disco

SSDs con FPGA o ASIC embebido que filtran o transforman datos antes de enviarlos a la CPU. Reduce el tráfico del bus PCIe drásticamente en pipelines de IA.

Evolución del almacenamiento (2010 → 2026)

2010 · SATA II300 MB/s

2013 · SATA III600 MB/s

2016 · NVMe Gen 33,500 MB/s

2019 · NVMe Gen 47,000 MB/s

2024 · NVMe Gen 514,000 MB/s

2026+ · CXL / HBM3e1,800 GB/s+

15 años, ×46 en ancho de banda. El bus PCIe se convirtió en el lenguaje común de CPU, GPU y storage.