Parte 1

El Corazón Inteligente de la Máquina

Un modelo de IA es una operación matemática colosal: miles de millones de multiplicaciones de punto flotante por segundo. Para realizarlas, el hardware moderno evolucionó hacia una especialización radical: CPUs con núcleos de eficiencia y NPU, GPUs como motores de entrenamiento, y NPUs ultraeficientes para inferencia.

Los Contendientes: CPU de Alto Rendimiento

Team Intel

Intel Core Ultra 9 285K

Arquitectura Arrow Lake — TSMC 3nm

ArquitecturaArrow Lake (chiplet)
ProcesoTSMC N3B — 3nm
Núcleos / Hilos24C / 24T (8P + 16E)
Frecuencia boost5.70 GHz
Caché L2 / L340 MB / 36 MB
Ancho de banda RAM102 GB/s (DDR5-6400)
NPU integrada✅ AI Boost — 13 TOPS
TDP boost250W
Precio~$589 USD
Team AMD

AMD Ryzen 9 9950X

Arquitectura Zen 5 — TSMC 4nm

ArquitecturaZen 5 (Granite Ridge)
ProcesoTSMC N4P — 4nm
Núcleos / Hilos16C / 32T (SMT)
Frecuencia boost5.70 GHz
Caché L2 / L316 MB / 64 MB
Ancho de banda RAM90 GB/s (DDR5-5600)
NPU integrada❌ No (solo en móviles)
TDP boost200W
Precio~$649 USD

Análisis Arquitectónico: ¿Qué hay dentro del chip?

P-Cores vs E-Cores (Intel Arrow Lake)

8× P-Cores16× E-CoresNPU AI Boost · 13 TOPSiGPU XeIntel Arrow Lake · Die compartido

Los P-Cores (Lion Cove) son el músculo del chip: grandes, rápidos y diseñados para máxima velocidad. Los E-Cores (Skymont) son pequeños, eficientes y pensados para paralelismo masivo. Esta arquitectura híbrida permite manejar con eficiencia tareas de baja latencia (inferencia en un LLM) y cargas paralelas (tokenización de datasets con múltiples hilos).

Zen 5 CCD Architecture (AMD)

CCD 18× Zen 5L3: 32MBCCD 28× Zen 5L3: 32MBI/O Die (IOD)PCIe 5.0 · DDR5-5600 · IF

El Ryzen 9 9950X usa dos chiplets CCD de 8 núcleos, conectados a un I/O Die central. La clave está en la caché L3 de 64MB — casi el doble que el 285K. En inferencia de LLMs en CPU, esta caché permite que los pesos del modelo "residan" parcialmente en caché, acelerando cada token generado.

Rendimiento en el Mundo Real

Benchmark / TareaCore Ultra 9 285KRyzen 9 9950XGanador
Cinebench 2024 Single-Core276 pts260 pts🏆 Intel (+6.2%)
Cinebench 2024 Multi-Core~2,400 pts~2,180 pts🏆 Intel (+10%)
Geekbench 6 ML+8%Base🏆 Intel
Blender Classroom2do🏆 1eroAMD
Ancho de banda memoria102 GB/s90 GB/s🏆 Intel
Eficiencia IA/WMedia🏆 AltaAMD
Precio$589$649🏆 Intel

Fuentes: Tom's Hardware, Club386, CPU-Monkey (2024-2025)

La NPU: El Cerebro Dedicado para IA

Una NPU (Neural Processing Unit) es un chip diseñado específicamente para ejecutar operaciones de redes neuronales. A diferencia de una CPU (versátil) o GPU (potente pero hambrienta de energía), la NPU hace las mismas operaciones con 3-5× menos watts. Son el núcleo de la visión "IA en el dispositivo".

CPU sola
~5-10 TOPS
Consumo: 250W · Orquestación y preprocesamiento
Eficiencia máxima
NPU (AI Boost)
13 TOPS
Consumo: ~3W · Inferencia en tiempo real
GPU (RTX 5090)
3,352 TOPS
Consumo: 575W · Entrenamiento e inferencia batch

NPU: Intel vs AMD

TOPS declarados13 (Intel) · 50 (AMD XDNA 2)
PlataformaDesktop (Intel) · Portátil (AMD)
PrecisionesFP32, FP16, INT8 (Intel) · + INT4 (AMD)
Windows Copilot+✅ Ambos
TDP aproximado~3-5W (Intel) · ~2-4W (AMD)

Aplicaciones reales

  • 🎥 Windows Studio Effects — fondo borroso, seguimiento ocular
  • 💬 Live Captions — subtítulos en tiempo real, sin internet
  • 🎨 Adobe Photoshop — remoción de fondo instantánea
  • 📝 Microsoft Recall — historial visual inteligente
  • 🤖 Phi-3 Mini LLM — 15-20 tok/s en solo 3W

La GPU: El Motor de Entrenamiento

NVIDIA GeForce RTX 5090

Blackwell · TSMC 4nm
21,760
CUDA Cores
680
Tensor Cores 5ª gen
32 GB
VRAM GDDR7
1,792 GB/s
Ancho de banda
3,352
AI TOPS
104.8
TFLOPS FP32
575W
TDP
$1,999
USD

CPU: pocos núcleos versátiles

16-32 workers expertos. Pueden hacer cualquier tarea.

GPU: miles de núcleos especializados

21,760 CUDA cores multiplicando matrices en paralelo. ~200× más rápido que un Core Ultra en matmul.

RTX 5090 vs RTX 4090

MétricaRTX 4090RTX 5090
VRAM24 GB32 GB (+33%)
Ancho de banda1,008 GB/s1,792 GB/s (+78%)
Stable Diffusion XLbase+62% más rápido
LLM Inference (LLaMA 13B)base+82% más rápido
AI TOPS~1,3213,352 (+154%)

Fuentes: Puget Systems AI Review 2025, RunPod RTX 5090 Analysis

Tensor Cores 5ª generación y FP4

Los Tensor Cores son unidades de hardware dedicadas a multiplicar matrices — la operación que define el 90% del costo de inferir o entrenar una red neuronal. La 5ª generación que llega con Blackwell agrega soporte nativo para FP4 (4 bits), una precisión ultra-baja que duplica el throughput respecto a FP8 sin pérdida perceptible en inferencia de LLMs cuantizados.

  • 680 Tensor Cores en la RTX 5090
  • Soporte FP4 / FP6 / FP8 / FP16 / BF16
  • 3,352 AI TOPS pico en FP4 con sparsity
  • Habilita DLSS 4 Multi Frame Generation
Ganancia vs FP16
FP16
FP8
FP4

Aplicaciones de IA en la RTX 5090

Stable Diffusion SDXL / FLUX

32GB VRAM permiten resoluciones hasta 4096×4096 sin fragmentación. Generación 2048px en ~8 s.

Fine-tuning LLaMA 3.1 8B (QLoRA)

82% más rápido que RTX 4090. Entrena modelos personalizados en horas, no días.

ComfyUI Video Generativo

Wan 2.1 requiere 20GB+ de VRAM. Imposible sin GPU high-end.

PyTorch / TensorFlow

Detección automática de Tensor Cores 5ta gen. Aprovecha FP4/FP8 para training acelerado.

DaVinci Resolve IA

12% más rápido que 4090 en procesamiento de video 4K con IA.

DLSS 4 Multi Frame Gen

Genera 3 frames por cada frame renderizado usando IA.