Parte 1: CPUs, NPU y GPU para IA

Parte 1

El Corazón Inteligente de la Máquina

Un modelo de IA es una operación matemática colosal: miles de millones de multiplicaciones de punto flotante por segundo. Para realizarlas, el hardware moderno evolucionó hacia una especialización radical: CPUs con núcleos de eficiencia y NPU, GPUs como motores de entrenamiento, y NPUs ultraeficientes para inferencia.

Los Contendientes: CPU de Alto Rendimiento

Team Intel

Intel Core Ultra 9 285K

Arquitectura Arrow Lake — TSMC 3nm

Arquitectura	Arrow Lake (chiplet)
Proceso	TSMC N3B — 3nm
Núcleos / Hilos	24C / 24T (8P + 16E)
Frecuencia boost	5.70 GHz
Caché L2 / L3	40 MB / 36 MB
Ancho de banda RAM	102 GB/s (DDR5-6400)
NPU integrada	✅ AI Boost — 13 TOPS
TDP boost	250W
Precio	~$589 USD

Team AMD

AMD Ryzen 9 9950X

Arquitectura Zen 5 — TSMC 4nm

Arquitectura	Zen 5 (Granite Ridge)
Proceso	TSMC N4P — 4nm
Núcleos / Hilos	16C / 32T (SMT)
Frecuencia boost	5.70 GHz
Caché L2 / L3	16 MB / 64 MB
Ancho de banda RAM	90 GB/s (DDR5-5600)
NPU integrada	❌ No (solo en móviles)
TDP boost	200W
Precio	~$649 USD

Análisis Arquitectónico: ¿Qué hay dentro del chip?

P-Cores vs E-Cores (Intel Arrow Lake)

Los P-Cores (Lion Cove) son el músculo del chip: grandes, rápidos y diseñados para máxima velocidad. Los E-Cores (Skymont) son pequeños, eficientes y pensados para paralelismo masivo. Esta arquitectura híbrida permite manejar con eficiencia tareas de baja latencia (inferencia en un LLM) y cargas paralelas (tokenización de datasets con múltiples hilos).

Zen 5 CCD Architecture (AMD)

El Ryzen 9 9950X usa dos chiplets CCD de 8 núcleos, conectados a un I/O Die central. La clave está en la caché L3 de 64MB — casi el doble que el 285K. En inferencia de LLMs en CPU, esta caché permite que los pesos del modelo "residan" parcialmente en caché, acelerando cada token generado.

Rendimiento en el Mundo Real

Benchmark / Tarea	Core Ultra 9 285K	Ryzen 9 9950X	Ganador
Cinebench 2024 Single-Core	276 pts	260 pts	🏆 Intel (+6.2%)
Cinebench 2024 Multi-Core	~2,400 pts	~2,180 pts	🏆 Intel (+10%)
Geekbench 6 ML	+8%	Base	🏆 Intel
Blender Classroom	2do	🏆 1ero	AMD
Ancho de banda memoria	102 GB/s	90 GB/s	🏆 Intel
Eficiencia IA/W	Media	🏆 Alta	AMD
Precio	$589	$649	🏆 Intel

Fuentes: Tom's Hardware, Club386, CPU-Monkey (2024-2025)

La NPU: El Cerebro Dedicado para IA

Una NPU (Neural Processing Unit) es un chip diseñado específicamente para ejecutar operaciones de redes neuronales. A diferencia de una CPU (versátil) o GPU (potente pero hambrienta de energía), la NPU hace las mismas operaciones con 3-5× menos watts. Son el núcleo de la visión "IA en el dispositivo".

CPU sola

~5-10 TOPS

Consumo: 250W · Orquestación y preprocesamiento

Eficiencia máxima

NPU (AI Boost)

13 TOPS

Consumo: ~3W · Inferencia en tiempo real

GPU (RTX 5090)

3,352 TOPS

Consumo: 575W · Entrenamiento e inferencia batch

NPU: Intel vs AMD

TOPS declarados	13 (Intel) · 50 (AMD XDNA 2)
Plataforma	Desktop (Intel) · Portátil (AMD)
Precisiones	FP32, FP16, INT8 (Intel) · + INT4 (AMD)
Windows Copilot+	✅ Ambos
TDP aproximado	~3-5W (Intel) · ~2-4W (AMD)

Aplicaciones reales

🎥 Windows Studio Effects — fondo borroso, seguimiento ocular
💬 Live Captions — subtítulos en tiempo real, sin internet
🎨 Adobe Photoshop — remoción de fondo instantánea
📝 Microsoft Recall — historial visual inteligente
🤖 Phi-3 Mini LLM — 15-20 tok/s en solo 3W

La GPU: El Motor de Entrenamiento

NVIDIA GeForce RTX 5090

Blackwell · TSMC 4nm

21,760

CUDA Cores

680

Tensor Cores 5ª gen

32 GB

VRAM GDDR7

1,792 GB/s

Ancho de banda

3,352

AI TOPS

104.8

TFLOPS FP32

575W

TDP

$1,999

USD

CPU: pocos núcleos versátiles

16-32 workers expertos. Pueden hacer cualquier tarea.

GPU: miles de núcleos especializados

21,760 CUDA cores multiplicando matrices en paralelo. ~200× más rápido que un Core Ultra en matmul.

RTX 5090 vs RTX 4090

Métrica	RTX 4090	RTX 5090
VRAM	24 GB	32 GB (+33%)
Ancho de banda	1,008 GB/s	1,792 GB/s (+78%)
Stable Diffusion XL	base	+62% más rápido
LLM Inference (LLaMA 13B)	base	+82% más rápido
AI TOPS	~1,321	3,352 (+154%)

Fuentes: Puget Systems AI Review 2025, RunPod RTX 5090 Analysis

Tensor Cores 5ª generación y FP4

Los Tensor Cores son unidades de hardware dedicadas a multiplicar matrices — la operación que define el 90% del costo de inferir o entrenar una red neuronal. La 5ª generación que llega con Blackwell agrega soporte nativo para FP4 (4 bits), una precisión ultra-baja que duplica el throughput respecto a FP8 sin pérdida perceptible en inferencia de LLMs cuantizados.

▸ 680 Tensor Cores en la RTX 5090
▸ Soporte FP4 / FP6 / FP8 / FP16 / BF16
▸ 3,352 AI TOPS pico en FP4 con sparsity
▸ Habilita DLSS 4 Multi Frame Generation

Ganancia vs FP16

FP161×

FP82×

FP44×

Aplicaciones de IA en la RTX 5090

Stable Diffusion SDXL / FLUX

32GB VRAM permiten resoluciones hasta 4096×4096 sin fragmentación. Generación 2048px en ~8 s.

Fine-tuning LLaMA 3.1 8B (QLoRA)

82% más rápido que RTX 4090. Entrena modelos personalizados en horas, no días.

ComfyUI Video Generativo

Wan 2.1 requiere 20GB+ de VRAM. Imposible sin GPU high-end.

PyTorch / TensorFlow

Detección automática de Tensor Cores 5ta gen. Aprovecha FP4/FP8 para training acelerado.

DaVinci Resolve IA

12% más rápido que 4090 en procesamiento de video 4K con IA.

DLSS 4 Multi Frame Gen

Genera 3 frames por cada frame renderizado usando IA.