En este orden de prioridad: Time to first token (TTFT) y la...

Prompt

En este orden de prioridad: Time to first token (TTFT) y latencia p95 — Para el canal de voz, esto es el filtro inicial. Si el modelo no responde en menos de ~800ms consistentemente, no sirve para voz sin arquitectura adicional. Precio por millón de tokens (input y output) — Calcular el costo estimado por conversación. Asumir ~500–1,500 tokens por turno, 4–6 turnos por conversación. Comparar contra el costo humano estimado. Intelligence Index y benchmarks de instruction-following — No para buscar el modelo más inteligente, sino para confirmar que el modelo sigue instrucciones precisas y no improvisa fuera del guion definido. Tokens por segundo (throughput) — Relevante para voz y para picos de volumen simultáneo. Capacidades de tool use / function calling — Solo si se confirma que el agente consulta sistemas en tiempo real. Si el contexto es precargado, esto baja en prioridad. Context window — Verificar que sea suficiente para el contexto precargado + historial de la conversación activa. Probablemente 8K–32K es suficiente para este caso. Proveedor y condiciones contractuales — Esto no aparece en Artificial Analysis como métrica técnica, pero debe revisarse en paralelo: política de retención de datos de Anthropic, disponibilidad de DPA para operaciones en México.

MiniMax

MiniMax-M3

Drag to resize

Google

Gemini 3.1 Pro Preview

Drag to resize

Anthropic

Claude Sonnet 4.6 (Adaptive Reasoning, Max Effort)

Drag to resize