
En este orden de prioridad: Time to first token (TTFT) y la...
Prompt
En este orden de prioridad: Time to first token (TTFT) y latencia p95 — Para el canal de voz, esto es el filtro inicial. Si el modelo no responde en menos de ~800ms consistentemente, no sirve para voz sin arquitectura adicional. Precio por millón de tokens (input y output) — Calcular el costo estimado por conversación. Asumir ~500–1,500 tokens por turno, 4–6 turnos por conversación. Comparar contra el costo humano estimado. Intelligence Index y benchmarks de instruction-following — No para buscar el modelo más inteligente, sino para confirmar que el modelo sigue instrucciones precisas y no improvisa fuera del guion definido. Tokens por segundo (throughput) — Relevante para voz y para picos de volumen simultáneo. Capacidades de tool use / function calling — Solo si se confirma que el agente consulta sistemas en tiempo real. Si el contexto es precargado, esto baja en prioridad. Context window — Verificar que sea suficiente para el contexto precargado + historial de la conversación activa. Probablemente 8K–32K es suficiente para este caso. Proveedor y condiciones contractuales — Esto no aparece en Artificial Analysis como métrica técnica, pero debe revisarse en paralelo: política de retención de datos de Anthropic, disponibilidad de DPA para operaciones en México.