AI Model & API Providers Analysis

Output Speed: Tokens per second received while the model is generating tokens (ie. after first chunk has been received from the API for models which support streaming).

Median: Figures represent median (P50) measurement over the past 14 days or otherwise to reflect sustained changes in performance.

Notes: Llama 3.1 70B, Cerebras: 8k context, Llama 3.1 70B, SambaNova: 64k context

Pricing (Input and Output Prices): Llama 3.1 Instruct 70B

Price: USD per 1M Tokens; Lower is better

Input price

Output price

The relative importance of input vs. output token prices varies by use-case. E.g. Generation tasks are typically more input token weighted while document-focused tasks (e.g. RAG) are more output token weighted.

Input price: Price per token included in the request/message sent to the API, represented as USD per million Tokens.

Output price: Price per token generated by the model (received from the API), represented as USD per million Tokens.

Notes: Llama 3.1 70B, Cerebras: 8k context, Llama 3.1 70B, SambaNova: 64k context

Output Speed: Llama 3.1 Instruct 70B

Output Speed: Output Tokens per Second

Output Speed: Tokens per second received while the model is generating tokens (ie. after first chunk has been received from the API for models which support streaming).

Median across providers: Figures represent median (P50) across all providers which support the model.

Notes: Llama 3.1 70B, Cerebras: 8k context, Llama 3.1 70B, SambaNova: 64k context

Output Speed, Over Time: Llama 3.1 Instruct 70B

Output Tokens per Second; Higher is better

Smaller, emerging providers offer high output speed, though precise speeds delivered vary day-to-day.

Output Speed: Tokens per second received while the model is generating tokens (ie. after first chunk has been received from the API for models which support streaming).

Over time measurement: Median measurement per day, based on 8 measurements each day at different times. Labels represent start of week's measurements.

Notes: Llama 3.1 70B, Cerebras: 8k context, Llama 3.1 70B, SambaNova: 64k context

See more information on any of our supported models

Model Name	Creator	License	Context Window

o1-preview	OpenAI	Proprietary	128k
o1-mini	OpenAI	Proprietary	128k
GPT-4o (Aug '24)	OpenAI	Proprietary	128k
GPT-4o (May '24)	OpenAI	Proprietary	128k
GPT-4o mini	OpenAI	Proprietary	128k
GPT-4 Turbo	OpenAI	Proprietary	128k
GPT-3.5 Turbo	OpenAI	Proprietary	16k
GPT-4	OpenAI	Proprietary	8k
GPT-3.5 Turbo Instruct	OpenAI	Proprietary	4k

Llama 3.1 Instruct 405B	Meta	Open	128k
Llama 3.2 Instruct 90B (Vision)	Meta	Open	128k
Llama 3.1 Instruct 70B	Meta	Open	128k
Llama 3.2 Instruct 11B (Vision)	Meta	Open	128k
Llama 3.1 Instruct 8B	Meta	Open	128k
Llama 3.2 Instruct 3B	Meta	Open	128k
Llama 3.2 Instruct 1B	Meta	Open	128k
Llama 3 Instruct 70B	Meta	Open	8k
Llama 3 Instruct 8B	Meta	Open	8k
Llama 2 Chat 70B	Meta	Open	4k
Llama 2 Chat 13B	Meta	Open	4k
Llama 2 Chat 7B	Meta	Open	4k

Gemini 1.5 Pro (Sep '24)	Google	Proprietary	2m
Gemini 1.5 Flash (Sep '24)	Google	Proprietary	1m
Gemma 2 27B	Google	Open	8k
Gemma 2 9B	Google	Open	8k
Gemini 1.5 Pro (May '24)	Google	Proprietary	2m
Gemini 1.5 Flash-8B	Google	Proprietary	1m
Gemini 1.5 Flash (May '24)	Google	Proprietary	1m
Gemini 1.0 Pro	Google	Proprietary	33k

Claude 3.5 Sonnet	Anthropic	Proprietary	200k
Claude 3 Opus	Anthropic	Proprietary	200k
Claude 3 Haiku	Anthropic	Proprietary	200k
Claude 3 Sonnet	Anthropic	Proprietary	200k

Mistral Large 2	Mistral	Open	128k
Mixtral 8x22B Instruct	Mistral	Open	65k
Mistral Small (Sep '24)	Mistral	Open	128k
Pixtral 12B (2409)	Mistral	Open	128k
Ministral 8B	Mistral	Open	128k
Mistral NeMo	Mistral	Open	128k
Ministral 3B	Mistral	Open	128k
Mixtral 8x7B Instruct	Mistral	Open	33k
Codestral-Mamba	Mistral	Open	256k
Mistral Large	Mistral	Proprietary	33k
Mistral Small (Feb '24)	Mistral	Proprietary	33k
Mistral 7B Instruct	Mistral	Open	33k
Mistral Medium	Mistral	Proprietary	33k
Codestral	Mistral	Open	33k

Command-R+ (Aug '24)	Cohere	Open	128k
Command-R (Aug '24)	Cohere	Open	128k
Command-R+ (Apr '24)	Cohere	Open	128k
Command-R (Mar '24)	Cohere	Open	128k

Sonar 3.1 Large	Perplexity	Proprietary	131k
Sonar 3.1 Small	Perplexity	Proprietary	131k

Phi-3 Medium Instruct 14B	Microsoft Azure	Open	128k

Solar Pro	Upstage	Open	4k
Solar Mini	Upstage	Open	4k

DBRX Instruct	Databricks	Open	33k

Llama 3.1 Nemotron Instruct 70B	NVIDIA	Open	128k

Reka Flash (Sep '24)	Reka AI	Proprietary	128k
Reka Core	Reka AI	Proprietary	128k
Reka Flash (Feb '24)	Reka AI	Proprietary	128k
Reka Edge	Reka AI	Proprietary	64k

Jamba 1.5 Large	AI21 Labs	Open	256k
Jamba 1.5 Mini	AI21 Labs	Open	256k
Jamba Instruct	AI21 Labs	Open	256k

DeepSeek-Coder-V2	DeepSeek	Open	128k
DeepSeek-V2-Chat	DeepSeek	Open	128k
DeepSeek-V2.5	DeepSeek	Open	128k

Qwen2.5 Instruct 72B	Alibaba	Open	131k
Qwen2 Instruct 72B	Alibaba	Open	128k

Yi-Large	01.AI	Proprietary	32k

OpenChat 3.5 (1210)	OpenChat	Open	8k