LLM Leaderboard - Comparison of GPT-4o, Llama 3, Mistral, Gemini and over 30 models

Comparison and ranking the performance of over 30 AI models (LLMs) across key metrics including quality, price, performance and speed (output speed - tokens per second & latency - TTFT), context window & others. For more details including relating to our methodology, see our FAQs.

For comparison of API Providers hosting the models see

HIGHLIGHTS

Intelligence: Gemini 2.5 Pro (Jun '25) logo

Gemini 2.5 Pro (Jun '25) and o3 logo

o3 are the highest quality models, followed by o4-mini (high) logo

o4-mini (high) & Gemini 2.5 Pro (Mar '25) logo

Gemini 2.5 Pro (Mar '25).Output Speed (tokens/s):

Gemini 2.5 Flash (April '25) (Reasoning) (377 t/s) and

DeepSeek R1 Distill Qwen 1.5B (322 t/s) are the fastest models, followed by Nova Micro logo

Nova Micro & Gemini 1.5 Flash-8B logo

Gemini 1.5 Flash-8B.Latency (seconds): Aya Expanse 32B logo

Aya Expanse 32B (0.17s) and Aya Expanse 8B logo

Aya Expanse 8B (0.18s) are the lowest latency models, followed by Gemini 1.5 Flash-8B logo

Gemini 1.5 Flash-8B & LFM 40B logo

LFM 40B.Price ($ per M tokens): Gemma 3 4B logo

Gemma 3 4B ($0.03) and Ministral 3B logo

Ministral 3B ($0.04) are the cheapest models, followed by DeepSeek R1 Distill Llama 8B logo

DeepSeek R1 Distill Llama 8B & Llama 3.2 3B logo

Llama 3.2 3B.Context Window: Llama 4 Scout logo

Llama 4 Scout (10m) and MiniMax-Text-01 logo

MiniMax-Text-01 (4m) are the largest context window models, followed by Gemini 2.0 Pro Experimental logo

Gemini 2.0 Pro Experimental & Gemini 1.5 Pro (Sep) logo

Gemini 1.5 Pro (Sep).

		Intelligence	Price	Output tokens/s	Latency
						Further Analysis
Gemini 2.5 Pro (Jun '25)	1m	70	$3.44	151.0	38.15
o3	128k	70	$17.50	112.8	24.10
o4-mini (high)	200k	70	$1.93	118.1	41.39
Gemini 2.5 Pro (Mar '25)	1m	69	$3.44
DeepSeek R1 0528 (May '25)	128k	68	$0.96	24.2	4.49
Gemini 2.5 Pro (May' 25)	1m	68	$3.44	146.0	43.27
Grok 3 mini Reasoning (high)	1m	67	$0.35	185.6	0.36
o3-mini (high)	200k	66	$1.93	121.6	59.27
Gemini 2.5 Flash (Reasoning)	1m	65	$0.99
Claude 4 Opus Thinking	200k	64	$30.00	61.4	2.58
o3-mini	200k	63	$1.93	107.9	19.89
Qwen3 235B (Reasoning)	128k	62	$2.63	66.0	1.25
o1	200k	62	$26.25	99.5	28.60
Llama Nemotron Ultra Reasoning	128k	61	$0.90	38.7	1.96
Claude 4 Sonnet Thinking	200k	61	$6.00	63.4	1.22
Gemini 2.5 Flash (April '25) (Reasoning)	1m	60	$0.99	376.7	8.55
DeepSeek R1 (Jan '25)	128k	60	$2.36
o1-preview	128k	60	$26.25	153.3	23.13
Qwen3 32B (Reasoning)	128k	59	$2.63	55.7	1.39
QwQ-32B	131k	58	$0.63	80.7	0.70
Claude 4 Opus	200k	58	$30.00	57.6	2.79
Claude 3.7 Sonnet Thinking	200k	57	$6.00	80.0	1.14
o1-pro	200k	56	$262.50
Grok 3 Reasoning Beta	1m	56	$0.00
Qwen3 14B (Reasoning)	128k	56	$1.31	61.6	1.19
Qwen3 30B A3B (Reasoning)	128k	56	$0.75	81.7	1.02
o1-mini	128k	54	$1.93	244.6	8.93
Gemini 2.5 Flash	1m	53	$0.26	260.2	0.29
DeepSeek V3 0324 (Mar '25)	128k	53	$0.48	23.9	3.98
Claude 4 Sonnet	200k	53	$6.00	62.6	1.37
GPT-4.5 (Preview)	128k	53	$93.75	85.9	1.11
GPT-4.1 mini	1m	53	$0.70	75.1	0.92
GPT-4.1	1m	53	$3.50	106.3	0.64
Gemini 2.0 Flash Thinking exp. (Jan '25)	1m	52	$0.00
DeepSeek R1 0528 Qwen3 8B	128k	52	$0.07	48.4	1.36
DeepSeek R1 Distill Qwen 32B	128k	52	$0.30	40.5	0.76
Qwen3 8B (Reasoning)	128k	51	$0.66	87.2	1.01
Llama 3.3 Nemotron Super 49B Reasoning	128k	51	$0.00
Grok 3	1m	51	$6.00	79.3	0.52
Llama 4 Maverick	1m	51	$0.39	131.8	0.37
GPT-4o (March 2025)	128k	50	$7.50	133.3	0.44
Gemini 2.0 Pro Experimental	2m	49	$0.00
DeepSeek R1 Distill Qwen 14B	128k	49	$0.20	76.8	0.78
Mistral Medium 3	128k	49	$0.80	78.7	0.41
Sonar Reasoning	127k	49	$2.00	78.8	1.67
Gemini 2.5 Flash	1m	49	$0.26
DeepSeek R1 Distill Llama 70B	128k	48	$0.80	65.0	0.69
Claude 3.7 Sonnet	200k	48	$6.00	73.8	1.60
Gemini 2.0 Flash	1m	48	$0.17	222.0	0.43
Qwen3 4B (Reasoning)	32k	47	$0.40	85.0	1.09
Reka Flash 3	128k	47	$0.35	54.1	1.17
Qwen3 235B	128k	47	$1.23	64.7	1.46
Gemini 2.0 Flash (exp)	1m	46	$0.00	231.7	0.27
DeepSeek V3 (Dec '24)	128k	46	$0.48
Qwen2.5 Max	32k	45	$2.80	38.3	2.40
Llama 3.1 Nemotron Nano 4B v1.1 (Reasoning)	128k	45	$0.00
Gemini 1.5 Pro (Sep)	2m	45	$2.19
Claude 3.5 Sonnet (Oct)	200k	44	$6.00	78.9	2.17
Qwen3 32B	128k	44	$1.23	59.2	1.14
Sonar	127k	43	$1.00	161.4	1.94
Llama 4 Scout	10m	43	$0.26	97.1	0.46
Sonar Pro	200k	43	$6.00	104.8	2.35
QwQ 32B-Preview	33k	43	$0.20	71.0	0.59
Nova Premier	1m	43	$5.00	81.4	1.00
Qwen3 30B A3B	128k	43	$0.35	80.5	1.13
GPT-4o (Nov '24)	128k	41	$4.38	116.7	0.52
Gemini 2.0 Flash-Lite (Feb '25)	1m	41	$0.13
Llama 3.3 70B	128k	41	$0.59	76.6	0.63
GPT-4.1 nano	1m	41	$0.17	77.5	0.36
Qwen3 14B	128k	41	$0.61	61.3	1.35
GPT-4o (May '24)	128k	41	$7.50	89.9	1.07
Gemini 2.0 Flash-Lite (Preview)	1m	41	$0.13
GPT-4o (Aug '24)	128k	41	$4.38	83.7	0.57
Llama 3.1 405B	128k	40	$3.50	31.7	1.50
Qwen2.5 72B	131k	40	$0.00	28.2	2.58
MiniMax-Text-01	4m	40	$0.42	23.7	1.17
Phi-4	16k	40	$0.22	38.9	0.89
Claude 3.5 Sonnet (June)	200k	40	$6.00	77.6	1.63
Command A	256k	40	$4.38	89.1	0.34
Tulu3 405B	128k	40	$0.00
GPT-4o (ChatGPT)	128k	40	$7.50
Llama 3.3 Nemotron Super 49B v1	128k	39	$0.00
Grok 2	131k	39	$0.00
Gemini 1.5 Flash (Sep)	1m	39	$0.13
GPT-4 Turbo	128k	39	$15.00	32.9	0.81
Mistral Large 2 (Nov '24)	128k	38	$3.00	78.8	0.49
Qwen3 1.7B (Reasoning)	32k	38	$0.40	125.1	0.92
Gemma 3 27B	128k	38	$0.00
Grok Beta	128k	38	$7.50	66.4	0.34
Pixtral Large	128k	37	$3.00	79.7	0.46
Qwen2.5 Instruct 32B	128k	37	$0.15
Llama 3.1 Nemotron 70B	128k	37	$0.17	42.4	0.60
Nova Pro	300k	37	$1.40
Qwen3 8B	128k	37	$0.31	89.7	1.57
Mistral Large 2 (Jul '24)	128k	37	$3.00	85.2	0.56
Qwen2.5 Coder 32B	131k	36	$0.15	49.4	0.59
GPT-4	8k	36	$37.50	25.0	0.78
GPT-4o mini	128k	36	$0.26	76.1	0.40
Llama 3.1 70B	128k	35	$0.72	49.9	0.74
Mistral Small 3.1	128k	35	$0.15	48.1	0.30
Mistral Small 3	32k	35	$0.15	112.4	0.32
DeepSeek-V2.5 (Dec '24)	128k	35	$0.17
Qwen3 4B	32k	35	$0.19	85.5	1.13
Claude 3 Opus	200k	35	$30.00	27.0	1.28
Claude 3.5 Haiku	200k	35	$1.60	62.2	1.70
Gemini 2.0 Flash Thinking exp. (Dec '24)	2m	35	$0.00
DeepSeek-V2.5	128k	35	$0.17
Devstral	256k	34	$0.15	121.9	0.36
Mistral Saba	32k	34	$0.30	42.5	0.45
DeepSeek R1 Distill Llama 8B	128k	34	$0.04	48.2	1.15
Reka Core	128k	34	$2.00	21.1	1.20
Gemma 3 12B	128k	34	$0.06	29.6	0.76
Gemini 1.5 Pro (May)	2m	34	$2.19
R1 1776	128k	34	$3.50
Qwen2.5 Turbo	1m	34	$0.09	88.6	1.11
Reka Flash	128k	34	$0.35	42.4	1.32
Gemma 3 1B	32k	33	$0.00
Llama 3.2 90B (Vision)	128k	33	$0.72	31.3	0.64
Solar Mini	4k	33	$0.15	80.4	1.22
Reka Flash (Feb '24)	128k	33	$0.35	42.3	1.39
Reka Edge	128k	33	$0.10	74.4	0.99
Qwen2 72B	131k	33	$0.00	31.2	2.31
Nova Lite	300k	33	$0.10	273.8	0.49
Gemini 1.5 Flash-8B	1m	31	$0.07	291.1	0.19
DeepHermes 3 - Mistral 24B	32k	30	$0.00
Jamba 1.5 Large	256k	29	$3.50
Hermes 3 - Llama-3.1 70B	128k	29	$0.00
DeepSeek-Coder-V2	128k	29	$0.17
Jamba 1.6 Large	256k	29	$3.50	30.6	1.69
Gemini 1.5 Flash (May)	1m	28	$0.13
Nova Micro	130k	28	$0.06	317.3	0.47
Yi-Large	32k	28	$3.00	58.7	1.31
Claude 3 Sonnet	200k	28	$6.00	60.5	0.74
Codestral (Jan '25)	256k	28	$0.45	120.0	0.31
Llama 3 70B	8k	27	$0.84	45.3	1.04
Mistral Small (Sep '24)	33k	27	$0.30	37.6	0.40
Gemini 1.0 Ultra	33k	27	$0.00
Phi-4 Multimodal	128k	27	$0.00	21.5	0.42
Qwen2.5 Coder 7B	131k	27	$0.00
Mistral Large (Feb '24)	33k	26	$6.00	10.8	5.51
Jamba Instruct	256k	26	$0.00
Mixtral 8x22B	65k	26	$3.00	35.8	0.48
Phi-4 Mini	128k	26	$0.00	55.8	0.29
Gemma 2 27B	8k	26	$0.80
Llama 3.2 11B (Vision)	128k	25	$0.16	112.1	0.44
Qwen3 1.7B	32k	25	$0.19	128.7	0.93
Qwen1.5 Chat 110B	32k	25	$0.00	23.8	3.00
Phi-3 Medium 14B	128k	25	$0.30	47.0	0.86
Gemma 3 4B	128k	24	$0.03	72.4	0.26
Claude 2.1	200k	24	$12.00	14.2	1.14
Claude 3 Haiku	200k	24	$0.50	133.7	0.80
Llama 3.1 8B	128k	24	$0.10	190.9	0.47
Pixtral 12B	128k	23	$0.15	45.4	0.31
Qwen3 0.6B (Reasoning)	32k	23	$0.40	186.7	0.93
Claude 2.0	100k	23	$12.00	31.2	0.90
DeepSeek-V2	128k	23	$0.17
Mistral Small (Feb '24)	33k	23	$1.50	49.7	0.36
Mistral Medium	33k	23	$4.09	55.4	0.42
GPT-3.5 Turbo	4k	23	$0.75	133.9	0.42
Ministral 8B	128k	22	$0.10	105.9	0.35
Gemma 2 9B	8k	22	$0.12
Phi-3 Mini	4k	22	$0.00
Arctic	4k	22	$0.00
Qwen Chat 72B	34k	22	$1.00
LFM 40B	32k	22	$0.15	103.5	0.23
Command-R+	128k	21	$4.38	46.5	0.61
Llama 3 8B	8k	21	$0.09	98.6	0.70
PALM-2	8k	21	$0.00
Gemini 1.0 Pro	33k	21	$0.75
DeepSeek Coder V2 Lite	128k	20	$0.00
Codestral (May '24)	33k	20	$0.30	37.0	0.43
Aya Expanse 32B	128k	20	$0.75	118.2	0.17
Llama 2 Chat 70B	4k	20	$0.00
DeepSeek LLM 67B (V1)	4k	20	$0.00
Llama 2 Chat 13B	4k	20	$0.00
Command-R+ (Apr '24)	128k	20	$6.00	50.7	0.46
OpenChat 3.5	8k	20	$0.05	53.8	0.30
DBRX	33k	20	$0.00
Ministral 3B	128k	20	$0.04	131.0	0.31
Mistral NeMo	128k	20	$0.15	106.5	0.35
Llama 3.2 3B	128k	20	$0.05	108.9	0.59
DeepSeek R1 Distill Qwen 1.5B	128k	19	$0.18	321.7	0.32
Jamba 1.5 Mini	256k	18	$0.25
Jamba 1.6 Mini	256k	18	$0.25	133.2	0.52
Mixtral 8x7B	33k	17	$0.70	37.9	0.39
Qwen3 0.6B	32k	17	$0.19	188.0	0.91
DeepHermes 3 - Llama-3.1 8B	128k	16	$0.00
Aya Expanse 8B	8k	16	$0.75	145.1	0.18
Command-R	128k	15	$0.26	67.1	0.24
Command-R (Mar '24)	128k	15	$0.75	138.1	0.23
Qwen Chat 14B	8k	14	$0.00
Claude Instant	100k	14	$1.20	55.4	0.78
Codestral-Mamba	256k	14	$0.25
Llama 65B	2k	11	$0.00
Mistral 7B	8k	10	$0.25	35.4	0.34
Llama 3.2 1B	128k	10	$0.05	129.8	0.52
Llama 2 Chat 7B	4k	8	$0.10	75.5	13.11
GPT-4o mini Realtime (Dec '24)	128k		$0.00
GPT-4o Realtime (Dec '24)	128k		$0.00
Sonar Reasoning Pro	127k		$0.00
Grok 3 mini Reasoning (low)	1m		$0.35	157.9	0.28
GPT-3.5 Turbo (0613)	4k		$0.00

Key definitions

Back to Navigation

Context window: Maximum number of combined input & output tokens. Output tokens commonly have a significantly lower limit (varied by model).

Output Speed: Tokens per second received while the model is generating tokens (ie. after first chunk has been received from the API for models which support streaming).

Latency (Time to First Token): Time to first token received, in seconds, after API request sent. For reasoning models which share reasoning tokens, this will be the first reasoning token. For models which do not support streaming, this represents time to receive the completion.

Price: Price per token, represented as USD per million Tokens. Price is a blend of Input & Output token prices (3:1 ratio).

Output Price: Price per token generated by the model (received from the API), represented as USD per million Tokens.

Input Price: Price per token included in the request/message sent to the API, represented as USD per million Tokens.

Time period: Metrics are 'live' and are based on the past 72 hours of measurements, measurements are taken 8 times a day for single requests and 2 times per day for parallel requests.

Models compared: OpenAI: GPT 4o Audio, GPT 4o Realtime, GPT 4o Speech Pipeline, GPT-3.5 Turbo, GPT-3.5 Turbo (0125), GPT-3.5 Turbo (0301), GPT-3.5 Turbo (0613), GPT-3.5 Turbo (1106), GPT-3.5 Turbo Instruct, GPT-4, GPT-4 Turbo, GPT-4 Turbo (0125), GPT-4 Turbo (1106), GPT-4 Vision, GPT-4.1, GPT-4.1 mini, GPT-4.1 nano, GPT-4.5 (Preview), GPT-4o (April 2025), GPT-4o (Aug '24), GPT-4o (ChatGPT), GPT-4o (March 2025), GPT-4o (May '24), GPT-4o (Nov '24), GPT-4o Realtime (Dec '24), GPT-4o mini, GPT-4o mini Realtime (Dec '24), o1, o1-mini, o1-preview, o1-pro, o3, o3-mini, o3-mini (high), and o4-mini (high), Meta: Code Llama 70B, Llama 2 Chat 13B, Llama 2 Chat 70B, Llama 2 Chat 7B, Llama 3 70B, Llama 3 8B, Llama 3.1 405B, Llama 3.1 70B, Llama 3.1 8B, Llama 3.2 11B (Vision), Llama 3.2 1B, Llama 3.2 3B, Llama 3.2 90B (Vision), Llama 3.3 70B, Llama 4 Behemoth, Llama 4 Maverick, Llama 4 Scout, and Llama 65B, Google: Gemini 1.0 Pro, Gemini 1.0 Ultra, Gemini 1.5 Flash (May), Gemini 1.5 Flash (Sep), Gemini 1.5 Flash-8B, Gemini 1.5 Pro (May), Gemini 1.5 Pro (Sep), Gemini 2.0 Flash, Gemini 2.0 Flash (exp), Gemini 2.0 Flash Thinking exp. (Dec '24), Gemini 2.0 Flash Thinking exp. (Jan '25), Gemini 2.0 Flash-Lite (Feb '25), Gemini 2.0 Flash-Lite (Preview), Gemini 2.0 Pro Experimental, Gemini 2.5 Flash, Gemini 2.5 Flash (Reasoning), Gemini 2.5 Flash (April '25) (Reasoning), Gemini 2.5 Pro (Jun '25), Gemini 2.5 Pro (Mar '25), Gemini 2.5 Pro (May' 25), Gemini Experimental (Nov), Gemma 2 27B, Gemma 2 9B, Gemma 3 12B, Gemma 3 1B, Gemma 3 27B, Gemma 3 4B, Gemma 3n E4B, Gemma 7B, and PALM-2, Anthropic: Claude 2.0, Claude 2.1, Claude 3 Haiku, Claude 3 Opus, Claude 3 Sonnet, Claude 3.5 Haiku, Claude 3.5 Sonnet (June), Claude 3.5 Sonnet (Oct), Claude 3.7 Sonnet Thinking, Claude 3.7 Sonnet, Claude 4 Opus, Claude 4 Opus Thinking, Claude 4 Sonnet, Claude 4 Sonnet Thinking, and Claude Instant, Mistral: Codestral (Jan '25), Codestral (May '24), Codestral-Mamba, Devstral, Ministral 3B, Ministral 8B, Mistral 7B, Mistral Large (Feb '24), Mistral Large 2 (Jul '24), Mistral Large 2 (Nov '24), Mistral Medium, Mistral Medium 3, Mistral NeMo, Mistral Saba, Mistral Small (Feb '24), Mistral Small (Sep '24), Mistral Small 3, Mistral Small 3.1, Mixtral 8x22B, Mixtral 8x7B, Pixtral 12B, and Pixtral Large, DeepSeek: DeepSeek Coder V2 Lite, DeepSeek LLM 67B (V1), DeepSeek Prover V2 671B, DeepSeek R1 (FP4), DeepSeek R1 (Jan '25), DeepSeek R1 0528 (May '25), DeepSeek R1 0528 Qwen3 8B, DeepSeek R1 Distill Llama 70B, DeepSeek R1 Distill Llama 8B, DeepSeek R1 Distill Qwen 1.5B, DeepSeek R1 Distill Qwen 14B, DeepSeek R1 Distill Qwen 32B, DeepSeek V3 (Dec '24), DeepSeek V3 0324 (Mar '25), DeepSeek-Coder-V2, DeepSeek-V2, DeepSeek-V2.5, DeepSeek-V2.5 (Dec '24), DeepSeek-VL2, and Janus Pro 7B, Perplexity: PPLX-70B Online, PPLX-7B-Online, R1 1776, Sonar, Sonar 3.1 Huge, Sonar 3.1 Large, Sonar 3.1 Small , Sonar Large, Sonar Pro, Sonar Reasoning, Sonar Reasoning Pro, and Sonar Small, xAI: Grok 2, Grok 3, Grok 3 Reasoning Beta, Grok 3 mini, Grok 3 mini Reasoning (low), Grok 3 mini Reasoning (high), Grok Beta, and Grok-1, OpenChat: OpenChat 3.5, Amazon: Nova Lite, Nova Micro, Nova Premier, and Nova Pro, Microsoft Azure: Phi-3 Medium 14B, Phi-3 Mini, Phi-4, Phi-4 Mini, Phi-4 Multimodal, Phi-4 mini reasoning, Phi-4 reasoning, and Phi-4 reasoning plus, Liquid AI: LFM 1.3B, LFM 3B, and LFM 40B, Upstage: Solar Mini, Solar Pro, Solar Pro (Nov '24), Solar Pro 2 , and Solar Pro 2 (Reasoning), Databricks: DBRX, MiniMax: MiniMax Reasoning 01 and MiniMax-Text-01, NVIDIA: Cosmos Nemotron 34B, Llama 3.1 Nemotron 70B, Llama 3.1 Nemotron Nano 4B v1.1 (Reasoning), Llama 3.1 Nemotron Nano 8B, Llama 3.3 Nemotron Nano 8B v1 (Reasoning), Llama Nemotron Ultra Reasoning, Llama 3.3 Nemotron Super 49B v1, and Llama 3.3 Nemotron Super 49B Reasoning, IBM: Granite 3.0 2B, OpenVoice: Granite 3.0 8B, Inceptionlabs: Mercury Coder Mini, Mercury Coder Small, Mercury Instruct, and Mercury Small, Reka AI: Reka Core, Reka Edge, Reka Flash (Feb '24), Reka Flash, and Reka Flash 3, Xiaomi: MiMo 7B RL, Baichuan: Baichuan 4 and Baichuan M1 (Preview), vercel: v0-1.0-md, Other: LLaVA-v1.5-7B, Cohere: Aya Expanse 32B, Aya Expanse 8B, Command, Command A, Command Light, Command R7B, Command-R, Command-R (Mar '24), Command-R+ (Apr '24), and Command-R+, Bytedance: Duobao 1.5 Pro, Seed-Thinking-v1.5, Skylark Lite, and Skylark Pro, AI21 Labs: Jamba 1.5 Large, Jamba 1.5 Large (Feb '25), Jamba 1.5 Mini, Jamba 1.5 Mini (Feb 2025), Jamba 1.6 Large, Jamba 1.6 Mini, and Jamba Instruct, Snowflake: Arctic and Snowflake Llama 3.3 70B, Alibaba: QwQ-32B, QwQ 32B-Preview, Qwen Chat 14B, Qwen Chat 72B, Qwen Chat 7B, Qwen1.5 Chat 110B, Qwen1.5 Chat 14B, Qwen1.5 Chat 32B, Qwen1.5 Chat 72B, Qwen1.5 Chat 7B, Qwen2 72B, Qwen2 Instruct 7B, Qwen2 Instruct A14B 57B, Qwen2-VL 72B, Qwen2.5 Coder 32B, Qwen2.5 Coder 7B , Qwen2.5 Instruct 14B, Qwen2.5 Instruct 32B, Qwen2.5 72B, Qwen2.5 Instruct 7B, Qwen2.5 Max, Qwen2.5 Max 01-29, Qwen2.5 Omni 7B, Qwen2.5 Plus, Qwen2.5 Turbo, Qwen2.5 VL 72B, Qwen2.5 VL 7B, Qwen3 0.6B, Qwen3 0.6B (Reasoning), Qwen3 1.7B, Qwen3 1.7B (Reasoning), Qwen3 14B, Qwen3 14B (Reasoning), Qwen3 235B, Qwen3 235B (Reasoning), Qwen3 30B A3B, Qwen3 30B A3B (Reasoning), Qwen3 32B, Qwen3 32B (Reasoning), Qwen3 4B, Qwen3 4B (Reasoning), Qwen3 8B, and Qwen3 8B (Reasoning), and 01.AI: Yi-Large and Yi-Lightning.