Leaderboard | Text

Models

Choose model family

Claude by Anthropic

Mistral by Mistral AI

Topics

Choose topic

All topics Facts and Information Creative Writing and Ideation Logic and Problem-Solving Task Completion Coding

Language

Choose language

All languages English Chinese Arabic Spanish Indonesian Japanese

More filters

Show inactive models

Hide models that are no longer actively available on Yupp.

Turns

Filter model performance by the number of turns in a conversation.

All Single turn Multiple turns

Open license models

Filter the leaderboard to only show models that have an open license.

All selected Open license Proprietary license

1453

Claude Opus 4.6 (Thinking)

1426

Claude Opus 4.6

1423

GPT-5.4

1376

Claude Sonnet 4.6

1370

Claude Sonnet 4.6 (Thinking)

1320

Gemini 3.1 Pro

1299

Claude Opus 4.5 (Thinking)

1291

GPT-5.1

1290

GPT-5.1 (High)

1277

GPT-5.2 Instant

1275

Gemini 3 Pro

1275

Claude Sonnet 4.5 (Thinking)

1261

GPT-5.3 Instant

1249

Gemini 3 Flash Preview Thinking

1247

Gemini 3 Pro (Low)

Last updated about 1 month ago

Rank	Name	VIBE Score	Confidence Interval	Votes	Downvote %	Abort %	Speed	Latency	Context	Cost (Input)	Cost (Output)
1	Claude Opus 4.6 (Thinking)	1453	±3	34K	1.3%	2.5%	56 tps	1.6s	200K	$5.00	$25.00
2	Claude Opus 4.6	1426	±3	45K	1.1%	2.1%	48 tps	1.7s	200K	$5.00	$25.00
3	GPT-5.4	1423	±6	11.1K	1.4%	2.6%	55 tps	0.8s	1M	$2.50	$15.00
4	Claude Sonnet 4.6	1376	±3	33.5K	1.2%	1.6%	47 tps	1.2s	200K	$3.00	$15.00
5	Claude Sonnet 4.6 (Thinking)	1370	±2	33.4K	2.4%	4.7%	57 tps	1.1s	200K	$3.00	$15.00
6	Gemini 3.1 Pro	1320	±3	55.8K	1.8%	3.5%	35 tps	4.1s	1M	$2.00	$12.00
7	Claude Opus 4.5 (Thinking)	1299	±2	116.9K	1.8%	1.8%	49 tps	1.4s	200K	$5.00	$25.00
8	GPT-5.1	1291	±2	48.3K	2.3%	2.3%	71 tps	1.4s	400K	$1.42	$11.33
9	GPT-5.1 (High)	1290	±2	65.6K	2.3%	3.2%	76 tps	6.9s	400K	$1.25	$10.00
10	GPT-5.2 Instant	1277	±2	67.2K	1.7%	1.7%	52 tps	2.0s	400K	$1.75	$14.00
11	Gemini 3 Pro	1275	±2	163.7K	1.9%	2.1%	50 tps	3.6s	1M	$2.00	$12.00
12	Claude Sonnet 4.5 (Thinking)	1275	±2	115.4K	3.0%	1.9%	44 tps	1.1s	200K	$3.00	$15.00
13	GPT-5.3 Instant	1261	±3	20.4K	1.7%	0.9%	63 tps	0.8s	400K	$1.75	$14.00
14	Gemini 3 Flash Preview Thinking	1249	±2	75.5K	2.3%	1.6%	3 tps	6.2s	1M	$0.50	$3.00
15	Gemini 3 Pro (Low)	1247	±2	53.4K	2.2%	2.4%	51 tps	3.5s	1M	$2.00	$12.00
16	GPT-5.2	1240	±3	42.3K	1.8%	4.1%	18 tps	2.7s	400K	$1.75	$14.00
17	Grok 4.20 Beta Reasoning	1229	±6	6.3K	2.2%	1.1%	77 tps	4.5s	2M	$2.00	$5.50
18	GPT-5.4 mini	1229	±9	1.8K	2.2%	0.8%	148 tps	0.5s	400K	$0.75	$4.50
19	Claude Opus 4.5	1227	±2	41.8K	2.4%	1.5%	45 tps	1.5s	200K	$5.00	$25.00
20	Gemini 3 Flash Preview	1227	±2	32.8K	1.9%	1.3%	138 tps	1.4s	1M	$0.50	$3.00
21	GPT-5.2 (High)	1224	±2	97.5K	1.9%	6.7%	18 tps	16.3s	400K	$1.75	$14.00
22	GPT-5 Chat	1222	±2	129.9K	3.0%	1.3%	95 tps	0.9s	400K	$1.25	$10.00
23	GLM 5	1220	±3	25.3K	2.3%	3.4%	36 tps	2.7s	200K	$0.72	$2.55
24	MiniMax M2.7-highspeed	1219	±8	1.8K	2.4%	2.3%	50 tps	2.1s	205K	$0.60	$2.40
25	Grok 4.20 Beta Non-reasoning	1218	±8	2.3K	3.7%	1.1%	151 tps	0.6s	2M	$2.00	$6.00
26	Claude Haiku 4.5 (Extended Thinking)	1217	±3	40.7K	3.0%	1.4%	115 tps	0.7s	200K	$1.00	$5.00
27	Grok 4.1 Fast Non-Reasoning	1214	±2	41.7K	3.2%	0.9%	101 tps	0.5s	2M	$0.20	$0.50
28	GPT-5 (High)	1214	±2	42.2K	3.2%	4.5%	81 tps	35.9s	400K	$1.25	$10.00
29	Nova Experimental Chat 12-10	1209	±4	16.6K	1.8%	2.4%	84 tps	12.9s	98K	$0	$0
30	MiniMax M2.7	1206	±7	1.7K	2.6%	3.0%	34 tps	2.5s	205K	$0.30	$1.20
31	Qwen3 VL 235B A22B Instruct	1205	±2	22.3K	4.5%	3.1%	75 tps	1.9s	129K	$0.37	$1.81
32	Gemini 2.5 Pro High	1204	±2	71.1K	3.9%	1.5%	48 tps	2.3s	1M	$1.25	$10.00
33	Qwen3 30B A3B Instruct 2507	1198	±2	48.5K	3.7%	1.2%	55 tps	1.3s	131K	$0.13	$0.72
34	Qwen3 Next 80B A3B Instruct	1197	±2	38.2K	3.5%	0.6%	84 tps	1.1s	256K	$0.20	$1.42
35	Grok 4.20 Multi Agent Beta	1196	±5	5K	2.0%	1.2%	56 tps	8.8s	2M	$2.00	$6.00
36	Kimi K2.5	1194	±3	49.3K	2.1%	6.5%	33 tps	1.7s	262K	$0.34	$2.57
37	Kimi K2.5 Instant	1188	±3	11.1K	2.3%	2.9%	32 tps	3.0s	262K	$0.50	$3.00
38	Qwen3 Omni 30B A3B Thinking	1188	±3	11.5K	2.6%	3.7%	67 tps	1.2s	66K	$0.97	$1.79
39	Claude Sonnet 4.5	1187	±2	65.6K	3.7%	1.4%	41 tps	1.3s	200K	$1.80	$9.00
40	DeepSeek V3.2	1183	±2	31.2K	1.9%	1.4%	83 tps	5.1s	131K	$0.43	$1.09

1of8

View All (292 models)