Leaderboard | Text

Models

Choose model family

Claude by Anthropic

Mistral by Mistral AI

Topics

Choose topic

All topics Facts and Information Creative Writing and Ideation Logic and Problem-Solving Task Completion Coding

Choose language

All languages English Chinese Arabic Spanish Indonesian Japanese

More filters

Show inactive models

Hide models that are no longer actively available on Yupp.

Turns

Filter model performance by the number of turns in a conversation.

All Single turn Multiple turns

Open license models

Filter the leaderboard to only show models that have an open license.

All selected Open license Proprietary license

1175

Grok 4.20 Beta Reasoning

1173

Claude Opus 4.5

1173

Claude Haiku 4.5 (Extended Thinking)

1171

Kimi K2.5 Instant

1168

Qwen3 Omni 30B A3B Instruct

1167

MiniMax M2.7

1165

MiniMax M2.1 Lightning

1164

Step 3.5 Flash

1161

Qwen3 Next 80B A3B Instruct

1159

Gemini 2.5 Pro High

1159

Gemini 3 Flash Preview

1158

Qwen3 30B A3B Instruct 2507

1151

Qwen3.5 122B A17B

1151

Kimi K2.5

1150

DeepSeek V3.1 Terminus Chat

Last updated about 1 month ago

Rank	Overall	Name	VIBE Score	Confidence Interval	Votes	Downvote %	Abort %	Speed	Latency	Context	Cost (Input)	Cost (Output)
41	17	Grok 4.20 Beta Reasoning	1175	±7	3.3K	1.8%	1.1%	77 tps	4.5s	2M	$2.00	$5.50
42	17	Claude Opus 4.5	1173	±2	22.5K	2.2%	1.5%	45 tps	1.5s	200K	$5.00	$25.00
43	26	Claude Haiku 4.5 (Extended Thinking)	1173	±2	24.3K	3.1%	1.4%	115 tps	0.7s	200K	$1.00	$5.00
44	37	Kimi K2.5 Instant	1171	±4	6.2K	1.8%	2.9%	32 tps	3.0s	262K	$0.50	$3.00
45	62	Qwen3 Omni 30B A3B Instruct	1168	±5	3K	2.3%	3.9%	65 tps	1.2s	66K	$0.35	$0.97
46	29	MiniMax M2.7	1167	±8	1.1K	1.8%	3.0%	34 tps	2.5s	205K	$0.30	$1.20
47	56	MiniMax M2.1 Lightning	1165	±5	4.9K	1.2%	1.7%	52 tps	2.1s	205K	$0.30	$2.40
48	48	Step 3.5 Flash	1164	±5	4K	1.5%	2.2%	109 tps	0.6s	256K	$0.05	$0.15
49	33	Qwen3 Next 80B A3B Instruct	1161	±2	24.9K	3.8%	0.6%	84 tps	1.1s	256K	$0.20	$1.42
50	32	Gemini 2.5 Pro High	1159	±2	42.7K	4.5%	1.5%	48 tps	2.3s	1M	$1.25	$10.00
51	17	Gemini 3 Flash Preview	1159	±3	17.8K	2.1%	1.3%	138 tps	1.4s	1M	$0.50	$3.00
52	33	Qwen3 30B A3B Instruct 2507	1158	±2	31.6K	4.1%	1.2%	55 tps	1.3s	131K	$0.13	$0.72
53	52	Qwen3.5 122B A17B	1151	±4	4.7K	1.6%	1.5%	82 tps	1.4s	256K	$0.40	$3.20
54	33	Kimi K2.5	1151	±3	32.5K	1.8%	6.5%	33 tps	1.7s	262K	$0.34	$2.57
55	44	DeepSeek V3.1 Terminus Chat	1150	±3	17.8K	4.2%	3.4%	27 tps	1.5s	131K	$0.86	$1.80
56	42	Qwen3 Max Instruct Preview	1148	±2	36.6K	3.5%	1.1%	31 tps	1.7s	256K	$1.43	$6.61
57	40	Qwen3 235B A22B Instruct 2507	1147	±2	32.2K	4.7%	6.8%	13 tps	1.9s	262K	$0.13	$0.52
58	40	DeepSeek V3.2	1144	±3	20.7K	1.9%	1.4%	83 tps	5.1s	131K	$0.43	$1.09
59	48	gpt-oss-120b	1144	±2	40.7K	3.7%	0.7%	213 tps	0.5s	131K	$0.11	$0.50
60	71	MiniMax M2.5 FP8	1141	±4	2.9K	1.7%	3.6%	33 tps	1.7s	205K	$0.45	$1.75
61	56	DeepSeek V3.1 Turbo	1140	±2	14.5K	2.3%	0.9%	173 tps	1.3s	164K	$2.00	$3.75
62	37	Claude Sonnet 4.5	1139	±2	37.7K	4.3%	1.4%	41 tps	1.3s	200K	$1.80	$9.00
63	48	Claude Sonnet 4 (Thinking)	1138	±2	30.7K	2.6%	1.5%	52 tps	1.5s	200K	$3.00	$13.67
64	44	Kimi K2 Thinking Turbo	1137	±3	29.8K	2.5%	2.0%	75 tps	1.4s	262K	$1.15	$8.00
65	51	GPT-5.2 (Medium)	1136	±8	815	2.4%	<0.1%	39 tps	2.5s	400K	$1.75	$14.00
66	44	Gemini 2.5 Pro	1136	±1	68.8K	3.9%	2.3%	45 tps	2.6s	1M	$1.25	$10.00
67	56	Claude Opus 4.1 (Thinking)	1134	±2	12K	3.6%	<0.1%	20 tps	3.9s	200K	$15.00	$75.00
68	43	Gemini 2.5 Flash Thinking Preview 0925	1133	±2	20.1K	5.0%	<0.1%	111 tps	4.7s	1M	$0.30	$2.50
69	42	GPT-5.2 (Extra High)	1133	±3	20.9K	1.9%	13.2%	17 tps	20.5s	400K	$1.75	$14.00
70	48	Polaris Alpha	1131	±6	1.7K	3.6%	<0.1%	48 tps	1.1s	256K	$0	$0
71	60	MiniMax M2.1	1129	±2	41.8K	2.0%	2.1%	66 tps	2.6s	205K	$0.30	$1.20
72	48	Grok 4 Fast Reasoning	1128	±2	25.9K	3.9%	2.1%	102 tps	3.1s	2M	$0.30	$0.75
73	52	Claude Haiku 4.5	1128	±2	31.4K	3.7%	1.1%	100 tps	0.9s	200K	$1.00	$5.00
74	44	Grok 4.1 Fast Reasoning	1128	±2	57K	3.1%	1.5%	58 tps	7.3s	2M	$0.20	$0.50
75	52	Grok 4 Fast Non-Reasoning	1128	±3	21.3K	4.7%	1.5%	93 tps	0.6s	2M	$0.27	$0.67
76	56	DeepSeek V3.2 Thinking	1127	±3	37.6K	2.6%	9.0%	30 tps	2.6s	131K	$0.28	$0.42
77	86	Nemotron 3 Nano (Thinking)	1127	±3	7.5K	2.4%	2.0%	200 tps	0.5s	256K	$0	$0
78	62	MiniMax M2	1125	±2	33.6K	3.5%	2.2%	39 tps	2.3s	205K	$0.21	$0.85
79	65	DeepSeek V3.2 Exp Chat	1124	±3	14.3K	4.0%	2.6%	29 tps	1.5s	131K	$0.27	$0.39
80	71	DeepSeek V3.1	1124	±3	6.8K	2.0%	0.8%	197 tps	0.4s	164K	$0.55	$1.60

2of11

View All (432 models)