Leaderboard | Text

Models

Choose model family

Claude by Anthropic

Mistral by Mistral AI

Choose topic

All topics Facts and Information Creative Writing and Ideation Logic and Problem-Solving Task Completion Coding

Language

Choose language

All languages English Chinese Arabic Spanish Indonesian Japanese

More filters

Show inactive models

Hide models that are no longer actively available on Yupp.

Turns

Filter model performance by the number of turns in a conversation.

All Single turn Multiple turns

Open license models

Filter the leaderboard to only show models that have an open license.

All selected Open license Proprietary license

1166

Seed 2.0 Lite (Medium)

1162

MiniMax M2.5 FP8

1161

Claude Opus 4.1

1161

Qwen3 VL 235B A22B Instruct

1161

Gemini 2.5 Flash Thinking Preview 0925

1160

Kimi K2 Thinking Turbo

1157

MiniMax M2.1 Lightning

1153

GPT-5 (Minimal)

1153

Gemini 2.5 Flash Thinking

1152

Claude Haiku 4.5 (Extended Thinking)

1150

Qwen3 Max Instruct Preview

1149

MiniMax M2.1

1149

Grok 4.1 Fast Reasoning

1146

Gemini 2.5 Pro Low

1146

Qwen3 235B A22B Instruct 2507

Last updated about 1 month ago

Rank	Overall	Name	VIBE Score	Confidence Interval	Votes	Downvote %	Abort %	Speed	Latency	Context	Cost (Input)	Cost (Output)
41	86	Seed 2.0 Lite (Medium)	1166	±14	575	2.5%	6.6%	33 tps	1.6s	256K	$0.25	$2.00
42	71	MiniMax M2.5 FP8	1162	±17	575	3.4%	3.6%	33 tps	1.7s	205K	$0.45	$1.75
43	77	Claude Opus 4.1	1161	±5	4.1K	3.9%	3.0%	17 tps	3.7s	200K	$15.00	$75.00
44	29	Qwen3 VL 235B A22B Instruct	1161	±6	4.5K	8.8%	3.1%	75 tps	1.9s	129K	$0.37	$1.81
45	43	Gemini 2.5 Flash Thinking Preview 0925	1161	±3	7.2K	9.1%	<0.1%	111 tps	4.7s	1M	$0.30	$2.50
46	44	Kimi K2 Thinking Turbo	1160	±8	13.2K	3.5%	2.0%	75 tps	1.4s	262K	$1.15	$8.00
47	56	MiniMax M2.1 Lightning	1157	±13	970	1.0%	1.7%	52 tps	2.1s	205K	$0.30	$2.40
48	80	GPT-5 (Minimal)	1153	±6	6.8K	10.0%	<0.1%	67 tps	1.4s	400K	$1.25	$10.00
49	71	Gemini 2.5 Flash Thinking	1153	±7	3.7K	3.6%	2.2%	88 tps	6.4s	1M	$0.30	$2.50
50	26	Claude Haiku 4.5 (Extended Thinking)	1152	±5	7K	6.6%	1.4%	115 tps	0.7s	200K	$1.00	$5.00
51	42	Qwen3 Max Instruct Preview	1150	±4	13.5K	5.8%	1.1%	31 tps	1.7s	256K	$1.43	$6.61
52	60	MiniMax M2.1	1149	±6	10.4K	4.3%	2.1%	66 tps	2.6s	205K	$0.30	$1.20
53	44	Grok 4.1 Fast Reasoning	1149	±6	21.2K	4.2%	1.5%	58 tps	7.3s	2M	$0.20	$0.50
54	56	Gemini 2.5 Pro Low	1146	±4	7.5K	13.0%	<0.1%	89 tps	2.4s	1M	$1.25	$10.00
55	40	Qwen3 235B A22B Instruct 2507	1146	±3	8.8K	12.2%	6.8%	13 tps	1.9s	262K	$0.13	$0.52
56	104	Grok 3 Beta	1145	±9	1.8K	0.6%	<0.1%	58 tps	0.8s	131K	$3.00	$15.00
57	33	Grok 4.20 Multi Agent Beta	1143	±16	765	1.9%	1.2%	56 tps	8.8s	2M	$2.00	$6.00
58	100	Gemini 2.5 Flash Preview	1141	±8	2.1K	1.0%	<0.1%	138 tps	6.9s	1M	$0.15	$0.60
59	33	Qwen3 Next 80B A3B Instruct	1141	±4	7.6K	7.7%	0.6%	84 tps	1.1s	256K	$0.20	$1.42
60	84	GPT-5 Mini Minimal	1139	±8	2.8K	9.7%	1.2%	63 tps	1.4s	400K	$0.25	$2.00
61	52	GPT-5	1138	±4	14K	7.9%	3.1%	78 tps	23.1s	400K	$1.25	$9.67
62	26	Grok 4.1 Fast Non-Reasoning	1137	±5	7.4K	6.6%	0.9%	101 tps	0.5s	2M	$0.20	$0.50
63	65	GLM 4.6	1136	±5	14.1K	4.7%	5.4%	39 tps	1.5s	200K	$0.42	$1.66
64	111	Claude Sonnet 3.7	1135	±4	6.5K	6.3%	<0.1%	39 tps	1.6s	200K	$3.00	$15.00
65	52	Claude Haiku 4.5	1134	±5	9.9K	6.9%	1.1%	100 tps	0.9s	200K	$1.00	$5.00
66	62	GPT-5.1 Instant	1134	±5	5.5K	5.7%	1.3%	50 tps	1.9s	400K	$1.25	$10.00
67	68	Grok 4	1130	±2	23.2K	6.4%	3.9%	29 tps	11.1s	256K	$3.00	$15.00
68	71	GPT-5 Mini	1130	±4	6.1K	7.9%	2.6%	66 tps	14.2s	400K	$0.25	$2.00
69	40	DeepSeek V3.2	1130	±5	4.4K	5.1%	1.4%	83 tps	5.1s	131K	$0.43	$1.09
70	79	MiniMax M2.5 Lightning	1128	±14	995	2.5%	1.5%	51 tps	2.0s	205K	$0.60	$2.40
71	84	Nova Experimental Chat 10-09	1128	±6	2.2K	14.1%	<0.1%	59 tps	6.1s	98K	$0	$0
72	48	Grok 4 Fast Reasoning	1125	±5	11.8K	5.5%	2.1%	102 tps	3.1s	2M	$0.30	$0.75
73	52	Qwen3.5 122B A17B	1124	±17	1.1K	3.2%	1.5%	82 tps	1.4s	256K	$0.40	$3.20
74	37	Kimi K2.5 Instant	1124	±13	1.4K	2.4%	2.9%	32 tps	3.0s	262K	$0.50	$3.00
75	81	GPT-4o	1124	±5	6.5K	6.1%	1.0%	49 tps	2.4s	128K	$3.71	$12.57
76	56	DeepSeek V3.2 Thinking	1117	±6	10K	3.8%	9.0%	30 tps	2.6s	131K	$0.28	$0.42
77	68	Qwen Plus (Aug'24)	1116	±5	8.9K	9.4%	1.4%	53 tps	1.3s	30K	$0.40	$1.20
78	29	Nova Experimental Chat 12-10	1115	±8	2.2K	4.8%	2.4%	84 tps	12.9s	98K	$0	$0
79	71	Gemini 3.1 Flash Lite Preview	1114	±27	630	2.3%	1.0%	8 tps	1.2s	1M	$0.25	$1.50
80	68	GLM 4.7	1112	±8	8.8K	4.7%	5.8%	40 tps	1.5s	200K	$0.77	$1.73

2of8

View All (312 models)