Leaderboard | Text

Models

Choose model family

Claude by Anthropic

Mistral by Mistral AI

Topics

Choose topic

All topics Facts and Information Creative Writing and Ideation Logic and Problem-Solving Task Completion Coding

Choose language

All languages English Chinese Arabic Spanish Indonesian Japanese

More filters

Show inactive models

Hide models that are no longer actively available on Yupp.

Turns

Filter model performance by the number of turns in a conversation.

All Single turn Multiple turns

Open license models

Filter the leaderboard to only show models that have an open license.

All selected Open license Proprietary license

1173

GPT-4.5 Preview

1172

GPT-5.2 (Extra High)

1171

Kimi K2 Thinking Turbo

1169

GPT-5 (Minimal)

1167

Qwen Plus 0728

1163

Step 3.5 Flash

1162

Gemini 3.1 Flash Lite Preview Thinking

1161

Gemini 2.5 Pro

1159

Grok 4.1 Fast Reasoning

1158

DeepSeek V3.2 Thinking

1154

Claude Haiku 4.5 (Extended Thinking)

1154

Grok 4 Fast Reasoning

1152

Qwen Plus (Aug'24)

1151

Gemini 2.5 Flash Preview 0925

1150

Qwen3 Omni 30B A3B Thinking

Last updated about 1 month ago

Rank	Overall	Name	VIBE Score	Confidence Interval	Votes	Downvote %	Abort %	Speed	Latency	Context	Cost (Input)	Cost (Output)
41	77	GPT-4.5 Preview	1173	±13	495	2.9%	<0.1%	36 tps	3.0s	200K	$75.00	$150.00
42	42	GPT-5.2 (Extra High)	1172	±13	3K	1.6%	13.2%	17 tps	20.5s	400K	$1.75	$14.00
43	44	Kimi K2 Thinking Turbo	1171	±11	1.8K	4.2%	2.0%	75 tps	1.4s	262K	$1.15	$8.00
44	80	GPT-5 (Minimal)	1169	±10	1.9K	2.6%	<0.1%	67 tps	1.4s	400K	$1.25	$10.00
45	33	Qwen Plus 0728	1167	±20	585	7.1%	<0.1%	55 tps	0.9s	1M	$0.40	$1.20
46	48	Step 3.5 Flash	1163	±23	640	0.8%	2.2%	109 tps	0.6s	256K	$0.05	$0.15
47	56	Gemini 3.1 Flash Lite Preview Thinking	1162	±19	730	2.0%	1.7%	75 tps	4.7s	1M	$0.25	$1.50
48	44	Gemini 2.5 Pro	1161	±6	12.1K	1.4%	2.3%	45 tps	2.6s	1M	$1.25	$10.00
49	44	Grok 4.1 Fast Reasoning	1159	±11	4.3K	2.9%	1.5%	58 tps	7.3s	2M	$0.20	$0.50
50	56	DeepSeek V3.2 Thinking	1158	±19	2.4K	2.3%	9.0%	30 tps	2.6s	131K	$0.28	$0.42
51	26	Claude Haiku 4.5 (Extended Thinking)	1154	±8	2.4K	2.8%	1.4%	115 tps	0.7s	200K	$1.00	$5.00
52	48	Grok 4 Fast Reasoning	1154	±10	2.2K	3.0%	2.1%	102 tps	3.1s	2M	$0.30	$0.75
53	68	Qwen Plus (Aug'24)	1152	±9	4.8K	1.1%	1.4%	53 tps	1.3s	30K	$0.40	$1.20
54	60	Gemini 2.5 Flash Preview 0925	1151	±9	1.8K	3.3%	1.2%	5 tps	0.9s	1M	$0.13	$0.97
55	37	Qwen3 Omni 30B A3B Thinking	1150	±16	845	3.4%	3.7%	67 tps	1.2s	66K	$0.97	$1.79
56	37	Claude Sonnet 4.5	1148	±9	3.3K	2.7%	1.4%	41 tps	1.3s	200K	$1.80	$9.00
57	106	Claude Sonnet 3.5 v2	1147	±14	1K	2.0%	<0.1%	46 tps	1.4s	200K	$3.00	$15.00
58	111	Claude Sonnet 3.7	1146	±9	2.1K	2.1%	<0.1%	39 tps	1.6s	200K	$3.00	$15.00
59	133	Kimi K2 0905	1145	±10	1.5K	2.0%	4.0%	30 tps	1.4s	262K	$0.63	$2.39
60	43	Gemini 2.5 Flash Thinking Preview 0925	1137	±8	1.9K	3.0%	<0.1%	111 tps	4.7s	1M	$0.30	$2.50
61	26	GPT-5 (High)	1131	±9	2.7K	3.2%	4.5%	81 tps	35.9s	400K	$1.25	$10.00
62	40	DeepSeek V3.2	1125	±10	2.1K	1.6%	1.4%	83 tps	5.1s	131K	$0.43	$1.09
63	111	LongCat Flash Chat	1121	±17	725	4.6%	0.8%	85 tps	0.9s	131K	$0.14	$0.68
64	21	Claude Opus 4	1120	±13	920	2.1%	<0.1%	25 tps	1.5s	200K	$15.00	$75.00
65	79	MiniMax M2.5 Lightning	1119	±16	650	0.8%	1.5%	51 tps	2.0s	205K	$0.60	$2.40
66	71	Gemini 2.5 Flash Lite Preview 0925	1116	±10	2K	2.4%	1.2%	209 tps	0.7s	1M	$0.25	$0.35
67	101	Gemini 2.5 Flash Lite	1113	±6	4.4K	1.8%	1.3%	210 tps	0.7s	1M	$0.10	$0.40
68	52	Grok 4 Fast Non-Reasoning	1108	±12	1.8K	3.0%	1.5%	93 tps	0.6s	2M	$0.27	$0.67
69	79	Qwen3 Max Thinking Preview	1105	±14	1.9K	4.0%	3.1%	40 tps	2.1s	256K	$1.20	$6.00
70	77	Claude Opus 4.1	1097	±13	965	4.0%	3.0%	17 tps	3.7s	200K	$15.00	$75.00
71	48	OpenAI o1-mini	1095	±8	4.9K	1.0%	<0.1%	118 tps	N/A	128K	$1.13	$4.51
72	124	Qwen3 235B A22B Thinking 2507	1091	±20	705	2.1%	2.5%	53 tps	1.6s	131K	$0.59	$5.70
73	133	Solar Pro 2 250710	1086	±11	2.8K	0.9%	<0.1%	9 tps	N/A	66K	$0.50	$0.50
74	101	gpt-oss-20b	1085	±12	2.1K	2.6%	0.5%	216 tps	0.5s	131K	$0.06	$0.26
75	52	GPT-5	1084	±7	5K	2.1%	3.1%	78 tps	23.1s	400K	$1.25	$9.67
76	147	Arcee AI Maestro Reasoning	1084	±14	1.3K	1.1%	<0.1%	85 tps	0.3s	131K	$0.90	$3.30
77	56	DeepSeek V3.1 Turbo	1082	±16	1.8K	2.2%	0.9%	173 tps	1.3s	164K	$2.00	$3.75
78	148	Qwen3 30B A3B Thinking 2507	1081	±19	890	2.7%	0.5%	124 tps	1.2s	131K	$0.16	$1.70
79	93	Qwen Max	1080	±7	5.4K	1.1%	1.5%	49 tps	1.5s	33K	$1.60	$6.40
80	22	GLM 5	1080	±15	1.4K	1.4%	3.4%	36 tps	2.7s	200K	$0.72	$2.55

2of6

View All (223 models)