Leaderboard | Text

Models

Choose model family

Claude by Anthropic

Mistral by Mistral AI

Topics

Choose topic

All topics Facts and Information Creative Writing and Ideation Logic and Problem-Solving Task Completion Coding

Choose language

All languages English Chinese Arabic Spanish Indonesian Japanese

More filters

Show inactive models

Hide models that are no longer actively available on Yupp.

Turns

Filter model performance by the number of turns in a conversation.

All Single turn Multiple turns

Open license models

Filter the leaderboard to only show models that have an open license.

All selected Open license Proprietary license

1154

Grok 4 Fast Reasoning

1152

Qwen Plus (Aug'24)

1151

Gemini 2.5 Flash Preview 0925

1150

Qwen3 Omni 30B A3B Thinking

1148

Claude Sonnet 4.5

1147

Claude Sonnet 3.5 v2

1145

Kimi K2 0905

1131

GPT-5 (High)

1125

DeepSeek V3.2

1121

LongCat Flash Chat

1119

MiniMax M2.5 Lightning

1116

Gemini 2.5 Flash Lite Preview 0925

1113

Gemini 2.5 Flash Lite

1108

Grok 4 Fast Non-Reasoning

1105

Qwen3 Max Thinking Preview

Last updated about 1 month ago

Rank	Overall	Name	VIBE Score	Confidence Interval	Votes	Downvote %	Abort %	Speed	Latency	Context	Cost (Input)	Cost (Output)
41	48	Grok 4 Fast Reasoning	1154	±10	2.2K	3.0%	2.1%	102 tps	3.1s	2M	$0.30	$0.75
42	68	Qwen Plus (Aug'24)	1152	±9	4.8K	1.1%	1.4%	53 tps	1.3s	30K	$0.40	$1.20
43	60	Gemini 2.5 Flash Preview 0925	1151	±9	1.8K	3.3%	1.2%	5 tps	0.9s	1M	$0.13	$0.97
44	37	Qwen3 Omni 30B A3B Thinking	1150	±16	845	3.4%	3.7%	67 tps	1.2s	66K	$0.97	$1.79
45	37	Claude Sonnet 4.5	1148	±9	3.3K	2.7%	1.4%	41 tps	1.3s	200K	$1.80	$9.00
46	106	Claude Sonnet 3.5 v2	1147	±14	1K	2.0%	<0.1%	46 tps	1.4s	200K	$3.00	$15.00
47	133	Kimi K2 0905	1145	±10	1.5K	2.0%	4.0%	30 tps	1.4s	262K	$0.63	$2.39
48	26	GPT-5 (High)	1131	±9	2.7K	3.2%	4.5%	81 tps	35.9s	400K	$1.25	$10.00
49	40	DeepSeek V3.2	1125	±10	2.1K	1.6%	1.4%	83 tps	5.1s	131K	$0.43	$1.09
50	111	LongCat Flash Chat	1121	±17	725	4.6%	0.8%	85 tps	0.9s	131K	$0.14	$0.68
51	79	MiniMax M2.5 Lightning	1119	±16	650	0.8%	1.5%	51 tps	2.0s	205K	$0.60	$2.40
52	71	Gemini 2.5 Flash Lite Preview 0925	1116	±10	2K	2.4%	1.2%	209 tps	0.7s	1M	$0.25	$0.35
53	101	Gemini 2.5 Flash Lite	1113	±6	4.4K	1.8%	1.3%	210 tps	0.7s	1M	$0.10	$0.40
54	52	Grok 4 Fast Non-Reasoning	1108	±12	1.8K	3.0%	1.5%	93 tps	0.6s	2M	$0.27	$0.67
55	79	Qwen3 Max Thinking Preview	1105	±14	1.9K	4.0%	3.1%	40 tps	2.1s	256K	$1.20	$6.00
56	124	Qwen3 235B A22B Thinking 2507	1091	±20	705	2.1%	2.5%	53 tps	1.6s	131K	$0.59	$5.70
57	101	gpt-oss-20b	1085	±12	2.1K	2.6%	0.5%	216 tps	0.5s	131K	$0.06	$0.26
58	52	GPT-5	1084	±7	5K	2.1%	3.1%	78 tps	23.1s	400K	$1.25	$9.67
59	56	DeepSeek V3.1 Turbo	1082	±16	1.8K	2.2%	0.9%	173 tps	1.3s	164K	$2.00	$3.75
60	148	Qwen3 30B A3B Thinking 2507	1081	±19	890	2.7%	0.5%	124 tps	1.2s	131K	$0.16	$1.70
61	93	Qwen Max	1080	±7	5.4K	1.1%	1.5%	49 tps	1.5s	33K	$1.60	$6.40
62	22	GLM 5	1080	±15	1.4K	1.4%	3.4%	36 tps	2.7s	200K	$0.72	$2.55
63	113	Mistral Medium	1079	±9	2.7K	1.8%	1.8%	48 tps	0.6s	33K	$1.48	$4.55
64	52	Claude Haiku 4.5	1078	±11	2.6K	3.7%	1.1%	100 tps	0.9s	200K	$1.00	$5.00
65	95	DeepSeek-R1 Turbo	1073	±16	780	3.7%	2.6%	29 tps	1.8s	64K	$2.85	$4.75
66	95	Kimi K2 Thinking	1072	±30	880	8.8%	4.2%	61 tps	5.9s	262K	$0.24	$1.03
67	60	MiniMax M2.1	1071	±11	2.6K	1.1%	2.1%	66 tps	2.6s	205K	$0.30	$1.20
68	113	Kimi K2 Fast	1069	±7	8.5K	1.0%	0.8%	365 tps	0.5s	131K	$1.00	$3.00
69	86	DeepSeek V3.1 Chat	1069	±11	1.3K	3.0%	2.8%	21 tps	1.6s	131K	$0.38	$1.00
70	93	DeepSeek V3 0324 Turbo	1068	±7	4.2K	0.8%	6.3%	12 tps	2.4s	164K	$0.73	$1.79
71	68	Grok 4	1062	±6	10.5K	1.3%	3.9%	29 tps	11.1s	256K	$3.00	$15.00
72	95	Gemini 2.5 Flash	1061	±7	10K	1.0%	1.3%	2 tps	3.7s	1M	$0.30	$2.50
73	121	Qwen3 32B Fast	1061	±9	3K	2.4%	11.6%	30 tps	3.1s	41K	$0.10	$0.25
74	44	DeepSeek V3.1 Terminus Chat	1060	±13	1.4K	3.3%	3.4%	27 tps	1.5s	131K	$0.86	$1.80
75	86	Nemotron 3 Nano (Thinking)	1059	±18	825	1.8%	2.0%	200 tps	0.5s	256K	$0	$0
76	84	GPT-5 Mini Minimal	1057	±11	745	5.7%	1.2%	63 tps	1.4s	400K	$0.25	$2.00
77	71	Gemini 2.5 Flash Thinking	1055	±11	2.8K	2.3%	2.2%	88 tps	6.4s	1M	$0.30	$2.50
78	65	DeepSeek V3.2 Exp Chat	1054	±14	1.2K	3.7%	2.6%	29 tps	1.5s	131K	$0.27	$0.39
79	52	Qwen3.5 122B A17B	1053	±25	580	3.3%	1.5%	82 tps	1.4s	256K	$0.40	$3.20
80	133	Qwen3 14B	1053	±13	1.7K	2.9%	1.7%	109 tps	0.8s	41K	$0.04	$0.15

2of5

View All (173 models)