Leaderboard | Text

Models

Choose model family

Claude by Anthropic

Mistral by Mistral AI

Choose topic

All topics Facts and Information Creative Writing and Ideation Logic and Problem-Solving Task Completion Coding

Language

Choose language

All languages English Chinese Arabic Spanish Indonesian Japanese

More filters

Show inactive models

Hide models that are no longer actively available on Yupp.

Turns

Filter model performance by the number of turns in a conversation.

All Single turn Multiple turns

Open license models

Filter the leaderboard to only show models that have an open license.

All selected Open license Proprietary license

1083

GPT-5

1083

Claude Sonnet 4

1080

MiniMax M2.1

1079

Qwen Turbo

1077

GPT-5 (Minimal)

1077

Grok 4 Fast Reasoning

1077

Claude Opus 4

1076

NVIDIA Llama 3.3 Nemotron Super 49B v1.5

1076

Claude Haiku 4.5

1075

Grok 4 Fast Non-Reasoning

1075

DeepSeek-R1 Turbo

1071

Gemini 3.1 Flash Lite Preview Thinking

1070

Grok 4

1068

Gemini 2.5 Flash

1067

MiniMax M2.1 Lightning

Last updated about 1 month ago

Rank	Overall	Name	VIBE Score	Confidence Interval	Votes	Downvote %	Abort %	Speed	Latency	Context	Cost (Input)	Cost (Output)
81	52	GPT-5	1083	±5	7.6K	2.2%	3.1%	78 tps	23.1s	400K	$1.25	$9.67
82	86	Claude Sonnet 4	1083	±5	12K	1.6%	1.8%	49 tps	1.3s	200K	$3.00	$15.00
83	60	MiniMax M2.1	1080	±6	5.2K	0.6%	2.1%	66 tps	2.6s	205K	$0.30	$1.20
84	159	Qwen Turbo	1079	±8	3.9K	1.4%	<0.1%	53 tps	1.1s	1M	$0.05	$0.20
85	80	GPT-5 (Minimal)	1077	±5	3K	3.6%	<0.1%	67 tps	1.4s	400K	$1.25	$10.00
86	48	Grok 4 Fast Reasoning	1077	±6	3.3K	2.8%	2.1%	102 tps	3.1s	2M	$0.30	$0.75
87	21	Claude Opus 4	1077	±13	920	2.6%	<0.1%	25 tps	1.5s	200K	$15.00	$75.00
88	121	NVIDIA Llama 3.3 Nemotron Super 49B v1.5	1076	±12	755	1.9%	2.0%	50 tps	0.6s	131K	$0.09	$0.33
89	52	Claude Haiku 4.5	1076	±8	4.2K	2.2%	1.1%	100 tps	0.9s	200K	$1.00	$5.00
90	52	Grok 4 Fast Non-Reasoning	1075	±6	2.9K	3.3%	1.5%	93 tps	0.6s	2M	$0.27	$0.67
91	95	DeepSeek-R1 Turbo	1075	±6	1.9K	2.4%	2.6%	29 tps	1.8s	64K	$2.85	$4.75
92	56	Gemini 3.1 Flash Lite Preview Thinking	1071	±13	560	1.8%	1.7%	75 tps	4.7s	1M	$0.25	$1.50
93	68	Grok 4	1070	±4	13.8K	1.6%	3.9%	29 tps	11.1s	256K	$3.00	$15.00
94	95	Gemini 2.5 Flash	1068	±4	11.2K	1.2%	1.3%	2 tps	3.7s	1M	$0.30	$2.50
95	56	MiniMax M2.1 Lightning	1067	±12	855	0.6%	1.7%	52 tps	2.1s	205K	$0.30	$2.40
96	292	AFM 4.5B	1067	±6	2.1K	1.6%	<0.1%	81 tps	0.3s	66K	$0.05	$0.20
97	79	Qwen3 Max Thinking Preview	1067	±6	3.1K	1.4%	3.1%	40 tps	2.1s	256K	$1.20	$6.00
98	108	GPT-5 Mini Low	1067	±11	755	4.4%	<0.1%	69 tps	3.2s	400K	$0.25	$2.00
99	71	Gemini 2.5 Flash Lite Preview 0925	1066	±6	3.3K	2.8%	1.2%	209 tps	0.7s	1M	$0.25	$0.35
100	124	Qwen3 235B A22B Thinking 2507	1065	±7	1.8K	1.9%	2.5%	53 tps	1.6s	131K	$0.59	$5.70
101	44	Kimi K2 Thinking Turbo	1065	±6	3K	1.9%	2.0%	75 tps	1.4s	262K	$1.15	$8.00
102	65	Mistral Large 3	1064	±7	1.8K	2.2%	2.1%	51 tps	1.0s	256K	$0.50	$1.50
103	118	GPT-4.1 mini	1062	±5	5.5K	1.8%	1.1%	67 tps	0.9s	1M	$0.34	$1.60
104	81	OpenAI o3-pro	1061	±14	1.3K	2.7%	5.2%	22 tps	70.8s	200K	$20.00	$80.00
105	133	Solar Pro 2 250710	1060	±5	4.8K	1.5%	<0.1%	9 tps	N/A	66K	$0.50	$0.50
106	106	Grok 3	1054	±6	7.1K	1.7%	1.5%	53 tps	0.6s	1M	$3.67	$18.33
107	95	Kimi K2 Thinking	1054	±9	1.9K	3.8%	4.2%	61 tps	5.9s	262K	$0.24	$1.03
108	71	DeepSeek V3.1	1053	±13	1.8K	1.6%	0.8%	197 tps	0.4s	164K	$0.55	$1.60
109	44	DeepSeek V3.1 Terminus Chat	1053	±6	2.6K	2.6%	3.4%	27 tps	1.5s	131K	$0.86	$1.80
110	133	Gemini 2.5 Pro Preview 0605	1051	±12	655	<0.1%	<0.1%	0 tps	3.7s	1M	$1.25	$10.00
111	126	Qwen3 30B A3B	1051	±7	3.9K	1.3%	5.1%	163 tps	1.0s	41K	$0.06	$0.21
112	65	DeepSeek V3.2 Exp Chat	1047	±9	2.2K	3.1%	2.6%	29 tps	1.5s	131K	$0.27	$0.39
113	62	MiniMax M2	1046	±6	3.8K	1.9%	2.2%	39 tps	2.3s	205K	$0.21	$0.85
114	119	ERNIE 4.5 300B A47B	1046	±6	5.3K	1.3%	4.7%	23 tps	2.3s	123K	$0.28	$1.10
115	133	GPT-4.1 nano	1046	±8	5.1K	2.0%	0.6%	175 tps	0.5s	1M	$0.10	$0.40
116	241	OLMo 3 7B Think	1045	±12	710	1.4%	4.2%	77 tps	0.4s	66K	$0.12	$0.20
117	48	Claude Sonnet 4 (Thinking)	1044	±5	8.4K	2.3%	1.5%	52 tps	1.5s	200K	$3.00	$13.67
118	71	Gemini 2.5 Flash Thinking	1042	±5	6.5K	1.5%	2.2%	88 tps	6.4s	1M	$0.30	$2.50
119	182	Gemini 2.5 Flash Preview Thinking	1041	±16	620	1.6%	<0.1%	26 tps	1.8s	1M	$0.15	$1.76
120	71	Qwen3.5 397B A17B	1040	±10	1.4K	1.4%	4.3%	57 tps	1.4s	256K	$0.52	$3.00

3of7

View All (260 models)