Leaderboard | Text

Models

Choose model family

Claude by Anthropic

Mistral by Mistral AI

Topics

Choose topic

All topics Facts and Information Creative Writing and Ideation Logic and Problem-Solving Task Completion Coding

Choose language

All languages English Chinese Arabic Spanish Indonesian Japanese

More filters

Show inactive models

Hide models that are no longer actively available on Yupp.

Turns

Filter model performance by the number of turns in a conversation.

All Single turn Multiple turns

Open license models

Filter the leaderboard to only show models that have an open license.

All selected Open license Proprietary license

1031

DeepSeek R1T2 Chimera

1037

OpenAI o3-pro

1038

DeepSeek-R1 0528

1041

Gemini 2.5 Flash Lite Thinking

1044

Grok 3

1045

DeepSeek V3 0324

1046

DeepSeek V3.2 Exp Thinking

1046

Kimi K2.5 Instant

1047

GPT-5 Mini

1047

GLM 4.7

1049

Qwen3 Next 80B A3B Thinking

1050

MiniMax M2.1 Lightning

1051

Gemini 2.5 Flash Lite Thinking Preview 0925

1053

Qwen3 14B

1053

Qwen3.5 122B A17B

Last updated about 1 month ago

Rank	Overall	Name	VIBE Score	Confidence Interval	Votes	Downvote %	Abort %	Speed	Latency	Context	Cost (Input)	Cost (Output)
81	165	DeepSeek R1T2 Chimera	1031	±17	575	3.4%	3.0%	28 tps	1.8s	164K	$0.13	$0.45
82	81	OpenAI o3-pro	1037	±18	950	2.6%	5.2%	22 tps	70.8s	200K	$20.00	$80.00
83	133	DeepSeek-R1 0528	1038	±13	1.7K	2.0%	1.3%	93 tps	0.5s	64K	$1.60	$3.67
84	113	Gemini 2.5 Flash Lite Thinking	1041	±9	2.2K	1.8%	1.0%	118 tps	4.4s	1M	$0.03	$0.13
85	106	Grok 3	1044	±7	6K	1.1%	1.5%	53 tps	0.6s	1M	$3.67	$18.33
86	106	DeepSeek V3 0324	1045	±8	4.1K	1.0%	5.8%	12 tps	2.7s	164K	$0.38	$0.93
87	95	DeepSeek V3.2 Exp Thinking	1046	±18	735	4.5%	7.2%	26 tps	3.0s	131K	$0.28	$0.42
88	37	Kimi K2.5 Instant	1046	±16	620	2.4%	2.9%	32 tps	3.0s	262K	$0.50	$3.00
89	71	GPT-5 Mini	1047	±9	2.2K	2.7%	2.6%	66 tps	14.2s	400K	$0.25	$2.00
90	68	GLM 4.7	1047	±15	2.4K	1.2%	5.8%	40 tps	1.5s	200K	$0.77	$1.73
91	157	Qwen3 Next 80B A3B Thinking	1049	±9	2K	2.6%	0.6%	175 tps	1.3s	256K	$0.21	$2.26
92	56	MiniMax M2.1 Lightning	1050	±23	615	1.6%	1.7%	52 tps	2.1s	205K	$0.30	$2.40
93	95	Gemini 2.5 Flash Lite Thinking Preview 0925	1051	±15	1.5K	4.2%	1.5%	152 tps	3.0s	1M	$0.10	$0.40
94	133	Qwen3 14B	1053	±13	1.7K	2.9%	1.7%	109 tps	0.8s	41K	$0.04	$0.15
95	52	Qwen3.5 122B A17B	1053	±25	580	3.3%	1.5%	82 tps	1.4s	256K	$0.40	$3.20
96	65	DeepSeek V3.2 Exp Chat	1054	±14	1.2K	3.7%	2.6%	29 tps	1.5s	131K	$0.27	$0.39
97	71	Gemini 2.5 Flash Thinking	1055	±11	2.8K	2.3%	2.2%	88 tps	6.4s	1M	$0.30	$2.50
98	84	GPT-5 Mini Minimal	1057	±11	745	5.7%	1.2%	63 tps	1.4s	400K	$0.25	$2.00
99	86	Nemotron 3 Nano (Thinking)	1059	±18	825	1.8%	2.0%	200 tps	0.5s	256K	$0	$0
100	44	DeepSeek V3.1 Terminus Chat	1060	±13	1.4K	3.3%	3.4%	27 tps	1.5s	131K	$0.86	$1.80
101	121	Qwen3 32B Fast	1061	±9	3K	2.4%	11.6%	30 tps	3.1s	41K	$0.10	$0.25
102	95	Gemini 2.5 Flash	1061	±7	10K	1.0%	1.3%	2 tps	3.7s	1M	$0.30	$2.50
103	68	Grok 4	1062	±6	10.5K	1.3%	3.9%	29 tps	11.1s	256K	$3.00	$15.00
104	93	DeepSeek V3 0324 Turbo	1068	±7	4.2K	0.8%	6.3%	12 tps	2.4s	164K	$0.73	$1.79
105	86	DeepSeek V3.1 Chat	1069	±11	1.3K	3.0%	2.8%	21 tps	1.6s	131K	$0.38	$1.00
106	113	Kimi K2 Fast	1069	±7	8.5K	1.0%	0.8%	365 tps	0.5s	131K	$1.00	$3.00
107	60	MiniMax M2.1	1071	±11	2.6K	1.1%	2.1%	66 tps	2.6s	205K	$0.30	$1.20
108	95	Kimi K2 Thinking	1072	±30	880	8.8%	4.2%	61 tps	5.9s	262K	$0.24	$1.03
109	95	DeepSeek-R1 Turbo	1073	±16	780	3.7%	2.6%	29 tps	1.8s	64K	$2.85	$4.75
110	52	Claude Haiku 4.5	1078	±11	2.6K	3.7%	1.1%	100 tps	0.9s	200K	$1.00	$5.00
111	113	Mistral Medium	1079	±9	2.7K	1.8%	1.8%	48 tps	0.6s	33K	$1.48	$4.55
112	22	GLM 5	1080	±15	1.4K	1.4%	3.4%	36 tps	2.7s	200K	$0.72	$2.55
113	93	Qwen Max	1080	±7	5.4K	1.1%	1.5%	49 tps	1.5s	33K	$1.60	$6.40
114	148	Qwen3 30B A3B Thinking 2507	1081	±19	890	2.7%	0.5%	124 tps	1.2s	131K	$0.16	$1.70
115	56	DeepSeek V3.1 Turbo	1082	±16	1.8K	2.2%	0.9%	173 tps	1.3s	164K	$2.00	$3.75
116	52	GPT-5	1084	±7	5K	2.1%	3.1%	78 tps	23.1s	400K	$1.25	$9.67
117	101	gpt-oss-20b	1085	±12	2.1K	2.6%	0.5%	216 tps	0.5s	131K	$0.06	$0.26
118	124	Qwen3 235B A22B Thinking 2507	1091	±20	705	2.1%	2.5%	53 tps	1.6s	131K	$0.59	$5.70
119	79	Qwen3 Max Thinking Preview	1105	±14	1.9K	4.0%	3.1%	40 tps	2.1s	256K	$1.20	$6.00
120	52	Grok 4 Fast Non-Reasoning	1108	±12	1.8K	3.0%	1.5%	93 tps	0.6s	2M	$0.27	$0.67

3of5

View All (173 models)