Leaderboard | Text

Models

Choose model family

Claude by Anthropic

Mistral by Mistral AI

Topics

Choose topic

All topics Facts and Information Creative Writing and Ideation Logic and Problem-Solving Task Completion Coding

Choose language

All languages English Chinese Arabic Spanish Indonesian Japanese

More filters

Show inactive models

Hide models that are no longer actively available on Yupp.

Turns

Filter model performance by the number of turns in a conversation.

All Single turn Multiple turns

Open license models

Filter the leaderboard to only show models that have an open license.

All selected Open license Proprietary license

1015

QwQ 32B

1014

ERNIE 4.5 300B A47B

1014

Claude Sonnet 3.7 (Thinking)

1013

Claude Sonnet 4

1011

GPT-5 Mini Low

1004

Qwen 2.5 32B Instruct

1001

GLM 4.6

999

GPT-4.1 mini

998

Qwen3 235B A22B

997

Seed 1.8 251228

994

GLM Z1 32B

991

Qwen3 8B

986

GLM 4.5

986

Qwen3 30B A3B

984

DeepSeek V3.1 Thinking

Last updated about 1 month ago

Rank	Overall	Name	VIBE Score	Confidence Interval	Votes	Downvote %	Abort %	Speed	Latency	Context	Cost (Input)	Cost (Output)
121	121	QwQ 32B	1015	±7	4.6K	1.4%	5.4%	41 tps	2.1s	16K	$0.43	$0.56
122	119	ERNIE 4.5 300B A47B	1014	±11	4K	1.1%	4.7%	23 tps	2.3s	123K	$0.28	$1.10
123	84	Claude Sonnet 3.7 (Thinking)	1014	±11	1.8K	3.0%	<0.1%	41 tps	2.6s	200K	$3.00	$15.00
124	86	Claude Sonnet 4	1013	±7	10.4K	1.2%	1.8%	49 tps	1.3s	200K	$3.00	$15.00
125	108	GPT-5 Mini Low	1011	±15	510	4.7%	<0.1%	69 tps	3.2s	400K	$0.25	$2.00
126	153	Qwen 2.5 32B Instruct	1004	±14	1.2K	1.7%	2.5%	48 tps	1.0s	131K	$0.21	$0.25
127	65	GLM 4.6	1001	±15	1.3K	4.4%	5.4%	39 tps	1.5s	200K	$0.42	$1.66
128	118	GPT-4.1 mini	999	±10	5.1K	1.4%	1.1%	67 tps	0.9s	1M	$0.34	$1.60
129	86	Qwen3 235B A22B	998	±18	1.4K	3.2%	5.3%	71 tps	0.9s	41K	$0.23	$0.63
130	71	Seed 1.8 251228	997	±13	2.4K	1.3%	3.7%	41 tps	2.1s	256K	$0.25	$2.00
131	277	GLM Z1 32B	994	±20	580	1.7%	<0.1%	18 tps	9.3s	33K	$0.09	$0.11
132	161	Qwen3 8B	991	±11	1.4K	2.5%	2.4%	61 tps	1.4s	41K	$0.02	$0.07
133	113	GLM 4.5	986	±15	1.5K	2.0%	3.7%	46 tps	1.4s	131K	$0.43	$1.63
134	126	Qwen3 30B A3B	986	±16	1.9K	3.4%	5.1%	163 tps	1.0s	41K	$0.06	$0.21
135	129	DeepSeek V3.1 Thinking	984	±13	1.4K	3.7%	7.1%	18 tps	1.8s	131K	$0.23	$0.75
136	126	DeepSeek V3	975	±10	5.5K	0.5%	0.9%	69 tps	1.1s	64K	$0.59	$1.49
137	65	Mistral Large 3	974	±20	1.2K	5.5%	2.1%	51 tps	1.0s	256K	$0.50	$1.50
138	139	OpenAI o4-mini	971	±8	2.2K	2.6%	1.4%	97 tps	7.0s	128K	$1.10	$4.40
139	148	OpenAI o3	968	±12	1.6K	1.6%	0.9%	85 tps	6.8s	128K	$7.33	$29.33
140	143	Gemini 2.0 Flash	965	±12	1.8K	1.3%	<0.1%	76 tps	0.5s	1M	$0.14	$0.56
141	71	DeepSeek V3.1	962	±20	750	3.2%	0.8%	197 tps	0.4s	164K	$0.55	$1.60
142	129	Command A	959	±8	6.2K	1.2%	2.2%	42 tps	0.8s	256K	$2.00	$7.33
143	133	GPT-4.1 nano	958	±8	4K	1.4%	0.6%	175 tps	0.5s	1M	$0.10	$0.40
144	157	GPT-5 Nano	955	±18	1.2K	4.1%	3.2%	113 tps	20.9s	400K	$0.05	$0.40
145	211	Gemini 1.5 Pro	952	±45	590	3.3%	<0.1%	15 tps	0.0s	2M	$0.78	$3.13
146	86	Amazon Nova 2 Lite	948	±21	970	7.6%	1.0%	137 tps	0.6s	300K	$0.35	$2.95
147	143	Gemini 2.0 Flash Lite	948	±7	3.5K	1.7%	<0.1%	42 tps	0.5s	1M	$0.08	$0.30
148	153	OpenAI o1	946	±11	3.6K	1.0%	4.2%	92 tps	5.5s	200K	$15.00	$60.00
149	165	Pixtral Large	941	±18	940	3.6%	2.5%	57 tps	1.3s	128K	$1.50	$4.50
150	165	Qwen3 4B	940	±14	1.7K	5.2%	1.9%	94 tps	1.5s	128K	$0.01	$0.01
151	179	GLM 4.7 Flash	932	±26	690	2.1%	5.8%	61 tps	2.8s	128K	$0.07	$0.39
152	170	Kimi K2 0711	932	±12	2.4K	1.7%	1.6%	29 tps	1.3s	131K	$0.72	$2.60
153	170	Mistral Small 3.2 24B	929	±14	985	2.5%	2.8%	141 tps	0.7s	33K	$0.02	$0.08
154	106	DeepSeek V3.1 Terminus Thinking	927	±17	840	4.5%	5.9%	27 tps	1.8s	131K	$0.56	$1.68
155	161	Mistral Small 3.1	924	±36	615	2.4%	7.4%	13 tps	2.6s	32K	$0.17	$0.28
156	111	Grok 3 Fast	922	±12	530	0.9%	1.7%	52 tps	2.4s	131K	$5.00	$25.00
157	133	DeepSeek V3.2 Speciale	922	±25	780	6.6%	6.0%	43 tps	1.4s	131K	$0.84	$1.52
158	148	OpenAI o4-mini-high	915	±10	4.7K	1.5%	1.9%	117 tps	15.9s	200K	$1.10	$4.40
159	148	DeepSeek-R1	904	±16	1.7K	2.8%	0.8%	133 tps	0.6s	64K	$0.91	$3.07
160	292	AFM 4.5B	903	±22	1.1K	2.6%	<0.1%	81 tps	0.3s	66K	$0.05	$0.20

4of6

View All (223 models)