Leaderboard | Text

Models

Choose model family

Claude by Anthropic

Mistral by Mistral AI

Topics

Choose topic

All topics Facts and Information Creative Writing and Ideation Logic and Problem-Solving Task Completion Coding

Choose language

All languages English Chinese Arabic Spanish Indonesian Japanese

More filters

Show inactive models

Hide models that are no longer actively available on Yupp.

Turns

Filter model performance by the number of turns in a conversation.

All Single turn Multiple turns

Open license models

Filter the leaderboard to only show models that have an open license.

All selected Open license Proprietary license

725

Grok 3 Mini

733

Grok 3 Mini Fast

736

OpenAI o3-mini-low

738

OpenAI o3-mini

805

Gemma 3n E4B

877

OpenAI o4-mini-high

883

Gemini 2.0 Flash Lite

886

Gemini 2.5 Flash Thinking

887

Gemini 2.0 Flash

890

Llama 4 Maverick

894

Seed 1.8 251228

903

Qwen3 Max Thinking Preview

908

Mistral Medium

911

Mistral Large 3

917

OpenAI o4-mini

Last updated about 1 month ago

Rank	Overall	Name	VIBE Score	Confidence Interval	Votes	Downvote %	Abort %	Speed	Latency	Context	Cost (Input)	Cost (Output)
1	186	Grok 3 Mini	725	±29	625	3.1%	1.2%	43 tps	0.5s	131K	$0.30	$0.50
2	186	Grok 3 Mini Fast	733	±25	540	3.6%	1.6%	44 tps	0.5s	131K	$0.60	$4.00
3	175	OpenAI o3-mini-low	736	±28	555	2.6%	0.7%	139 tps	1.5s	200K	$1.10	$4.40
4	177	OpenAI o3-mini	738	±21	700	2.1%	0.8%	143 tps	3.3s	200K	$1.10	$4.40
5	186	Gemma 3n E4B	805	±25	545	1.8%	2.0%	30 tps	0.5s	8K	$0.01	$0.02
6	148	OpenAI o4-mini-high	877	±19	685	2.1%	1.9%	117 tps	15.9s	200K	$1.10	$4.40
7	143	Gemini 2.0 Flash Lite	883	±22	1.6K	1.2%	<0.1%	42 tps	0.5s	1M	$0.08	$0.30
8	71	Gemini 2.5 Flash Thinking	886	±22	630	1.6%	2.2%	88 tps	6.4s	1M	$0.30	$2.50
9	143	Gemini 2.0 Flash	887	±23	680	2.2%	<0.1%	76 tps	0.5s	1M	$0.14	$0.56
10	161	Llama 4 Maverick	890	±14	2.2K	1.8%	1.2%	88 tps	2.4s	1M	$0.23	$0.83
11	71	Seed 1.8 251228	894	±25	660	1.5%	3.7%	41 tps	2.1s	256K	$0.25	$2.00
12	79	Qwen3 Max Thinking Preview	903	±33	535	0.9%	3.1%	40 tps	2.1s	256K	$1.20	$6.00
13	113	Mistral Medium	908	±21	845	1.7%	1.8%	48 tps	0.6s	33K	$1.48	$4.55
14	65	Mistral Large 3	911	±30	535	3.6%	2.1%	51 tps	1.0s	256K	$0.50	$1.50
15	139	OpenAI o4-mini	917	±15	650	2.3%	1.4%	97 tps	7.0s	128K	$1.10	$4.40
16	129	Command A	924	±17	2K	2.0%	2.2%	42 tps	0.8s	256K	$2.00	$7.33
17	170	Kimi K2 0711	925	±20	510	3.8%	1.6%	29 tps	1.3s	131K	$0.72	$2.60
18	68	GLM 4.7	933	±20	870	1.7%	5.8%	40 tps	1.5s	200K	$0.77	$1.73
19	133	GPT-4.1 nano	944	±13	1.5K	2.0%	0.6%	175 tps	0.5s	1M	$0.10	$0.40
20	124	Kimi K2 0905 Turbo	946	±19	795	1.9%	0.7%	373 tps	0.5s	262K	$1.70	$6.50
21	160	Llama 4 Scout	947	±14	1.6K	1.9%	0.6%	88 tps	5.1s	131K	$0.18	$0.46
22	44	Kimi K2 Thinking Turbo	954	±28	505	1.0%	2.0%	75 tps	1.4s	262K	$1.15	$8.00
23	86	Claude Sonnet 4	958	±12	3.4K	1.0%	1.8%	49 tps	1.3s	200K	$3.00	$15.00
24	118	GPT-4.1 mini	963	±13	1.9K	1.3%	1.1%	67 tps	0.9s	1M	$0.34	$1.60
25	60	Gemini 2.5 Flash Preview 0925	964	±24	700	1.4%	1.2%	5 tps	0.9s	1M	$0.13	$0.97
26	121	QwQ 32B	968	±20	650	1.5%	5.4%	41 tps	2.1s	16K	$0.43	$0.56
27	71	Gemini 2.5 Flash Lite Preview 0925	968	±18	680	1.4%	1.2%	209 tps	0.7s	1M	$0.25	$0.35
28	62	MiniMax M2	974	±21	760	1.3%	2.2%	39 tps	2.3s	205K	$0.21	$0.85
29	126	DeepSeek V3	974	±16	1.5K	1.4%	0.9%	69 tps	1.1s	64K	$0.59	$1.49
30	95	Gemini 2.5 Flash	976	±14	3.7K	1.6%	1.3%	2 tps	3.7s	1M	$0.30	$2.50
31	119	ERNIE 4.5 300B A47B	976	±15	1.2K	2.0%	4.7%	23 tps	2.3s	123K	$0.28	$1.10
32	71	GPT-5 Mini	979	±27	535	0.9%	2.6%	66 tps	14.2s	400K	$0.25	$2.00
33	113	Gemini 2.5 Flash Lite Thinking	986	±19	580	1.7%	1.0%	118 tps	4.4s	1M	$0.03	$0.13
34	48	Grok 4 Fast Reasoning	988	±17	635	0.8%	2.1%	102 tps	3.1s	2M	$0.30	$0.75
35	68	Grok 4	989	±11	3.3K	0.9%	3.9%	29 tps	11.1s	256K	$3.00	$15.00
36	113	Kimi K2 Fast	992	±10	3.5K	2.8%	0.8%	365 tps	0.5s	131K	$1.00	$3.00
37	106	Grok 3	996	±12	1.5K	1.6%	1.5%	53 tps	0.6s	1M	$3.67	$18.33
38	60	MiniMax M2.1	1007	±20	955	1.0%	2.1%	66 tps	2.6s	205K	$0.30	$1.20
39	101	Gemini 2.5 Flash Lite	1012	±16	1.5K	2.2%	1.3%	210 tps	0.7s	1M	$0.10	$0.40
40	42	GPT-5.2 (Extra High)	1020	±24	600	0.8%	13.2%	17 tps	20.5s	400K	$1.75	$14.00
41	52	GPT-5	1023	±14	1.1K	1.7%	3.1%	78 tps	23.1s	400K	$1.25	$9.67
42	48	Claude Sonnet 4 (Thinking)	1031	±20	775	1.3%	1.5%	52 tps	1.5s	200K	$3.00	$13.67
43	52	Grok 4 Fast Non-Reasoning	1031	±29	600	0.8%	1.5%	93 tps	0.6s	2M	$0.27	$0.67
44	44	DeepSeek V3.1 Terminus Chat	1034	±22	590	1.7%	3.4%	27 tps	1.5s	131K	$0.86	$1.80
45	44	Grok 4.1 Fast Reasoning	1036	±25	1.2K	1.2%	1.5%	58 tps	7.3s	2M	$0.20	$0.50
46	17	GPT-5.2 (High)	1036	±20	1.3K	1.1%	6.7%	18 tps	16.3s	400K	$1.75	$14.00
47	68	Qwen Plus (Aug'24)	1046	±18	1.5K	1.3%	1.4%	53 tps	1.3s	30K	$0.40	$1.20
48	40	Qwen3 235B A22B Instruct 2507	1050	±17	795	1.2%	6.8%	13 tps	1.9s	262K	$0.13	$0.52
49	56	DeepSeek V3.2 Thinking	1050	±23	695	1.4%	9.0%	30 tps	2.6s	131K	$0.28	$0.42
50	93	DeepSeek V3 0324 Turbo	1054	±16	1.5K	2.0%	6.3%	12 tps	2.4s	164K	$0.73	$1.79
51	93	Qwen Max	1056	±11	1.6K	2.4%	1.5%	49 tps	1.5s	33K	$1.60	$6.40
52	42	Qwen3 Max Instruct Preview	1059	±19	980	1.0%	1.1%	31 tps	1.7s	256K	$1.43	$6.61
53	106	Claude Sonnet 3.5 v2	1069	±23	630	1.6%	<0.1%	46 tps	1.4s	200K	$3.00	$15.00
54	62	GPT-5.1 Instant	1070	±21	705	1.4%	1.3%	50 tps	1.9s	400K	$1.25	$10.00
55	44	Gemini 2.5 Pro	1076	±12	1.9K	1.3%	2.3%	45 tps	2.6s	1M	$1.25	$10.00
56	10	Claude Sonnet 4.5 (Thinking)	1080	±15	1K	1.0%	1.9%	44 tps	1.1s	200K	$3.00	$15.00
57	40	DeepSeek V3.2	1083	±25	640	0.8%	1.4%	83 tps	5.1s	131K	$0.43	$1.09
58	17	Claude Opus 4.5	1086	±21	625	0.8%	1.5%	45 tps	1.5s	200K	$5.00	$25.00
59	32	Gemini 2.5 Pro High	1109	±20	1.2K	1.3%	1.5%	48 tps	2.3s	1M	$1.25	$10.00
60	81	GPT-4o	1121	±14	895	1.6%	1.0%	49 tps	2.4s	128K	$3.71	$12.57
61	106	DeepSeek V3 0324	1125	±15	1.4K	1.8%	5.8%	12 tps	2.7s	164K	$0.38	$0.93
62	33	Qwen3 Next 80B A3B Instruct	1135	±25	670	0.7%	0.6%	84 tps	1.1s	256K	$0.20	$1.42
63	48	gpt-oss-120b	1136	±19	775	1.3%	0.7%	213 tps	0.5s	131K	$0.11	$0.50
64	17	Gemini 3 Flash Preview	1137	±20	615	0.8%	1.3%	138 tps	1.4s	1M	$0.50	$3.00
65	33	Qwen3 30B A3B Instruct 2507	1139	±16	780	1.3%	1.2%	55 tps	1.3s	131K	$0.13	$0.72
66	37	Claude Sonnet 4.5	1139	±17	1.3K	1.1%	1.4%	41 tps	1.3s	200K	$1.80	$9.00
67	8	GPT-5.1 (High)	1145	±19	1.1K	3.6%	3.2%	76 tps	6.9s	400K	$1.25	$10.00
68	52	Claude Haiku 4.5	1169	±17	960	1.0%	1.1%	100 tps	0.9s	200K	$1.00	$5.00
69	26	Grok 4.1 Fast Non-Reasoning	1183	±28	980	1.0%	0.9%	101 tps	0.5s	2M	$0.20	$0.50
70	33	Kimi K2.5	1186	±38	760	0.7%	6.5%	33 tps	1.7s	262K	$0.34	$2.57
71	7	Claude Opus 4.5 (Thinking)	1188	±22	1.1K	1.8%	1.8%	49 tps	1.4s	200K	$5.00	$25.00
72	14	Gemini 3 Flash Preview Thinking	1195	±20	950	1.6%	1.6%	3 tps	6.2s	1M	$0.50	$3.00
73	26	Claude Haiku 4.5 (Extended Thinking)	1200	±17	610	0.8%	1.4%	115 tps	0.7s	200K	$1.00	$5.00
74	16	GPT-5.2	1203	±26	680	0.7%	4.1%	18 tps	2.7s	400K	$1.75	$14.00
75	14	Gemini 3 Pro (Low)	1211	±21	1K	0.9%	2.4%	51 tps	3.5s	1M	$2.00	$12.00
76	10	GPT-5.2 Instant	1214	±21	1.3K	0.4%	1.7%	52 tps	2.0s	400K	$1.75	$14.00
77	10	Gemini 3 Pro	1235	±13	1.6K	1.2%	2.1%	50 tps	3.6s	1M	$2.00	$12.00
78	8	GPT-5.1	1239	±21	960	0.5%	2.3%	71 tps	1.4s	400K	$1.42	$11.33
79	22	GPT-5 Chat	1313	±8	2.4K	0.6%	1.3%	95 tps	0.9s	400K	$1.25	$10.00

Show Less