Knowledge | alphaXiv

Knowledge

Factual recall and domain expertise

350 datasets

last indexed 17h ago

Model Leaderboard

No.	Model	Score
1	Gemini 3 Pro	1.00
2	Grok 4	0.60
3	GPT-5	0.60
4	Qwen3 235B A22B	0.59
5	Gemini 2.5 Pro	0.58
6	o3	0.56
7	GPT-5 Mini	0.48
8	Claude Sonnet 4.5	0.32
9	GPT-4.1	0.31
10	o1	0.30
11	Grok 3	0.28
12	GPT-5.1	0.18
13	Claude Opus 4.1	0.17
14	Gemini 2.5 Flash	0.15
15	Claude 3.7 Sonnet	0.12
16	DeepSeek-R1	0.10
17	GPT-4o	0.08
18	Claude 4.5 Sonnet (thinking)	0.06
19	DeepSeek-V3	0.02
20	Claude Opus 4 (thinking)	0.00
21	Claude 3.5 Sonnet	0.00

Name	Organization	Best Model
Humanity's Last Exam	Scale AI	Gemini 3 Pro
SimpleQA Verified	Google DeepMind	Gemini 3 Pro Preview
TimeQA	University of California, Santa Barbara	Human Worker
RAGBench	Galileo Technologies Inc.	DeBERTA
OMGEval	Northeastern University	GPT-4
SimpleQA	OpenAI	OpenAI o1-preview
SuperGPQA	2077.AI	gpt-5
MedXpertQA	Shanghai Artificial Intelligence Laboratory	o1
RAGTruth	University of Illinois at Urbana-Champaign	GPT-4-0613
POPQA	University of Washington	GPT-3 davinci-003
Visual-RAG	Nanjing University of Science and Technology	Gemini 2.5 Pro
ESGenius	Alibaba Group	o3
ChroKnowBench	Korea University	GPT4o-mini
Factcheck-Bench	University of Illinois at Urbana-Champaign	Factcheck-GPT (Web)
LongFact	Google DeepMind	GPT-4-Turbo
LLM-AggreFact	The University of Texas at Austin	Bespoke-Minicheck-7B
SciAssess	DP Technology	GPT-4o
ARC	Allen Institute for Artificial Intelligence	DGEM
CulturalBench	University of Washington	o1
AGIEval	Microsoft	GPT-4o
SciFIBench	Google DeepMind	GPT-4o
HalluEditBench	Illinois Institute of Technology	Llama3-8B
DLAMA	University of Edinburgh	arBERT
PubMedQA	University of Pittsburgh	GPT-4 (Medprompt)
FinDER	Yonsei University	Claude-3.7-Sonnet
HaluBench	Stanford University	LYNX (70B)
BizFinBench	Harbin Institute of Technology	ChatGPT-o3
QuALITY	New York University	Human annotators
Chinese SimpleQA	Taobao & Tmall Group of Alibaba	o1-preview
KGQuiz	University of Washington	Davinci (text-davinci-003)
Wikidata5M	Tsinghua University	KEPLER-Cond
FinEval	Shanghai University of Finance and Economics	Claude 3.5-Sonnet
FaithJudge	University of Waterloo	gemini-2.5-flash
STaRK	Stanford University	Claude3 Reranker
Pinocchio	University of Cambridge	GPT-3.5-Turbo
MedQA-CS	Emory University	Claude 3.5 Sonnet
KGQAGen-10k	Rensselaer Polytechnic Institute	GPT-4o (w/ SP)
CRUD-RAG	University of Science and Technology of China	GPT-4o
MedBrowseComp	Universitat Pompeu Fabra	O3 deepresearch
LexRAG	Tsinghua University	Qwen-2.5-72B
C-Eval	Shanghai Jiao Tong University	海信星海
XRAG	Amazon AGI	GPT-4o
SecKnowledge-Eval	IBM Research	CyberPal.AI-Mistral
SimpleVQA	Beihang University	Gemini-2.0-flash
INFOSEEK	Georgia Institute of Technology	CLIP → FiD
ICD-Bench	Princeton University	o4-mini
A-OKVQA	Carnegie Mellon University	GPV-2
RAG-QA Arena	University of California, Santa Barbara	GPT-4O (without CoT)
CommonsenseQA	Allen Institute for Artificial Intelligence	Human
VERISCORE	UMass Amherst	GPT-4o
MLaKE	Chinese Academy of Sciences	Qwen1.5-7B-Chat
FACT-AUDIT	National University of Singapore	GPT-4o
RAG-Check	University of Maryland	GPT-4o
LawBench	Shanghai AI Laboratory	GPT-4
TheoremQA	University of Waterloo	GPT-4
BoolQ	University of Washington	RankVicuna
ChineseEcomQA	Taobao & Tmall Group of Alibaba	DeepSeek-R1
WikiBigEdit	Helmholtz Munich	mistral-7b
MedBench	Shanghai Artificial Intelligence Laboratory	GPT-4
MedRGB	University of Oregon	GPT-3.5
ORQA	University of Toronto	Llama3.1-405B-I
ReasonVQA	Technical University of Berlin	GPT-4o
ToolQA	Georgia Institute of Technology	ReAct (GPT-3.5)
HistBench	Fudan University	HistAgent (gpt-4o)
FactBench	University of Michigan	GPT-4o
KG-LLM-Bench	University of Southern California	claude-3.5-sonnet-v2
SecBench	The Hong Kong Polytechnic University	o1-preview
ScienceMeter	University of Washington	OLMO2-32B-INSTRUCT
Chinese SafetyQA	Alibaba Group	o1-preview
BMMR	Shanghai AI Laboratory	Gemini-2.5-pro
DomainRAG	Renmin University of China	Baichuan2-33B-32k
SciKnowEval	Zhejiang University	o4-mini
WildHallucinations	University of Washington	GPT-4o
OKGQA	National University of Singapore	GPT-4o (CoT+SC)
GAOKAO-Bench	Fudan University	GPT-4-0314
CFinBench	Huawei Noah’s Ark Lab	Yi1.5-34B
Continual Knowledge Learning	KAIST	T5-Modular
Hallucinations Leaderboard	University College London	OpenHermes-2.5-Mistral-7B
WikiContradict	IBM Research – Thomas J. Watson Research Center	Mistral-7b-inst
ICR2	University of Edinburgh	GPT-4-turbo
CFLUE	Alibaba Group	GPT-4
FELM	Carnegie Mellon University	GPT-4
TeleQnA	The Chinese University of Hong Kong	GPT-4
NEPAQuAD	Pacific Northwest National Laboratory	Gemini 1.5 Pro
YESciEval	Leibniz Universität Hannover	LLaMA-3.1-8B (SFT+RL adversarial)
OpenFactCheck	Monash University	GPT-4
KoLA	Tsinghua University	GPT-4
ECHOQA	University of California, Santa Barbara	OpenAI o1
SciFact	University of Washington	Oracle Rationale
MMKE-Bench	University of Science and Technology of China	LLaVA-1.5 (IKE)
SUBARU	Ant Group	Llama3.1-8B-Instruct
ArabicMMLU	New York University	GPT-4
ChineseSimpleVQA	Alibaba Group	o1-preview (0901)
PubHealthBench	UK Health Security Agency	GPT-4.5
EWoK	Harvard University	Human
BMIKE-53	University of Oxford	Llama 3.1 8B
GuessArena	Renmin University of China	OpenAI-o1
MILU	Indian Institute of Technology Madras	GPT-4o
MEMERAG	Amazon	Qwen 2.5 32B
FRANK	Carnegie Mellon University	BERTScore Precision
HalluQA	Shanghai AI Laboratory	ERNIE-Bot
KorNAT	KAIST	HyperCLOVA X
InfiBench	University of Illinois at Urbana-Champaign	GPT-4o-0125
FACTRBENCH	University of Michigan	GPT4o
SeaExam and SeaBench	Nanyang Technological University	Gemma-2-9b-it
CAQA	Monash University	Mistral-v0.3 (7B)
ORD-QA	Shanghai AI Laboratory	RAG-EDA (ours)
OpenMedQA	Barcelona Supercomputing Center	DeepSeek-R1 with CR
MIRAGE-Bench	University of Waterloo	GPT-4o
UniKnow	Seoul National University	QWEN-14B
FeTaQA	Yale University	T5-large
AA-Omniscience	Artificial Analysis	Gemini 3 Pro Preview
EverGreenQA	HSE University	EG-E5
Head-to-Tail	Meta Reality Labs	GPT-4
KCIF	IBM Research AI	GPT-4o-2024-08-06
DefAn	The University of Western Australia	GPT-3.5
TEMPREASON	Alibaba Group	TempT5 (T5-base)
WixQA	Wix.com	GPT-4o
HAE-RAE Bench	OneLineAI	GPT-4
ProfBench	NVIDIA	GPT-5 (high)
ContextualBench	Salesforce AI Research	SFR-RAG-9B
MULTI	Shanghai Jiao Tong University	expert
DebateQA	University of Cambridge	GPT-4o
ZNO-Eval	Odesа Polytechnic National University	GPT-4o
CPsyExam	South China University of Technology	GPT-4
EVOUNA	Northeastern University	Another Human
ComprehendEdit	Northwestern Polytechnical University	BLIP-2 OPT
CliMedBench	Shanghai Jiao Tong University	ERNIE-Bot
ATEB	Google DeepMind	Gecko
GEOHALUBENCH	Tsinghua University	Gemini-2.0-flash
FACTOR	AI21 Labs	OPT-66B
MKQA	Apple	XLM-R (Gold Passages, Translate-Train)
InsQABench	Fudan University	GLM4 (Fine-tuned) + RAG-ReAct 9B
VND-Bench	Visa	GPT-4
ArabLegalEval	KAUST	GPT-4o
Question Answering with Conflicting Contexts	University of Pennsylvania	Phi-3 Medium (finetuned)
RoleEval	Tianjin University	GPT-4-0613
FinCDM	Wuhan University	GLM-4
CHARM	Wuhan University	Qwen-72B
FAMMA	Ant Group	PoT + GPT-o1
FACTORY	Meta	Qwen3
MMLU-Pro+	Autodesk AI Research	O1-preview
EvoWiki	Fudan University	SFT + Open-book (Mistral-7B-Instruct-v0.3)
SciRerankBench	Chinese Academy of Sciences	MXBAI
CLIcK	KAIST	Claude 2
MedThink-Bench	University of Georgia	MedGemma-27B
DRAGON	HSE	Qwen 2.5 32b Instruct
BioKGBench	Zhejiang University	GPT-4
CREAK	The University of Texas at Austin	T5-3B (In-Domain)
KnowMT-Bench	HKUST	GPT-4o
KnowShiftQA	the University of Tokyo	o1-preview
ArXivBench	UCLA	Claude-3.5-sonnet
SportQA	University of California, Santa Barbara	GPT-4(5S,CoT)
TUMLU	KAIST	Claude 3.5 Sonnet
MISBENCH	The Hong Kong University of Science and Technology (Guangzhou)	Qwen2.5-14B
KaLMA	University of California, Santa Barbara	GPT-4 (temp=0.5)
LegalBench.PT	Instituto Superior Técnico	GPT-4o
OneEval	Monash University	o3
X-FaKT	Harvard University	Llama-3-70B
MaScQA	Indian Institute of Technology Delhi	GPT-4-CoT
AICrypto	Chinese Academy of Sciences	human
KG-FPQ	Beijing Jiaotong University	Llama2-13B-Chat
K-QA	The Hebrew University of Jerusalem	GPT-4+ICL
BnMMLU	University of Malaya	gemini-2.0-flash
HaystackCraft	National University of Singapore	GPT-5
Pedagogy Benchmark	Fab Inc.	Gemini-2.5 Pro
RARE	Carnegie Mellon University	Llama-3.2-90B-Vision-Instruct
FAC²E	Université de Montréal	GPT-4
SciTabQA	Indian Institute of Technology Gandhinagar	OmniTab
KoNET	NAVER Cloud AI	gpt-4o-2024-05-13
KoLasSimpleQA	Shanghai Artificial Intelligence Laboratory	GPT-4o
EMPEC	The University of Manchester	GPT-4
RoMQA	University of Washington	seq2seq+retrieval
EvolvingQA	KAIST	DPR
CAMB	Georgia Institute of Technology	Qwen3-235B-A22B-Instruct
Fakepedia	EPFL	Mistral-7B-Instruct-v0.1
PROBELM	University of Cambridge	PYTHIA-2.8B
X-FACT	University of Utah	XLM-R large
SummEdits	Salesforce AI	Human Performance
GTSQA	Graphcore Research	SubgraphRAG (200)
TrendFact	Northeastern University	FactISR(QwQ-32B)
DFIR-Metric	University of Oslo	GPT-4.1
CUB	University of Copenhagen	COMMAND A
FactIR	Delft University of Technology	Snowflake-arctic-embed-s
RAG Hallucination Benchmark	San Jose State University	TLM
MedREQAL	Technical University of Munich	Mixtral
ScholarBench	KAIST	o3-mini
Futurepedia	Alibaba Group	Qwen2-72B-Instruct
ParamBench	Indian Institute of Management Indore	Llama-3.3-70B
MultiHoax	Politecnico di Milano	Gemini-2.0-pro-exp
AncientDoc	Fudan University	Gemini2.5-Pro
KBL	Hanyang University	Mistral-7B-v0.2-Instruct
NoMIRACL	University of Waterloo	Mistral-7B
SciEx	Karlsruhe Institute of Technology	Claude-3-opus-20240229
QuanTemp	Delft University of Technology	FinQA-Roberta-Large
DQABench	Tsinghua University	GPT-4
StructFact	The Hong Kong University of Science and Technology (Guangzhou)	GPT-4o-mini
QualBench	Hong Kong Polytechnic University	Qwen2.5-7b-instruct
PediaBench	East China Normal University	Qwen-MAX
ALCUNA	Peking University	gpt-4o-2024-04-09
KQA Pro	Huawei Noah’s Ark Lab	BART KoPL
NEWTON	University of Washington	GPT-4
SECQUE	Microsoft	GPT-4o
GaRAGe	Amazon	Nova Pro
DocTER	Xiamen University	ChatGPT
CROLIN-MQUAKE	Google DeepMind	GPT-3.5-turbo-instruct
EarthSE	Shanghai Artificial Intelligence Laboratory	Gemini-2.5
COMPKE	South China University of Technology	GPT-3.5-TURBO
Xiezhi	Fudan University	GPT-4
KFinEval-Pilot	KAIST	gpt-o1
Explain-Query-Test	Autodesk Research	Sonnet-3.5
Temporally Consistent Factuality Probe	Indian Institute of Technology Delhi	GPT-J [6B]
AC-EVAL	Beijing University of Posts and Telecommunications	ERNIE-Bot 4.0
MedicineQA	Shanghai AI Laboratory	RagPULSE (20B)
CONNER	National University of Singapore	ChatGPT (text-davinci-003) (Zero-shot)
BertaQA	University of the Basque Country (UPV/EHU)	GPT-4 Turbo
Uhura	Imperial College London	GPT-o1-preview
CLR-Fact	HKUST	GPT-4o
INSEva	Fudan University	Doubao-1.5
FoundaBench	Shanghai Artificial Intelligence Laboratory	InternLM-123B
LLMzSzŁ	Adam Mickiewicz University	Mistral-Large-Instruct-2407
ObfusQA	Indian Institute of Technology Patna	DeepSeek R1
EnviroExam	Harbin Institute of Technology	deepseek-67b-chat
Polish Cultural Competency	National Information Processing Institute	Gemini-Exp-1206
NetEval	Tsinghua University	gpt-4
EpiK-Eval	Université de Montréal	Flan-T5-XL
AgriEval	Harbin Institute of Technology	Qwen-Plus
ArxEval	Vellore Institute of Technology	Qwen-2.5 7B
ComparisonQA	HKUST	GPT-2
LegalScore	Universidade Estadual Paulista “Júlio de Mesquita Filho”	Claude Sonnet 3.5
ECKGBench	City University of Hong Kong	Qwen2-max
SeaEval	Nanyang Technological University	GPT-4 (gpt-4-0613)
HSSBench	Chinese Academy of Sciences	Human
SKA-Bench	Ant Group	TableGPT-2
PRGB Benchmark	Ant Group	Gemini-2.5-pro-preview
MultiHal	Aalborg University	Gemini 2.0 Flash
TransportationGames	Beijing Jiaotong University	GPT-4
MultifacetEval	Tsinghua University	Gemini-pro
CoLoTa	University of Toronto	OpenAI-o1
OntoURL	Leiden University	LLaMA3.1-8B
DailyQA	Renmin University of China	Qwen2.5-72B-Instruct
MultiNativQA	Qatar Computing Research Institute	Gemini-1.5 Flash
PretexEval	Tsinghua University	GPT-4o
LPFQA	University of Michigan	GPT-5
NorQA	University of Oslo	NorMistral-7B-warm
Temporal Wiki	University of Tübingen	Llama 3.1 70B
KaRR	University of California, Santa Barbara	OPT (175B)
FinEval-KR	Shanghai University of Finance and Economics	DeepSeek-R1
BELIEF	the University of Tokyo	Llama3-70B
MAGIC	Hanyang University	GPT-4o-mini
LHMKE	Tianjin University	Baichuan2-13B-Chat
TAXI	Arizona State University	Human
M3KE	Tianjin University	GPT-4
EESE	Shanghai Artificial Intelligence Laboratory	GPT-5
LLM-KG-Bench	Leipzig University	LLMKE
BaRDa	Allen Institute for AI	GPT-4
CPSDBench	People’s Public Security University of China	GPT-4
TuringQ	Sharif University of Technology	GPT-4
HEAD-QA	Universidade da Coruña	Liu et al. (2020)
GeoGLUE	Alibaba Group	Nezha
FACT-BENCH	AWS AI Labs	GPT-4
MedMKEB	Peking University	LLaVA-Med
Alvorada-Bench	Inteli	O3 Pro
EFO-1-QA	Tsinghua University	LogicE
CG-Eval	Besteasy Language Technology Co., Ltd	GPT-4
BeerQA	Stanford University	IRRR (SQuAD + HotpotQA)
Down and Across	University of Massachusetts Lowell	RAG wiki
COPEN	Huawei Noah’s Ark Lab	Human
QuantumBench	NVIDIA	GPT-5-high
Knowledge Crosswords	University of Washington	VERIFY-ALL (GPT-4)
NuclearQA	Pacific Northwest National Laboratory	Llama 2
ThaiCLI	Chulalongkorn University	GPT-4o
MQA-AEVAL	Shenzhen University	GPT-3.5-TURBO-INSTRUCT
CUS-QA	University of Oslo	Llama-3.3-70B-Instruct
SANSKRITI	Indian Institute of Technology Patna	GPT-4o
MINED	University of Science and Technology of China	Gemini-2.5-Pro
M-QALM	University of Manchester	Flan-T5 (11B)
CoDEx	University of Michigan	ConvE
ZhuJiu	Chinese Academy of Sciences	GPT-3.5-turbo
KoSimpleQA	Seoul National University	HCX SEED 14B
KEO QA Benchmark	University of Notre Dame	gemma-3-it
XL-BEL	University of Cambridge	XLMR + SAP all syn
Entity Cloze by Date	The University of Texas at Austin	T5-large
SLAQ	University of Hamburg	Gemma-3 1B
Self-Diagnostic Atomic Knowledge	Shenzhen Research Institute of Big Data	GPT-4
Multilingual Compositional Wikidata Questions	University of Copenhagen	mT5-base+RIR
OKBench	University of Chicago	GPT-4o
SCiPS-QA	Indian Institute of Technology	meta-llama-3-70B
CK-Arena	Beijing Normal University	DeepSeek-V3
KG Attributes Benchmark	Megagon Labs	GPT-4
ONTOLAMA	University of Oslo	RoBERTa-large-pm-m3-voc
KULTURE Bench	Yonsei University	Human
BIOLAMA	Korea University	Bio-LM
LoFTI	Indian Institute of Technology, Bombay	GPT-4
BEAR	Humboldt-Universität zu Berlin	Meta-Llama-3-8B
FinLFQA	New York University	GPT-4o
LiveSearchBench	Shanghai AI Laboratory	gpt-5
Hakka Benchmark	National United University	Llama 3.1 with RAG
QUENCH	IIIT-Delhi	GPT-4-Turbo
Japanese Financial Benchmark	Preferred Networks. Inc.	Claude 3.5 Sonnet
RAmBLA	Imperial College London	GPT-3.5
MuLan	Google DeepMind	Alpaca
RealFactBench	University College London	Claude-3.7-Sonnet
YpathR	Tsinghua University Shenzhen International Graduate School	YpathRAG
InsCoQA	University of Science and Technology of China	GPT-4
GeoSQA	Nanjing University	PMI
FailureSensorIQ	IBM T.J. Watson Research Center	o1
MedFact	Xunfei Healthcare Technology Co., Ltd.	XiaoYi
CheckThat! 2020	Qatar University	Buster.AI
ClimateEval	Uppsala University	Mistral 24B
URDUFACTBENCH	MBZUAI	GPT-4O
Ambiguous Entity Retrieval	University of California, Irvine	Bootleg
MultiWikiQA	Alexandra Institute	Mistral-Small-3.1-24B-Instruct-2503
MedBench-IT	University of Graz	DeepSeek-R1
CultSportQA	Universitas Gadjah Mada	GPT-4o
X-FACTR	Carnegie Mellon University	M-BERT
LM-PUB-QUIZ	Humboldt-Universität zu Berlin	Meta-Llama-3-8B
Materials Knowledge Benchmark	Technische Universität Dresden	phi-4
ChnEval	Beijing Normal University	RoBERTa-wwm-ext
DentalBench	Zhejiang University	GPT-4o
ReFACT	University of Potsdam	GPT-4o
MultiReQA	Carnegie Mellon University	USE-QA (fine-tuned)
TempQA-WD	IBM Research	SYGMA
MediQAl	CNRS	o3
DEEPAMBIGQA	UCSB	GPT-5
FinS-Pilot	Renmin University of China	Xiaofa-1.0
ConvQuestions	MPI for Informatics	Oracle + Convex
evolveQA	Purdue University	GPT-5-mini
Swedish Facts	Linköping University	gemma-3-27b
Chinese Commonsense Multi-hop Reasoning	ByteDance	Gemini-2.5-Pro
Nunchi-Bench	EPFL	gemini-2.5-pro-preview
Agri-Query	Technical University of Munich (TUM)	Gemini 2.5 Flash
FATHOMS-RAG	Louisiana State University	claude-sonnet-4
ADAM	Virginia Tech	Gemini Flash 2.5
SinhalaMMLU	Nara Institute of Science and Technology	Claude 3.5 Sonnet
XLQA	Korea University	Oracle LM (GPT-4.1)
TripJudge	Leiden University	Ensemble
RoBiologyDataChoiceQA	University of Bucharest	gemini-2.0-flash
MedLAMA	University of Cambridge	SapBERT
ArcMMLU	Wuhan University	GPT-4 (gpt-4-0613)
KEO	University of Notre Dame	gemma-3-it
EFO_k-CQA	Tsinghua University	CQD
FactChecker	The Chinese University of Hong Kong	GPT-4
ECLeKTic	Google DeepMind	Gemini 2.0 Pro
KACC	Tsinghua University	AttH
ParRoT	Allen Institute for AI	Macaw-11B
PalmX-GC	Qatar Computing Research Institute	GPT-4.1
CIKQA	University of Washington	G2T (Bian et al., 2021)
TEXTWORLDSQA	Carnegie Mellon University	DrQA-M
KMIR	Renmin University of China	RoBERTa

alphaXiv

Explore

State of the Art

Sign In

Labs

Feedback

Dark mode