RAGGR™ LLM Benchmark

Compare answer quality across AI models — same documents, same retrieval

Pool: genai_rag

Select Models

Choose which models to benchmark — results use identical FAISS retrieval

Eval Questions

Built-in (17 questions — E1-E5, H1-H10, OOS1-2) Upload JSON eval file

Filter:

🏆 Winner:

Per-Question Breakdown

Question	Type	Diff	Model	Correct?	Cited?	Faithful	Latency	Cost

Past Runs

Click to load any previous benchmark