Aktuelles

BenGER-Plattform ist live: Benchmarking für Legal AI im deutschen Recht

Im Projekt TITAN ist mit BenGER – Benchmark for German Law eine offene Plattform für das Benchmarking von Large Language Models im deutschen Recht live gegangen. BenGER ermöglicht es, juristische Aufgaben kollaborativ zu erstellen, zu annotieren, mit KI-Modellen zu bearbeiten und anschließend systematisch auszuwerten.

 

Die Plattform schafft damit eine Grundlage, um die Leistungsfähigkeit generativer KI im deutschen Recht nicht nur punktuell, sondern anhand belastbarer Datensätze und nachvollziehbarer Bewertungsverfahren zu untersuchen. Sie richtet sich an Forschung, Lehre und Praxis und steht der Community frei zur Verfügung.

Ein erstes Projekt auf Grundlage von BenGER war der kollaborative Benchathon „Mensch vs. KI“. Die dort entstandenen Beiträge bilden eine Grundlage für den ersten Datensatz, der nun aus der Plattform zusammengestellt und ausgewertet wird.

Der Preprint „BenGER: A Collaborative Web Platform for End-to-End Benchmarking of German Legal Tasks“ ist online erschienen und wird auf der ICAIL 2026 präsentiert.

BenGER ist Teil des von der Daimler und Benz Stiftung geförderten Projekts TITAN. Unterstützt wird BenGER außerdem durch das Projekt „Generatives Sprachmodell der Justiz“ des BMJV sowie der Justizministerien Bayern und Nordrhein-Westfalen.

Geleitet wird BenGER von Sebastian Nagl. Wer die Plattform nutzen, die Entwicklung verfolgen oder an BenGER mitarbeiten möchte, kann sich gerne bei ihm melden.

Weitere Informationen:

BenGer-Plattform
Pre-Print

Code auf Github
Weiterer Bericht zum Benchathon