Wissenschaftler haben den schwierigsten KI-Test der Geschichte entwickelt

Als die KI begann, die von Menschen entwickelten Tests, die sie herausfordern sollten, mühelos zu meistern, beschlossen Forscher aus aller Welt, etwas zu entwickeln, das sie wirklich nicht bestehen konnte – und die Ergebnisse sprechen Bände

Forscher haben einen neuen Maßstab entwickelt, der über bestehende KI-Tests hinausgeht, die mittlerweile zu einfach geworden sind, um Fortschritte aussagekräftig zu messen.

Forscher nutzen seit langem standardisierte Benchmarks, um zu messen, wie leistungsfähig KI-Systeme tatsächlich sind.

Tests wie der Massive Multitask Language Understanding-Test wurden bewusst anspruchsvoll konzipiert – sie decken ein breites Spektrum an akademischen Themen ab und galten als verlässlicher Maßstab dafür, was KI leisten kann und was nicht. Das Problem ist jedoch, dass moderne KI-Systeme mittlerweile so gut geworden sind, dass diese Tests den Forschern kaum noch Aufschluss geben.

Also machte sich eine weltweite Gruppe von fast 1.000 Forschern aus verschiedenen Disziplinen – von Mathematik und Linguistik bis hin zu Medizin und Alter Geschichte – daran, etwas noch Schwierigeres zu entwickeln. Das Ergebnis ist „Humanity’s Last Exam“ – ein Test mit 2.500 Fragen, der alles abdeckt, von höherer Mathematik über die Übersetzung antiker palmyrenischer Inschriften bis hin zur Identifizierung winziger anatomischer Strukturen bei Vögeln und der Analyse von Merkmalen der Aussprache des biblischen Hebräisch.

Wie die Fragen ausgewählt wurden

Zu den Mitwirkenden an dem Test gehört Dr. Tung Nguyen, außerordentlicher Professor für Informatik und Ingenieurwesen an der Texas A&M University, der 73 der öffentlich zugänglichen Fragen verfasst hat –die zweithöchste Anzahl aller einzelnen Mitwirkenden.

„Wenn KI-Systeme bei Tests, die für Menschen entwickelt wurden, extrem gute Ergebnisse erzielen, ist man schnell geneigt zu glauben, dass sie sich dem menschlichen Verständnis annähern“, sagte er. „Aber HLE erinnert uns daran, dass Intelligenz nicht nur aus Mustererkennung besteht – es geht um Tiefe, Kontext und Fachwissen.“

Jede Frage wurde vor ihrer endgültigen Festlegung anhand führender KI-Modelle getestet. Wenn ein Modell die Frage richtig beantwortete, wurde sie entfernt. Der Filterprozess wurde so konzipiert, dass die Prüfung knapp über dem Niveau liegt, das aktuelle Systeme zuverlässig bewältigen können.

Erste Ergebnisse zeigten, dass selbst die fortschrittlichsten KI-Systeme Schwierigkeiten mit komplexen, fachspezifischen Fragen hatten, die fundiertes Wissen und ein Verständnis auf Expertenniveau erfordern.

Erste Ergebnisse bestätigen dies. GPT-4o erzielte 2,7 %, Claude 3,5 %, Sonnet erreichte 4,1 % und OpenAIs o1 lag bei etwa 8 %. Neuere Systeme, darunter Gemini 2.1 Pro und Claude Opus, haben Werte zwischen 40 % und 50 % erreicht. Um zu verhindern, dass Modelle im Voraus auf die Fragen trainiert werden, wird der Großteil davon verborgen gehalten und nur ein Teil öffentlich zugänglich gemacht.

Nguyen sagte, der Bedarf an zuverlässigen Vergleichsmöglichkeiten gehe über das akademische Interesse hinaus:

„Ohne präzise Bewertungsinstrumente laufen politische Entscheidungsträger, Entwickler und Nutzer Gefahr, die tatsächlichen Fähigkeiten von KI-Systemen falsch einzuschätzen.“

Er fügte hinzu, dass Benchmarks die Grundlage für die Messung von Fortschritten und die Erkennung von Risiken bilden, fügte er hinzu.

Keine Warnung – ein Messinstrument

Trotz des Namens betonten die Forscher, dass die Prüfung nicht als Aussage darüber gedacht sei, dass KI menschliches Fachwissen übertrumpfen würde. Das Ziel besteht darin, der Branche ein klareres und ehrlichereres Bild davon zu vermitteln, wo KI-Systeme noch Defizite aufweisen, und einen Maßstab zu schaffen, der auch bei der weiteren Verbesserung der Modelle seine Gültigkeit behält.

„Das ist kein Wettlauf gegen die KI“, sagte Nguyen. „Es ist eine Methode, um zu verstehen, wo diese Systeme ihre Stärken haben und wo sie Schwierigkeiten haben. Dieses Verständnis hilft uns dabei, sicherere und zuverlässigere Technologien zu entwickeln. Und, was besonders wichtig ist, es erinnert uns daran, warum menschliches Fachwissen nach wie vor von Bedeutung ist.“

Nguyen fügte hinzu, dass Experten aus nahezu allen Fachbereichen zu dieser Zusammenarbeit beigetragen hätten, und genau diese Bandbreite an menschlichem Wissen, so sagt er, mache die Lücken in der KI-Leistung auf eine Weise sichtbar, wie es eng gefasste Tests nicht vermögen.

Quellenhinweis:

Scientists built the hardest AI test ever and the results are surprising, published by Texas A&M University, March 2026.

Verpassen Sie nicht die neuesten Nachrichten von Meteored und genießen Sie alle unsere Inhalte auf Google Discover völlig KOSTENLOS

+ Folgen Sie Meteored