Experten für künstliche Intelligenz bereiten „die letzte Prüfung der Menschheit“ vor, um leistungsstarke Technologien in Verlegenheit zu bringen
Ein Team aus Technologieexperten startete am Montag einen weltweiten Aufruf, in dem es darum ging, die schwierigsten Fragen an künstliche Intelligenzsysteme zu stellen, die beliebte Benchmarktests zunehmend wie ein Kinderspiel bewältigen.
Das Projekt mit dem Titel „Die letzte Prüfung der Menschheit“ soll herausfinden, wann KI auf Expertenniveau angekommen ist. Laut den Organisatoren, einer gemeinnützigen Organisation namens Center for AI Safety (CAIS) und dem Startup Scale AI, soll es auch dann relevant bleiben, wenn die Fähigkeiten in den kommenden Jahren zunehmen.
Der Aufruf erfolgte Tage, nachdem der Hersteller von ChatGPT ein neues Modell namens OpenAI o1 vorgestellt hatte, das „die beliebtesten Benchmarks für logisches Denken zerstört“ habe, so Dan Hendrycks, Geschäftsführer des CAIS und Berater des Startups xAI von Elon Musk.
Hendrycks war Mitautor von zwei Artikeln aus dem Jahr 2021, in denen Tests für heute weit verbreitete KI-Systeme vorgeschlagen wurden. In einem wurden Kenntnisse auf Bachelor-Niveau zu Themen wie US-Geschichte abgefragt, in dem anderen wurde die Fähigkeit der Modelle untersucht, Mathematik auf Wettbewerbsniveau zu verarbeiten. Der Test im Bachelor-Stil wurde vom Online-KI-Hub Hugging Face häufiger heruntergeladen als jeder derartige Datensatz.
Als diese Arbeiten veröffentlicht wurden, antworteten KI-Experten in den Prüfungen fast zufällig auf Fragen. „Jetzt sind sie am Ende“, sagte Hendrycks gegenüber Reuters.
So haben beispielsweise die Claude-Modelle des KI-Labors Anthropic laut einer prominenten Bestenliste im Bereich Fähigkeiten bei einem Test auf Bachelor-Niveau im Jahr 2023 eine Verbesserung von etwa 77 % auf fast 89 % ein Jahr später erzielt.
Dadurch verlieren diese gemeinsamen Benchmarks an Bedeutung.
Laut dem AI Index Report der Stanford University vom April schneidet KI bei weniger verbreiteten Tests, bei denen es um die Formulierung von Plänen und visuelle Mustererkennungsrätsel geht, offenbar schlecht ab. OpenAI o1 erreichte beispielsweise bei einer Version des Mustererkennungstests ARC-AGI rund 21 Prozent, teilten die ARC-Organisatoren am Freitag mit.
Einige KI-Forscher argumentieren, dass Ergebnisse wie diese zeigen, dass Planung und abstraktes Denken bessere Maßstäbe für Intelligenz sind, obwohl Hendrycks sagte, dass der visuelle Aspekt von ARC es weniger geeignet macht, Sprachmodelle zu beurteilen. „Die letzte Prüfung der Menschheit“ werde abstraktes Denken erfordern, sagte er.
Branchenbeobachter haben auch gesagt, dass Antworten aus gängigen Benchmarks möglicherweise in Daten gelandet sind, die zum Trainieren von KI-Systemen verwendet werden. Hendrycks sagte, dass einige Fragen in „Humanity’s Last Exam“ vertraulich bleiben werden, um sicherzustellen, dass die Antworten der KI-Systeme nicht auswendig gelernt werden.
Die Prüfung umfasst mindestens 1.000 Crowdsourcing-Fragen, die am 1. November eingereicht werden müssen und für Laien schwer zu beantworten sind. Diese werden einer Peer-Review unterzogen. Den Gewinnern werden Co-Autorenschaften und Preise in Höhe von bis zu 5.000 US-Dollar angeboten, die von Scale AI gesponsert werden.
„Wir brauchen dringend härtere Tests für Modelle auf Expertenniveau, um den schnellen Fortschritt der KI zu messen“, sagte Alexandr Wang, CEO von Scale.
Eine Einschränkung: Die Organisatoren möchten keine Fragen zu Waffen stellen, da deren Untersuchung durch KI nach Ansicht einiger zu gefährlich wäre.
(Dies ist eine unbearbeitete, automatisch generierte Story aus einem syndizierten Newsfeed. Cityjournal – Dein Regionalmagazin Mitarbeiter haben den Inhaltstext möglicherweise nicht geändert oder bearbeitet.)