KI-Tools

AutoResearch: Karpathys KI-Tool lässt Agenten autonom forschen

Andrej Karpathys Open-Source-Tool AutoResearch lässt KI-Agenten autonom ML-Experimente durchführen. So funktioniert der Ratchet Loop.

AutoResearch ist ein Open-Source-Tool von Andrej Karpathy, dem ehemaligen KI-Direktor von Tesla und Mitgründer von OpenAI. Das Python-Projekt ermöglicht es einem KI-Agenten, völlig autonom Machine-Learning-Experimente auf einer einzelnen GPU durchzuführen. In nur rund 630 Zeilen Code steckt ein System, das den Forschungsprozess grundlegend verändert: Statt manuell Code anzupassen und auf Ergebnisse zu warten, übernimmt die KI die komplette Experimentierarbeit. Karpathy selbst beschreibt den Menschen in diesem Prozess als "Meat Computer": einen Flaschenhals, der durch autonome KI-Agenten ersetzt werden kann. Der Mensch gibt nur noch die Richtung vor, während die KI über Nacht Hunderte von Experimenten durchführt. Das Konzept knüpft direkt an den Trend des Agentic Engineering an – und geht dabei noch einen Schritt weiter als klassisches Vibe Coding.

Wie funktioniert AutoResearch? Der Ratchet Loop

Das Herzstück von AutoResearch ist der sogenannte "Ratchet Loop": ein kontinuierlicher, evolutionärer Feedback-Zyklus. Der Name leitet sich von einer Sperrklinke ab, denn das System bewegt sich ausschließlich vorwärts zu besseren Ergebnissen. Jedes Experiment folgt einem strikten Ablauf: 1. Analyse: Der KI-Agent liest die Forschungsziele und bisherigen Ergebnisse. 2. Hypothese: Er formuliert eine Idee und ändert den Trainingscode – Architektur-Anpassungen, Optimizer-Änderungen oder neue Hyperparameter. 3. Commit: Die Änderung wird in einen eigenen Git-Branch gespeichert. 4. Training: Das Modell trainiert für exakt fünf Minuten. Dieses feste Zeitbudget garantiert identische Vergleichsbedingungen. 5. Evaluierung: Das Modell wird anhand der Metrik "valbpb" (Validation Bits-Per-Byte) bewertet. 6. Entscheidung: Verbessert sich der Wert, bleibt der Commit erhalten. Ist er schlechter, wird die Änderung per Git Reset sofort rückgängig gemacht. Die Git-Historie dient dabei als "Forschungsgedächtnis" des Agenten. Jeder erfolgreiche Schritt ist dokumentiert und nachvollziehbar.

Drei Dateien, klare Regeln: Die Architektur

AutoResearch basiert auf einer bewusst einfach gehaltenen Drei-Dateien-Architektur. Diese Struktur erzwingt eine strikte Arbeitsteilung zwischen Mensch und KI:

prepare.py: Der unbestechliche Richter

Diese Datei ist unveränderlich. Sie kümmert sich um die Datenvorbereitung, den Tokenizer und die Evaluierungsmetrik. Weder Mensch noch KI dürfen sie anpassen. So wird "Metric Hacking" verhindert: Das künstliche Manipulieren der Ergebnisse ist schlicht unmöglich.

train.py: Die Sandbox des Agenten

Hier steckt die GPT-Architektur, der Optimizer und die Trainingsschleife. Nur der KI-Agent darf diese Datei bearbeiten. Er genießt dabei völlige Freiheit für beliebige Code-Anpassungen.

program.md: Die Anweisung des Menschen

Eine Markdown-Datei, in der der menschliche Forscher die Forschungsrichtung, Randbedingungen und Basis-Metriken vorgibt. Sie enthält auch die wichtigste Direktive: "NEVER STOP." Der Agent darf nicht anhalten, um den Menschen um Erlaubnis zu fragen, sondern muss endlos weiterforschen. Alle Ergebnisse werden zusätzlich in einer results.tsv-Datei protokolliert.

So wird AutoResearch verwendet

Die Nutzung ist bewusst minimalistisch gehalten. Es gibt keine komplexen Pipelines oder Orchestrierungs-Skripte: 1. Repository auf eine Maschine mit NVIDIA-GPU, Python 3.10+ und uv klonen. 2. Die program.md anpassen, um den Forschungsfokus festzulegen. 3. Einen Coding-Agenten wie Claude Code im Verzeichnis öffnen und anweisen, die program.md zu lesen und auszuführen. 4. Den Fortschritt am nächsten Morgen in der results.tsv und der Git-Historie ablesen. Das war es. Keine komplizierten Konfigurationen, keine aufwendigen Setups.

Was AutoResearch von klassischem AutoML unterscheidet

Traditionelle AutoML-Tools wie Optuna durchsuchen vordefinierte Parameter-Räume. AutoResearch geht einen entscheidenden Schritt weiter: Der LLM-Agent kann völlig neue Code-Strukturen, Architekturen und Algorithmen erfinden und testen. Er ist nicht auf eine vorgegebene Auswahl beschränkt, sondern kann beliebige Änderungen am Trainingscode vornehmen. Ein weiterer Vorteil ist die Hardware-Agnostik durch das feste Zeitlimit. Da jedes Experiment strikt fünf Minuten dauert, gewinnt automatisch die effizienteste Lösung für die vorhandene Hardware.

Konkrete Ergebnisse und Anwendungsfälle

Obwohl AutoResearch ursprünglich für kleine Sprachmodelle konzipiert wurde, hat sich das Prinzip als universell einsetzbar erwiesen.

LLM-Training-Optimierung

In Karpathys eigenen Tests führte der Agent über zwei Tage rund 700 Experimente durch. Das Ergebnis: Die Zeit, um das Niveau von GPT-2 zu erreichen, wurde um elf Prozent verkürzt.

Interne Unternehmens-Modelle

Shopify-CEO Tobi Lütke wendete das Prinzip auf ein internes Modell an. Über Nacht erzielte der Agent durch 37 Experimente eine Leistungssteigerung von 19 Prozent.

Performance-Tuning in fremden Domänen

Lütke nutzte eine abgewandelte Version auch für die 20 Jahre alte Ruby-Template-Engine Liquid. Über 120 Experimente hinweg fand der Agent Micro-Optimierungen, die die Engine um 53 Prozent schneller machten.

Musik-Generierung

Das Framework wurde erfolgreich zur Optimierung von KI-Modellen für traditionelle irische Folkmusik eingesetzt. Die Metrik verbesserte sich dabei um 53 Prozent.

Grenzen von AutoResearch

AutoResearch hat aktuell eine sogenannte "Creativity Ceiling": eine Kreativitäts-Obergrenze. Da der Ratchet Loop nur Änderungen akzeptiert, die sofort eine messbare Verbesserung bringen, bleibt der Agent oft in lokalen Optima stecken. Er kann keinen strategischen Schritt zurückgehen, um Anlauf für einen größeren Durchbruch zu nehmen. Zudem birgt das ständige Testen gegen dasselbe Validierungsset die Gefahr des Overfittings. Der Agent könnte lernen, die Metrik zu optimieren, ohne dass sich die tatsächliche Modellqualität verbessert.

Fazit

Karpathy beschreibt mit AutoResearch den Übergang vom "Vibe Coding" zum "Agentic Engineering". Beim Vibe Coding schreibt die KI Code auf Zuruf. Beim Agentic Engineering baut der Mensch nur noch die Testumgebung, während die KI autonom forscht. Das Projekt zeigt, wohin die Reise in der KI-Forschung geht: Der Mensch wird zum Architekten der Rahmenbedingungen, die KI zum unermüdlichen Experimentator. AutoResearch ist als Open-Source-Projekt auf GitHub frei verfügbar und kann sofort eingesetzt werden. Wer tiefer in die Welt autonomer KI-Agenten eintauchen möchte, findet hier weitere Einordnung zu Claude Skills und KI-Mitarbeitern.