Die Bedeutung der Forschung zu selbstlernenden KI-Systemen in der Softwareentwicklung

Diese Forschung hat das Ziel, dass KI eigenständig als Software-Ingenieur arbeiten kann, ohne menschliche Unterstützung. Dadurch wird der Softwareentwicklungsprozess nicht nur beschleunigt, sondern auch präziser. Unternehmen werden in der Lage sein, in großem Maßstab selbstlernende Agenten zu entwickeln, die Aufgaben wie das Finden von Bugs, Testen und Debuggen autonom übernehmen können. Die Forschung, die auf arXiv.org veröffentlicht wurde, wurde von Experten der Universität Illinois Urbana und der Carnegie Mellon University in Zusammenarbeit mit Meta durchgeführt. Sollte dieses System praktisch erfolgreich sein, wird es sowohl die Programmierausbildung als auch die Softwareindustrie beeinflussen, da das Schreiben und Verbessern von Code nicht mehr menschliche Arbeit erfordert, sondern eine grundlegende Fähigkeit von KI sein wird.

Funktionsweise des SSR-Systems

Im SSR-System übernimmt ein einzelnes großes Sprachmodell (LLM) zwei unterschiedliche Rollen: den „Bug-Injector“ und den „Bug-Solver“. In der Rolle des Injectors fügt das Modell absichtlich Fehler in den Code ein, indem es beispielsweise eine Zeile entfernt, Logik ändert oder frühere Änderungen wiederholt. Wenn dasselbe Modell dann in der Rolle des Solvers arbeitet, erkennt es diese Fehler und produziert den korrekten Code. Diese Prozesse werden wiederholt, sodass die KI neue Codierungsmuster und Lösungen selbst erlernen kann.

Das gesamte Training fand in Open-Source-Repositories und Docker-Sandbox-Umgebungen statt, damit das Modell sicher experimentieren und aus realen Codebasen lernen kann. Open-Source-Repositories sind öffentliche Codespeicher, die von jedem eingesehen, verwendet und verbessert werden können. Docker-Sandbox-Umgebungen bieten einen sicheren und isolierten Raum, in dem der Code getestet werden kann, ohne dass das System beschädigt wird.

Veränderungen im Vergleich zu traditionellen Systemen

Bisher wurden KI-codierende Agenten auf von Menschen verfassten Daten trainiert. Diese Systeme waren in ihrer Leistungsfähigkeit begrenzt, da das Modell nur aus bereits existierenden Beispielen lernen konnte. SSR beseitigt diese Abhängigkeit. Dieses System sucht selbstständig nach neuen Problemen und entwickelt seine Lösungen ohne auf ältere Daten angewiesen zu sein.

Laut Meta hat SSR an den beliebten Benchmark-Tests SWE-Bench Verified und SWE-Bench Pro neue Rekorde aufgestellt. Im Verified-Test erzielte es 10,4 Punkte mehr als das vorherige Bestsystem, während es im Pro-Test 7,8 Punkte besser abschnitt. Diese Leistung übertraf auch die Modelle, die auf großen Mengen menschlicher Daten trainiert wurden.