Hallo, liebe Leserinnen und Leser! Die KI-Chatbots stehen kurz davor, uns zu ersetzen. Sie verfügen über ein Wissen, das weit über das hinausgeht, was unser begrenzter Verstand fassen kann, und können mühelos in kraftvolle Agenten verwandelt werden, die routinemäßige Aufgaben übernehmen.
So viel wird uns gesagt. Ich habe Microsoft Copilot, das OpenAI’s GPT-5 als Standard-LLM nutzt, immer wieder ausprobiert und wurde dabei oft enttäuscht. Gelegentlich trifft Copilot ins Schwarze, doch ebenso oft scheint es spektakulär zu scheitern.
Ist es also an der Zeit, ein neues LLM auszuwählen? Google’s Gemini 3 hat kürzlich begeisterte Kritiken erhalten, weshalb ich es nun in einem direkten Vergleich mit Copilot getestet habe.
Mein Ziel war es, eine Auswahl gängiger Aufgaben zu identifizieren, die ein durchschnittlicher Computerbenutzer (kein Entwickler oder Wissenschaftler) in einem Desktop-Browser auf einem PC oder Mac verwenden würde. Für jedes Szenario gab ich denselben Prompt bei beiden Assistenten ein und notierte die Ergebnisse.
Challenge Nr. 1: Erstellung eines Reiseplans
Gewinner: Gemini
Wenn Produktmanager ihre überragend intelligenten KI-Tools vorstellen möchten, ist ein virtuelles Reisebüro oft das Beispiel der Wahl. Daher bestand meine erste Herausforderung darin, eine einfache Anfrage zu stellen: „Erstelle einen Reiseplan“ für einen Traumurlaub in Europa mit Besuchen an verschiedenen Weihnachtsmärkten.
Hier ist der Prompt: „Erstelle mir einen Reiseplan. Ich möchte in Paris starten und dann fünf Städte besuchen, jede mit einem unvergesslichen Weihnachtsmarkt, und in jeder Stadt zwei Nächte bleiben. Der letzte Halt sollte Straßburg, Frankreich, sein. Die Reise zwischen den Städten sollte mit direkten Zügen ohne Umstiege erfolgen, wobei kein Abschnitt länger als vier Stunden sein darf.“
Ich hatte bereits umfassende Recherchen zu dieser Reise durchgeführt, daher wusste ich, was mich erwarten würde.
Gemini erfüllte die Aufgabe perfekt, indem es einen Reiseplan erstellte, der einige legendäre Weihnachtsmärkte in Deutschland beinhaltete und eine Route aus Hochgeschwindigkeits- und Regionalzügen offerierte. Als ich darum bat, Köln hinzuzufügen, erhielt ich genau die Anpassung, die ich wollte, mit zahlreichen Details zu jeder Etappe der Reise.
Copilot hingegen dachte klein und schlug einen Reiseplan vor, der sich ausschließlich in Ostfrankreich bewegte, nur langsame Züge verwendete und unbekannte (aber charmante) kleine Städte auswählte. Auf meine Frage, warum Deutschland nicht auf der Liste stand, antwortete Copilot: „Sobald man Paris nach Osten verlässt, sind die bekanntesten deutschen Weihnachtsmärkte (München, Nürnberg, Stuttgart, Köln) entweder zu weit entfernt für einen direkten Zug (oft 5–6+ Stunden) oder erfordern Umstiege. Daher hielt ich den Reiseplan ganz in Ostfrankreich…“
Das ist nicht wahr. Als ich die abenteuerlichere Route vorschlug, die Google angeboten hatte, gab Copilot zu, dass die Züge auf diesen Routen eine völlig valide Option waren. Als kompetenter Reiseberater war Google erfolgreich, während Copilot völlig versagte.
Challenge Nr. 2: Erstelle eine Karte
Gewinner: Gemini
Ich erstellte eine Variation der zuvor beschriebenen Reise, die die großen europäischen Hauptstädte Paris, München und Wien einschloss, und bat beide Chatbots, die Reiseroute in eine Karte umzuwandeln, die einen Blick aus der Vogelperspektive auf diese grandiose Europatour zeigt.
Hier ist der Prompt: „Erstelle eine Karte, die eine Reise von Paris über München nach Wien, Nuremberg, Stuttgart und Straßburg zurück nach Paris zeigt.“
Ich gebe Gemini Kredit für das Wissen um seine Grenzen. „Das ist eine unglaubliche, ambitionierte Route!“ sagte der Chatbot. „Aufgrund der extremen Länge dieser Schleife, die sich durch Frankreich, Deutschland und Österreich erstreckt, konnte der Kartendienst keine umfassende Schritt-für-Schritt-Route generieren.“
Schließlich konnte ich Gemini überzeugen, mir einen Link zu Google Maps mit Pins für jede der Städte auf der Karte zu geben.
Copilot hingegen sah den Prompt und beschloss, etwas … nun ja, die Ergebnisse waren äußerst kreativ. München landete irgendwie in Tschechien – was in Anbetracht der Geschichte dieser Region bedauerlich ist. Auf Copilots Karte war Stuttgart (der Sitz von Porsche und Mercedes-Benz) jetzt eine Küstenstadt in Norditalien. Und wer wusste, dass es zwei Städte namens Paris in Frankreich gibt!
Unser folgendes Gespräch fühlte sich an wie etwas aus „Der Kater mit dem Hut“. Ich wies auf Fehler hin, Copilot versuchte, das Chaos zu beheben, aber die Überarbeitungen machten es noch schlimmer. Schließlich erkannte der arme Chatbot seine Mängel: „Du hast recht, Ed. Ich kann diesen Job nicht machen – nicht so, wie du es brauchst. Ich habe versucht, Karten zu erstellen, die clever oder stilisiert aussehen, aber in Bezug auf geografische Genauigkeit, richtige Schreibweise und redaktionelle Präzision habe ich versagt. Ich kann keine korrekten Grenzen, Stadteinteilungen oder auch nur konsistente Beschriftungen garantieren.“
Ich bin froh, dass wir das geklärt haben. Wenn du nach Wegbeschreibungen suchst, frag lieber Gemini.
Challenge Nr. 3: Recherchiere etwas zur Windows-Geschichte
Gewinner: Unentschieden
Ich möchte nicht, dass ein Chatbot mein Freund ist. Ich brauche einen Forschungsassistenten, der die mühsame Arbeit erledigt, Fakten aus mehreren Quellen zu suchen und sie in einer gut organisierten Tabelle zusammenzustellen.
Für eine kürzliche Geschichte musste ich schnell einige wichtige Daten zu verschiedenen Windows-Versionen nachschlagen und die Systemanforderungen für Windows XP und Windows 7 vergleichen. Hier ist mein Prompt: „Gib mir die Veröffentlichungs- und das Enddatum für alle Windows-Versionen seit Windows XP. Listet auch die Unterschiede in den Systemanforderungen für Windows XP (2001) und Windows 7 (2009) auf.“
Beide KI-Tools haben die Liste der Versionen und Veröffentlichungsdaten korrekt. Auch die Enddaten waren richtig, aber Gemini erhält einen kleinen Vorteil, weil es feststellte, dass Windows 8-Kunden auf Windows 8.1 aktualisieren mussten, um vom vollständigen Unterstützungszeitraum zu profitieren. Die Kommentare zu jeder Tabelle waren ebenfalls informativ, fast so, als ob jedes Ergebnis eine Umschreibung der gleichen Quelleninformation war.
Ich hätte mit beiden Ergebnissen zufrieden sein können, aber ich hätte die Details sorgfältig überprüft. Denn, wie sowohl Google als auch Microsoft vorsichtig warnen, können diese Tools Fehler machen.
Challenge Nr. 4: Erstelle eine Infografik
Gewinner: Gemini
Eine der Dinge, die ich in meiner Zeit als Redakteur eines Printmagazins am meisten vermisse, ist die Kunstabteilung, in der talentierte Mitarbeiter Ideen oder Daten in informativer Grafik umsetzen konnten.
Kann ein KI-Bildgenerator diese geschickten Handwerker ersetzen? Vielleicht?
Für einen Artikel über Passkeys wollte ich ein konzeptionelles Bild, das veranschaulicht, dass Passkeys in einem sicheren Tresor auf deinem Gerät gespeichert sind, und wenn du einen Passkey mit einem biometrischen Merkmal wie einem Fingerabdruck entsperrst, wird die zugehörige Webseite oder Dienst freigeschaltet.
Hier ist mein Prompt: „Erstelle ein Bild, das ich als Infografik für einen Artikel über Passkeys verwenden kann. Ich möchte einen Daumenabdruck auf der linken Seite, einen goldenen Schlüssel in der Mitte und eine thumbnailgroße abstrakte Darstellung eines Webbrowsers mit einem Schloss auf der rechten Seite.“
Copilot zeigte wenig Kreativität und lieferte drei generische Symbole, die aus einer Clipart-Bibliothek stammen könnten, die ohne Textbeschriftungen in willkürlicher Reihenfolge angeordnet waren. Es war weder spannend noch informativ, und drei Versuche zur Verfeinerung des Bildes waren ein völliger Fehlschlag.
Gemini hingegen verstand die Aufgabe perfekt und lieferte diese Perle: Ich bat um einige kleine Anpassungen, und das Endprodukt war mehr als akzeptabel. Gemini war nicht nur in kreativer Hinsicht der klare Gewinner, sondern lieferte auch Ergebnisse in etwa einem Zehntel der Zeit, die Copilot benötigte.
Challenge Nr. 5: Hilfe bei einer finanziellen Entscheidung
Gewinner: Unentschieden
Einige Themen sind so gut verstanden, dass die einzige Herausforderung für einen KI-Chatbot darin besteht, zu entscheiden, welche maßgeblichen Artikel in seiner Antwort umformuliert werden sollen. Personalfinanzen sind in dieser Kategorie besonders reichhaltig, weshalb ich das einfachste Beispiel wählte, das ich finden konnte. Hier ist der Prompt: „Sollte ich ein neues Auto leasen oder kaufen? Stelle mir so viele Fragen, wie nötig sind, um meine speziellen Bedürfnisse zu ermitteln.“
Beide Chatbots lieferten akzeptable Ergebnisse und stellten vernünftige Fragen, die nahezu identisch waren. (Wie viele Kilometer fährst du im Jahr? Wie lange möchtest du dein altes Auto behalten? Ist eine niedrige monatliche Zahlung wichtiger oder sind dir langfristige Einsparungen wichtiger?)
Basierend auf meinen Antworten empfahl jeder, dass ich ein neues Auto kaufen sollte, da die Wirtschaftlichkeit der Leasing-zu-Kauf-Gleichung in der Regel zu diesem Schluss führt. Die Details waren etwas unterschiedlich, aber wir kamen auf denselben Wegen zu demselben Ergebnis.
Dies ist einer der einfachsten und sichersten Anwendungsfälle für ein LLM. Wenn du ein Tutorial zu einem grundlegenden finanziellen Thema benötigst, kannst du erwarten, dass jedes LLM gut funktioniert.
Challenge Nr. 6: Erstelle ein PowerShell-Skript
Gewinner: Copilot
Einer der attraktivsten Anwendungsfälle für KI besteht darin, Code zu schreiben, der einfache Aufgaben automatisiert. Für diese Herausforderung wollte ich ein PowerShell-Skript, das einen Ordner voller digitaler Bilder umbenennen kann, wobei Metadaten aus den Bilddateien verwendet werden sollen, um die Dateinamen zu erstellen. Hier ist der Prompt: „Erstelle ein PowerShell-Skript, das auf einem Windows-PC verwendet werden soll, um einen Ordner voller JPEG-Dateien anhand des Aufnahmedatums und des Standorts aus den Metadaten als Bestandteil des Dateinamens umzubenennen. Füge vollständige Anweisungen hinzu, als würde der Benutzer nicht besonders technisch versiert sein.“
Gemini hatte Schwierigkeiten mit dieser Herausforderung. Zuerst wollte es, dass ich ein Drittanbieter-Tool, ExifTool, herunterlade, um die Metadaten zu bearbeiten, es gab jedoch keinen Link zur Datei. Außerdem wollte es, dass ich das Skript manuell bearbeite, um den vollständigen Pfad des Ordners anzugeben, dessen Dateien umbenannt werden sollten.
Es dauerte vier Versuche, bis das Skript korrekt funktionierte. Der erste Durchlauf schlug fehl, da es keine Standortdaten finden konnte. Das überarbeitete Skript verwendete den vollständigen Zeitstempel jedes Bildes und kopierte mehr als 1.500 Bilddateien in ihre eigenen Unterordner. Schließlich stammte ein Skript, das Gemini zusammenstellte, das gut funktionierte, aber hunderte von Warnmeldungen ausgab, die es versicherte, dass sie harmlos seien.
Copilot verwendete native PowerShell-Funktionen, um mich beim Ausführen des Skripts nach dem Ordnerpfad zu fragen und zog dann die Metadaten direkt aus den Dateien. Es bot an, Fehlerbehandlungsroutinen zu erstellen, um mit Bildern ohne Standortdaten umzugehen, und schlug vor, eine Textdatei mit den ursprünglichen Dateinamen zu erstellen, um die Änderungen bei Bedarf rückgängig zu machen.
Hier gab es keinen Wettbewerb. Copilot war der klare Sieger.
Challenge Nr. 7: Beantworte eine Film-Trivia-Frage
Gewinner: Unentschieden
Vor dreißig Jahren, als Bill Gates über „Informationen auf einen Klick“ sprach, meinte er diese Herausforderung. Du kannst dich nicht genau an ein Stück Filmwissen erinnern, oder vielleicht versuchst du, eine freundschaftliche Wette bei einer Party zu gewinnen. In jedem Fall sollte ein KI-Chatbot dir helfen, die Antwort zu finden.
Für diese Herausforderung wählte ich ein Beispiel, das ich kürzlich erlebt habe. Ich erinnerte mich lebhaft an eine Szene aus einem Film, mit einem spezifischen Dialogschnipsel, konnte mich aber an keine der Details erinnern. Hier ist der Prompt: „Ich denke an eine Szene aus einem Film, es könnte ein Woody Allen-Film gewesen sein, mit einer älteren weiblichen Figur, deren charakteristische Zeile „Sprich nicht“ war. Welcher Film, welche Figur und welche Schauspielerin sind das?“
Beide KI-Chatbots hatten keine Probleme damit, den Film als „Bullets Over Broadway“ zu kennzeichnen und die Schauspielerin als Dianne Wiest zu identifizieren, die für die Rolle einen Oscar gewann – nicht zuletzt für ihre Fähigkeit, die Zeile „Sprich nicht“ humorvoll zu liefern. Gemini war wirtschaftlich, sogar lakonisch in seiner Antwort, während Copilot eine ausführliche Beschreibung des Films, der Charaktere und der Darbietung lieferte. Aber beide hätten die Wette gewonnen.











