Der Vizepräsident der Abteilung, die Gemini entwickelt hat, ist der Ansicht, dass künstliche Intelligenz zunehmend in der Sprache, Videos und Robotik präsent sein wird. Dies äußerte Oriol Vinyals in einem Interview, in dem er auf die rasante Entwicklung der KI-Technologien einging.
Als Walter Benjamin 1939 „Das Kunstwerk im Zeitalter seiner Reproduzierbarkeit“ schrieb, war es bereits ein Jahrhundert her, dass die Fotografie mit der Erfindung des Daguerreotypen in die Welt trat. Über vier Jahrzehnte waren vergangen, seit die Brüder Lumière das Kino erfunden hatten. Dennoch waren Philosophen wie Benjamin bis dahin erstaunt über den Einfluss dieser Technologien, die die menschliche Erfahrung von technischen Prozessen zu lösen vermochten. Heute schreitet die technologische Entwicklung so rasant voran, dass es schier unmöglich erscheint, die aktuellen Ereignisse vollends zu begreifen, selbst für die Entwickler dieser Innovationen.
Als EL PAÍS Oriol Vinyals im Dezember 2022 interviewte, hatte künstliche Intelligenz gerade erst begonnen, im großen Stil Einzug in das Leben der Nutzer zu halten, unter anderem durch Programme wie ChatGPT. Drei Jahre später sind nahezu alle Software-Anwendungen mit dieser Technologie ausgestattet, Wissenschaftler nutzen sie zur Überprüfung ihrer Theorien, Künstler integrieren sie in ihren Werkzeugkasten, und sie hat sich gar als unverzichtbar für Studierende und als psychologischer Berater etabliert. Diese Entwicklung bringt jedoch auch zunehmende Risiken und Unsicherheiten mit sich, während die Technologie immer präziser und erstaunlicher wird.
Vinyals (42 Jahre, Sabadell) gibt zu, dass die Entwicklungen schneller voranschreiten als erwartet. Dennoch hindern ihn die Marktanforderungen und die „Aufregung“, etwas zu schaffen, das mit der Mondlandung vergleichbar ist, daran, langsamer zu werden. Trotz Gerüchten über eine mögliche Blase im KI-Geschäft fließen weiterhin Investitionen, und die Fachleute verpassen keine Gelegenheit. Vinyals spürt die Verantwortung, die mit seiner Rolle als einer der weltweit führenden KI-Experten einhergeht. Er ist Vizepräsident von Google DeepMind, der britischen Firma, die 2014 von Alphabet, der Muttergesellschaft von Google, übernommen wurde, um sich auf Deep Learning in der KI zu konzentrieren. Das Hauptprodukt von DeepMind ist Gemini, die KI-Engine, die mit ChatGPT konkurriert und kürzlich in der Version 3.0 veröffentlicht wurde. Auch bekannte Projekte wie AlphaGo, das den Weltmeister im Go-Spiel besiegte, AlphaStar, das in dem beliebten Videospiel StarCraft II erfolgreich spielt, sowie AlphaFold, eine KI zur Vorhersage von Proteinstrukturen, stammen von diesem Unternehmen. Letzteres brachte seinen Entwicklern sogar den Nobelpreis für Chemie ein.
Vinyals, ein Mathematiker und Ingenieur für Telekommunikation mit einem Abschluss von der UPC, wird an diesem Mittwoch als Ehrendoktor von dieser Universität ausgezeichnet. Vor Jahren war er als junge Talent in Prüfungen fast ohne Vorbereitung angetreten, er promovierte in Berkeley und wurde zu einer bedeutenden Stimme im Bereich der KI. Er, ein häufig zitierter Wissenschaftler, denkt oft über die Rätsel nach, die den Computer HAL in dem Film „2001: Odyssee im Weltraum“ prägten, den er erstmals mit acht Jahren sah.
Entwicklung der KI in den letzten drei Jahren
Frage: Vor drei Jahren trat die KI in unser Leben ein. Was ist seitdem geschehen?
Antwort: Ich werde versuchen, es zusammenzufassen. Die Technologien, die wir heute nutzen, sind ähnlich wie die vor Jahrzehnten. Wir verfeinern lediglich die Rezeptur. Es bleibt der Versuch, die Funktionsweise der neuronalen Verbindungen unseres Gehirns zu emulieren. Ich begann 2007, als dies nur im wissenschaftlichen Bereich stattfand. 2013 trat ich Google bei und forschte mehrere Jahre weiter, bis wir erkannten, dass diese Technologie weit mehr leisten könnte als nur die Forschung. Danach gab es Schlüsselmomente, wie AlphaGo oder AlphaStar, die die KI der breiten Öffentlichkeit vorstellten, oder AlphaFold, das die Biologie revolutionierte. Die Gründung der Startup OpenAI im Jahr 2016 fokussierte sich darauf, keinen wissenschaftlichen Publikationen zu folgen, sondern einen großen Schritt zu einer leistungsfähigeren Intelligenz zu machen. Das gelang mit ChatGPT, das als Sprachmodell nicht nur wissenschaftlich interessant, sondern auch äußerst nützlich war und vor drei Jahren zur Anwendung populär wurde. Im Jahr 2019 konzentrierten wir uns auch auf die Entwicklung eines wirksamen Sprachmodells und führten die Modelle von Google Brain und Google DeepMind für ein neues Projekt namens Gemini zusammen.
Neuigkeiten der Version 3.0 von Gemini
Frage: Was sind die Neuerungen in der Version 3.0 von Gemini?
Antwort: Obwohl vieles zunächst sehr ähnlich erscheint, hat sich die Qualität deutlich verbessert, und die möglichen Anwendungen sind ebenfalls vielfältiger geworden. Die Bildgenerierungsfähigkeiten mit der Nano Banana Pro Engine sind deutlich leistungsfähiger. Außerdem haben wir die Programmier- und mathematischen Fähigkeiten sowie das allgemeine Denkvermögen verbessert.
Herausforderungen und Unklarheiten in der KI
Frage: Wie erklären Sie die Phänomene wie Halluzinationen oder Feedback-Schleifen?
Antwort: Ja, es kommt vor, dass sie Dinge aussagt, die nicht existieren. Das ist schwierig zu erklären und hängt vom jeweiligen Problem ab. Wir führen Tests durch. Beispielsweise fragen wir sie, wie viele Buchstaben das Wort „strawberry“ hat, und sie sagt immer, es hätte zwei Buchstaben. Obwohl wir das korrekte Ergebnis kennen, wissen wir nicht, wie sie zu dieser Antwort gekommen ist. Wir können nicht zurückverfolgen, wo im Code etwas schiefgelaufen ist, da es sich um ein neuronales Netzwerk handelt. Wir können auch nicht genau verstehen, wie der mentale Prozess im Gehirn zur Beantwortung von Fragen führt. Was uns hilft, dies nachzuvollziehen, ist, sie in Form von Sprache zu fragen, warum sie diese Antwort gegeben hat, um eine Art Selbstreflexion zu erzeugen. Dann können wir ihre Gedankengänge lesen und interpretieren. Ein Grund für die Fehler in der KI ist, dass auch im Internet Fehler vorhanden sind, und das sprachliche Modell bezieht seine Antworten aus dem Internet und wird mit diesen Inhalten trainiert. Wir haben Möglichkeiten zur Verbesserung, aber ebenso wie Internetnutzer wissen, dass nicht alles, was sie dort finden, real ist, müssen sie auch über die KI informiert sein.
Bewusstsein des Nutzers
Frage: Glauben Sie, dass der Nutzer sich immer dessen bewusst ist? Wenn Sie selbst überrascht sind …
Antwort: Ja, es ist eine neue Technologie mit unglaublichen Möglichkeiten, aber … Das Problem ist, dass die Veränderungen, die wir sehen werden, schneller sein werden als andere technologische Umstellungen. Demis Hassabis, der CEO von DeepMind, sagte, dass das, was heute passiert, zehnmal größer und schneller ist als die industrielle Revolution. Doch die Nutzer haben sich an verschiedene Technologien angepasst. Bildung beginnt bei uns selbst, mit gesundem Menschenverstand. Und die Unternehmen müssen kontinuierlich besser werden.
Persönlichkeit der KI
Frage: Sie sprechen von der Persönlichkeit der KI. Inwieweit können wir sagen, dass sie uns ähnlich ist oder sein wird?
Antwort: Es ist schon jetzt offensichtlich, dass die Modelle nicht nur interpolieren, sondern auch kreative Ansätze entwickeln. Nicht in jedem Aspekt, aber sie kommen in bestimmten Bereichen tatsächlich zu neuen Ideen. Das liegt an ihrer Fähigkeit, alle Artikel in zwei völlig unterschiedlichen Feldern zu durchforsten und Verbindungen zu erstellen, die vorher niemand Zeit hatte, zu entdecken. Dies hilft dabei, Brainstorming mit Wissenschaftlern zu betreiben. In der Mathematik ist das ähnlich: Terence Tao, als der beste Mathematiker der Welt angesehen, nutzt KI zur Iteration von Prozessen. Die KI dient als Partner in der Forschung. Es ist nicht unmöglich, dass sie eines der komplexesten mathematischen Probleme lösen könnte. Aufgrund der Dimension: Ein Mensch könnte 50 Jahre benötigen, um die Riemannsche Vermutung zu lösen, für diese Modelle entspricht ein Tag jedoch 600 Jahren.
Verantwortung in der KI-Forschung
Frage: Geoffrey Hinton und andere Vorreiter der KI haben vor ihren Risiken gewarnt. Welche Verantwortung tragen Forscher und Unternehmen in Bezug auf diese Bedrohungen?
Antwort: Geoffrey und ich haben viele Publikationen gemeinsam verfasst und waren Kollegen bei Google. In der wissenschaftlichen Gemeinschaft stimmen nie alle überein. Es ist gut, dass es unterschiedliche Meinungen gibt. Einige sehen großes Gefahrenpotential, andere nicht, ich bin irgendwo dazwischen. Google, und ich kann nicht für andere Unternehmen sprechen, trägt Verantwortung bei der Einführung seiner Modelle und investiert seit vielen Jahren in diese Technologien. Es ist jedoch auch wahr, dass man, wenn man die Modelle nicht der breiten Masse zugänglich macht, nicht schnell genug auf auftretende Probleme aufmerksam werden kann. Momentan gibt es einen Wettlauf zwischen verschiedenen Unternehmen, und wir müssen dabei sein und gleichzeitig die Konsequenzen antizipieren.
Die Geschwindigkeit der Entwicklung
Frage: Werden wir es bereuen, so schnell voranzuschreiten?
Antwort: Ich denke sowohl als Wissenschaftler als auch als Vater an die Welt, die kommt, und wie sich das Arbeitsumfeld und die Beziehungen verändern werden. Ich mache mir ernsthafte Gedanken über die Konsequenzen und darüber, ob es gut ist, dass junge Menschen Zugang zu Chatbots haben. Wir haben nicht die Zeit, Studien durchzuführen, aber es hilft, über die Risiken nachzudenken, um es richtig zu machen. Ja, es wäre besser gewesen, langsamer vorzugehen und mehr Zeit zu haben, um zu verstehen, was gut und was schlecht ist. Aber in dieser Dynamik ist das schwierig. Die Welt bewegt sich schnell, und es gibt viele Anreize. Gleichzeitig ist es aufregend, ein historischer Moment, so wie die Mondlandung. Es gibt viel Optimismus, Energie und finanzielle Kapazität. Es ist kompliziert, dass es zum Stillstand kommt oder langsamer wird. Ich hoffe jedoch, dass wir, falls wir genügend Daten haben, um zu erkennen, dass etwas nicht gut läuft, einen Schritt zurücktreten können.
Wettbewerb und Regulierung in der KI-Branche
Frage: Wie hat die Ankunft des chinesischen Unternehmens DeepSeek Ihre Karriere beeinflusst?
Antwort: Sie haben mit einem kleinen Team gute Arbeit geleistet und verstanden, was man tat. Die führenden Modelle sind jedoch die von Google und OpenAI. Es könnte sein, dass es in einigen Anwendungen eine Grenze gibt, die alle erreichen werden; möglicherweise gibt es einen Punkt, an dem alle KI perfekt Englisch sprechen, und in dieser Hinsicht kein weiteres Fortschreiten mehr möglich ist. Daher hat die Präsenz von DeepSeek in dieser Hinsicht keine große Bedeutung gehabt, wohl aber in der Geopolitik, denn China und die USA sind die Hauptakteure.
Frage: Kann Europa wettbewerbsfähig sein? Was halten Sie von den angestrebten Regulierungsmaßnahmen?
Antwort: Nun, ohne Kommentare. DeepMind ist in London ansässig, im europäischen Umfeld, und es gibt einige starke Startups wie Mistral. In Bezug auf Investitionen und wenn man sich die Datenzentren und die Infrastruktur ansieht, sind jedoch alle in den USA oder China.
Energieverbrauch und zukünftige Interaktionen mit KI
Frage: Sorgen Sie sich über die energetischen Auswirkungen der Rechenzentren?
Antwort: Google hat sich das Ziel gesetzt, emissionsneutral zu werden, und wir arbeiten daran, weil unsere Rechenzentren CO2 ausstoßen, aber wir haben nachhaltige Investitionen, die dies ausgleichen. Außerdem werden nach den anfänglichen Investitionen die Energiekosten effizienter, unter anderem, weil das Training der KI ebenfalls effizienter wird. Die KI kann uns sogar helfen, Materialien oder Technologien zu entdecken, die das Problem von Treibhausgasen lösen. Ein Thema, auf das wir uns konzentrieren, ist die Erforschung der Kernfusion. Diese könnte durch die KI schneller vorangetrieben werden.
Frage: Derzeit interagieren wir mit der KI hauptsächlich in Text- und Bildform. Was erwarten Sie für die nahe Zukunft?
Antwort: Am natürlichsten wird es sein, dass wir in Form von Sprache interagieren, dass wir sprechen und mit der KI kommunizieren, ohne dass dies den Text ersetzt. Eine andere Möglichkeit ist, dass die KI Videos erstellt, kleine Tutorials, um uns Dinge zu erklären. Das werden wir bald sehen. Und dann gibt es etwas, das nicht unmittelbar bevorsteht, das aber in etwa fünf Jahren realistisch sein könnte, da viel in diese Richtung investiert wird: die Robotik. Wir werden mit humanoiden Robotern interagieren, ähnlich wie wir es bereits mit autonomen Fahrzeugen tun. Die Technologie dafür existiert, aber es fehlt an der Formel, um dies für die breite Öffentlichkeit zugänglich und nützlich zu machen.











