# AI Infrastructure Shifts: Compute, Harness Engineering, and Hardware Strategy

**Podcast:** INNOQ Podcast
**Published:** 2026-05-21

## Transcript

Herzlich willkommen.
Ich begrüße euch zur neuen Folge der AI News vom 20.
Mai.
Mit dabei ist Ole.
Hallo Ole, wie geht's dir?
Grüezi wohl.
Ja, Folge 5 schon, hä?
Ja, es geht voran.
Irgendwann, spätestens für die 10.
müssen wir uns was Besonderes überlegen.
Mal gucken, vielleicht schaffen wir dann wirklich mal Gäste.
Oh, jetzt habe ich das angekündigt.
Jetzt müssen wir es wahrscheinlich auch machen.
Wir werden sehen.
Ja, sehr schön.
Dann lass uns die fünfte Folge machen.
Wir haben eine dick gefüllte Themenliste.
Da wir ja jetzt schon wieder ein bisschen Abstand hatten zur letzten Folge, dann tut sich immer so viel.
Wir müssen das auf jeden Fall aber besprechen.
Es sind spannende Dinge passiert.
Fangen wir doch an mit dem Follow-up.
Was ich sehr lustig fand, ist, dass jetzt Anthropic bei SpaceX Compute eingekauft hat.
Das passt ja so ein bisschen zu dem, was wir besprochen hatten oder gemutmaßt hatten.
Mit Mythos, dass sie einfach nicht genug Compute haben.
Und da hat mir das so ein bisschen auseinander gedröselt, was das bedeuten könnte.
Und jetzt haben sie offensichtlich relativ schnell von jemandem was gekauft, was der Elon nicht selber verwenden konnte.
Offensichtlich.
Weil bei ihm nicht so viel Bedarf offenbar ist, wie er gedacht hat.
Nicht mehr so viel Bedarf.
Sie haben tatsächlich...
Wie du schon angedeutet hast, das war ja immer so die große Krux mit Anthropic.
Sie haben zu wenig Compute und zu wenig Compute eingekauft und man dachte eigentlich immer, sie schaffen es vielleicht noch so 30 bis 50 Megawatt an Compute zu überhöhten Preisen für dieses Jahr einzukaufen.
Und jetzt kommt halt dieser Überraschungsdeal mit Elon um die Ecke.
Sie haben eben das komplette Colossus One abgenommen.
300 Megawatt an Rechenleistung und tatsächlich auch noch zu einem ziemlich kompetitiven Preis.
Also man rechnet auf dem normalen Markt zur Zeit, also Spotpreise für die H100 Stunde so zwischen 3 und 5 Dollar und sie zahlen tatsächlich nur 2,6 Dollar pro Stunde.
Also das ist ziemlich erstaunlich und das löst ungefähr 80 Prozent der Antropic Probleme.
Sie haben es auch gleich angekündigt.
Die Quotas wurden massiv draufgesetzt.
Ich glaube, der Fünf-Stunden-Quota wurde verdoppelt.
Das Rate-Limiting zu Rush-Hour haben sie ganz ausgesetzt.
Im Prinzip haben sie damit indirekt sogar den Tokenpreis gesenkt, weil sie jetzt auf einmal so viel Compute haben, dass sie da sehr großzügig mit umgehen können.
Genau, was gibt es noch zu sagen?
Also das sind über 200.000 H100 und H200 und glaube ich auch so ein paar Blackwell GPUs mit dabei.
Sie hatten das ursprünglich mal, also der Colossus One ist das ursprüngliche Haupttrainingssystem von SpaceX AI gewesen.
Die haben jetzt aber auch so einen Colossus 2 tatsächlich, der sogar noch mehr Rechenleistung hat und darum eilte der irgendwie so mit 11% Auslastung rum.
Im Prinzip ist das ein Win-Win.
Ja klar, weil jetzt Anthropic wahrscheinlich einfach, das musste sich SpaceX nicht darum kümmern, das irgendwie an viele Kleine zu vermitteln, die Leistung.
Wahrscheinlich haben sie es deswegen auch nicht gemacht, weil das zu viel Aufwand ist.
Und wenn jetzt sagt einer auf einen Schlag, sagt wir nehmen alles, ist das natürlich für die, bevor das halt rumsteht, um das Investment wieder reinzukriegen.
natürlich völlig nachvollziehbar.
Das fand ich schon interessant, diesen Deal.
Du hast schon richtig gesagt, die Quotas wurden gleich verändert.
Das heißt, wer mit so verschiedenen Plänen unterwegs ist, wird jetzt seltener, als direkte Konsequenz dieses Deals, seltener in seine Limits reinlaufen.
Das ist natürlich schon auch spannend.
Man sieht halt wirklich, wie schnell sich momentan die Bezahlmodelle ändern.
Da kommen wir dann nachher auch nochmal drauf bei GitHub und Copilot.
Wie schnell sich dann doch da in dem Markt was bewegt.
Je nachdem, wer gerade für was denn bezahlt und wer für was nicht bezahlt.
Das ist sehr fluide gerade.
Zwei Geschmäckle sind so ein bisschen da dran.
Einmal die Umweltbilanz von diesem Kolossus 1, der wird viel mit Gasturbiden betrieben.
Die soll auch mit temporären Erlaubnissen, das soll eine ziemliche Umweltsauerei sein, das Ding.
Und das zweite Geschmäckle ist, dass Anthropic...
Elon Musk bei der Klage gegen OpenAI unterstützt hat.
Also Musk klagt ja gerade gegen Sam Altman, dass er die Idee von OpenAI verkauft hat und tatsächlich ist Anthropic da als Co-Kläger mit aufgetreten.
Okay, das wusste ich gar nicht.
Ich hatte nur die News jetzt gelesen, dass Elon verloren hat und habe mich dann gefreut.
Ja, ich weiß auch nicht, da trifft es vermutlich...
Egal auf welcher Seite immer die Richtigen.
Ich bin mir da auch nicht so richtig sicher.
Es gibt nicht so viele Nettenleute in dem Bereich.
Ich glaube, da ist es halt wirklich vorbei.
Ja, das finde ich schon interessant.
Die haben das Ding wirklich relativ, dieses Koloss, das hatte ich auch mal in einem Artikel gelesen, relativ schnell aus dem Boden gestampft.
Und in der hatten dann eben das Stromversorgungsproblem und haben es dann eben mit Gasturbinen gelöst.
Das ist natürlich auch extrem schwierig.
Das sehe ich auch.
Ja, das war so ein bisschen das Follow-up zuletztes Mal.
Da musste ich doch schwunzeln, als ich diese News sah.
Wir haben noch mehr Gossip, Personal.
Das hat auch was mit Anthropic zu tun, mit dem guten Andre Kapathi, wie man ihn auch immer ausspricht.
Genau, eigentlich ursprünglich auch ein OpenAI-Gründer, hat lange bei Tesla die Self-Driving-Sparte geleitet.
Genau, da kenne ich den Namen her, dass er bei Tesla da ganz groß war.
Eigentlich in letzter Zeit einer meiner Lieblingsblogger.
Ursprünglich hat er mal gesagt, dass er genug Geld verdient hat.
Scheinbar hat er es sich doch nochmal anders überlegt und will doch noch ein paar hundert Billionen einstreichen.
Auf jeden Fall hat er jetzt zu Antropic gewechselt, wird da beim Research und Development mit einsteigen.
Ja, was das an seinen Bildungscontent angeht, weiß ich nicht genau.
Ehrlich gesagt, also ich mag beide.
Ich mag also Anthropic und ich mag Andrew Carpathie.
Ich bin mir nicht sicher, ob die Kombination, ob ich die Kombination so mag.
Ich hatte heute irgendwie im Forum geschrieben, dass so ein bisschen wie Wein und Whisky, beides ist gut, aber man muss nicht immer alles mixen.
Hätte mich, glaube ich, mehr darüber gefreut, wenn wir noch einen unabhängigen Berichterstatter gehabt hätten, der halt...
ohne irgendwelche Strings attached, dann offen drüber reden kann, wie der Stand von Agent Decoding gerade ist.
Und das ist jetzt zumindest mal in Frage gestellt, weil er jetzt eigene finanzielle Interessen daran hat.
Er wird ja Aktienpakete bekommen und das finde ich leider ein bisschen schade.
Für ihn wird das wahrscheinlich ein finanziell sehr lohnender Deal sein.
Genau, das hat sich für ihn mit Sicherheit gelohnt, klar.
Aber ich finde was interessant, was du sagst.
So ein bisschen die Frage, wem kann man denn abnehmen?
Gerade die sehr lauten Stimmen, die viel unterwegs sind und dann irgendwas vertreten oder was auch immer, was dann die Motivation jeweils dahinter ist.
Und da ist natürlich jetzt eine neutrale Stimme weniger, so ein bisschen.
Das ist schon ein bisschen schwierig.
Anfabic cached natürlich dann sozusagen auch seine Publicity ein bisschen mit ein jetzt.
Wenn sie ihn jetzt übernehmen, dann natürlich seinen guten Ruf dann für ihre Zwecke dann weiter nutzen.
Aber gut, das ist mit OpenClaw ja auch so gelaufen.
Die großen Player versuchen natürlich jetzt die lauten Stimmen und die schlauen Köpfe bei sich jeweils zu konzentrieren.
Diese Konzentration auf den großen Playern, das hat mich tatsächlich auch nochmal beschäftigt, als ich einen anderen Artikel gelesen habe, nämlich die ganze Microsoft- und Co-Pilot-Geschichte, wo Microsoft ja wirklich in alle Produkte den Co-Pilot integriert hat und wirklich überall, wo es Sinn gemacht hat und wo es auch keinen Sinn gemacht hat.
Und jetzt kamen da eben die News, dass intern natürlich auch sehr viele Entwickler Cloud-Code einsetzen bei Microsoft und sie jetzt eben versuchen, das ein bisschen einzudämmen.
Es wird gemutmaßt, dass aus finanziellen Gründen, damit eben nicht so viel Geld abfließt zur Konkurrenz.
Ich hätte so erst so ein bisschen gemutmaßt, dass es auch so ein bisschen Dogfooding ist, dass eben die eigenen Produkte eben besser werden.
Man erhofft sich, dass die eigenen Produkte besser werden und deswegen versucht man sie natürlich auf die gesamte Organisation auszurollen, damit es da eben auch schnelleres internes Feedback gibt.
Das wäre so die positive Lesart.
Und die weitere positive Lesart wäre vermutlich, dass vielleicht auch GitHub Copilot oder Copilot an sich mittlerweile auch konkurrenzfähig ist.
Manche sagen das, dass sie damit eben genauso gut arbeiten können oder ähnlich gut arbeiten können wie mit einem Cloud-Code-Produkt jetzt zum Beispiel.
Insofern könnte das auch das Signal daraus sein.
Oder hast du da Meinungen zu?
Ich sehe das genauso.
Ich vermute eher, dass es auch so ein Eat-Your-Own-Dog-Food-Move Einfach, weil die Gewinnmarge, also so viel Gewinnmarge kriegt Anthropic gar nicht durch den Traffic durch Microsoft.
Viele Leute sagen ja, sie machen sogar Minus damit.
Das glaube ich bei Geschäftskunden nicht, gerade wenn sie diesen Fast Mode aktiviert haben.
Also man kann ja so einen Fast Mode sich einkaufen, wo du dann den fünffachen Preis bezahlst und so ungefähr zweifache Geschwindigkeit bekommst.
Das verrückterweise machen das wohl viele amerikanische Firmen und verkauft sich sehr gut.
Aber wenn Microsoft nicht das bei Anthropic eingekauft hat, dann sehe ich da finanziell gar nicht so die großen Anreize.
Was ich auch spannend finde, ist, dass Microsoft selber ja gerade die Preise extremst erhöht hat.
Also Copilot ist ja teilweise um Faktor 5 bis 10 für manche Modelle teurer geworden.
verstehe ich nicht ganz, warum sie jetzt den Traffic auf sich umleiten, außer halt mit dem Argument Eat your own dog food.
Sie wollen die Trainingsdaten haben.
Ja, also bei GitHub an sich hätte ich halt gedacht, dass es ein bisschen damit zusammenhängt, dass durch einfach diese krass ansteigende Menge an Code auf GitHub und die ganzen Pipelines und Actions, die da laufen, halt einfach da wirklich so viel verbrannt wird, dass die versuchen, das so ein bisschen einzudämmen.
Einfach weil da so die Last auf ihren Systemen dadurch so steigt und dann wollen sie es sich zumindest bezahlen lassen oder zumindest ein bisschen weniger draufzahlen vielleicht, weil ja da schon wahrscheinlich auch viel subventioniert wird.
Ja.
Ja, aber kann man tatsächlich nur mutmaßen, was sie damit bezwecken wollen.
Ja, genau.
Wie kamen wir da jetzt gerade hin?
Ach so, Geld.
Geld.
Aber Geld können wir weitermachen.
Über Geld und Börse können wir weitermachen.
Cerebras.
Cerebras, genau.
Ist an die Börse gegangen.
Das war die Chip, also mit Riesenchips.
Genau.
Das habt ihr bestimmt gesehen, das sind die Firmen, die einen ganzen Wafer als ein Chip oder als ein, naja, ein Chip ist auch nicht korrekt, also als eine Einheit, als ein Rechenmodul verkauft.
Also Teile dieser Chips sind ja häufig kaputt auf den Wafern und sie haben so einen kompletten Wafer genommen, haben da 940.000 Cores draufgepackt, also so Mini-Mini-Cores und haben sich dann ein relativ geschicktes Routing davon überlegt, dass 900.000 von so einem Cores eigentlich immer zur Verfügung stehen und die Idee ist einfach, man kann auf diesem Riesending viel mehr...
Speicher direkt unterbringen, also da sind irgendwie 44 Gigabyte Speicher direkt auf dem Chip drauf und durch diese Bandbreite zwischen den Cores, weil die halt, muss nicht groß verkabelt werden, muss nicht über irgendwelche externen Büsse laufen, haben die halt eine brutale Geschwindigkeit, gerade zu Inference Time sind die also um Faktor 20 schneller als die normalen Systeme.
Ist so ein bisschen die halbe Wahrheit.
Es gibt auch Kritik.
Also unser Hauptkritikpunkt ist, dass diese 44 Gigabyte Extreme High Bandwidth Memory zu klein für die meisten großen Modelle sind.
Also wenn du irgendwie so einen DeepSeq V4 laufen lassen willst, brauchst du schon, glaube ich, 14 von diesen Chips.
Und witzigerweise alles, was nicht an so einen riesen Wafer-Chip angebunden ist, ist relativ langsam angebunden, ist langsamer als eine normale Nvidia GPU angebunden.
Darum ist das so ein bisschen dieser Trade-off, der so ein bisschen komisch erreicht.
Aber der Markt belohnt das, neue Chips-Designs gerade brutal.
Also sie wollten mal mit 115 bis 125 pro Aktie starten, haben es dann schon vor ein, zwei Monaten auf 150 erhöht und haben dann jetzt mit 185, also...
So ungefähr ein Drittel höher gestartet und direkt nach dem Release ist der Preis auf 350 gesprungen und jetzt so wieder so auf 310 ungefähr abgefallen.
Also extrem 20-fach überzeichnet und obwohl noch nicht hundertprozentig klar ist, ob sie sich durchsetzen werden, sind viele Firmen hochinteressiert.
Hauptsächlich OpenAI hat sich da viele Shares wohl von gesichert.
Genau.
Technisch extrem interessant, weil wenn du so eine Riesenfläche hast, ist es ja natürlich schwer zu kühlen.
Da gehen richtig viele Watz drüber.
Wie kühlt man das?
Wie presst man das an den Kühlkörper dran?
Sie mussten wohl also sehr, sehr fein und sehr genau viele Löcher für Schrauben tatsächlich auch...
mit Maschinen bohren lassen.
Gar nicht, dass es so aus der Waferfabrik fertig rauskommt.
Die werden alle nachträglich gebohrt, damit man einen gleichmäßigen Anpressdruck von diesem riesen Wafer gegen den Kühlkörper hinkriegt.
Engineeringmäßig ist es eine Meisterleistung, würde ich sagen.
Das kann man schon sagen.
Die Börse denkt, das ist die Zukunft für Inference, schnelle Inference.
Darum sind die halt massiv überzeichnet.
Ich denke, Auf jeden Fall cooles Engineering, cooler Chip.
Ob es sich auszahlt, weiß ich jetzt auch nicht.
Das werden wir sehen.
Zwei Hauptinvestoren sind noch arabische Firmen.
Das fällt mir noch so dazu ein.
Ja, das ist das, was ich so gehört habe darüber.
Ja, ich finde das schon spannend, weil das ist so ein bisschen der Mittelweg.
Es gibt diese General Purpose CPU oder jetzt halt auf General Purpose GPU, wo das Zeug drauf läuft.
Auf der ganz anderen Seite, die hatten wir, glaube ich, letztes oder vorletztes Mal das Thema mit einem Modell direkt in einen Chip gegossen, der dann auch nicht mehr veränderbar ist, was dann natürlich super schnell war.
Das war das Lama, was direkt mal in einen Chip gegossen war.
Superschnell, aber natürlich dann überhaupt nicht mehr veränderbar.
Und die versuchen irgendwie so ein bisschen dazwischen zu sein.
Sehr, sehr spezialisierte Hardware, wo aber verschiedene Modelle eben drauf können.
Vielleicht ist die Wette nicht die schlechteste, aber ich würde auch...
vermuten, dass die Balance vermutlich eher dahin geht.
Es gibt halt wirklich die super effizienten Sachen, wo dann irgendwann wirklich ein Gell in einem Chip ist, super energieeffizient für spezielle Anwendungen.
Und auf der anderen Seite willst du vermutlich aber ein bisschen mehr Flexibilität.
Es sei denn, es wird irgendwann eben so ein Chip nochmal zusätzlich.
Nicht früher hat sie nur eine CPU, da hat sie einen speziellen Grafikprozessor und jetzt hast du irgendwelche Neural-Prozessoren, die du noch hinzupackst.
Vielleicht wird das auch irgendwann der Standard werden.
Das kann auch sein.
Aber erstmal sehe ich, dass, glaube ich, die Balance bei denen jetzt, könnte ich auch noch nicht sagen, ob sich das durchsetzt.
Ich glaube, so ein bisschen General Purpose Compute ist vermutlich dann einfach flexibler.
Du kannst schon alle möglichen Modelle drauflaufen lassen.
Genau, auf den Zerebras, ja.
Allein das Engineering, das ist schon verrückt.
Also ich glaube, eine Schipp macht über 20 Kilowatt.
An Leistung, ne?
Auf so einem Chip, das ist schon brutal.
Faszinierend ist das auf jeden Fall, da würde ich mitgeben.
Ob sich das durchsetzt, da wäre ich halt auch.
Aber irgendwie, man muss es halt ausprobieren, um herauszufinden, ob es was bringt oder nicht.
Ich meine, das ist ja das Schöne an dem AI-Wahnsinn.
Es findet sich Geld, um alle möglichen verrückten Ideen gerade zu finanzieren und vielleicht kommt ja was Cooles bei raus, ne?
Warum nicht?
Wir hoffen das.
Wenn wir schon so viel Energie verbraten, dann soll am Ende zumindest irgendwas for the greater good of mankind bei rauskommen.
Wir hoffen das.
Ich bin ja positiv und optimistisch, was die Zukunft angeht.
Ja, so viel vielleicht zu dem Cerebras-Thema.
Dann lass uns doch vielleicht mal gucken, dass wir, wir haben so einige Themen, die sich um das Thema Gentic Harness Argentic Harness Engineering, sagen jetzt manche AHE, drehen.
Da gab es einige Papers dazu oder Preprints, die rauskamen.
Vielleicht versuchen wir mal so ein bisschen das aufzudröseln, was da unsere Sicht gerade auf dieses Feld ist.
Möchtest du da mal einsteigen?
Ja, genau.
Vielleicht ganz noch ein bisschen Theorie vorweg.
Argentic Harness ist halt alles drumherum, was dein Agent so ein bisschen einhegen soll, quasi so.
Der Schiedsrichter, der pfeift, wenn der Agent das Spielfeld links oder rechts verlässt und ihn wieder zurück dazu treibt, was er machen soll.
In der Softwareentwicklung sind das halt häufig irgendwelche Code-Reviews oder Code-Analyse-Tools.
Was ich ganz gerne einsetze, ist hier SonarCube, was viele kennen, oder ArcUnit werden die meisten Java-Leute kennen.
Das kann man dazu.
Und es gibt halt gleich eine schnelle Feedback-Schleife kurz nach der Compile-Zeit, dass der Agent weiß, das hat er gut gemacht oder das hat er schlecht gemacht.
Kann auch allgemeinere Dinge sein, wie irgendwelche Code-Styles und so weiter.
Genau, das weitet sich jetzt aber gerade aus.
Also man verwendet Sahnesse mittlerweile für alles Mögliche und für alle Agentic-Anwendungsfälle.
Unsere Paper waren ganz interessant, weil sie haben tatsächlich das Modell gleich gelassen, aber nur den Sahnes modifiziert.
Und dann geschaut, wie viel Performance-Gewinne kann man in diesen klassischen Benchmarks erreichen, wenn man den Harness verbessert und nicht das Modell selber.
Also das Modell war das gleiche.
Und ja, es kam halt raus, dass du durchaus 10 bis 15 Prozent in den klassischen Software-Benchmarks rauskriegen kannst, wenn du einen guten Harness hast und gleichzeitig auch noch 12 Prozent an Tokens dabei.
einsperst.
Und wenn man das so im Verhältnis setzt, was wir so an Gewinnen in diesen Benchmarks zwischen den letzten Model-Releases, also vielleicht von Opus 4.5 zu 4.7 betrachtet, ist das halt deutlich.
Da waren keine Sprünge mehr von 10% dabei.
So ein bisschen gerade die Idee, vielleicht ist HANES doch der Bereich, der 2026 jetzt wichtig wird und wo das meiste Engineering reingesteckt wird.
Ja gut, wichtig war er glaube ich schon von Anfang an und ich glaube jetzt, es ist vielleicht so ein bisschen so ein Aufholrennen, weil jetzt die Modelentwicklungen eben nicht mehr so sind.
Am Anfang gab es halt extrem große Fortschritte, einfach durch die größeren, besseren Modelle.
Man musste sich eben den anderen Kram gar nicht so kümmern.
Manche haben es dann parallel natürlich trotzdem schon gemacht, haben gesehen, da gibt es auf jeden Fall Verbesserungen dadurch, auch sehr starke Verbesserungen.
Und dann gab es natürlich wieder ein besseres Modell.
Dann gingen Sachen wieder ohne, dass man viel optimieren muss.
Und vielleicht sehen wir jetzt gerade, war ja auch unser Take.
aus den letzten Malen, dass viele Modelle einfach gut enough sind für das, was wir jetzt machen.
Und man kann jetzt sozusagen mit den bestehenden Modellen dann aber einfach durch das Optimieren seines Hahnens da eben noch viel mehr rausholen.
Und das sieht man jetzt, glaube ich, auch.
Und es ist schön, dass es dazu jetzt eben auch Forschung gibt.
Die können wir dann auch nochmal verlinken.
Ja, genau, die beiden Paper können wir auf jeden Fall unten reinpacken.
Ist auch so ein bisschen, ich meine...
Wir kennen das ja auch selber vom Entwickeln.
Die Idee ist halt dann nicht mehr jedes Mal deinem Coding Agent zu erklären, was er besser machen soll, sondern dann packst du das direkt in einen Harness.
Spannend fand ich noch, sie haben Wege untersucht, das auch tatsächlich per Open Telemetry zu untersuchen und tatsächlich dem Harness oder dem Agent, der diesen Harness schreibt, ein Goal mitzugeben.
zum Beispiel 10% weniger Tokens zu verbrauchen.
Und damit wurde dann der Harness optimiert und man hat das erste Mal so richtige validierbare Ergebnisse mit reingebracht.
Und das war wohl auch so einer der Game Changer für das richtige Harness Engineering, dass man so forcible Goals, also wirklich überprüfbare Goals, eingezogen hat.
Ja, das ist lustig.
Da kommt alles wieder.
Bei der Software-Evolution sagen wir ja auch immer, du brauchst halt Ansonsten kannst du nicht sagen, ob irgendwas besser geworden ist.
Du brauchst messbare Metriken.
Und natürlich ist es für die Agenten noch viel besser, wenn die wirklich ein klares Ziel haben und eben nicht irgendwie einen schwammigen Prompt, sondern man sagt halt, der Hanis sagt Exit Code 1 oder 0 und dann hast du es richtig gemacht oder nicht und dann gibt es eben noch ein entsprechendes Feedback und dann kann man sich da iterativ dem nähern.
Anders funktioniert es ja, also kann es ja auch nicht deterministisch funktionieren.
eine deterministische Funktion in deinen Harness einbaust, dann wird es natürlich erst effizient und auch überprüfbar.
Ich hatte tatsächlich unabhängig von dem, was du jetzt genannt hast, da auch noch ein Paper gefunden.
Auch von deinen Nachbarn von der ETH Zürich war das ein Preprint.
Der Titel war, ich hoffe, ich finde es noch, Coding Agents Don't Know When to Act.
Das geht so ein bisschen, kommt aus der anderen Richtung, aber bestätigt im Grunde das Gleiche, dass nämlich die Modelle eben immer versuchen, eine Lösung zu liefern, auch wenn die vielleicht nicht passt und dadurch, jetzt speziell was das Coding angeht, dann eben anfangen, Code zu modifizieren, der vielleicht in dem aktuellen Fall gar nicht modifiziert werden sollte.
Und man kann dann halt natürlich immer hergehen und dann das Modell korrigieren und sagen, ja, bitte diesen Ordner nicht editieren, diese Dateien möchte ich jetzt gerade im Rahmen der aktuellen Aufgabe nicht bearbeiten.
Dann kann man das eben im Prompt mitgeben, ist schön, dann wird es auch besser, haben die in dem Paper auch bestätigt.
Aber im Grunde kann man da natürlich wieder gleich den Zirkelschluss machen zum Harness und sagen, dann gebe ich halt entsprechend eine Regel mit dem Agenten, im Rahmen dieser aktuellen Aufgabe bearbeitest du bitte nur diese drei Unterverzeichnisse und darfst nur Cota drin editieren, die anderen lässt du bitte in Ruhe und dann passiert es eben auch nicht.
Dann muss ich eben nicht meinen Prompt in all caps schreiben, don't modify this folder, really don't modify it.
wie man das halt so früher gemacht hat.
Sondern wenn man einen Fehler feststellt beim Agenten, dann soll man halt eine deterministische Regel hinterlegen, die diesen Fehler halt in Zukunft verhindert.
Und dann kann man sich dem Ziel besser annähern.
Genau, das Paper verlinke ich dann auch nochmal.
Gut.
Genau, so anschließend an die Harness-Diskussion gibt es auch Neuigkeiten von der ARC-AGI-Challenge 3.
Codex hat da...
Letzte Woche einen neuen Highscore aufgestellt mit 61 Prozent und das nach nur zwei Monaten.
Also wer damit nicht vertraut ist, die Arc AGI Challenge ist von François Chollet, einem Ex-Google-Mitarbeiter, war eine Zeit lang unabhängig, ist jetzt auch wieder mit irgendeinem Startup am Start und sie haben sich halt immer so das Ziel gesetzt.
Am Anfang ging es halt gegen das Memorization, also gegen das Auswendiglernen und sie versuchen immer Tests zu erstellen, die da extrem robust.
gegen sind, indem sie halt irgendwelche optischen Prinzipien von Inside und Outside, also von innerhalb, von außerhalb und von Schnittmengen darzustellen und dann soll AI da Fragen zu beantworten und Menschen fällt das in der Regel ziemlich leicht, aber AI hatte da immer Schwierigkeiten mit.
Genau das neueste Level 3, also ARC AGI Challenge 3 hat halt so auf Spiele gesetzt.
Sie mussten da so einfache Spiele, so Maces oder Pac-Man-artige Sachen lösen.
Es gab überhaupt keine Anleitungen für die AI.
Es gab überhaupt keine Regeln und so weiter.
Sie wurden halt in das Spiel reingeworfen und sie mussten die Regeln selber lernen.
Und am Anfang waren die Ergebnisse auch tatsächlich erschütternd.
Also ich glaube, Gemini war mit 0,4 Prozent Erfolgsquote die besten.
Und alle anderen waren halt also weit unter einem halben Prozent und jetzt sind sie 61 Prozent schon, vor allem nach zwei Monaten, ziemlich erstaunlich.
Der Trick daran ist, sie haben die Regeln nicht offiziell eingehalten, weil ein Harness explizit ausgeschlossen war.
Ja, okay, da haben wir es wieder.
Genau, und da ist wieder der Trick mit dem Harness.
Also sie arbeiten mit dem neuen Goal-Mechanismus, den sie sich wohl von...
Open Claw abgeschaut haben.
Also Claude Code unterstützt ihn auch, aber der ersten war ein Kodex, den sie hatten, dass man ihnen ein Ziel geben kann, das zu erreichen ist und er so ein bisschen eine Mischung aus Harness und Brute Force sich diesem Ziel annähern kann.
Und da haben sie es tatsächlich geschafft, auf 61 Prozent zu kommen.
gedacht war, dass dieser Menschmarkt für die nächsten zwei bis fünf Jahre eigentlich ungebrochen ist.
Und ja, jetzt hat es zwei Monate gedauert.
Aber Preisgeld bekommen sie nicht, weil Regeln missachtet.
Genau.
Das Preisgeld bekommen sie dann doch nicht.
Zwei Millionen waren Preisgeld ausgesetzt.
Genau.
Aber es zeigt so ein bisschen, wo es gerade hingeht.
Ein bisschen Harness, ein bisschen Brute Force und weiterreichende Ziele.
Das ist gerade so.
The way to go.
Und auch das war ein bisschen, was man ja von OpenClaw mitgenommen hat.
Also der hat sich ja auch teilweise dadurch gebrootforced, immer wieder Screenshots vor- und zurückgeschickt und nicht wirklich einen Plan gehabt oder nicht wirklich sich vorher einen Plan zurechtgelegt, sondern immer nur von Situation zu Situation gehandelt.
Und ja, offensichtlich ist das the way to go für Asians, zumindest im Moment.
Ja, ist für mich ein bisschen die Frage, ob jetzt dann die Anbieter dazu übergehen, so wie sie das vorher mit diesem Thinking Mode im Grunde auch schon waren, wo intern in den Modellen ja im Grunde so eine Mini-Agent-Loop, so habe ich mir das immer vorgestellt, gefahren wurde, die dann aber jetzt verborgen war vor dem Anwender.
Und dass sie das jetzt quasi dann versuchen, wahrscheinlich intern sich auch quasi Agent Harnesses direkt in ihre Modelle zu bauen, wahrscheinlich.
Closed Source natürlich, dass man das eben nicht sieht, um dann vielleicht trotzdem weiterhin diese Fortschritte zu erzielen.
Das würde ich jetzt vermuten, dass das so ein bisschen der Weg wird, aber das ist natürlich nicht im Sinne von der Souveränität, dass man halt weiß noch, wie die Tools funktionieren und sie noch benutzen kann.
Abseits von den Modellen natürlich die komplette Blackboxen sind.
Aber das war zumindest so ein bisschen das Gefühl von Kontrolle, was man hatte, wenn man sein Harness-Lokal optimieren kann auf seine lokalen Anwendungsfälle und dann das Modell im Grunde so ein bisschen austauschbar betrachtet hat.
Ich hoffe, dass es trotzdem mit dieser Richtung weitergeht, weil eigentlich im Sinne der Souveränität ist das eher zu befürworten, dass das Modell an sich eigentlich General Purpose ist oder so ein bisschen was wie Basistechnologie und man dann vielleicht doch wieder einen Mehrwert schaffen kann durch spezialisierten Harness.
Ja, ich finde die Entwicklung auch richtig interessant.
Ich habe da gar nicht so viele Sorgen, wenn ich ehrlich sein muss.
Ganz einfach, weil die Entwicklerteams und die Projekte zu unterschiedlich sind.
Also es gibt, glaube ich, ganz wenig Regeln, wo du sagen kannst, die ist bei jedem Entwickler immer richtig so.
Ja, genau, das ist auch meine Erfahrung.
Insofern, da Sorgen in der Richtung mache ich mir auch nicht.
Das war jetzt eher so ein bisschen der Blick in die Glaskugel.
Ja, wem es aufgefallen ist, wir haben bisher noch gar nicht über neue Modelle geredet, sondern nur über den Hanes draußen drum.
Es gab aber neue Modelle.
Allerdings kamen ungefähr die ganzen News dazu heute.
Deswegen können wir es nur kurz erwähnen und müssen dann selber schauen.
Aber vielleicht zumindest die Chronistenpflicht erfüllen, dass tatsächlich Gwen 3.7 angekündigt wurde heute, wo sie halt sagen, das ist jetzt Frontier-Level.
Agentic Coding Modell super, super.
Sie vergleichen sich da interessanterweise auf der Seite aber mit Opus 4.6.
Also sind da noch ein bisschen hin und her und sind da angeblich en par.
Finde ich spannend, aber das ist halt eben auch ein Closed Modell, was man kommerziell eben nur wie die anderen auch beziehen kann.
Also da jetzt nicht so viel Open Source Auspublikerei möglich.
Und das zweite war, dass Gemini 3.5 in der Flash-Variante jetzt auch rausgefallen ist.
Das finde ich nochmal relativ interessant, weil diese Flash-Modelle ja immer super schnell sind.
Wenn man jetzt ein relativ neues Modell, was sehr mächtig ist, mit tendenziell höherem Token-Output, man für so schnelle Gentic-Loops vielleicht ganz gut mal austesten kann.
Also das werde ich auf jeden Fall mal ausprobieren.
Hast du noch Modell-News?
Nicht so viel, aber wo du gerade Gemini 3.5 erwähnt hast, dass natürlich die Ergebnisse des Google I.O.
war jetzt auch heute Nacht.
Ich bin auch noch nicht wirklich tief drin, was alles vorgestellt wurde.
Festhalten kann man zumindest mal, es wurde alles mit AI gemacht.
Also sie stopfen AI.
Überall rein.
Für wen hattest du es heute gesagt?
Für Microsoft hattest du es auch schon erwähnt.
Google folgt dem Weg auch.
Sie haben auch AI-Audio-Glasses vorgestellt.
So ein bisschen folgen dem Trend von Meta.
Meta hatte ja auch so AI-Glasses.
Google macht die Reihen Audio, also Sonnenbrillen mit Mikrofonen und Lautsprechern.
Keinen Displays, fand ich einen ziemlich interessanten.
Ja, nach dem Fail von Google Glass war das, glaube ich, auch zu erwarten, dass sie auf keinen Fall Kameras auf der Nase irgendwie weiterverkaufen wollen.
Das ist, glaube ich, nicht die Zukunft.
Genau, am Ende kam nochmal Dennis Hassabi, also der Chef von Google DeepMind, dazu und hat so ein bisschen über die neuen Weltmodelle geredet, an denen sie arbeiten, was ich sehr interessant fand.
Ja, das ist, wo es wohl hingeht.
Er meinte irgendwie sowas.
Sie sind jetzt bei den ersten Ausläufern von AGI angekommen und sie probieren es tatsächlich dadurch, dass sie so klassische Large Language Models mit ihrem Nano Banana 3 und ihrem Genie kombinieren.
Genie ist so ein Modell, was dazu gemacht ist, in 3D-Umgebungen computerspielartig zu generieren und dann kann man als Charakter...
sich da bewegen und sie versuchen halt da verschiedene Aspekte reinzubringen.
Einmal das Weltwissen des Large Language Models mit dem Wissen von Objekten, von der Bildgenerierung, mit ein bisschen Verständnis dazu, wie Physik funktioniert, wie so Spielwelten funktionieren.
Und die Idee ist, wenn wir alle diese drei Zutaten verschmelzen, wollen sie zumindest eine Proto-AGI erschaffen.
Ziel ist, glaube ich, 2028 Proto-AGI zu erschaffen, indem man Aber die Idee ist gar nicht so doof.
Also, die Smart Language Models uns da nicht hinbringen, war, glaube ich, relativ klar den meisten mittlerweile.
Das ist wahrscheinlich wie immer die Kombination aus verschiedenen Bausteinen.
Genau.
Ich mag das immer nicht so viel zu viel zu anthropomorphisieren, aber so die verschiedenen Gehirnregionen, dass die unterschiedliche Aufgaben erfüllen und dann irgendwie zusammenwirken, dass man versucht, das jetzt eben dort auch nachzubilden und einfach dieses...
Mix of Experts, was man in den LLMs ja auch schon drin hat, noch ein bisschen zu erweitern auf eben wirklich konkret unterschiedliche Modellansätze, die man kombiniert, ist ja irgendwo naheliegend.
Ja, also an die AGI glaube ich noch nicht so richtig, aber glaube ich erst dran, wenn ich sie sehe.
Ich bin gespannt, aber ja klar, dass sie natürlich sagen, wir arbeiten da dran und wer da der Erste ist, will natürlich da, ja, oder wer der Erste sein möchte, werden wir dann sehen.
Ich bin noch nicht mal sicher, ob AGI so eine gute Idee ist.
Leicht kontrollierte Large Language Models sind eigentlich für mich good enough.
Wenn etwas für uns good enough ist, dann heißt es ja nicht, dass andere aufhören.
Deswegen muss man sich wahrscheinlich mit dem Fallout trotzdem mit dem möglichen Vorder auseinandersetzen.
Wie kommen wir da jetzt wieder raus aus der Dystrophie am Ende?
Ich habe tatsächlich keine großen Themen mehr.
Ich hatte nur noch den Tipp der Woche, weil ich damit ein bisschen Zeit verbracht hatte, diesen Remote-Control-Modus von Cloud Code auszuprobieren, was es ja schon über externe Apps gab.
Ich glaube, ich hatte das mal erwähnt, dieses Handy hieß es, glaube ich.
Nee, das war das Happy, nicht Handy, sondern Happy Coder war das damals, wo man halt Cloud Code fernsteuern konnte vom Smartphone.
Und das ist ja quasi eingebaut, wenn man da irgendwie slash Remote-Control jetzt eintippt.
kann man auf dem Smartphone die Session eben fernsteuern.
Ja, da muss man wirklich bloß aufpassen, dass wenn man Mittagspause macht und spazieren geht, nicht dann währenddessen die ganze Zeit noch weiter codet, weil sonst explodiert irgendwann der Kopf.
Ich habe das für mich mal ausprobiert, aber es ergibt schon Sinn, dass man Pausen macht und das Gehirn sich mal erholen lässt.
Also insofern probiert es gerne aus, aber mit Vorsicht.
Hast du noch Tipps am Ende oder war es das für heute?
Eigentlich nicht.
Persönlich spiele ich gerade mit dem Cloud Designer rum.
Aber darüber können wir nächstes Mal reden, glaube ich.
Wir sind eh schon über der Zeit, oder?
Das stimmt, das sind wir.
Dann lass uns den Cloud Designer auf nächstes Mal verschieben.
Dann danke ich dir für die Runde.
Es hatte sich einiges angesammelt.
Dann hoffen wir mal, dass wir das nächste Mal vielleicht in der übernächsten Woche schon schaffen.
Wir werden sehen.
Das wäre mein Ziel.
Und dann gibt es vielleicht wieder ein bisschen kompaktere News.
Und offensichtlich was vom Cloud Designer.
Ich bin gespannt.
Alles klar.
Dann danke dir fürs Mitmachen und danke euch für das Interesse.
Und dann sehen wir uns demnächst wieder bei der nächsten Folge der AI News.
Macht's gut.
Bis dahin.
Ciao, ciao.