# Frontier Models, Open Weights, and the Rise of Edge AI

**Podcast:** INNOQ Podcast
**Published:** 2026-04-20

## Transcript

Herzlich willkommen wieder.
Ich begrüße euch zu einer neuen Folge der AI News.
Diesmal in einer ein bisschen anderen Konstellation.
Ich sitze dem Ole direkt gegenüber bzw.
neben ihm.
Wo sind wir denn gerade?
Ja, genau.
Wir haben heute ein etwas anderes Format, als ihr es sonst kennt.
Wir sind in Stuttgart.
Und zwar haben wir darum auch dieser...
Interessante Puschel.
Wir machen ein AI-Strategie-Event.
Also die ganze Firma ist zusammengekommen und wir werden zwei Tage damit verbringen, dass wir zusammensitzen, unsere Köpfe zusammenstecken und darüber diskutieren, wie geht es denn weiter mit der Firma, was ist die richtige Ausrichtung, wie nutzen wir den AI-Trend und bis jetzt, wie sind so deine Eindrücke?
Ja, ich finde es super interessant, wie heiß wir diskutiert haben.
Bei uns intern auch so, dass es da nicht, ich würde nicht sagen, verschiedene Lager gibt, sondern es gibt halt immer wieder Situationen, in denen man sich mehr in dem einen Lager und mehr in dem anderen Lager wiederfindet.
Also jeder streitet auch quasi mit sich selber immer wieder, in welchen Bereichen man denn jetzt begeistert ist von der Technik und in welchen Bereichen man dann doch eher wieder Gefahren sieht.
Und da finde ich schon ganz gut, dass wir dann jetzt mal versuchen, daraus etwas zu destillieren, wie wir denn quasi unser Geschäft...
davon geprägt sehen und was wir dann quasi anbieten können und das, was wir eigentlich tun, nämlich irgendwie mit Technologie Probleme zu lösen, wie sich das dann jetzt quasi verändert und wie wir weiterhin mit Technologie Probleme lösen können und das halt möglichst vernünftig tun, sodass alle damit zufrieden sind, dass das Ergebnis weiterhin stimmt.
Und da haben wir uns gedacht, wenn wir schon sowas machen, dann können wir auch direkt vor Ort mal quatschen und das passt ja thematisch zumindest ganz gut.
Technologieberatung und Softwarearchitektur ist eh immer unser Steckenpferd oder das, wo wir uns leidenschaftlich mit auseinandersetzen und auch leidenschaftlich streiten.
Das gehört dazu, ja.
Und darum passt dieser Rahmen sehr gut, jetzt auch eine AI News-Folge dazu zu machen.
Genau, dann machen wir das auch.
Wir haben so ein paar Sachen, die wir schon jetzt diskutiert haben und jetzt gerne nochmal hier auch nochmal weiter besprechen wollen.
Und ja, ich meine, das, was wirklich jetzt durch alle News ging, ist das mysteriöse, Mythos, oder die Mythen über Mythos sozusagen.
Die Mythen über Mythos.
Ja, irgendwie schaffen wir es keine Folge ohne Anthropic zu machen, gefühlt.
Aber sie sind halt gerade der heiße Platzhirsch.
Und genau, Anthropic hat ein neues, mysteriöses Modell released.
Tatsächlich haben sie es gar nicht released, sondern bis jetzt haben nur wenige Leute drauf Zugriff.
Ich glaube, so 100 Firmen.
Also meistens die Schwergewichter, Google, Citrix war dabei, Microsoft war dabei.
Und der Grund, warum sie so vorsichtig sind, man sagt ihnen unheimliche Fähigkeiten nach Zero Day.
Exceptions zu exploit, eher zu finden und sie dann auch auszunutzen.
Und tatsächlich seit, ich glaube, ChatGPG 2 ist es das erste Modell, was als zu gefährlich gilt, als dass man sie in die Öffentlichkeit geben möchte.
Die Idee ist also erstmal, man gibt es den Firmen Zeit oder auch vor allem den Open-Source-Organisationen ihre Systeme zu härten.
Ich glaube, es hat schon über 100, Zero oder über 1000.
100.000, 10.000, was auch immer.
Auch in uralten Projekten, also OpenBSD war dabei, was ja so als das sicherste Betriebssystem gilt und Grundlage für viele Infrastruktur- und Routerprojekte sind.
FFMPEG, wo quasi die Kodierung des halben Internets drauf basiert war dabei.
Emac war dabei, der Editor Wim war dabei.
Also eigentlich alles, was Rang und Namen hat, hat irgendwelche schwerwiegenden, unerkannten Softwarelücken.
Und darum haben sie gesagt, es ist zu gefährlich und erstmal wird es nur an ein paar Firmen rausgegeben, die sollen sich damit beschäftigen.
Aber es verlagert das Problem natürlich nur.
Also jetzt findet man also Sicherheitslücken, aber wer fixt sie?
Naja, gut, sagen natürlich alle, dann kann die KI sie ja auch gleich fixen.
Also ja, ich habe das auch alles gelesen und mein erster Reflex war dann natürlich, die können einfach Marketing.
Also das hatten wir letztes Mal schon so, dass wir schon gesagt haben, okay, sie nutzen einfach dann die Situationen, die sich ihnen bieten, wie damals der Zoff mit der US-Regierung.
Das nutzen sie halt einfach marketingmäßig knallhart aus.
Und dann war ich auch erst mal sehr vorsichtig, habe gesagt, ja, okay, wie viel davon ist jetzt Marketing?
Klar, auch Opus konnte schon Sicherheitslücken finden und jetzt, Gerüchte halber, ist dieses Modell ja einfach nochmal viel größer und kann dann vielleicht einfach noch mehr rausfinden.
Das kann schon sein oder mehr finden.
Aber ich war da erstmal so ein bisschen skeptisch und habe gedacht, wie viel davon ist jetzt wieder nur Marketing?
Und gerade diese künstliche Verknappung, da war mein erster Reflex zu sagen, wahrscheinlich können sie es einfach nicht anbieten für alle Kunden, weil da einfach ihre Infrastruktur zusammenbrechen würde und sie die gar nicht bedienen können.
Hat man jetzt ja schon gesehen in der letzten Zeit, dass sie sowieso schon Probleme hatten mit der Verfügbarkeit.
Hattest du ja letztes Mal auch gemutmaßt, dass das schon daran lag, dass sie im Hintergrund schon ihre Ressourcen eben aufteilen.
Oder habe ich halt auch gedacht, okay, vielleicht versuchen sie so nur zu kaschieren, dass eben dieses Modell so unfassbar viele Ressourcen noch mehr frisst.
Deswegen war ich da so ein bisschen skeptisch.
Aber generell ist es natürlich erstmal interessant, wenn Ressourcen keine Rolle spielen, was dann geht.
Was man dann tun kann.
Haben wir denn noch mehr Details schon rausgefunden über das Modell oder ist wirklich alles nur Gerüchtelage?
Es gibt gut qualifizierte Gerüchte, informierte Quellen, wie es immer so schön heißt.
Es soll tatsächlich ein sehr großer Brocken sein.
10 Trillionen Parameter, sagt man.
Also Größenordnung mehr, als sie sonst haben.
Und man sieht es im Preis.
Also der Preis ist fünfmal höher als das teuerste Opus-Modell.
Also 125 Dollar pro eine Million Token.
Und das spiegelt genau das wieder, was du sagst.
Also das zu betreiben, kostet wohl richtig viel Compute.
Compute ist das, was an Tropic E am knappsten ist.
Sie sind als ständig dabei zu reschedulen.
wo stecken wir jetzt eigentlich unsere paar Ressourcen rein, die wir haben.
Und wie du schon sagst, ist es natürlich eine geniale Marketingaktion.
Und ich glaube, ich sehe das ganz genauso.
Sie hätten auch einfach Probleme, das in Masse jetzt zu publizieren.
Aber gut, jetzt geben sie es halt an ein paar Security-Firmen, die hektisch dabei sind, diese Lücken jetzt zu fixen.
Und ob und in welcher Form es dann an die Masse ausgerollt wird.
Das bleibt nochmal abzuwarten.
Wobei man natürlich sagen muss, die Strategie ist auch nicht ganz ungefährlich für Anthropic.
Weil die Open Source Modelle, also die Entwicklung eines solchen großen Modells kostet ja viel Geld.
Und die Open Source Modelle sind ihnen relativ dicht auf den Fersen.
Also wenn man jetzt so einen mehrmonatigen Trainingslauf einfach ausfallen lässt oder das Modell nicht veröffentlicht, führt zum Risiko, dass die Open Source Modelle aufschließen.
Fühlt uns auch recht elegant zum nächsten Thema.
Ja, genau.
Wir haben nämlich da ein bisschen was zu den Open-Source-Modellen, auch worüber wir sprechen wollen.
Bevor wir da jetzt zu gehen, habe ich gerade noch natürlich die Frage, also wenn jemand von euch da draußen Mythos benutzen kann, unsere E-Mail-Adressen und Socials, wisst ihr, wir freuen uns über Erfahrungsberichte, was ihr damit für Erfahrungen vielleicht gesammelt habt.
Also schreibt uns, wir sind gespannt.
Aber du hast gerade gesagt, Open-Source-Modelle holen auf.
Hatte ich tatsächlich schon für das letzte Mal auf der Liste, haben wir dann rausfallen lassen.
Aber das GLM 5.1 von der Firma ZAI aus China, das scheint ja momentan richtig abzugehen und ist tatsächlich auch ein Open-Source-Modell.
Auf jeden Fall.
Also es ist ein großes Modell.
Also man kann es jetzt nicht lokal auf seinem MacBook betreiben, aber es ist das erste Modell, was auf der LM Arena im Bereich Coding in die Top 3 überhaupt kommt.
Und es liegt hinter Opus 4.6 Thinking.
Das ist Platz 1.
Dann kommt Opus 4.6.
Und dann kommt schon das Open Source GLM Modell 5.1 ist es, glaube ich.
Und das kommt halt noch vor ChatGPT und noch vor Google.
Das ist schon gewaltig.
Und vor allen Dingen, das kann ich theoretisch einfach runterladen, kann das auf die Hardware packen, kann es auch intern in-house laufen lassen und bin dann quasi auf einem ähnlichen Qualitätslevel.
Also da kann ich schon verstehen, dass jetzt irgendwie...
Anthropic alle Register zieht im Marketing und versucht halt, die Relevanz zu wahren und jetzt auch vielleicht Modelle rauszuhauen, die sie vielleicht ansonsten intern noch mal länger optimiert hätten, damit sie sich einfach effizienter anbieten können, das jetzt eben nicht tun, sondern sagen, okay, wir müssen einfach zeigen, dass wir besser sind, koste es, was es wolle.
Weil ja, das ist natürlich jetzt dieses chinesische Modell.
Man kann es benutzen, man kann es runterladen und bei sich laufen lassen.
Und was ich noch ganz interessant dabei fand, was ich gelesen habe, ist, dass es eben zum Beispiel auch nicht auf Nvidia-Hardware trainiert wurde, sondern eben auf chinesischer Hardware.
Und offensichtlich kann man zumindest, was das Training angeht.
Ich habe jetzt nichts darüber gelesen, ob das jetzt viel länger gedauert hat, wie da jetzt genau die Ausstattung war.
Die Aussage war nur, es waren halt eben keine Nvidia-Chips, auf denen es trainiert wurde.
Also offensichtlich kann man da nicht nur hinterherkommen immer wieder, sondern man kann auch aufschließen.
Also das ist schon eine spannende Entwicklung.
Hast du noch andere Infos?
Ja, das ist so ein bisschen die Schattenseite von dem AI-Chip-Band, die die USA verhängt hat.
China kommt an die Hochleistungsschips nicht ran von NVIDIA, darum sind sie jetzt dabei.
Ich glaube, die Chips fahren von Huawei.
Ich meine auch, ja.
Aber sie bauen jetzt halt Kompetenz auf.
Also es läuft komplett ohne diesen CUDA-MPI.
Normalerweise würden die Chinesen auch einfach Geld bezahlen, wenn sie Zugriff drauf hätten, aber sie haben halt keinen Zugriff drauf.
Das bringt sie dazu, dass sie es jetzt halt selber entwickeln und damit Know-how aufbauen.
Ich weiß nicht, ob das so eine schlaue Strategie ist oder ob wir uns damit nicht langfristig doch in den Fuß schießen.
Ich bin eigentlich kein Freund von so einem Chip-Ban.
Genau, sie haben es komplett selber entwickelt.
Sie haben viel Optimierung betrieben, indem sie diese CUDA-Schnittstelle gar nicht implementiert haben oder umgeben konnten.
Und es soll sehr effizient gelaufen sein.
Das ist aber schon die Geschichte, die wir bei DeepSeek gesehen hatten, wo die Chinesen eigentlich durch sehr geschicktes Engineering jetzt anfangen, die Limitationen zu umgehen.
Und ich halte es für gefährlich.
Naja, Constraints führen immer dazu, dass man kreative Lösungen findet und halt quasi in dem Rahmen, wo man sich bewegt, versucht, mit den Mitteln, die man hat, das gleiche Ergebnis zu erzielen.
Das ist halt dann die Optimierung.
Darauf wird es hinauslaufen.
Nee, ist schon richtig, richtig spannend.
Ich hatte nur noch gelesen, das ist halt auch so ein Mixed-of-Experts-Modell, was halt eben auch dazu führt, dass die Inferenz halt eben auch ein bisschen effizienter ist, weil halt eben nicht alle Parameter immer aktiv sind.
Ich meine, das machen ja viele mittlerweile, aber da kann man es eben, da weiß man es eben offiziell.
Und das finde ich schon echt interessant, dass es wirklich ein konkurrenzfähiges Modell ist, was halt eben aber wirklich Open-Source ist.
Eigentlich Open Rates, hatte ich mir auch noch gedacht, das müssen wir vielleicht auch mal kurz nochmal erklären oder nochmal ein bisschen definieren.
Was ist jetzt Open Source oder Open Rates?
Also ich habe es mir immer so ein bisschen hergeleitet.
So ein bisschen wie früher die Shareware oder Freeware, die Games, die ich so runterladen konnte, die konnte ich runterladen, konnte ich spielen, man konnte die auch weitergeben.
Aber ich konnte halt nicht in den Code gucken und wenn es jetzt irgendwie nicht einen neuen Rechner hatte, dann konnte ich es auch nicht neu kompilieren für eine neue Architektur oder sowas.
Und so ein bisschen ist es halt bei den Modellen auch.
Das ist jetzt ein Open-Wades-Modell, das heißt, ich kann es runterladen, ich kann es verwenden.
Dadurch, dass es jetzt MIT-Lizenz hat, was ein bisschen was Neues ist, es ist nicht eingeschränkt, kann ich es auch kommerziell verwenden und weitergeben.
Aber ich habe halt eben nicht die Trainingsdaten und habe nicht den Trainingsprozess transparent.
Das wäre für mich dann wirklich so die strenge Open-Source-Definition.
Ich kann das Modell reproduzieren.
Ich kann es halt selber aus den Trainingsdaten wiederherstellen.
Oder wie würdest du es definieren?
Ja, wobei ich fairerweise auch sagen muss, ich hätte nicht die Hardware, das zu trainieren.
Also diese Trainingsläufe kosten ja...
Hunderte Millionen mittlerweile, wenige Firmen.
Vielleicht könnte es SAP noch schaffen, aber allgemein haben, glaube ich, in Europa oder weltweit wenig Firmen die Power und die Rechenzentren zur Verfügung, so ein Modell wirklich zu bauen.
Aber bei den Lizenzen tut sich ganz viel.
Also die Chinesen waren eh schon immer führend und das ist jetzt häufig dann aber noch so mit Einschränkungen.
Ich glaube, Facebook, nee, Meta war es.
Mit Lama, ne?
Mit Lama, so eine...
gewisses Limit eingeführt haben, wie viel User man dann damit bedienen konnte.
Und dann war es doch nicht wieder Open World, sondern dass das jetzt unter einer MIT-Lizenz veröffentlicht wird.
Finde ich einen guten Schritt in die richtige Richtung.
Aber auch die Amerikaner haben aufgeholt in dem Bereich Lizenz, habe ich gehört.
Ja, genau.
Gemma 4 haben wir hier noch stehen.
Und da geht es tatsächlich von Google ein Modell.
Und das ist jetzt plötzlich auch unter der Apache 2-Lizenz, also kommerziell dann eben nutzbar und weitergebbar.
Auch spannend.
Das scheinbar jetzt da so ein bisschen, der trennt sich dahin, dass man eben nicht versucht, so wie im Open-Source-Bereich, wo es ja eher so ein Backlash gibt, dass jetzt irgendwie immer mehr Lizenzen verwendet werden, dass man zwar den Code reingucken kann, aber es dann zum Beispiel nicht kommerziell hosten darf, so diese Einschränkungen kommen.
Bei den Modellen geht es gerade erst in die andere Richtung, dass es mehr Offenheit offensichtlich entsteht.
Genau, dir mal vor.
Hast du noch da weitere Insights?
Also ich habe halt nur...
Später noch ein Tipp dazu, weil das eben auch ein Modell ist, was es in einer großen Bandbreite gibt, in verschiedenen Hausbaustufen.
Ich glaube, das war eh die Idee von Gemma4 jetzt.
Edge AI nennt man den Trend, glaube ich, dass man AI tatsächlich in so kleinen Größen portioniert und rausgibt, dass sie halt auf dem Smartphone laufen oder auf dem Rechner als Assistent ständig dabei.
Ich habe die Modellgrößen jetzt nicht im Kopf.
Ich glaube, um 2,5.
Geht es, glaube ich, los.
2,5 Milliarden Parameter geht es los.
Und dann aber hoch, glaube ich, bis 30 oder 40 war das dann, glaube ich, was man dann eben gehostet nutzen kann.
Erzähl doch noch ein bisschen über die Edge-Galerie.
Ich finde das super interessant.
Ach so, ja, genau.
Das hatte ich ja eigentlich als Tipp der Woche mitgebracht.
Aber du hast es gerade gesagt, es geht darum, dass man ja auf dem Smartphone auch die Modelle für Spezialaufgaben eben haben will.
Apple hat das ja auch schon mit ihrer eigenen Hardware-Einheit, wo diese kleinen Modelle eben schon drin laufen für spezialisierte Aufgaben.
Und da hat Google jetzt eben so eine App rausgehauen, die Google AI Edge-Galerie.
Ich muss es ablesen, weil...
Google und Namen von Produkten.
Das ist irgendwie bei denen echt schwierig.
Aber im Grunde ist es so eine Test-App, die gibt es für Android und für iOS und ist dann jeweils auf die Hardware auch optimiert.
Und da kann man sich dann eben jetzt verschiedene Varianten des Jammer-Models runterladen.
Geht dann so los bei einfach zweieinhalb Gigabyte Download, kann man in der App runterladen und kann dann wirklich lokal ein Modell benutzen, was performant auf dem iPhone bei mir jetzt eben läuft.
Und ich hatte so ein bisschen das Gefühl, Also ich habe einfach mal so einfach jetzt normal den Chatbot-Interface dann genutzt.
Es gibt auch in der App zum Beispiel eine Möglichkeit, dort wirklich auch Skills zu benutzen, dass dann auch das Modell aus der App heraus zum Beispiel eine Karte aufrufen kann oder so.
Das kann man da alles ausprobieren.
Aber zumindest einfach jetzt so aus einer Konversation mit dem Chatbot-Interface raus hat sich das mindestens so gut angefühlt wie gehostete Modelle von vor zwei, drei Jahren.
Und das jetzt eben in zweieinhalb Gigabyte auf dem Smartphone.
Und ich habe dann so ein bisschen Hoffnung plötzlich gehabt, weil jetzt ja auch Apple mit Google zusammenarbeitet, was ihre Siri angeht, dass man das vielleicht so ein bisschen so ein Sneak Peek ist, was vielleicht dann irgendwann auch nativ auf dem iPhone integriert funktionieren wird, mit Siri dann eben, dass Apple dann da endlich mal aufholt, dann eben halt vielleicht mit Hilfe von Google.
Aber ich kann mir schon vorstellen, weil in der App konnte man jetzt verschiedene Skills ausprobieren, wenn dann so eine lokale KI dann eben halt eine Möglichkeit hätte, über lokale Schnittstellen, vielleicht auch gewisse Systemfunktionalitäten dann eben schon auszulesen, Kontext zu bekommen, Location-Daten vielleicht, aber eben halt mit einem entsprechenden Berechtigungssystem auch, wie es jetzt eben auch mit dem iPhone zum Beispiel mit diesen Permissions implementiert ist.
Aber das hast eben alles in deinem lokalen Modell auf dem Rechner.
Es wird nicht rausgepustet.
Also das, was Apple eigentlich immer verspricht.
Also jetzt durch diese App habe ich so ein bisschen das Gefühl, ich habe...
Ich habe eine Ahnung davon, dass letztendlich das mal realisiert werden kann, dass Apple das realisieren kann.
Ja, datenschutzmäßig ist das natürlich super interessant, dass man die Dinge wirklich lokal betreiben kann.
Und wieder mal bin ich überrascht, wie schnell es ging.
Also wie du schon sagst, es fühlt sich an wie ein GPT-4 vielleicht, wofür man noch mehrere H100s braucht, um das vernünftig zu betreiben.
Innerhalb von zwei Jahren läuft es bei mir quasi in der Hosentasche.
Das ist total beeindruckend, wie schnell sich die Welt auch da weiterentwickelt.
Und ich kann es auch eigentlich nur begrüßen, dass wir mehrere verteilte kleine Modelle haben, die dann gut genug für ihre Aufgaben sind, die meine Notizen erfassen oder meine OCR-Dokumentenverwaltung machen.
Ich will die Daten nicht unbedingt in die USA schicken.
Und wenn es da Wege gibt, das zu verhindern, immer her damit.
Nee, ich meine, ich hoffe, dass wir dann da auch wirklich irgendwann ankommen.
Natürlich kannst du dann immer für jedes Problem so ein fettes Frontiermodel heranziehen.
Das löst das dann auch irgendwie.
Aber ich glaube dann noch so ein bisschen an das Gute im Menschen, dass man auch sich irgendwann vielleicht darauf besinnt, vielleicht auch so ein bisschen ressourcenschonender mit der Geschichte umzugehen.
Ich hatte vorhin mit einem Kollegen darüber diskutiert, wenn man jetzt zum Beispiel im Lokal so Dokumentenmanagement macht und dass ich ganz gerne irgendwas hätte.
wo ich dann, wenn ich die Dokumente scanne, was mir dann einfach nur diese Dinger vernünftig wegsortiert und Dateinamen generiert.
Ja, kann man jetzt alles schon machen.
Kannst du einfach deinen Chat-GPT dran knuppern und dann funktioniert das.
Aber das ist etwas, das kann ich auch sehr fokussiert wahrscheinlich von so einem kleinen Modell lokal machen lassen.
Da muss ich auch nicht die Inhalte all meiner Dokumente irgendwo hochladen.
Das kann dann vielleicht mir nicht beim Coding helfen, aber kann einfach wunderbar Dateinamen extrahieren aus...
aus dem Dokumenteninhalt oder es kategorisieren.
Und da hoffe ich, dass es dadurch so ein bisschen hingeht.
Und da kann man so ein bisschen sehen, was vielleicht dann gehen wird.
Das ist tatsächlich ein ganz wunderbarer Use Case, weil du willst deine ganzen Dokumente, sei es Steuer, sei es irgendwelche Arztrechnungen, das willst du eigentlich nicht unbedingt.
So ein Tropic oder OpenAI.
Und nicht nur eigentlich nicht, das will ich nicht.
Das will ich nicht.
Und ja, der Schadenspotenzial ist halt auch begrenzt, wenn er den Namen der Datei, wenn die jetzt minimal falsch ist oder nicht hundertprozentig passend ist.
Also mir hilft es.
Ich bin auch so ein kleiner Dokumenten-Messi.
Okay.
Und ich finde gut benannte Dokumente, also die einfach aus dem Scanner gut benannt rauskommen, die dann gut abzulegen sind, die vielleicht noch kategoriert sind, ist für mich ein totaler Gamechanger, weil ich das sonst immer von Hand gemacht habe und eigentlich nie Lust darauf hatte.
Und dann hatte sich mein ganzer Dokumentenordner mit 200 Dokumenten angesammelt.
Und wenn es dann irgendwie mal ein regnerischer Tag war oder irgendwas ausfiel, dann hat man sich halt hingesetzt und die von Hand umbenannt, was einem was sagt.
Perfekter Use Case.
Ja, genau.
Dieser Tag, der kommt nämlich bei mir schon nicht in den letzten zwei Jahren ungefähr.
Und deswegen ist mein Inbox-Folder, wo ich immer die Dokumente reinscanne, angewachsen.
Und ich bin jetzt, glaube ich, an dem Punkt, wo ich kurz vor Kapitulation bin, weil ein regnerischer Tag nicht mehr ausreicht.
Ich bräuchte vermutlich eine regnerische Woche, ja.
Genau, insofern, das wäre jetzt, glaube ich, dann mein nächstes Projekt zu gucken, wie ich das irgendwie deployen kann zu Hause bei mir, um dann diesen Anwendungsfall, vielleicht kann ich ja davon dann mal berichten.
Ja, ich glaube, jetzt haben wir so ein bisschen den Tipp der Woche vorweggenommen, den ich hatte.
Ich glaube, das waren für mich jetzt die wichtigsten Punkte bisher oder wolltest du noch was gerne noch machen?
Was fällt mir noch?
Einen Punkt können wir vielleicht noch kurz ansprechen, was auch in den letzten zwei Wochen in den News war, dass der Open-Claw-Benchmark, das können wir noch einbringen, weil es eh eine Thematik betrifft.
Eigentlich geht es...
Im Prinzip um Reward-Hacking.
Ja, es klingt so negativ.
Es liegt im Trainingsprozess selber.
Also diese Large Language Models sind ja nicht deterministische Modelle.
Und in den Trainingsläufen werden sie auch anhand der bestehenden Benchmarks, sei es SWE für Software Engineering oder OS World für Agentic Tasks benutzt.
Und dieser Open-Claw-Benchmark wurde halt dafür entwickelt.
dass er alltägliche Aufgaben nachstellt, also Reisebuchungen oder irgendwelche Formulare ausfüllen und so weiter.
Was man sieht, die Modelle, die eigentlich schon in den Benchmarks sehr, sehr gute Scores erreichen, teilweise 75 Prozent bei dem OS World.
Auf einmal sind sie eher so bei 6,5 Prozent.
Das Beste war, glaube ich, Sonnet.
Das hat teilweise 30 Prozent der Aufgaben erfüllen können, aber ist halt meilenweit davon weg, was eigentlich die Benchmarks versprechen.
Ich glaube, da muss man halt auch ein bisschen realistisch oder nachsichtig sein.
Sie werden halt in den Trainingsphasen danach evaluiert und darum ist ein gutes Abschneiden in diesen Benchmarks ganz natürlich oder Teil des Trainingsprozesses.
Ja, das ist immer das Problem.
Ich glaube, das ist auch der Grund, warum wir einfach ständig neue Benchmarks brauchen, weil Benchmarks sind halt irgendwie eine Metrik, wie gut so ein Modell ist.
Und natürlich fangen die Hersteller an, mit diesen Metriken ihre Modelle zu optimieren.
Und dann hast du immer Modelle, die sind auf die Benchmarks optimiert und nicht mehr auf die tatsächlichen Probleme, weil das halt eben, diese Benchmarks sind immer nur Modelle.
Und deswegen kommen wir da, glaube ich, nicht raus, dass man immer wieder neue Benchmarks etablieren muss, die dann vielleicht auch immer komplexer werden und immer komplexere Dinge abprüfen.
Und dann immer wieder Challenged sind für die Modelle.
Also ich glaube, das ist ein ganz natürlicher Prozess.
So, nachdem der Touring-Test jetzt gefallen ist, jetzt muss man irgendwie den neuen Touring-Test halt finden.
Und da betteln sich gerade alle.
Ja, nee, das ist nochmal ganz cool.
Da gibt es auch ein Paper ein entsprechendes zu.
Das können wir auch noch verlinken.
Genau, ich gucke nochmal auf meine Notizen.
Glaube.
Ja.
Haben wir unsere Event-Sonderfolge?
Ich glaube auch, die Restaurants rufen.
Wir sollten heute nicht überziehen.
Nein, auf keinen Fall sollten wir überziehen.
Da sind wir lieber schneller wieder da und wieder mit weiteren hoffentlich aktuellen Geschichten.
Gut, dann gehen wir jetzt zum Essen und diskutieren noch ein bisschen weiter.
Und dann danke ich euch, dass ihr dabei wart und hoffe ich, dass wir uns bald wiedersehen.
Hoffentlich dann auch demnächst mal wieder vor Ort.
Schreibt fleißig in die Kommentare, wenn ihr was zu erwähnen habt.
Und wir freuen uns von euch zu hören.
Wenn ihr Mythos benutzt, ihr findet meine E-Mail.
Macht's gut.
