# AI Infrastructure Shifts: Memory Optimization, Agent Protocols, and Security Risks

**Podcast:** INNOQ Podcast
**Published:** 2026-04-02

## Transcript

So, herzlich willkommen zur zweiten Ausgabe unserer AI-News.
Mit dabei ist wieder der Ole.
Hallo Olo.
Hallo Fabian.
Ja, wir sind in der Kalenderwoche 14 am 1.
April.
Wir haben keinen April-Scherts, sondern wir haben wieder ein paar Themen mitgebracht.
Und die werde ich jetzt einmal kurz nur mal anreißen.
Es hat alles so ein bisschen was habe ich das Gefühl zu tun mit der Speicherknappheit.
Google hat TurboQuest vorgestellt, einen Kompressionsalgorithmus.
Wir reden über das neue Modell von Nvidia, die auch offenbar daran arbeiten, Speicher zu sparen, zumindest die Dinge, die gleichzeitig im Speicher sind mit dem NemoTron 3.
Dann gibt es das ACP, das Agent Client-Protokoll, was ich noch ganz spannend fand.
Wir wollen noch ein bisschen reden über Seal Eyes, die ja scheinbar gerade die Lösung für alle Probleme sind.
Und dann haben wir noch ein paar Fails der Woche mitgebracht.
Da gibt es auch noch mal ein paar interessante Dinge, was da so im Thema Security und Leaks passiert ist.
Genau.
Fangen wir an.
Mit TurboQu.
Google komprimiert jetzt Dinge, dass wir weniger Speicher brauchen und dann alles ganz günstig wird.
Oder was meinst du dazu?
Ja, genau.
Also Speicher, wie du schon gerade erwähnt hast, ist ja in letzter Zeit ein großes Thema, gerade weil die Speicherproduktionsqualitätenkapazitäten nicht so skalieren, wie man sich das eigentlich vorstellt.
Also viele Gamer haben es schon gemerkt.
Grafikkarten sind unfassbar teuer geworden.
Das liegt einfach daran, dass der ganze High Bandwidth Memory mittlerweile direkt an die Hyperscaler verkauft wird und nicht mehr für die Gamer zur Verfügung steht.
Und entsprechend arbeiten verschiedene Stellen daran, das zu optimieren.
Und das TurboQuant ist jetzt ein neues Research Paper von Google, der auch Attention is all you need und die Transformer-Architektur gemacht haben.
Und es ging darum, den Kiwi, also den Key Value Cache zu optimieren.
Das war, es gehört zu einem Teil des Attention-Mechanismus.
Und genau.
Quantisiert den Nutzen Kiwi Cash auf 3-Bit und reicht damit halt deutlich höhere Performance bei, wie sie sagen, eigentlich keinerlei Qualitätseinbußen.
Und die Hoffnung war so ein bisschen, dass das jetzt endlich der Durchbruch für lokale Modelle ist.
Also ganz viele Leute hatten ganz große Hoffnungen, dass man jetzt auf jedem kleinen Rechner oder auch deiner Smartwatch ein Modell laufen lassen kann.
Die ersten Benchmarks zeigen, dass sich das nicht so ganz erfüllt.
Also, um das voll ausnutzen zu können, sollte man schon ja so eine Blackwell-GPU bei sich zu Hause stehen haben, die dann auch gleich, ich glaube 100.000 oder 200.000 kostet.
Ja, Portokasse.
Ja, Portocasse auf jeden Fall.
Also bei unseren ex-orbitanten Gehältern überhaupt kein Problem.
Das Problem ist, dass man unterscheiden muss zwischen dieser sogenannten Pre-Filling-Phase, das heißt, während er am Anfang den Prompt verarbeitet, da hilft einem der Kiwi Cache, es ist ein Cache.
Darum hilft er einem dabei halt noch nicht, weil er da erstmal aufgefüllt werden muss.
Und dann bei der Token-Generierungsphase, da kommt er voll zum Tragen und da sind diese Performance-Gewinne und die Größenoptimierungen schlagen da voll durch.
Was bei uns als Heimanwender, die halt so ein lokales Modell laufen lassen, meistens ist die Token-Generierungsphase nicht das Bottleneck oder war es nicht das Bottleneck.
Und tatsächlich dadurch, dass man jetzt erstmal das wieder runter quantisieren muss auf 3-Bit, ist tatsächlich auch noch so 20% Overhead in der Pre-Filling-Phase.
Und ja, leider zeigt es, dass die Optimierungen hauptsächlich für die großen Hyperscaler und die Rechenzentren interessant sind, bei denen schlägt das wohl voll ein.
Bei uns als Standard-User leider eher nicht.
Ja, das war auch so das, was ich mitgenommen habe.
Dass es jetzt viele von den Optimierungen, die wir jetzt gerade sehen, halt da eigentlich darauf abzielen, im Rechenzentrum parallel mehr Nutzer mit einer GPU bedienen zu können.
Und gar nicht jetzt so, na gut, die haben natürlich kein Interesse daran, dass wir die Modelle lokal laufen lassen.
Insofern, da haben wir dann wahrscheinlich eher aus dem Open Source-Modellbereich mehr zu erwarten, was das angeht.
Die großen Modelle, die wollen natürlich, dass wir da weiter von ihnen abhängig sind.
Ja, das war so ein bisschen so ein.
Sonst kriegst du von Nvidia keine GPUs mehr, wenn du ein iWork muss pusht, der sie arbeitslos machst.
Ja, ja gut, da gilt ja immer, ich habe vergessen, wie dieses Prinzip heißt, aber natürlich, die Nutzung steigt mehr an als die Effizienzgewinne.
Das heißt, wenn jetzt halt die Modelle in weniger Speicher passen, werden Modelle halt größer, weil die dann mehr können.
Und das wird sich, glaube ich, dann einfach wieder ausnivellieren.
Da bin ich ganz fest von überzeugt.
Das führt nicht dazu, dass alles jetzt billiger wird, sondern dass einfach wahrscheinlich die Performance dann insofern besser wird, dass wir die Modelle dann einfach besser benutzen können, aber oder die Modelle besser werden.
Aber es wird nicht darauf hinauslaufen, dass alles ganz günstig wird.
Da gehe ich jetzt auch nicht von aus, ja.
Mir fiel nur gerade noch was dazu ein, wo du es gerade sagst, mit dem, oder wo ich es gerade gesagt habe, mit den Open Source-Modellen, da hatten wir noch ein Follow-up von letzter Woche, wo wir über die über die ganzen, über das Personalkarussell bei den, im Rahmen der Quen-Modelle gesprochen hatten.
Da gab es nämlich extrem viele neue Releases, die ich mir ja noch nicht angucken konnte.
Also wenn ihr da draußen euch die schon angeguckt habt, da hatte ich das Gefühl, da wollten die gerade ein bisschen entgegenwirken, den Gerüchten, dass jetzt alles den Bach runtergeht.
Fiel mir nur noch gerade ein, dass wir da noch so ein bisschen noch ein Follow-up zu letztes Mal hatten, was die Open Source-Geschichten angeht.
Da könnte es dann vielleicht die Innovation vielleicht insofern herkommen, weil die haben natürlich ein Interesse darauf, dass möglichst die Verbreitung hoch ist und dass viele Leute das eben auch zu Hause benutzen können.
Deswegen da erwarte ich mir dann wahrscheinlich mehr Innovationen.
Auf jeden Fall.
Ich hoffe, ich habe so gleich die Hoffnung dadurch, dass sie jetzt mit derselben Hardware und dem Turboquant eigentlich mehr Tokens generieren können, dass wir vielleicht doch gewisse Optimierungen sehen oder Preissenkungen.
Vielleicht nicht direkt Preissenkung, aber zumindest dass die Preise ja stabil bleiben, dass wir so ein bisschen die Befürchtung dadurch, dass sie jetzt alle so Compute-Constrained sind und nicht genügend Drechenleistung haben, dass vielleicht die Preise nicht ganz so sehr ansteigen werden.
Allgemein, dass die Preise ansteigen werden, bin ich recht überzeugt von.
Aber dem wirkt das vielleicht entgegen.
Ja, dass ja momentan auch extrem viel Bewegung drin, was so die täglichen, stündlichen und wöchentlichen Limits in den verschiedenen Plänen angeht.
Da gab es ja auch bei Claude und Anthropic so ein paar Irritationen, würde ich sagen, wo dann plötzlich die Limits ganz niedrig waren.
Also da wird, glaube ich, im Hintergrund extrem viel geschraubt.
Wie viel Limit können wir den Nutzern geben in den verschiedenen Plänen?
Da, ja, das ist ja auch komplett intransparent, einfach, weil sie sonst wahrscheinlich ständig ihre Preismodelle ändern müssten.
Da kann man sich dann eher erhoffen, dass vielleicht die Limits nicht mehr ganz so restriktiv dann werden, weil einfach dann das wirtschaftlich mehr Sinn ergibt.
Wenn du halt mehr Nutzer bedienen kannst mit dem, mit der mit dem gleichen Compute sozusagen.
Zumindest was die älteren Modelle vielleicht angeht.
Auf jeden Fall, man sieht, dass sie überall sparen.
Ich meine, OpenAI hat jetzt auch SORA abgeschaltet.
Stimmt.
Man sieht, dass die Kapazitäten auf einmal knapp werden und hin und her geschäftet werden.
Bei OpenAI war mir das auch letzten Freitag sehr aufgeführt.
Ach, bei OpenAI, sag ich bei Air Tropic war es mir letzten Freitag aufgefallen, dass da irgendwie es lief gar nicht.
Es war extrem zäh, man hatte ständig Verbindungsabbrüche.
Gerüchteweise fällt das mit so einem Mythos, also dem neuen großen Modell zusammen, dass sie angefangen haben, Mythos auszurollen und schon so Security-Firmen bereitgestellt haben und deshalb Compute freischaufeln mussten und ihre Standard-User da sehr begrenzt haben.
Aber diese Woche muss ich sagen, läuft es eigentlich wieder ganz okay.
Ja, also das muss sich dann immer zurechtrütteln.
Da müssen die, glaube ich, auch wirklich intern immer wieder balancieren.
Genau.
Ich hatte gerade noch, wo du gerade OpenAI sagst und SORA, mein Take da war eigentlich eher, dass sie, glaube ich, sich fit machen wollen für den Börsengang und die diese Sora-Geschichte einfach wahrscheinlich so viel Geld kostet, aber nichts bringt, dass sie das dann einfach abgesägt haben.
Das kann man jetzt wahrscheinlich auch sehen, dass jetzt gerade die Firmen, die an die Börse wollen, dann eben dann doch mal Dinge wegschneiden, die einfach wirklich nicht abheben, schnell genug.
Okay.
Dann hatte ich eben gesagt, Nvidia hat auch was gemacht, Nemo Tron 3.
Und da hatte ich eben auch nur zu gelesen, dass sie versuchen, eben von den 120 Milliarden Parametern, die das hat, eben immer nur durch so ein Mixed of Experts-Geschichte wenige davon gleichzeitig zu aktivieren, damit der Speicher eben, der aktiv genutzt wird, nicht zu hoch ist.
Das geht ja wahrscheinlich auch ein bisschen in die Richtung, die wir gerade hatten, dass man möglichst mehrere Nutzer parallel bedient und den Speicher niedrig hält, den ein Modell zu jedem gegebenen Zeitpunkt braucht.
Ja, ich finde es, ich finde es allgemein ein recht spannendes Modell, weil es ist das erste westliche Modell, was fast es klingt komisches zu sagen, was fast chinesische Offenheit hat.
Jetzt müssen wir dich schon die Chinesen für ihre Offenheit loben.
Naja, auf jeden Fall haben sie.
Es ist, es ist noch nicht Open Source, es ist noch Open Rates, aber man kennt die Rates, man kennt die Trainingsdaten, man kennt die Rezepte, sie haben sogar ihre Reinforcement Learning Pipelines dazu offengelegt.
Also für die westliche Welt ist es schon ein erstaunlich offenes Modell.
Und der Fokus, glaube ich, war eher tatsächlich so AI-Agents zu enablen.
Also die reinen Fähigkeiten, was so Konversation und Chat angeht, sollen relativ begrenzt sein.
Aber wirklich ein knallharter Fokus.
Wie supporten wir Agent Networks, wie können sie auf kleinere Hardware laufen?
Also wie können wir, oder wie können wir N-Agents parallel laufen lassen, mit geringeren Hardware-Anforderungen.
Das war auf jeden Fall ein ganz starker Fokus davon.
Ja, da bin ich gespannt, was da, was da noch passiert, gerade was diese Optimierung angeht, dass man den Speicher eben irgendwie niedrig hält, der gebraucht wird und trotzdem ein großes Modell zu haben.
Das ist ja dann immer so ein bisschen das Problem, dass du dann von super schnelle SSDs auch brauchst oder das Zeug dann immer in den Speicherstreams, sonst hast du da halt ein Lag.
So, das bin ich gespannt, wie Nvidia das löst, weil die ja nun mit ihren Plattformen, zumindest was, was so den Heimann-Wender angeht, ja immer dieses Problem haben, dass die Karten dann eben den Speicher onboard haben, der aber relativ gering ist.
Im Rechenzentrum haben sie natürlich dann andere Möglichkeiten, da mit extrem schnellen Speicherinterfaces zu arbeiten, dass sie dann da dieses Bottleneck nicht so haben.
Da bin ich mal gespannt, wie viel davon dann wirklich auch für Heiman-Wender ist und wie fern das halt eben auch etwas ist, was dann doch wieder nur im Rechenzentrum greift.
Aber du hast es richtig gesagt, es ist halt relativ offen das Modell.
Deswegen kann man natürlich dann auch da noch von verschiedenen Seiten mal drauf gucken.
Und auf jeden Fall ein beeindruckender Einstand in den LLM-Markt.
Also, ich meine, Nvidia war jetzt bis jetzt klar als Supplier der Hardware bekannt, aber dass sie jetzt groß Modelle veröffentlichen, das ist relativ neu.
Wobei jetzt muss ich mich gerade selber hinterfragen, das Ding heißt NemoTron 3.
Eventuell habe ich eins und zwei einfach verpasst.
Aber das wäre mir zumindest wundert gewesen.
Ich hatte tatsächlich, ich habe so ein lokales Tool, wo ich so Speech-to-Text mache auf dem Mac und da hatte ich auch ein Nvidia-Modell, da hatten die auch schon relativ früh, was diese Modelle angeht, Lokale, die ganz gut funktioniert haben.
Ich weiß jetzt gerade den Namen nicht mehr, aber da habe ich auch eins verwendet.
Also das ging, da waren sie auch schon dabei, aber es waren halt immer diese sehr stark fokussierten Geschichten.
Und sie hatten ja auch ganz früh schon eins, ich erinnere mich an so ein frühes YouTube-Video, wo sie so eine Rauschentfernung mal demonstriert haben, wo so ein Typ mit einem Ventilator saß und dann in seinem Mikrofon gepustet hat und noch mit dem Hammer auf den Tisch rumgehauen hat.
Da waren sie super früh schon dabei, diese lokalen, super spezialisierten Modelle zu machen.
Also vielleicht knüpfen sie da jetzt wieder ein bisschen an.
Das wäre natürlich interessant.
Klingt so.
Also scheinbar haben sie jetzt ihre ganzen superspeziellen Modelle einfach in ein großes Modell gemercht.
Ja, ja.
Aber vielleicht.
Achso.
Ich wollte noch kurz erwähnen, dass halt Perplexity, Paladier, Paladier ist jetzt vielleicht nicht unbedingt die Sympathieträger und Siemens schon dabei sind, das fleißig zu adaptieren, das Modell.
Ja klar, das bietet sich ja dann an, dass gerade jetzt Firmen, die halt eher interne Geschichten einsetzen wollen, die jetzt nicht die ganze Zeit auf die großen Anbieter gehen wollen.
Dass die dann sagen, okay, wir kaufen uns vom Nvidia so ein paar Rex-Schellen in unserer Rechenzentrum, lassen da das Zeug laufen.
Und dann haben wir das voll unter Kontrolle, zumindest soweit es geht, ja.
Ja, ich wollte gerade überleiten zu einem anderen Thema, was ich ganz spannend fand, was du auch noch mitgebracht hast.
Ob denn jetzt quasi die CLIs, die von unseren Agenten die ganze Zeit benutzt werden, jetzt quasi alles übernehmen.
MCP machen wir jetzt nicht mehr, wir machen jetzt nur noch CLIs.
Das scheint schon gerade so ein bisschen der Trend zu sein.
Total.
Ich habe da auch so, ich bin so zweigespalten.
Auf einmal, ich sehe auf jeden Fall, dass CLI für Agenten super wichtig sind.
Und dass so, ich sehe sie vor allen Dingen in dem Markt, wo wir normalerweise jetzt unser Handy rausgeholt hätten und so Home-Automatisierung, ne?
Bediene deine Lichtschalter oder deine Anlage oder so weiter.
Eigentlich hatte keiner von uns Bock, immer das Handy rauszuholen, sich einzuloggen und dann den Lichtschalter übers Handy zu bedienen.
Und da schafft natürlich CLI eine ganz neue Welt, was vorher so Custom-Apps waren, immer mit CLI und immer irgendwie an deinen Agenten geben.
Wenn wir in den großen Kontext gucken, also jetzt zum Beispiel, weiß ich nicht, Salesforce oder SAP, da bin ich noch nicht so hundertprozentig von überzeugt, dass CLIs alles übernehmen wollen werden.
Weil hinter der UI ja häufig auch ein gewisser Workflow steht und eine gewisse Führung des Users, welche Schritte nacheinander genutzt werden müssen.
Da glaube ich, ist die UI noch nicht tot, aber ansonsten ja, wer als kleiner Hersteller zurzeit keine gute CLI Parat hat, die dann auch von einem Agent genutzt werden kann, glaube ich, der wird in Zukunft Probleme kriegen.
Ja, ich habe da tatsächlich auch drüber nachgedacht, als du das Thema aufgebracht hast.
Wir hatten ja heute den Technology Lunch zum Thema Security und da war dann so ein, was ich da mitgenommen habe, was man bei diesen ganzen CLIs halt komplett ausblendet, weswegen das eben auch so gut funktioniert, ist halt komplett das Thema Identität.
Man geht halt davon aus, wenn jemand die CLI hat, die funktioniert, dann kann man halt auf irgendwas zugreifen, weil man ist entsprechend authentifiziert über diese CLI, muss sich über diese ganzen Berechtigungsthemen einfach keine Gedanken machen.
Das ist halt super convenient, würde ich mal sagen.
Aber man blendet halt so einen großen Teil komplett aus.
Mit welchen Rechten agiert eigentlich gerade der Agent gerade?
Sind die eingeschränkt oder nicht?
Man agiert halt mit den Rechten, die diese CLI dann gerade zufälligerweise hat.
Und das ist natürlich, äh, macht natürlich, öffnet, Tür und Tor allen möglichen Sicherheitsproblemen.
Deswegen war ich da auch so ein bisschen, habe ich erst auch gedacht, das ist super, weil alle Agenten können die halt völlig problemlos benutzen, aber komplett halt mit der Identität des Nutzers, der halt zufälligerweise gerade diese CLI eingeloggt hat.
Und dann hast du natürlich, hast du natürlich ein Problem.
Ich glaube, wo du gerade sagst, Salesforce und SAP, dass natürlich, die werden, glaube ich, weiterhin auf Dinge wie MCP setzen müssen, einfach weil da diese Themen wirklich explizit adressiert sind.
Mit welchen Rechten agiert hier gerade ein Agent?
Was kann der gerade, was kann der nicht?
Ich kann das Feingranular regeln und das muss natürlich in so einem Enterprise-Kontext eben sein.
Natürlich ist es immer lokal total gut, wie damals auf der Unix-Shell, wenn ich halt irgendwie einfach sudo mache und ich bin halt Route, dann kann ich halt alles super convenient.
Ich bin irgendwo eingeschränkt, da kann ich alles erreichen, aber das hat dann halt eben die Downside, dass ich auch eben alles erreichen kann.
Und deswegen war ich da so ein bisschen, war ich da erst so ein bisschen skeptisch auch, was das angeht.
Aber ja, du hast schon recht, alle machen jetzt CLIs und vielleicht führt es einfach dazu, dass die CLIs besser werden, was dann auch ein schöner Nebeneffekt ist.
Das ist ein guter Punkt.
Wahrscheinlich muss man die CLIs gruppieren oder nur bestimmten Usern zuordnen.
Das bestimmt, ich meine, Linux bietet ja durchaus Mechanismen dafür, dass nur bestimmte User oder User-Gruppen bestimmte CLI-Commands ausführen können.
Das ist auf jeden Fall ein Thema, in dem man arbeiten sollte.
Ja, da müssen wir, glaube ich, nochmal im Detail einsteigen.
Vielleicht nicht heute, aber ich fand es auch interessant, dass du es aufgebracht hast, weil da eben wirklich gerade ganz viel Musik drin ist.
Vielleicht noch ein letztes Thema, was auch so Integration angeht, das fand ich ganz interessant.
Ist das, na, wir hatten gerade, ich hatte gerade MCP gesagt.
Jetzt gab es dann plötzlich das nächste Three-Letter-Akronym, nämlich ACP, wo ich überhaupt erst nicht verstanden habe, was jetzt jetzt eigentlich wieder los ist.
Das wurde so von Jetbrands gepusht, die ja mit der IntelliJ-Familie oder mit der Idea-IDI da ganz präsent sind im Markt der Entwicklungsumgebung und die ja jetzt quasi versuchen, eben auch die verschiedenen Coding-Agents irgendwie in ihre IDI zu integrieren.
Und das hat so leidlich funktioniert bisher.
Ich habe dann immer doch eher das Terminal benutzt und nicht diese Integration.
Und sie versuchen jetzt eben so ein Push zu machen, dass sie ein standardisiertes Protokoll haben, wie man Agents in verschiedene Entwicklungsumgebungen einbindet.
Und das finde ich auf jeden Fall schon mal einen guten Ansatz, zu sagen, wir haben uns jetzt eine Weile uns das angeguckt, den ganzen Zoo, was da so passiert und versuchen jetzt mal herauszufinden, was sind denn so Standarddinge aus dieser Richtung, wie eine IDI mit einem Agenten interagiert.
Wie kann der Agent sagen, ich brauche jetzt zum Beispiel eine Permission auf irgendwas und dann kann die IDE das schön anzeigen und der Nutzer kann das dann bestätigen oder nicht.
Das fand ich eigentlich einen ganz schönen Ansatz.
Es geht so ein bisschen in die andere Richtung von dem, was damals mit diesem Language-Server-Protokoll, wie kann die IDI mit einem Compiler oder mit einem Sprachökosystem kommunizieren und jetzt eben mit einem Agenten.
Aber dies fand ich nochmal ganz interessant.
Hast du das auch schon mal was von gehört gehabt?
Ich habe es noch nicht genutzt, aber ich verstehe die Angst von JetBrains, wenn ich ehrlich sein soll.
Also, ich habe früher mal JetBrains verwendet, ich nutze es auch weiterhin, aber mittlerweile ist es tatsächlich ein glorifizierter Git-Client und Code-Revie-Client.
Tatsächlich diese Hauptfunktionalität, die der, die sie zur Verfügung gestellt haben, dass sie so Indexer auf alle Files haben, dass man schnell durch seinen Code navigieren kann.
Das war ja eigentlich eher Unique Selling Point.
Und ehrlich gesagt nutze ich es kaum noch.
Nutzt du es noch?
Ich habe das tatsächlich immer noch als Standard, aber habe dann auch dann eben ein Terminal offen, wo ich dann halt entsprechend dann häufig auch Cloud Code laufen lasse.
Ist eigentlich ein bisschen schade, weil ja dann auch zum Beispiel jetzt die IDEs dann wiederum intern in MCP bereitstellen, wo natürlich ein Agent dann auch sehr schön dieses ganze Tooling aus der IDI nutzen kann und sich dann eben auch anzeigen kann, was gibt es denn hier für Probleme gerade im Code und die relativ schnell drauf zugreifen kann.
Dann muss das eben nicht nochmal extern laufen und darin ist ja eben JetBrains auch sehr gut zum Beispiel, das zu tun.
Ja, aber du hast schon recht, die haben wahrscheinlich wirklich einfach Angst, dass ihnen die Fälle davon schwimmen, zumal ja ihr eigener Agent mit der Juni da der Anfangs ganz gut mithalten konnte, dann ja irgendwann nicht mehr so gut mithalten konnte.
Dann haben sie, glaube ich, auch akzeptiert, dass das jetzt nicht ihr Hauptbetätigungsfeld ist, wo sie jetzt mit den ganzen anderen mithalten können.
Jetzt versuchen sie eben die anderen so gut wie möglich zu integrieren.
Man kann natürlich sagen, okay, das ist jetzt einfach ein Eingeständnis des Scheiterns.
Es könnte aber auch einfach sein, dass sie wirklich jetzt verstanden haben, dass sie sich fokussieren müssen auf das, was sie gut können einfach.
Und das ist halt IDEs bauen.
Da muss man halt wirklich nur die Frage stellen, wie lange denn IDEs denn dann vielleicht noch aktuell sind, aber ich glaube noch eine ganze Zeit lang, zumindest meine Take dazu.
Gerade, ich muss ja den Code oder ich sollte den Code noch viel besser reviewen als vorher, der eben erstellt wird, dann nicht mehr von mir selbst häufig.
Und da könnten sie wahrscheinlich auch noch viel machen, dass man dann da die Unterstützung, was irgendwie Reviews angeht, vielleicht noch mehr nach vorne stellt.
Ah, wo jetzt, wo du sagst, Juno, da hat JetBrains ja ein verfrühtes Ostergeschenk von Antropic bekommen.
Eigentlich können sie sich jetzt angucken, wie man einen guten Asian baut, oder?
Damit wären wir bei den Fails der Woche, ja.
Genau, also man kann jetzt, was ja auch schon passiert, da der Source-Code von Cloud Code jetzt geleakt wurde von ihnen selbst aus Versehen.
Kann man natürlich jetzt hergehen und sagen, bitte reimplementiere mir Cloud Code in keine Ahnung, Haskell.
Und dann hat man einen Agenten in Haskell, der genauso funktioniert wie Cloud Code, weil man einfach das jetzt zum Beispiel portieren kann.
Das hatten wir ja auch schon mal letztens diskutiert, glaube ich.
Ich weiß nicht, ob in dieser Runde, dass ja Leute jetzt anfangen, Open Source Libraries zu klonen, indem sie sie reimplementieren lassen.
Und das ist ja genau der Punkt jetzt.
Der Source-Code ist jetzt komplett da.
Man könnte ihn jetzt quasi nochmal reimplementieren lassen und sagen, ja, ist ja mein eigenes Projekt.
Da bin ich wirklich gespannt, wie sie damit umgehen, ja.
Ja, es gibt eine, es gibt schon eine Python-Reimplementierung und da, also datenschutzrechtlich haben sich jede Rechte an dem Code verloren.
Ich glaube, es ist nicht ganz so schlimm für sie, weil so gerüchteweise implementieren sie ja Cloud-Code eh alle drei Wochen einmal.
Also ihr Turnaround-Cycle für den Code sind eh drei Wochen.
Darum so in drei Wochen ist es eh veraltet.
Aber ja, es ist schon ein erstaunliches Upsi für so eine Firma.
Ja, ja, nee, das ist das fand ich auch interessant, ja.
Ich habe jetzt aber auch noch nichts Schlimmes aus dem Code gehört.
Also, was man wohl sehen kann, ist, dass der Harnes doch recht eng an das Modell gebunden ist.
Also, wenn man da jetzt ein Open Source-Modell drunter packt, wird es wahrscheinlich deutlich schlechter funktionieren.
Und ansonsten soll es recht gut geschriebener Code sein.
Sie müssen sich also zumindest nicht schämen dafür.
Nee, das ist ja dann hoffe ich auch wahrscheinlich das Erste, was sie dann befürchtet haben.
Obwohl sie können ja immer sagen, den Code haben wir ja nicht selber geschrieben, hat ja das Modell geschrieben.
Insofern.
Was ja wahrscheinlich der Fall ist.
Aber ja, ich fand, da waren auch noch ein paar andere interessante Dinge drin, dass sie mit diesem offensichtlich Codenamen Kairos oder so, dass sie wirklich im Grunde versuchen, auch ein OpenClaw zu bauen, ein eigenes.
Das ist natürlich jetzt, ja, wird sich wahrscheinlich auch die gesamte Konkurrenz schon gedacht haben, dass sie daran arbeiten.
Also da werden sie, glaube ich, jetzt auch nicht so den Schaden davontragen.
Und ein paar spannende Dinge fand ich tatsächlich wirklich sehr lustig, wo sie halt wirklich diese, so ein bisschen so diese Sentiment-Analysis gemacht haben mit Reggex tatsächlich einfach, um halt auf irgendwelche Schimpfwörter zu filtern, um herauszufinden, ob der Nutzer gerade frustriert ist, könnte man natürlich auch in das LLM-Werfen, das LLM fragen, ist der Nutzer gerade frustriert?
Aber es ist natürlich, ne, viel effizienter, das mit einem Reg-Ex zu machen und funktioniert wahrscheinlich genauso gut.
Das fand ich einfach gut, dass sie da halt auch nicht einfach stumpf einfach alles dem LLM geben, sondern sehr, sehr viele so Optimierungen drin haben, um da wahrscheinlich auch aus Eigeninteresse die Tokens zu sparen.
Aber das fand ich lustig, dass du da so ein Rec-X drin hast mit den ganzen Swearwords.
Das fand ich.
Das fand ich ein schönes Titbit, ja.
Gut, soviel zu dem Claude Quote-Fail mit dem Source-Code-Leak.
Du hast noch eine zweite Geschichte mitgebracht, wo es um Supply Chain-Angriffe geht, was ich auch extrem interessant fand.
Ich meine, die sehen wir ja relativ häufig, aber das war nochmal so eine so ein bisschen andere Qualität, ne?
Ja, das ist tatsächlich scheint zu Play Chain-Angriffe auch The New Hotness zu sein.
Also vielleicht ist das der Effekt, wenn man so einmal die News gesehen hat, sieht man sie jetzt dauernd und überall, aber boah, zwei, drei große Angriffe in den letzten zwei Wochen, seit unserem zwei Wochen ist her, dass wir unsere letzte Sendung hatten, oder?
Also einmal war auf GitHub irgendwas geleakt worden, wo einfach das die Package.json ein Open Claw bei dir lokal nachinstalliert hat und deine Daten exchiltriert hat.
Aber die beiden größeren eigentlich sind Trivi und in der Nachfolge von Trivi das Light-LLMs, was also wirklich große Pakete waren, die von wirklich vielen Leuten benutzt wurden.
Und das Erstaunliche daran für mich war eigentlich, dass wie, da war nicht die AI, dass der Chartcode, der injektiert wurde, sondern eigentlich haben sie das gemacht, was man so als Security-Scan auch eh selber machen könnte, sondern sie haben sich die Pipelines auf Schwachstellen und Fehler angeschaut und haben es deshalb irgendwie geschafft, Tokens zu exfiltrieren und damit dann Schadcode zu injektieren.
Und dieser initiierte Schadcode war auch tatsächlich einfach 200 Zeilen Python Standard Schadcode hätte ich es jetzt fast genannt.
Und wenn es einen getroffen hat, war es wirklich böse, weil das Ding hat alles exfiltriert.
Also SSH-Keys, Kubernetes-Secrets, API-Keys, Endvariablen, Crypto-Wallets.
Im Prinzip, wenn es dich selber getroffen hast, kannst du alle deine Passwörter austauschen, eigentlich fast dein System neu aufsetzen.
Das war echt heftig.
Wenn es einmal offen ist, ist offen, ne?
Da hatte ich jetzt in einem anderen Podcast einen schönen Tipp gehört.
Es ist nicht von mir, aber ich fand ihn sehr, sehr schön.
Ich weiß nicht mehr, in welchem es war, ich kann keine Credits geben, aber ich höre zu viele Podcasts offensichtlich, dass jemand meinte, du musst ja einfach so eine so eine Bitcoin-Wallet auf deinen Rechner machen mit 50 Dollar drin und dann musst du die monitoren und wenn die leer ist, dann weißt du, okay, ich muss meinen Rechnerblatt machen und alle Kudenten löschen.
Das ist dann quasi so das Frühwarnsystem, was hat dich an dich irgendwie traurig, aber irgendwie auch gar nicht so eine schlechte Idee.
Also ein Grund, sich Krypto-Sachen zu kaufen.
Einer der wenigen, ja.
Bei Kanarienvogel-Krypto.
Genau, wenn der Krypto-Kanarienvogel, ja.
Gut.
Ja, ich gucke mal über unsere Themen, aber ich glaube, wir sind jetzt einmal durchgelaufen.
Ich glaube, du hast noch ein TIM für uns, oder?
Achso, ich habe noch einen Tipp, genau.
Ein Tipp der Woche haben wir jetzt auch noch.
Ich mache jetzt immer neue Kategorien auf.
Ja, ich verwende tatsächlich lokal das Olama, das Bekannte auf dem Mac, um halt lokale Modelle laufen lassen zu können.
Mache ich noch nicht so viel, weil nicht so viel Speicherlokal.
Aber das fand ich jetzt einfach schön, dass sie in der neuen Preview-Version jetzt nativer als vorher das MLX, also das Mac Machine Learning Framework, verwenden.
Und dann werden eben die Modelle noch mehr, nutzen, mehr der nativen Funktionalitäten, die der Mac halt anbietet.
Und dadurch ist es einfach jetzt schneller.
Also wenn ihr lokale Modelle auf dem Mac laufen lasst, macht mal die Preview-Version von Olama an und könnt dann eben MLX benutzen und dann ist es einfach schneller im Default, zumindest versprechen sie das.
Ich habe es jetzt gerade erst heute installiert, ich habe es noch nicht genau ausprobiert, aber da vielleicht mal auf die Preview wechseln.
Ja, wahrscheinlich hätten wir uns alle vorher noch ein Mac Mini kaufen sollen, bevor du das hier droppst.
Ja, der ist natürlich nach wie vor interessant.
Wir haben natürlich einfach durch den, wir hatten es ja am Anfang mit dem Speichern, dadurch, dass der Mac eben diesen Unified Memory hat.
Und davon natürlich auch relativ viel, können natürlich dann eben auch die GPUs auf den gesamten Speicher zugreifen und müssen dann nicht immer hin und her zwischen RAM und GPU-Speicher hin und her schieben.
Das, was Nvidia die ganze Zeit versucht zu lösen.
Hat man da nicht.
Das hat natürlich ein großer Vorteil.
Und die Macs haben meistens auch noch sehr schnelle SSDs, was dann das Streaming der Modelle in den Speicher angeht.
Das hat dann schon einfach Architekturvorteile.
Ja.
Ich bin durch mit den Themen.
Hast du noch was?
Nee, keine neuen Themen.
Ein Hinweis noch.
Für die Linux-Fans unter uns, die keinen Mac haben wollen.
Es gibt was ähnliches von AMD.
Man könnte sich also auch ein Framework-Desktop kaufen.
Das ist die Open Source-Variante von unserem Mac Mini.
Aber ansonsten, ich glaube, wir sind gut durch.
Wir sind sogar in unserer halben Stunde geblieben.
Yes.
Genau.
Eure Zeit nicht überhaupt anstrengen und unsere Zeit auch nicht.
Und dann hoffe ich, dass wir uns bald wiedersehen nach Ostern irgendwann.
Schauen wir mal, ob wir es in, wann wir es im April schaffen.
Aber es kommt auf jeden Fall eine neue Folge.
Danke auch für das Feedback, was uns erreicht hat.
Und keep it coming, entweder auf YouTube oder an die Podcast-Edinocue-Mail-Adresse oder sonst wo auf den Social-Media-Kanälen.
Schreibt uns, wenn ihr noch Feedback habt, Hinweise für Themen.
Wir freuen uns drauf.
Dann sage ich danke, danke, Ole.
Ja.
Und bis zum nächsten Mal.
Schöne Ostern.
Dir auch.
Macht's gut.
Ciao.
Ciao.