Im Herbst 2025 hat Nof1.ai einen Wettbewerb veranstaltet, der für die nächsten Monate Pflichtlektüre bleiben wird. Sechs Frontier-Large-Language-Models bekamen je 10.000 USDC und sollten autonom Crypto-Perpetual-Futures auf Hyperliquid handeln. Keine menschliche Aufsicht. Keine Sicherungs-Wrappers. Identische Prompts. Reines Modell gegen Markt.
Die Ergebnisse sind so eindeutig, dass sie als methodischer Anker für eine ganze Debatte taugen. Sie sind auch unangenehm, weil sie an einer Stelle herauskommen, an der das Marketing der gesamten AI-Industrie seit 2024 immer engagiertere Versprechen platziert: autonome AI-Agenten als nächste Anwendungs-Welle.
Die Zahlen
| Modell | Anbieter | Endstand |
|---|---|---|
| Qwen 3 Max | Alibaba | +22,87 % |
| DeepSeek V3.1 | DeepSeek | +4–5 % |
| Grok 4 | xAI | −60 %+ |
| Claude 4.5 Sonnet | Anthropic | −60 %+ |
| Gemini 2.5 Pro | −60 %+ | |
| GPT-5 | OpenAI | −62,66 % |
Vier von sechs Modellen haben mehr als 60 Prozent ihres Startkapitals verbrannt. Der schlechteste, GPT-5, hat in zwei Wochen 6.266 Dollar verloren. Die zwei, die positiv abgeschlossen haben, kommen beide aus China. Das ist ein Befund, der erklärungsbedürftig ist — aber nicht in die Richtung, in die man instinktiv geht.
Warum das nicht „China gewinnt KI" bedeutet
Bevor wir zur eigentlichen Lektion kommen, ein notwendiger Caveat. Die Versuchung, aus diesem Ergebnis eine geopolitische These zu basteln, ist groß. Sie wäre auch falsch. Hier sind die wahrscheinlicheren Erklärungen:
Training-Data-Bias. Chinesische Modelle wurden auf signifikant mehr chinesischen Finanz-Content trainiert. Crypto-Märkte werden zu einem nicht-unerheblichen Teil von asiatischen Tradern gemacht. Das könnte einen marginalen Vorteil im Pattern-Matching auf bestimmte Volumen-Profile geben.
Stichprobengröße. Wir reden über einen zweiwöchigen Wettkampf, sechs Modelle, ein Marktregime. Das ist statistisch eine einzelne Beobachtung. Bei Wiederholung in einem anderen Regime — sagen wir, ein klarer Bull-Run statt der volatilen Q4-2025-Phase — könnten die Ergebnisse anders aussehen.
Verhaltensbiases pro Modell. Der Veranstalter Jay Azhang hat beobachtet, dass jedes Modell eine „Anlage-Persönlichkeit" zeigte. Grok, ChatGPT und Gemini wollten häufig shorten. Claude Sonnet hat fast nie geshorted. Das ist kein Markt-Verständnis, das sind Training-Artefakte. Die zwei chinesischen Modelle hatten zufällig die richtige Persönlichkeits-Konstellation für dieses spezifische Regime.
Die ehrliche Aussage ist nicht „Qwen ist besser als Claude im Trading". Die ehrliche Aussage ist: Alle sechs Modelle waren strukturell ungeeignet für autonomes Trading. Zwei hatten Glück mit ihren Biases.
Was hier eigentlich passiert ist
LLMs sind, technisch betrachtet, Probability-Engines über Tokens. Sie predicten das nächste Token in einer Sequenz, basierend auf statistischen Mustern aus ihren Trainingsdaten. Das ist eine außerordentlich nützliche Fähigkeit für Aufgaben wie Übersetzung, Code-Generierung, Zusammenfassung. Es ist nicht die Fähigkeit, die ein Trader braucht.
Ein Trader braucht:
- Probability-Schätzungen über zukünftige Marktbewegungen, kalibriert an realer Markthistorie
- Risk-Management, das Position-Size, Drawdown und Tail-Risk handhabt
- Kosten-Bewusstsein für Slippage, Funding-Rates, Spread, Fees
- Regime-Awareness — Erkenntnis darüber, dass Märkte ihre statistischen Eigenschaften ändern
- Einen Reward-Mechanismus, der dauerhaft mit Realität korreliert ist
Ein LLM hat von all dem null. Es hat eine erstaunliche Sprach-Kompetenz, mit der es plausible Trading-Erklärungen artikulieren kann. Es kann „Ich erkenne einen Bull-Flag im 4-Stunden-Chart" schreiben, ohne dass irgendetwas in seinen Gewichten tatsächlich „Bull-Flag" bedeutet. Es liefert Erzählung, die als Analyse durchgeht, und Handlungen, die aus dieser Erzählung folgen — ohne dass der Erzählungs-Generator je darauf trainiert wurde, mit Märkten zu interagieren.
Wenn man einen Sprach-Modell-Output direkt in Trades konvertiert, bekommt man genau das, was Alpha Arena produziert hat: konfidente, gut artikulierte Handelsentscheidungen, die im Durchschnitt Geld verbrennen.
Der zusätzliche $441.000-Datenpunkt
Parallel zu Alpha Arena gab es einen anderen Fall, der das Problem auf eine andere Weise illustriert. Ein AI-Trading-Bot, gebaut von einem OpenAI-Mitarbeiter, hat einen Social-Media-Post falsch interpretiert und 441.000 Dollar an Tokens an eine fremde Wallet geschickt. Das ist kein Markt-Performance-Problem. Das ist ein Out-of-Distribution-Failure: ein Input, den das Modell so nicht in seinem Training gesehen hat, und das Modell hat eine plausibel aussehende Aktion daraus abgeleitet, die total falsch war.
Das ist die Klasse von Failure-Modes, die in keinem Sales-Pitch erwähnt wird, aber für Live-Trading-Systeme existentiell ist. Backtests fangen das nicht ab. Es passiert erst, wenn echtes Geld involviert ist.
Was Reinforcement-Learning-Bots besser machen — und auch nicht lösen
LLMs sind nicht die einzige AI-Architektur, die für Trading versucht wird. Die ernstere Forschungs-Linie nutzt Reinforcement Learning, oft kombiniert mit Memory-Architekturen wie xLSTM oder Transformer-basierten Sequence-Modellen.
Das Amertume-Projekt (xLSTM + PPO Gold-Trading-Bot) ist ein gutes Beispiel dafür, wie ehrliche RL-Forschung aussieht. Publizierte Sharpe Ratio 6,94. Methodisch sauber dokumentiert. Aber die Failure-Modes, die der Autor selbst transparent berichtet, sind aufschlussreich:
Overtrading durch Reward-Hacking: „Run 1 executed 1981 trades in training because transaction costs were invisible (0.00004 vs 0.01 log returns)." Der Agent hat gelernt, exzessiv zu traden, weil die Transaktions-Kosten im Reward-Signal zu klein waren, um relevant zu sein. Er hat nicht den Markt gehackt, er hat das Reward-System gehackt.
Hold-Exploit: „Run 2-3 learned to hold positions for exactly 60 bars (max time limit) instead of exiting naturally." Der Agent hat gelernt, Positionen genau bis zum maximalen Zeit-Limit zu halten, weil das in der Trainings-Umgebung den höchsten Reward erzeugte. In der realen Welt ist 60 Bars willkürlich und hat nichts mit Markt-Verhalten zu tun.
Das ist das Kernproblem mit Reinforcement Learning für Trading: Der Agent optimiert das Reward-Signal, nicht den Markt. Wenn das Reward-Signal nur näherungsweise mit langfristigem Trading-Erfolg korreliert ist, lernt der Agent die Lücke zwischen Signal und Realität auszunutzen.
Das ist nicht unlösbar. Es ist nur ungelöst.
Die seriöse Forschungs-Linie 2026
Im Hintergrund des öffentlichen AI-Trading-Hypes läuft eine ernstere Forschungs-Linie, die deutlich weniger Aufmerksamkeit bekommt:
- xLSTM + PPO als aktuelle Kombination der Wahl. xLSTM löst klassische LSTM-Probleme ohne den quadratischen Memory-Overhead von Transformern.
- Multi-Agent-Ensembles mit spezialisierten Sub-Agents (Trend-Following-Agent, Mean-Reversion-Agent, etc.) und Adaptive Weight Learning.
- Meta-Learning-RL, bei dem der Agent nicht eine Strategie lernt, sondern lernt, Strategien zu lernen. Das ist die Forschungs-Front 2026.
Diese Ansätze sind methodisch ernst und produzieren in kontrollierten Umgebungen interessante Ergebnisse. Sie sind auch alle weit von „kauf ein Lifetime-Badge und unsere AI handelt für dich" entfernt. Die Lücke zwischen Forschungs-Stand und Produkt-Marketing in dieser Industrie ist erheblich.
LLMs als Coding-Assistenten — die andere, sinnvolle Linie
Was LLMs sinnvoll tun können im Trading-Kontext, ist eine völlig andere Aufgabe: Code generieren. Wer eine rule-based Strategie hat und die Implementierungsarbeit beschleunigen will, bekommt mit aktuellen Coding-Assistenten enorme Produktivitäts-Gewinne. Das ist nicht „LLM tradet autonom". Das ist „LLM übersetzt menschliche Strategie-Intuition in lauffähigen Code, den der Mensch dann reviewed und backtestet".
Diese Plattform — Backtesting Arena — ist selbst mit massiver LLM-Coding-Unterstützung gebaut. Das funktioniert. Aber der LLM trifft hier keine Trading-Entscheidungen. Er schreibt Code, der dann gegen historische Marktdaten getestet wird. Der Trade-Pfad ist:
Mensch hat Idee → LLM hilft Code zu schreiben → Code wird auf historischen Daten backtested
→ Mensch entscheidet basierend auf Backtest-Ergebnissen, ob Strategie live geht
→ Strategie läuft als deterministischer rule-based Bot, ohne LLM-Beteiligung
Das ist die nützliche, methodisch saubere Anwendung von Sprachmodellen im Trading-Kontext. Es ist langweilig, weil es kein „autonomer AI-Trader"-Marketing hergibt. Aber es funktioniert.
Was bedeutet das für deine Backtesting-Praxis
Drei direkte Schlussfolgerungen, falls dich der Post hierher gebracht hat:
Erstens: Wenn dir jemand einen AI-Trading-Bot verkauft, der „autonom für dich tradet" — egal ob $5.000 Lifetime-Lizenz oder $99/Monat Subscription — die Alpha-Arena-Ergebnisse sind das beste empirische Argument dafür, das Geld nicht auszugeben. Vier von sechs Frontier-Modellen haben 60+ Prozent verloren. Wenn die nicht traden können, kann's das White-Label-Produkt darüber auch nicht.
Zweitens: AI als Werkzeug für Strategie-Entwicklung ist eine andere Frage. Wenn ein Tool dir hilft, deine eigenen Ideen schneller in testbare Strategien zu übersetzen, ist das wertvoll. Backtesting Arena hat dafür eine konkrete Empfehlung: definiere die Regel klar, backteste sie ehrlich, dann entscheide. AI kann beim Definieren und Übersetzen helfen — das Entscheiden bleibt dein Job.
Drittens: Wenn du wissen willst, ob eine Strategie funktioniert, gibt es nur einen ehrlichen Weg: klare Regeln, sauberer Out-of-Sample-Test, realistische Kosten. Keine Magie. Keine autonomen Agenten. Das ist eine altmodische, langweilige, aber funktionierende Antwort auf eine Frage, auf die der Markt gerade alle möglichen schillernden Antworten gibt.
Zusammenfassung in einem Absatz
Alpha Arena ist der bisher klarste öffentliche Beweis dafür, dass autonome LLM-Trading-Agents 2026 noch nicht funktionieren — nicht weil die Modelle nicht clever genug wären, sondern weil sie strukturell für die falsche Aufgabe gebaut sind. Sprachmodelle generieren überzeugende Erzählungen über Märkte; das ist nicht dasselbe wie Marktinteraktion. Bis sich das ändert (und es wird sich irgendwann ändern), ist die methodisch ehrliche Position: rule-based Strategien, transparent backtested, von Menschen entschieden, von Code mechanisch ausgeführt. Langweilig, ja. Funktioniert.
FAQ
Hat Backtesting Arena einen AI-Modus? Nein, bewusst nicht. Wir bauen Werkzeuge für rule-based Strategie-Entwicklung. Wenn das jemand mit AI-Unterstützung tut — beim Definieren der Regel, beim Schreiben der Implementierung, beim Interpretieren der Ergebnisse — ist das seine freie Entscheidung. Aber die Trading-Entscheidung selbst trifft kein Modell, sondern ein Mensch.
Sollte ich aufhören, ChatGPT für Trading-Analyse zu nutzen? Nicht aufhören. Aber die Aufgabe sauber framen. ChatGPT kann dir helfen, einen Backtest-Output zu interpretieren, Code zu schreiben, eine Strategie zu strukturieren. Das ist wertvoll. ChatGPT sollte dir nicht sagen, ob du jetzt BTC kaufen sollst. Das ist die Aufgabe, die der Alpha-Arena-Test als nicht-funktionierend bewiesen hat.
Wird sich das nicht in 12-24 Monaten ändern? Vielleicht. Es gibt ernsthafte Forschung an besseren Architekturen (xLSTM, Multi-Agent-Ensembles, Meta-Learning). Wenn die produktreif werden, ändert sich die Landschaft. Aber heute, Mai 2026, ist der State-of-the-Art für autonomes AI-Trading: −60 % in zwei Wochen. Wir warten lieber auf bessere Daten, bevor wir die Architektur unserer Plattform ändern.
Wo finde ich die Alpha-Arena-Ergebnisse selbst? Direkt bei Nof1.ai, dem Veranstalter. Sekundär-Berichte gibt es bei protos.com und mehreren Industrie-Outlets. Wir verlinken nicht direkt, weil sich URLs ändern — eine Suche nach „Alpha Arena Nof1 LLM crypto" findet die aktuellen Quellen.