Vor fünf Wochen waren es 10.000 Backtests, heute sind es über 40.000. Mit der vierfachen Datenmenge fällt die „schlägt Buy & Hold"-Quote von 64% auf 52%, vier von fünf Runs liegen unter 50% Win-Rate, und ein Memecoin verteidigt seinen 197.923%-Rekord. Was Selection-Bias mit Stichprobengröße macht — an echten Zahlen.

Vor 35 Tagen haben wir über die ersten 10.000 Backtests geschrieben. Heute steht die Arena bei über 40.000. Die erste Zehntausend brauchte 41 Tage. Die nächsten Dreißigtausend: 35.

Das ist die langweilige Schlagzeile. Die interessante steht in den Zahlen — und vor allem darin, wie sich die Zahlen verändert haben, als die Stichprobe vervierfacht wurde. Denn größere Stichproben sind nicht einfach „mehr vom Gleichen". Sie waschen aus, was kleine Stichproben schönreden.

Was sich beim Tempo geändert hat

Meilenstein	Tag	Backtests gesamt	Ø/Tag bis dahin
10k	Tag 41	10.154	248
40k	Tag 76	40.777	537

Die zweiten 30.000 liefen mit rund 880 Backtests pro Tag — mehr als das Dreifache des Anlauf-Tempos. Ehrlich dazugesagt: Ein großer Teil dieses Sprungs ist nicht Nutzer-Klick, sondern unsere systematische Coverage-Engine. Seit dem 10k-Post läuft die tägliche Pipeline, die die Strategie-×-Asset-Matrix für Strategy Insights und die Edge Library füllt. Das ist genau das, was wir bei 10k angekündigt haben — und es verändert, wie man die Aggregat-Zahlen lesen muss.

Die Strategie-Verteilung misst jetzt etwas anderes

Bei 10k war die Verteilung nutzergetrieben: RSI/SMA-Cross hatte fast 10× so viele Runs wie die Nummer 2. Heute:

Strategie	Runs	Anteil
rsi_sma	6.439	15,8%
stoch_rsi_sma	4.428	10,9%
ema_trend_bias	4.153	10,2%
rsi_ob_os	3.429	8,4%
golden_cross	3.428	8,4%
wma_trend	3.271	8,0%

Die Verteilung ist deutlich flacher geworden. Der Grund ist nicht, dass Nutzer plötzlich Stochastic RSI lieben — sondern dass die Coverage-Engine jede Strategie systematisch über das Universum laufen lässt. Bei 10k maß die Verteilung den Nutzer-Geschmack. Bei 40k misst sie unsere Abdeckung. Beides ist gültig, aber es ist nicht dasselbe — und wer das nicht trennt, liest die falsche Geschichte aus den Zahlen.

Die unbequeme Wahrheit, jetzt noch deutlicher

Die Win-Rate-Verteilung über alle Runs mit mindestens 5 Trades:

Win-Rate	Backtests
<30%	6.057
30–50%	14.890
50–60%	2.623
60–70%	1.393
70–80%	650
>80%	579

80% aller Backtests liegen unter 50% Win-Rate. Bei 10k waren es 60%. Nur 4,7% brechen über 70% — die „70%-Win-Rate-Strategie" aus dem Trading-Twitter lebt in den oberen fünf Prozent, und meistens auf einer Handvoll Trades.

Das heißt nicht, dass diese Strategien schlecht sind. Eine RSI/SMA-Strategie mit 30% Win-Rate kann CAGR-positiv sein, wenn die Gewinner groß genug sind. Win-Rate allein sagt nichts — sie ist die am häufigsten zitierte und am wenigsten aussagekräftige Kennzahl im Trading.

Der wichtigste Befund: 64% wurden zu 52%

Bei 10k schlugen 64,3% aller vergleichbaren Backtests (≥5 Trades) Buy & Hold. Heute, über 26.189 Vergleiche:

Kennzahl	10k	40k
Schlägt Single-Point-B&H	64,3%	51,6%

Die Quote ist um über zwölf Prozentpunkte gefallen — fast ein Münzwurf. Das ist kein Rückschritt, das ist Selection-Bias, der sich auswäscht. Bei 10k war der Datensatz kleiner und stärker davon geprägt, dass Nutzer ihre Gewinner behalten und ihre Totalausfälle löschen. Mit der vierfachen Menge — inklusive vieler systematischer, nicht cherry-gepickter Coverage-Runs — nähert sich die Realität dem an, was sie immer war: Aktiv schlägt passiv ungefähr in der Hälfte der Fälle, bevor Kosten gerechnet sind.

Neu bei 40k: Avg-B&H entlarvt Timing-Glück

Bei 10k hatten wir noch zu wenige Runs mit berechnetem Avg B&H (dem Durchschnitt aller möglichen Einstiegspunkte mit mind. 20% Restlaufzeit — der fairere, härtere Benchmark). Jetzt sind es 2.518:

Vergleich	Anteil
Schlägt Single-Point-B&H	59,1%
Schlägt Avg-B&H	60,4%
Von den Single-B&H-Schlägern: scheitern an Avg-B&H	16,0%

Jeder sechste Backtest, der einen einzelnen (glücklichen) B&H-Einstieg schlägt, scheitert am Durchschnitts-Einstieg. Diese 16% sind reines Timing-Glück — ein Run, der zufällig am richtigen Tief gemessen wurde. Genau deshalb zeigen wir Avg B&H als primären Benchmark: Er nimmt dem Backtest das Glück weg.

Anekdoten — die Wiederkehrer

Der Memecoin verteidigt seinen Titel. Im 10k-Post war ein chinesisch benannter Memecoin mit 197.923% CAGR der wildeste Run. Bei 40k: immer noch ungeschlagen. Buy & Hold auf demselben Coin: 2.239% — die Strategie schlug B&H um den Faktor 88. Win-Rate: 44%. Survivorship-Glück oder echte Kante? Der Coin existiert nur, weil er gepumpt hat — das ist die ehrliche Antwort.

FTM ist der glaubwürdigere Star. Spannender als der Memecoin: FTMUSDT schlägt seinen Buy & Hold (≈130%) über drei unabhängige Strategien — sha_smooth (259% CAGR), rsi_sma (250%), obv_macd_v2 (247%). Wenn dieselbe Kante über mehrere, unkorrelierte Logiken auftaucht, ist das näher an Signal als an Zufall. Ein Memecoin-Wunder ist eine Anekdote. Drei Strategien, die sich einig sind, ist ein Hinweis.

TSLA bleibt der Geduldskönig. Der längste Einzel-Run geht weiter bis 2010 zurück: Tesla, EMA Trend Bias, Monatskerzen, 16,3 Jahre, 32,7% CAGR. Wenige Trades, lange Haltedauern — und im Rückblick leicht zu romantisieren, leicht den 80%-Drawdown unterwegs zu vergessen.

A2Z bleibt verflucht. Der Coin, der im 10k-Post jede Strategie tötete, ist immer noch da: A2ZUSDC mit RSI/SMA über 8 Jahre, −95,9% CAGR, 11% Win-Rate. Gesellschaft bekommt er von SAHARAFDUSD (−99,3%). Manchmal ist nicht das System das Problem, sondern der Vermögenswert.

Nackte Strategie vs. Strategie mit Filter

Die spannendste neue Frage bei 40k: Bringen die Filter überhaupt etwas? Wir haben alle vergleichbaren Runs (≥5 Trades) in zwei Lager geteilt — nackt (kein Filter) vs. mit mindestens einem aktiven Filter.

Gruppe	Runs	Schlägt Single-B&H	Ø CAGR	Ø B&H
Nackt	10.316	49,0%	23,8%	−0,6%
Mit Filter	15.873	53,3%	8,1%	2,1%

Gefilterte Strategien schlagen Buy & Hold etwas häufiger (53% vs. 49%) — aber zu deutlich niedrigerer Durchschnitts-CAGR (8% vs. 24%). Das ist kein Widerspruch, das ist der Deal: Filter tauschen Oberseite gegen Konsistenz. Sie halten dich in gefährlichen Regimen aus dem Markt — du entgehst mehr Katastrophen, verpasst aber auch mehr Mondflüge. Die hohe nackte Durchschnitts-CAGR ist von Crypto-Ausreißern (siehe Memecoin) nach oben gezogen; die Häufigkeit, mit der B&H geschlagen wird, ist der ehrlichere Vergleich.

Ehrliche Einordnung: Die Filter gelten überwiegend für Crypto, die Gruppen sind also nicht perfekt vergleichbar (anderer Asset-Mix, andere B&H-Basis). Das ist ein Hinweis, kein kontrolliertes A/B.

Und nicht jeder Filter ist gleich:

Filter aktiv	Schlägt Single-B&H
Bullenmarkt-Ampel	65,0%
Altcoin-Season	62,6%
200-WMA	47,3%
ATR-Volatility	42,1%

Die Regime-Filter — Bullenmarkt-Ampel und Altcoin-Season — schlagen B&H weit häufiger als der ATR-Volatility-Filter, der im Schnitt sogar hinter B&H zurückblieb. Ein Filter ist nur so gut wie die Regime-Frage, die er stellt.

Filter-Adoption — vorsichtig gelesen

Filter (Pro+)	10k	40k
200-WMA	5,6%	9,6%
Altcoin-Season	9,2%	10,2%
ATR-Volatility	8,6%	27,9%
Bullenmarkt-Ampel	0%	12,0%

Die Nutzung ist gestiegen, ATR deutlich. Aber auch hier die ehrliche Fußnote: Ein Teil davon sind unsere eigenen Regime-Coverage-Runs, nicht nur Nutzer-Entscheidungen. Wir trennen das in den internen Auswertungen — nach außen zählt: Filter werden mehr genutzt als bei 10k, aber sie sind weiter die Ausnahme, nicht die Regel.

Was Backtesting Arena hier beiträgt

Wir behaupten nicht, die einzige ehrliche Backtesting-Plattform zu sein. Was wir tun: Wir zeigen die Aggregat-Zahlen so, wie sie sind — inklusive der Tatsache, dass die „schlägt B&H"-Quote fällt, wenn die Stichprobe wächst. Wir trennen Nutzer-Runs von systematischer Coverage, statt beides zu einer schmeichelhaften Schlagzeile zu mischen. Und wir bauen mit Strategy Insights und der Edge Library genau den Layer, der die Survivorship-Frage aus dem 10k-Post systematisch beantwortet: Welche Setups robust outperformen — und welche nur einmal geglänzt haben.

Die ersten drei Backtests sind kostenlos. Und wenn du schon einen gemacht hast: Die besten Erkenntnisse in dieser Sammlung kommen nicht von uns. Sie kommen von dir.

FAQ

Sind die 40.000 echte Nutzer-Backtests? Nein, und das sagen wir offen. Es sind alle Runs der Plattform — Nutzer-Runs plus die systematische Coverage-Pipeline (Admin-Bulk-Runs), die die Strategie-×-Asset-Matrix füllt. Daten sind Daten, aber wir kennzeichnen, was was ist: Die Strategie-Verteilung bei 40k spiegelt vor allem unsere Abdeckung, nicht den Nutzer-Geschmack.

Warum fällt die „schlägt B&H"-Quote, wenn die Plattform wächst? Weil die kleine 10k-Stichprobe von Selection-Bias geschönt war — Nutzer behalten Gewinner, löschen Totalausfälle. Mit vierfacher Menge plus vieler nicht-gepickter Coverage-Runs nähert sich die Quote dem realistischen Wert: rund die Hälfte, vor Kosten.

Heißt eine Win-Rate unter 50%, dass die Strategie schlecht ist? Nein. Eine 30%-Win-Rate-Strategie kann profitabel sein, wenn die Gewinner deutlich größer sind als die Verlierer. Win-Rate ohne Erwartungswert ist Theater — deshalb optimieren wir auf „schlägt B&H nach CAGR + Drawdown", nicht auf eine einzelne Quote.

Was ist Avg B&H und warum ist es härter als normales Buy & Hold? Single-Point-B&H misst gegen einen Einstiegszeitpunkt — oft zufällig ein günstiges Tief. Avg B&H mittelt über alle möglichen Einstiege (mit mind. 20% Restlaufzeit) und nimmt dem Vergleich das Timing-Glück. 16% der Runs, die Single-B&H schlagen, scheitern an Avg-B&H.

Wird der 197.923%-Memecoin als Beweis für eure Strategien verkauft? Nein. Es ist eine Anekdote mit explizit genanntem Survivorship-Bias: Der Coin existiert nur, weil er gepumpt hat. Glaubwürdiger ist FTM, das seinen B&H über drei unabhängige Strategien schlägt — Mehrfach-Bestätigung ist näher an Signal als ein einzelnes Wunder.

Bringen die Filter überhaupt etwas — nackt vs. mit Filter? Etwas, ja, aber mit Trade-off. Gefilterte Runs schlagen Single-Point-B&H häufiger (53% vs. 49% nackt), aber bei niedrigerer Durchschnitts-CAGR (8% vs. 24%) — Filter tauschen Oberseite gegen Konsistenz. Und nicht jeder Filter ist gleich: Regime-Filter (Bullenmarkt-Ampel 65%, Altcoin-Season 63%) schlagen B&H weit öfter als der ATR-Volatility-Filter (42%, im Schnitt hinter B&H). Caveat: Filter gelten v.a. für Crypto, also kein perfekt kontrollierter Vergleich.

Wie verhindert ihr, dass die Anekdoten cherry-gepickt sind? Wir zeigen Gewinner und Verlierer (A2Z bei −96%, SAHARAFD bei −99%), nennen die Stichprobengröße und die Trade-Zahl, und behandeln alles unter 30 Trades als Anekdote, nicht als Evidenz.

Backtesting Arena

40.000 Backtests — was die Daten jetzt sagen (und was sich seit 10k geändert hat)