Jeder zusätzliche Backtest-Lauf erhöht die Chance, zufällig gute Ergebnisse zu finden. Der Deflated Sharpe Ratio (DSR) korrigiert genau das: Er misst, ob dein Ergebnis echt ist — oder das beste Rauschen aus N Versuchen. Pro+ Feature.

Ein neues Pro+-Feature ist live: Deflated Sharpe Ratio (DSR).

Es löst ein Problem, über das kaum jemand spricht — aber das jeden trifft, der ernsthaft Backtests betreibt.

Das Problem: Multiple Testing

Stell dir vor, du wirfst eine Münze 10 Mal. Mit etwas Pech — oder Glück — kommt 8× Kopf. Niemand würde sagen, die Münze ist "bewiesen besser als Zufall". Du hast einfach zu wenige Würfe gemacht, und Zufall sieht gut aus.

Beim Backtesting ist es das gleiche Prinzip, nur subtiler:

Je mehr Parameterkombinationen oder Strategien du auf denselben Daten testest, desto wahrscheinlicher findest du eine, die zufällig gut aussieht.

Der klassische Sharpe Ratio ignoriert das. Er misst nur das Ergebnis des aktuellen Runs — nicht, wie viele Versuche du gebraucht hast, um dahin zu kommen.

Die Lösung: Probabilistic und Deflated Sharpe

Wir implementieren zwei Korrekturen aus dem Paper "The Deflated Sharpe Ratio" (Bailey & López de Prado, 2014, Journal of Portfolio Management):

PSR(0) — Probabilistic Sharpe Ratio:

P(wahrer Sharpe > 0)

Die Wahrscheinlichkeit, dass der gemessene Sharpe kein Zufallsprodukt ist. Berücksichtigt Schief- und Kurtosis der Renditen — weil Backtest-Renditen selten normalverteilt sind.

DSR — Deflated Sharpe Ratio:

PSR ausgewertet an der Zufalls-Schwelle SR̂₀

SR̂₀ ist der Sharpe, den man statistisch als bestes Ergebnis aus N zufälligen Versuchen (ohne echte Edge) erwarten würde. DSR misst: Übersteigt dein Ergebnis diese Schwelle — oder ist es nur das Rauschen?

Verdikt: pass (≥95 %) / borderline (90–95 %) / fail / single_trial (erster Lauf, noch keine Deflation möglich) / insufficient (zu wenige Trades für zuverlässige Statistik).

Was du im UI siehst

Nach jedem Backtest (Pro+, keine Referenzstrategien) erscheint ein neuer Block unterhalb des Arena Scores:

🛡️ Deflated Sharpe (DSR)

📊 Sharpe (annualisiert)   🎲 PSR(0)        🛡️ DSR
        1.34               72.1 %          64.8 %

🟡 Grenzwertig — schwache Evidenz nach 3 Versuchen (90–95 %).
N=3 Läufe für diese Strategie/Asset/Periode aus deiner Backtest-Historie.

Darunter ein ausklappbares Methodik-Fenster, das erklärt was PSR und DSR bedeuten.

Warum N läufe zählen

Jeder Backtest-Run mit derselben Strategie, demselben Asset, demselben Intervall und derselben Periode — aber anderen Parametern — zählt als ein weiterer Versuch N.

Getestet du Golden Cross mit 50/200, dann mit 50/150, dann mit 40/200 — das sind N=3. Mit jedem Run steigt die Deflations-Schwelle SR̂₀. Dein finales Ergebnis muss glaubwürdig besser sein als das Beste aus diesen 3 Zufallsversuchen.

Beim ersten Lauf (N=1) gibt es noch keine Deflation — der Block zeigt PSR(0) mit dem Verdikt single_trial.

Was sich ändert und was nicht

Der DSR ersetzt nicht den Arena Score — der bleibt der primäre Qualitäts-Score für Robustheit, CAGR-Überleistung und Handelsfrequenz.

DSR ist eine andere Frage: "Ist dieses Ergebnis statistisch unterscheidbar von Zufall?" Arena Score fragt: "Ist dieses Ergebnis praktisch brauchbar?"

Beide Fragen sind wichtig. Beide zusammen sind ehrlicher als jede einzelne Zahl allein.

Technisches

Berechnungen: computeReturnMoments() (biased 1/n-Estimatoren) · psr() · expectedMaxSharpe() · computeDsr() — alles in src/lib/stats/deflatedSharpe.ts
normCdf: Abramowitz & Stegun 26.2.17 (max error 7.5e-8)
normInv: Peter Acklam (2003)
Periodizität: Trade-Level-Returns (pnlPct / 100), annualisiert für Anzeige (√252 / √52 / √12)
sharpe_per_period wird jetzt für alle Runs (alle Asset-Klassen) in backtest_runs gespeichert

Wer über das Paper tiefer einsteigen will: Bailey & López de Prado, "The Deflated Sharpe Ratio: Correcting for Selection Bias, Backtest Overfitting and Non-Normality", Journal of Portfolio Management, 2014.

Backtesting Arena

Warum dein Sharpe Ratio lügt — und wie wir das korrigieren