Ein neues Pro+-Feature ist live: Deflated Sharpe Ratio (DSR).
Es löst ein Problem, über das kaum jemand spricht — aber das jeden trifft, der ernsthaft Backtests betreibt.
Das Problem: Multiple Testing
Stell dir vor, du wirfst eine Münze 10 Mal. Mit etwas Pech — oder Glück — kommt 8× Kopf. Niemand würde sagen, die Münze ist "bewiesen besser als Zufall". Du hast einfach zu wenige Würfe gemacht, und Zufall sieht gut aus.
Beim Backtesting ist es das gleiche Prinzip, nur subtiler:
Je mehr Parameterkombinationen oder Strategien du auf denselben Daten testest, desto wahrscheinlicher findest du eine, die zufällig gut aussieht.
Der klassische Sharpe Ratio ignoriert das. Er misst nur das Ergebnis des aktuellen Runs — nicht, wie viele Versuche du gebraucht hast, um dahin zu kommen.
Die Lösung: Probabilistic und Deflated Sharpe
Wir implementieren zwei Korrekturen aus dem Paper "The Deflated Sharpe Ratio" (Bailey & López de Prado, 2014, Journal of Portfolio Management):
PSR(0) — Probabilistic Sharpe Ratio:
P(wahrer Sharpe > 0)
Die Wahrscheinlichkeit, dass der gemessene Sharpe kein Zufallsprodukt ist. Berücksichtigt Schief- und Kurtosis der Renditen — weil Backtest-Renditen selten normalverteilt sind.
DSR — Deflated Sharpe Ratio:
PSR ausgewertet an der Zufalls-Schwelle SR̂₀
SR̂₀ ist der Sharpe, den man statistisch als bestes Ergebnis aus N zufälligen Versuchen (ohne echte Edge) erwarten würde. DSR misst: Übersteigt dein Ergebnis diese Schwelle — oder ist es nur das Rauschen?
Verdikt: pass (≥95 %) / borderline (90–95 %) / fail / single_trial (erster Lauf, noch keine Deflation möglich) / insufficient (zu wenige Trades für zuverlässige Statistik).
Was du im UI siehst
Nach jedem Backtest (Pro+, keine Referenzstrategien) erscheint ein neuer Block unterhalb des Arena Scores:
🛡️ Deflated Sharpe (DSR)
📊 Sharpe (annualisiert) 🎲 PSR(0) 🛡️ DSR
1.34 72.1 % 64.8 %
🟡 Grenzwertig — schwache Evidenz nach 3 Versuchen (90–95 %).
N=3 Läufe für diese Strategie/Asset/Periode aus deiner Backtest-Historie.
Darunter ein ausklappbares Methodik-Fenster, das erklärt was PSR und DSR bedeuten.
Warum N läufe zählen
Jeder Backtest-Run mit derselben Strategie, demselben Asset, demselben Intervall und derselben Periode — aber anderen Parametern — zählt als ein weiterer Versuch N.
Getestet du Golden Cross mit 50/200, dann mit 50/150, dann mit 40/200 — das sind N=3. Mit jedem Run steigt die Deflations-Schwelle SR̂₀. Dein finales Ergebnis muss glaubwürdig besser sein als das Beste aus diesen 3 Zufallsversuchen.
Beim ersten Lauf (N=1) gibt es noch keine Deflation — der Block zeigt PSR(0) mit dem Verdikt single_trial.
Was sich ändert und was nicht
Der DSR ersetzt nicht den Arena Score — der bleibt der primäre Qualitäts-Score für Robustheit, CAGR-Überleistung und Handelsfrequenz.
DSR ist eine andere Frage: "Ist dieses Ergebnis statistisch unterscheidbar von Zufall?" Arena Score fragt: "Ist dieses Ergebnis praktisch brauchbar?"
Beide Fragen sind wichtig. Beide zusammen sind ehrlicher als jede einzelne Zahl allein.
Technisches
- Berechnungen:
computeReturnMoments()(biased 1/n-Estimatoren) ·psr()·expectedMaxSharpe()·computeDsr()— alles insrc/lib/stats/deflatedSharpe.ts normCdf: Abramowitz & Stegun 26.2.17 (max error 7.5e-8)normInv: Peter Acklam (2003)- Periodizität: Trade-Level-Returns (
pnlPct / 100), annualisiert für Anzeige (√252 / √52 / √12) sharpe_per_periodwird jetzt für alle Runs (alle Asset-Klassen) inbacktest_runsgespeichert
Wer über das Paper tiefer einsteigen will: Bailey & López de Prado, "The Deflated Sharpe Ratio: Correcting for Selection Bias, Backtest Overfitting and Non-Normality", Journal of Portfolio Management, 2014.