¿Qué tamaño de muestra necesito para saber si mi sistema es válido? PARTE 2

Seguimos con lo de ayer.

Pero antes he de hacer dos salvedades.

Primera.

Estoy haciendo los cálculos a medida que voy escribiendo esto.

Quiero decir.

No tengo en este momento ni idea de lo que va a salir.

Y segunda:

Si ves que me equivoco en algo, me comentos y gustasamente lo modificaré. Ya te dije ayer que no era un experto. Y que sólo aplico conceptos que he tratado en otras disciplinas..

Bien.

Ayer nos quedamos en que " para saber si podemos construir un intervalo de confianza cierto, tendríamos que ver primero si las muestras pueden estar distorsionadas"

Para esto, la muestra debe de cumplir que sea:

Aleatoria
Ver si la distribución de proporciones se puede asimilar a una distribución normal
Regla de Independencia.

Aquí empiezan los primeros problemas.

PRIMERO: ¿Realmente cualquier muestra de trades es aleatoria?

Formalmente, necesitamos que los trades sean

independientes
idénticamente distribuidos

¿Qué significa aleatoriedad aquí?

No significa “que el mercado sea caótico”.

Significa que:

No seleccionamos operaciones a posteriori.
No eliminamos trades “incómodos”.
No filtramos periodos malos.
No optimizamos parámetros sobre la misma muestra

¿Cuál es el problema frecuente a la hora de analizar los rpoblemas de trading?

Muchas muestras están contaminadas por:

Overfitting: Sistema demasiado adaptado a condiciones de una determinada situación
Walk-forward mal construido: Esto es. Analizar los datos de un periodo concreto y que funcionen en un periódo posterior.
Selección retrospectiva de setups
Eliminación de días anómalos

Eso rompe la condición de muestra aleatoria.

En términos formales:

Si los datos han sido optimizados sobre sí mismos, entonces:

El estimador está sesgado.

Conclusión primera:

Una muestra de trades puede ser aleatoria, pero sólo si:

Las reglas estaban definidas ex ante.
No hubo selección posterior.
El periodo no fue elegido por conveniencia.

En la práctica, muchas muestras reales no cumplen esta condición.

SEGUNDO:¿Podemos asumir normalidad?

Aquí hay que distinguir dos cosas:

Normalidad de los resultados individuales
Normalidad de la media muestral

2.1 ¿Los trades individuales son normales?

En general, no.

Los retornos en trading suelen presentar:

Asimetría
Curtosis elevada (Se refiere a la "loma de la distribución")
Colas gruesas

La distribución típica se parece más a una mezcla de distribuciones que a una normal.

2.2 Entonces, ¿podemos usar intervalos normales?

Sí, si se cumple el Teorema Central del Límite.

Si:

La varianza es finita.
El tamaño muestral es suficientemente grande.

Entonces:

aunque la distribución original no sea normal.

¿Qué significa "suficientemente grande"?

No hay número mágico.

Si la distribución es aproximadamente simétrica → 30–50 puede bastar.
Si tiene colas gruesas → pueden necesitarse cientos.

En sistemas con colas extremas (ej. estrategias con pocas pérdidas enormes):

La convergencia puede ser muy lenta.
.

Conclusión segunda

No es necesario que los trades sean normales.

Es necesario que:

La varianza sea finita.
El tamaño muestral sea grande.
No haya dependencia fuerte entre observaciones.

TERCERO: Regla de Independencia

Responder a esto es un pronblema.

Depende del tipo de sistema.

Caso A: Sistema con señales independientes

Ejemplo:

Setup basado en patrón específico.
Una operación no influye en la siguiente.
No hay piramidación.
No hay gestión adaptativa.

Aquí la independencia es plausible.

Caso B: Sistema con memoria

Muchos sistemas reales presentan:

Rachas.
Cambios de volatilidad.
Adaptación dinámica del tamaño.
Re-entradas tras stop.

Por tanto aquí, voy a asumir el primer caso. Creo que es el mas común.

Conclusión técnica

Podemos construir intervalos de confianza válidos si:

El sistema fue definido antes de recolectar datos.
No hubo selección retrospectiva.
El tamaño muestral es suficiente (esto es lo que queremos ver)
Se verifica ausencia de autocorrelación significativa.
La varianza es finita.

Si no se cumplen estas condiciones, el intervalo puede existir matemáticamente…pero no tener validez inferencial.

De momento (ya veremos cuando introduzcamos la esperanza matemática) vamos a suponer que podemos considerar una muestra de trades no está distorsionada.

Mañana, seguimos

PD: Me estoy arrrepintiendo de este "embolao"