Mundial 2026 Predictor

Predictor del Mundial FIFA 2026 con XGBoost calibrado, sistema ELO propio y simulación Monte Carlo — web pública que fija los resultados reales del torneo y mide los aciertos del modelo en vivo.

Ver repositorio en GitHub

10.000 simulaciones Monte Carlo en el navegador — Argentina 16.9% campeón, Colombia top 8

52% accuracy en Qatar 2022 (test temporal sin leakage) vs 33% de un modelo aleatorio

Se actualiza sola durante el torneo: fija resultados reales y muestra el acierto del modelo

Resumen ejecutivo

Contexto de negocio

El Mundial 2026 (el primero con 48 selecciones) arranca con millones de personas preguntándose lo mismo: ¿quién va a ganar? Las predicciones serias existen (Opta, casas de apuestas) pero son cajas negras. El objetivo fue construir una alternativa abierta y verificable: un modelo entrenado solo con resultados históricos, con probabilidades calibradas, que rinde cuentas en público partido a partido durante el torneo.

Mi rol

Construí el proyecto completo end-to-end: limpieza de 49.378 partidos (1872–2026) con normalización de federaciones históricas (Zaire→DR Congo, Checoslovaquia→Chequia), sistema ELO cronológico propio, feature engineering (forma reciente, H2H, experiencia mundialista), XGBoost calibrado con validación temporal anti-leakage, simulador Monte Carlo con penales ponderados por historial real de tandas, y el frontend Next.js multilenguaje que fija los resultados reales vía openfootball y mide los aciertos del modelo en vivo.

Stakeholders

Comunidad de datos y fútbol LATAMReclutadores técnicosAficionados del Mundial 2026

Sistemas y fuentes

Kaggle: International football results 1872–2026 (49k partidos)openfootball/worldcup.json (fixture y resultados en vivo, sin API key)shootouts.csv (676 tandas de penales históricas)

Preguntas de negocio que responde

Qué probabilidad real tiene cada selección de ganar el Mundial, sin sesgos de ranking FIFA
Cómo cambian las probabilidades del torneo a medida que se juegan los partidos reales
Qué tan confiable es el modelo: acierto público partido a partido vs el resultado real

Tecnologías

Python XGBoost scikit-learn pandas Next.js React TypeScript Vercel pytest Monte Carlo

El proyecto

Un producto de machine learning completo de punta a punta: de 150 años de datos crudos a una web pública que se actualiza sola, publicada el día antes del arranque del Mundial 2026.

Después de 10.000 simulaciones Monte Carlo, el modelo dice: Argentina 16.9%, España 15.4%, Brasil 11.3% — y Colombia en el top 8 con 92% de probabilidad de superar la fase de grupos.

Qué lo hace diferente

ELO propio en vez de ranking FIFA: ratings calculados cronológicamente sobre 49.378 partidos internacionales desde 1872 — puro resultado deportivo, sin sesgos de puntos por confederación.
Validación honesta: split temporal con Qatar 2022 como test — partidos que el modelo nunca vio. 52% de accuracy vs 33% del azar, con calibración isotónica para que las probabilidades signifiquen lo que dicen.
Arqueología de datos: fusión de federaciones históricas (Zaire→DR Congo, Checoslovaquia→Chequia, URSS→Rusia) — 1.390 registros corregidos que cambiaron directamente las predicciones de los grupos de 2026.
Penales con memoria: los empates de eliminatorias se resuelven con el historial real de tandas de cada selección (Argentina gana el 65%; Inglaterra el 33%) en vez de una moneda al aire.
Rinde cuentas en público: durante el torneo la app fija los resultados reales, recalcula probabilidades condicionales y muestra el acierto del modelo partido a partido.

Capa técnica

Componente	Implementación
Pipeline de datos	Python, pandas — 49k partidos, reproducible con run_pipeline.py
Modelo	XGBoost multi:softprob + CalibratedClassifierCV (isotónica)
Validación	Split temporal (test = Qatar 2022), log-loss, Brier score
Simulación	Monte Carlo client-side en TypeScript sobre 1.128 pares precalculados
Frontend	Next.js 15, React 19, Tailwind, Recharts — ES/EN/PT
Datos en vivo	JSON de openfootball consumido client-side, sin API key
Calidad	35 tests pytest, tsc limpio, auto-deploy GitHub→Vercel

Por qué importa

Este proyecto muestra el espectro completo: ingeniería de datos (limpieza, normalización, pipelines), ML aplicado (calibración, validación sin leakage) e ingeniería de producto (una web rápida, multilenguaje, que se actualiza sola). El modelo es honesto sobre sus límites — el fútbol es hermosamente impredecible — y esa honestidad es el punto: la app mide su propia precisión en público.

The Project

A full end-to-end machine learning product: from 150 years of raw match data to a public, self-updating web app, shipped the day before the 2026 World Cup kicked off.

After 10,000 Monte Carlo simulations the model says: Argentina 16.9%, Spain 15.4%, Brazil 11.3% — and Colombia in the top 8 with a 92% chance of surviving the group stage.

What Makes It Different

Custom ELO over FIFA ranking: ratings computed chronologically over 49,378 international matches since 1872 — driven purely by results, free of confederation point biases.
Honest validation: temporal split with Qatar 2022 as the test set — matches the model never saw. 52% accuracy vs 33% random baseline, with isotonic calibration so the probabilities mean what they say.
Data archaeology: merged historical federations (Zaire→DR Congo, Czechoslovakia→Czechia, USSR→Russia) — 1,390 corrected records that directly changed predictions for 2026 groups.
Penalty shootouts with memory: knockout draws are resolved using each team's real historical shootout record (Argentina wins 65% of theirs; England 33%) instead of a coin flip.
Publicly accountable: during the tournament the app locks in real results, recomputes conditional probabilities, and displays the model's hit rate match by match.

Technical Layer

| Component | Implementation | |-----------|----------------| | Data pipeline | Python, pandas — 49k matches, reproducible via run_pipeline.py | | Model | XGBoost multi:softprob + CalibratedClassifierCV (isotonic) | | Validation | Temporal split (test = Qatar 2022), log-loss, Brier score | | Simulation | Monte Carlo client-side in TypeScript over 1,128 precomputed pairs | | Frontend | Next.js 15, React 19, Tailwind, Recharts — ES/EN/PT | | Live data | openfootball JSON fetched client-side, no API key | | Quality | 35 pytest tests, clean tsc, auto-deploy via GitHub→Vercel |

Why It Matters

This project shows the full spectrum: data engineering (cleaning, normalization, pipelines), applied ML (calibration, leakage-free validation), and product engineering (a fast, multilingual web app that updates itself). The model is honest about its limits — football is beautifully unpredictable — and that honesty is the point: the app measures its own accuracy in public.

¿Qué te pareció este proyecto?

Si tienes preguntas sobre cómo lo hice o quieres charlar sobre datos, escríbeme.

Hablemos Ver más proyectos