Sistema predictivo aplicado para el panel multiserie indexado por país o área de cargabilidad × categoría migratoria × tipo de tabla × mes. Pronósticos a horizontes de 1, 3, 6 y 12 meses con intervalos de predicción al 95 %, bajo metodología CRISP-DM y validación walk-forward expansiva — sin privilegiar arquitecturas de antemano.
El proyecto desarrollará un sistema predictivo aplicado para las fechas de prioridad del Visa Bulletin, organizado como panel multiserie indexado por país de cargabilidad, categoría migratoria y tipo de tabla, bajo la metodología CRISP-DM (Chapman et al. 2000). Se compararán empíricamente modelos lineales y no lineales sin privilegiar arquitecturas de antemano.
El boletín mensual del Departamento de Estado de EE. UU. publica fechas de prioridad por país de cargabilidad y categoría migratoria. Más de tres décadas de datos públicos (1992–2026) sin modelos predictivos abiertos y sistemáticamente evaluados que reporten intervalos de predicción al 95 %. Cerca de 4 millones de personas aguardan una visa familiar [6], dentro de un rezago global de USCIS de 11.5 millones de casos para todos los formularios [4].
Cada celda combina un país o área de cargabilidad p, una categoría migratoria c, un tipo de tabla b (FAD o DFF) y un mes calendario t. La variable predicha es continua: días desde una fecha base. El sistema se entrena exclusivamente sobre observaciones con fecha específica; las celdas Current y Unavailable se conservan como anotación descriptiva.
Tres familias complementarias: lineales (naïve estacional, ARIMA, SARIMA, Prophet), no lineales locales (LSTM puro, ARIMA-LSTM) y globales/tabulares (DeepAR, XGBoost). Validación walk-forward expansiva con métricas escaladas (sMAPE, MASE, MAE, RMSE) e intervalos de predicción al 95 % por tres mecanismos (ARIMA analítico, MC dropout, predicción conforme).
(1) Base de datos longitudinal reproducible del Visa Bulletin 1992–2026 publicada bajo licencia abierta; (2) sistema predictivo reproducible con código y manifiestos de versiones; (3) aplicación de demostración académica con advertencias explícitas sobre el carácter informativo y no legal de las estimaciones.
Antecedentes del régimen estatutario, definición operativa del problema, objetivos, justificación en triple eje contributivo, preguntas de investigación e hipótesis cualitativas verificables empíricamente.
La Immigration and Nationality Act (INA) de 1965 [10] establece el sistema actual de cuotas anuales por categoría con un límite estatutario del 7 % por país (per-country limit) que es el origen primario de la retrogresión severa observada en países de alta demanda como México, India, China y Filipinas [6].
El Departamento de Estado publica mensualmente el Visa Bulletin [7] con dos calendarios: Final Action Dates (FAD, desde 1992, ≈408 obs) que autoriza la adjudicación final, y Dates for Filing (DFF, desde noviembre de 2015, ≈125 obs) que autoriza el inicio anticipado del trámite de ajuste. Bier [60] documenta que las categorías basadas en empleo de países con límite efectivo, en particular India, han experimentado retrogresiones de varios años en periodos recientes.
Trabajos previos: Vegesana [11] aplica clasificadores discriminativos al pronóstico de aprobación; Jain et al. [12] proponen un híbrido ARIMA-LSTM para series con dinámica compleja; Carammia et al. [13] y Pu et al. [9] integran aprendizaje automático con datos a escala en flujos migratorios.
No se identificó, en la revisión preliminar, trabajo académico publicado que ofrezca un sistema predictivo abierto, reproducible y sistemáticamente evaluado sobre el panel multiserie del Visa Bulletin con intervalos de predicción al 95 %. Las plataformas comerciales existentes son cajas negras sin metodología, datos ni protocolo de evaluación publicados de forma auditable.
La consecuencia directa es que millones de solicitantes deben planificar decisiones de mediano y largo plazo (estabilidad familiar, profesional y financiera) sobre estimaciones opacas o con métodos de baja calidad. Las cifras del rezago se documentan en la Sección 1.1 [4], [6].
La necesidad es construir una base de datos longitudinal pública del Visa Bulletin 1992–2026 y un sistema predictivo evaluable que convierta más de tres décadas de datos en pronósticos auditables con intervalos de predicción al 95 %, llenando una brecha verificable de la literatura aplicada.
Desarrollar e implementar un sistema predictivo aplicado para las fechas de prioridad del Visa Bulletin, organizado como panel multiserie $y_{p,c,b,t}$ indexado por país de cargabilidad, categoría migratoria y tipo de tabla, con pronósticos mensuales a horizontes de 1, 3, 6 y 12 meses acompañados de intervalos de predicción al 95 %, bajo metodología CRISP-DM [64].
El proceso de obtención de la residencia permanente afecta a millones de personas en términos de estabilidad familiar, laboral y financiera. Cerca de 4 millones permanecen en el extranjero esperando una visa de base familiar [6], dentro del rezago global del USCIS de 11.5 millones de casos pendientes para todos los formularios [4]. El proyecto apoya la planificación de los solicitantes con intervalos de predicción al 95 % y mayor transparencia que las herramientas cerradas no auditables del mercado.
El sistema atiende limitaciones observables de las plataformas comerciales cerradas, particularmente la falta de transparencia sobre datos, metodología y protocolo de evaluación. La integración de un panel multiserie completo (multipaís × multicategoría × multitabla) bajo un marco comparativo riguroso constituye un aporte aplicado al pronóstico de fenómenos migratorios.
Coherente con el perfil profesionalizante del programa MIAAD, las preguntas se formulan como preguntas abiertas y las hipótesis como enunciados cualitativos blandos que se contrastarán empíricamente con los datos del piloto. El rigor estadístico formal (Diebold-Mariano + corrección de Holm a $\alpha = 0.05$) se documenta como decisión metodológica del Capítulo IV, no como umbral pre-comprometido en el cuerpo.
¿Con qué precisión y con qué calibración de los intervalos de predicción al 95 % puede pronosticarse el comportamiento futuro del panel multiserie del Visa Bulletin bajo un marco comparativo CRISP-DM, sobre la cobertura de series evaluables y respetando la heterogeneidad estructural entre celdas país–categoría–tabla?
El mejor modelo no lineal de la familia evaluada {LSTM, ARIMA-LSTM, DeepAR, XGBoost} reducirá las métricas centrales (sMAPE, MASE) respecto al modelo lineal más fuerte (ARIMA o Prophet, según el estrato) en una proporción material de las series piloto evaluables. La identidad del modelo ganador es una pregunta empírica que el experimento responderá con datos.
La dificultad predictiva —medida como MASE bajo el ganador empírico— presentará asociación con la longitud efectiva de la serie y con la frecuencia de discontinuidades (retrogresiones, transiciones C/U). Los intervalos de predicción al 95 % alcanzarán cobertura empírica cercana a la nominal en el agregado, pero podrán desviarse en estratos con régimen administrativo inestable.
Estas hipótesis se interpretan en términos de asociaciones predictivas verificables empíricamente con los datos del proyecto, no como afirmaciones causales sobre la dinámica administrativa del Departamento de Estado. La interpretación causal queda explícitamente fuera del alcance.
Ocho subsecciones de marco teórico (§2.1.1–§2.1.8) cubren desde el sistema de inmigración estadounidense hasta la heterogeneidad del pronóstico multiserie, más cinco subsecciones de marco tecnológico (§2.2.1–§2.2.5). Cada subsección teórica cierra con un párrafo Implicación para este proyecto que conecta el contenido con decisiones de diseño concretas.
INA 1965 [10], cuotas anuales, per-country limit del 7 %, calendarios Final Action Dates (FAD) y Dates for Filing (DFF) [7]. Convención: F1–F4 = {F1, F2A, F2B, F3, F4} (cinco series por país de cargabilidad), no rango excluyente.
Descomposición clásica $Y_t = T_t + S_t + C_t + \varepsilon_t$. Box & Jenkins [24], [29]; Hamilton [25]; Hyndman & Athanasopoulos [26]. Pruebas de estacionariedad ADF [27] y KPSS [28] (con hipótesis nulas opuestas), criterios AIC [30] y BIC [31]. ARIMA, SARIMA y Prophet [32] como modelos lineales de referencia.
Backpropagation [36], MLP, regularización (weight decay, dropout [39], dropout recurrente [40], batch normalization [41]) y early stopping. ReLU [37] y optimizador Adam [38] como estándares. Componentes empleados en los modelos no lineales del marco comparativo.
Elman [42], Bengio et al. [37]: el problema del gradiente desvaneciente. Hochreiter & Schmidhuber [43] introducen LSTM con celdas de memoria y compuertas. Variantes BiLSTM [44], [45] y GRU [47]. La LSTM constituye el componente no lineal del híbrido ARIMA-LSTM.
Zhang [19] formaliza la hibridación lineal+no-lineal; ARIMA-LSTM en epidemiología [12], [21], economía [51], energía [52] y comercio [20]. La M4 Competition [50] y ES-RNN [49] muestran que las combinaciones dominan. DeepAR [22] global y XGBoost [56] tabular completan la familia comparada; TFT [54], N-BEATS [53] y PatchTST [55] sólo como referencia.
Vegesana [11] aplica clasificadores discriminativos al pronóstico de aprobación; Carammia et al. [13] forecast de flujos de asilo con aprendizaje automático y datos a escala; Pu et al. [9] revisan métodos y fuentes; Hoffmann Pham & Luengo-Oroz [57] sobre modelado predictivo de movimientos de refugiados.
Hyndman & Koehler [16]: MASE como métrica universal escalada por el naïve estacional. Walk-forward de Tashman [58] y Bergmeir & Benítez [17]. Diebold-Mariano [18] con corrección de Holm para la familia pre-registrada. Intervalos de predicción al 95 % por tres mecanismos: ARIMA analítico, MC dropout [40] y predicción conforme [59].
Modelos locales (entrenados por celda), globales (DeepAR [22] sobre el panel) y tabulares (XGBoost [56]). La elección entre regímenes es una pregunta empírica que el proyecto responde con datos, dado el régimen de datos pequeño por serie ($\sim$400 obs FAD, $\sim$125 obs DFF).
Lenguaje y librerías: Python 3.x con pandas, numpy, statsmodels, scikit-learn [62], XGBoost [56], PyTorch [63], Prophet [32]. Visualización: matplotlib, seaborn. Versionado: Git/GitHub bajo licencia abierta. Documentación: LaTeX/Overleaf. Reproducibilidad: manifiestos de versiones (requirements.txt), semillas registradas, MLflow para bitácora de hiperparámetros.
Descripción del producto, gobernanza del alcance y forma de validación. El capítulo responde estrictamente a «¿qué se entrega?» y «¿cómo se valida?»; las decisiones operativas (parámetros, hiperparámetros, esquema de pruebas) se documentan en el Capítulo IV.
Marco comparativo sin privilegiar arquitecturas de antemano, instrumentado bajo CRISP-DM [64]. Tres familias complementarias: (a) modelos lineales (naïve estacional, ARIMA, SARIMA, Prophet), (b) modelos no lineales locales (LSTM, ARIMA-LSTM), (c) modelos globales y tabulares (DeepAR, XGBoost). La identidad del modelo con mejor desempeño es una pregunta empírica del estudio.
La cobertura del sistema se organiza en tres niveles explícitos:
Sea $y_{p,c,b,t}$ la fecha de prioridad transformada a días desde una fecha base, para la celda (país $p$, categoría $c$, tabla $b$) en el mes $t$. La variable es continua y constituye el objetivo de un regresor temporal único. El sistema se entrena exclusivamente sobre observaciones con estado $e=F$ (fecha específica); las observaciones Current y Unavailable se preservan en la base de datos como anotación descriptiva pero no son objetivo predictivo. Las retrogresiones dentro del régimen $F$ se conservan como observaciones legítimas (fenómeno objetivo del sistema migratorio).
Las métricas de regresión se calculan exclusivamente sobre observaciones con fecha específica. Esto evita contaminar la evaluación con observaciones categóricas (Current/Unavailable) que están fuera del objetivo predictivo del sistema. La caracterización descriptiva de los regímenes C/U/F vive en el reporte de exploración (Cap. IV, Fase 2), no en las métricas operativas.
El alcance se acota mediante un conjunto explícito de delimitaciones (decisiones soberanas del investigador), mientras que las restricciones impuestas por factores externos se reconocen como limitaciones.
(i) Base longitudinal reproducible CSV bajo licencia abierta; (ii) protocolo de series evaluables (Tabla 2); (iii) implementación de la familia completa (Tabla 3) bajo regresor temporal único entrenado con observaciones $e=F$ sobre la cobertura piloto; (iv) walk-forward con métricas de regresión y calibración de los intervalos de predicción al 95 %.
Aplicación de demostración académica ejecutable desde el repositorio, con disclaimer versionado. No compromiso de despliegue público continuo; el dominio visapredictai.com es proyecto personal del autor, no entregable evaluado (Apéndice A.4).
El Capítulo III describe qué se valida y con qué nivel se reporta éxito. Las decisiones operativas (parámetros del walk-forward, esquema de pruebas confirmatorias, control familiar de error) se documentan en el Capítulo IV.
Validación temporal con conjunto de entrenamiento que avanza un mes a la vez, respetando la causalidad. Reporte por horizonte ($h = 1, 3, 6, 12$ meses).
sMAPE, MASE, MAE y RMSE definidas formalmente en §2.1.7. MAPE sólo como complemento. Calibración: cobertura empírica de los intervalos de predicción al 95 % vs. nominal.
Comparación formal entre el mejor modelo no lineal y el lineal más fuerte sobre la familia pre-registrada de celdas piloto (instrumentación específica en Cap. IV §4.4).
Tres mecanismos complementarios: ARIMA analítico bajo supuestos gaussianos, MC dropout [40] para redes neuronales y predicción conforme [59] como referencia agnóstica al modelo.
Estudios de caso en celdas críticas y validación retrospectiva acotada sobre boletines posteriores al cierre del entrenamiento; lectura legible para usuarios finales con disclaimer.
Validez interna (data leakage), externa (generalización), de constructo (proxies de la dificultad) y estadística (tamaño muestral, potencia preliminar).
Construcción reproducible del dataset, ejecución completa del walk-forward sobre la cobertura piloto, reporte de métricas escaladas e intervalos de predicción al 95 %. No requiere que ningún modelo no lineal supere a los lineales: el reporte de un resultado nulo también satisface el nivel mínimo.
El mejor modelo no lineal de la familia {LSTM, ARIMA-LSTM, DeepAR, XGBoost} mejora a los lineales más fuertes en una proporción material de las series piloto, con magnitud verificable en sMAPE/MASE. La instrumentación estadística específica vive en el Cap. IV §4.4.
Los intervalos de predicción al 95 % alcanzan cobertura empírica cercana a la nominal en el agregado. Bitácora retrospectiva sobre al menos 6 ciclos mensuales del boletín posteriores al cierre del entrenamiento. Aplicación de demostración funcional con disclaimer.
El proyecto se instrumenta bajo CRISP-DM (Cross-Industry Standard Process for Data Mining) [64], metodología establecida desde 2000 que se ha convertido en estándar de facto para proyectos de minería de datos y aprendizaje automático aplicado. Sus seis fases canónicas se mapean a las cinco fases operativas del proyecto.
Atendida en los Capítulos I y II del anteproyecto. Define el problema, los actores afectados (millones de solicitantes), las cifras del rezago, el régimen estatutario INA 1965, la estructura del Visa Bulletin y las decisiones metodológicas de alto nivel.
Caracterización del comportamiento histórico por serie evaluable: descomposición STL, pruebas ADF [27] y KPSS [28], identificación cuantitativa de retrogresiones y periodos C/U, aplicación de los criterios de exclusión de la Tabla 2.
Construcción del panel multiserie $y_{p,c,b,t}$ y entrenamiento de los 8 modelos de la Tabla 3: lineales (naïve, ARIMA, SARIMA, Prophet), no lineales locales (LSTM, ARIMA-LSTM) y globales/tabulares (DeepAR, XGBoost). Selección de hiperparámetros sin data leakage; generación de intervalos de predicción al 95 % por tres mecanismos.
Walk-forward expansivo con métricas escaladas (sMAPE, MASE, MAE, RMSE) por horizonte y agregadas. Cálculo de cobertura empírica de los intervalos al 95 %. Comparación estadística formal con Diebold-Mariano [18] sobre la familia pre-registrada de comparaciones, con corrección de Holm a $\alpha = 0.05$ familiar. Diagnóstico de overfitting y leakage, amenazas a la validez.
Publicación del dataset bajo licencia abierta, congelación del repositorio (R1–R7), aplicación de demostración académica con advertencias de uso (disclaimer del Apéndice A.5) y reporte final integral. No hay compromiso de servicio público permanente: el sistema es académico, evaluado y reproducible, no operativo.
Las cinco fases se distribuyen sobre 10 meses con granularidad semanal (40 semanas activas + receso académico de diciembre 2026), alineadas con los periodos PI-I (ago–nov 2026) y PI-II (ene–may 2027) del programa MIAAD. Hitos verificables en cada cierre de fase, con revisión del documento entregable y valoración del director de tesis.
Cobertura propuesta, criterios de exclusión metodológica, baselines comparados y matriz país×categoría×tabla con tres niveles de cobertura (estructural / evaluable / piloto).
| Dimensión | Valores admitidos | Notas operativas |
|---|---|---|
| País / cargabilidad | México, India, China, Filipinas, All Chargeability Areas Except Those Listed | La última no es un país sino agrupación administrativa con composición variable. |
| Categorías familiares | F1, F2A, F2B, F3, F4 | Convención F1–F4 = conjunto completo {F1, F2A, F2B, F3, F4}. |
| Categorías de empleo | EB-1, EB-2, EB-3, EB-4, EB-5 (+ subcategorías) | Esquemática; incluye Other Workers, Certain Religious Workers, set-asides. |
| Tipo de tabla | Final Action Dates (FAD), Dates for Filing (DFF) | Evaluadas separadamente, sin comparación cruzada directa. |
| Códigos especiales | Current (C) y Unavailable (U) | Conservados como anotación descriptiva en la base de datos; no participan del entrenamiento del regresor (§3.1.5). |
Estructura del panel multiserie $y_{p,c,b,t}$. Fuente: elaboración propia.
| Criterio | Descripción operativa |
|---|---|
| Longitud insuficiente | Menos de 60 observaciones mensuales tras filtrado de datos faltantes; impide construir partición walk-forward viable. |
| Variabilidad nula | Serie con valor constante (ej. Current permanente) en el periodo evaluado; no aporta información predictiva. |
| Datos faltantes no recuperables | Tres o más meses consecutivos no publicados sin recuperación posible mediante archivos del DOS. |
| Cambios normativos no armonizables | Modificaciones administrativas que alteran la definición de la categoría (ej. redefinición de subcategorías EB). |
| Ausencia de fecha específica | La combinación nunca publicó una fecha específica; sólo Current o Unavailable. Sin objetivo numérico para entrenar el regresor. |
| Composición variable | Aplicable a All Chargeability Areas Except Those Listed: composición de países cambia a lo largo del periodo (no-estacionariedad de composición). Se acompañará de advertencia explícita en cualquier inferencia. |
Series excluidas se reportan descriptivamente pero no entran al pipeline cuantitativo. Fuente: elaboración propia.
| Modelo | Tipo | sMAPE obj. | MASE obj. | Función en el marco comparativo |
|---|---|---|---|---|
| Naïve estacional | Línea base ingenua | — | 1.00 | Referencia mínima. |
| ARIMA | Lineal univariado [24], [29] | < 25 % | < 0.97 | Modelo lineal sin estacionalidad. |
| SARIMA | Lineal estacional | < 22 % | < 0.94 | Captura ciclos anuales del año fiscal. |
| Prophet | Aditivo con changepoints [32] | < 20 % | < 0.92 | Modela retrogresiones como cambios de régimen. |
| LSTM puro | Profundo univariado [43] | < 20 % | < 0.90 | Capacidad no lineal sin componente lineal. |
| ARIMA-LSTM | Híbrido local [12], [19] | < 17 % | < 0.88 | Referencia híbrida lineal + no lineal por serie. |
| DeepAR | Profundo global multiserie [22] | < 17 % | < 0.88 | Aprende transferencia entre series del panel. |
| XGBoost + regresores | Tabular con exógenas [56] | < 18 % | < 0.90 | Alternativa con features de calendario. |
Ningún modelo se privilegia de antemano como «central»: el marco comparativo determinará empíricamente cuál(es) lidera(n) en cada estrato. Umbrales objetivo orientativos. Fuente: elaboración propia.
| País / Categoría | F1 | F2A | F2B | F3 | F4 | EB-1 | EB-2 | EB-3 | EB-4 | EB-5 |
|---|---|---|---|---|---|---|---|---|---|---|
| México 🇲🇽 | ★ | ★ | ★ | ★ | ★ | ● | ● | ● | ○ | ○ |
| India 🇮🇳 | ★ | ★ | ★ | ★ | ★ | ● | ● | ● | ○ | ○ |
| China 🇨🇳 | ★ | ★ | ★ | ★ | ★ | ● | ● | ● | ○ | ● |
| Filipinas 🇵🇭 | ★ | ★ | ★ | ★ | ★ | ● | ● | ● | ○ | ○ |
| All Charg. * | ● | ● | ● | ● | ● | ● | ● | ● | ○ | ○ |
FAD evaluado desde 1992 (≈408 obs); DFF desde noviembre 2015 (≈125 obs). Cada celda piloto se reporta agregada y desagregada. Fuente: elaboración propia.
Conforme al compromiso enunciado en la Sección 3.2, el repositorio público incluye los siguientes siete componentes verificables por terceros. La obtención del DOI académico es condicional, no compromiso del entregable mínimo.
Si el autor decide solicitarlo, archivado en Zenodo o equivalente, con identificador único persistente vinculado al commit hash congelado en la fecha de defensa. La publicación bajo licencia abierta (MIT o equivalente) sí es compromiso firme.
requirements.txt con versiones fijadas (==), complementado opcionalmente con environment.yml para Conda.
Cada experimento documenta la(s) semilla(s) usada(s) para NumPy, PyTorch y Scikit-learn al inicio de cada notebook o script.
Memoria, modelo de CPU, presencia/ausencia de GPU, sistema operativo y arquitectura (Apple Silicon, x86_64) en REPRODUCIBILITY.md.
Tiempos por etapa del pipeline (ingesta, features, entrenamiento, walk-forward, evaluación) reportados como información orientativa.
Checksums SHA-256 publicados para datos crudos (data/raw/) y procesados (data/processed/); verificación bit a bit.
Registro completo de configuraciones exploradas y configuraciones finalmente seleccionadas por modelo y por estrato (MLflow o equivalente).
src/ · data/raw/ · data/processed/ · notebooks/ · models/ · tests/ · docs/ · README.md con instrucciones paso a paso para reproducir cada figura y tabla del manuscrito desde cero, junto con REPRODUCIBILITY.md que consolida R1–R7 y docs/disclaimer_academico.txt que se inyecta automáticamente en toda salida del demostrador académico.
Cuarenta y dos términos del dominio migratorio y del aprendizaje estadístico utilizados a lo largo del anteproyecto. Use el buscador para filtrar por término o por palabra clave dentro de la definición.
Sesenta y cuatro referencias IEEE en orden monotónico estricto de primera aparición. Filtre por bloque temático para navegar las fuentes del problema migratorio, los modelos lineales y profundos, los híbridos y arquitecturas modernas, las métricas y validación temporal, los recursos aplicados o la metodología CRISP-DM.
Tesista y director de tesis del proyecto MIAAD, Universidad Autónoma de Ciudad Juárez. El curso anfitrión "Anteproyecto de Innovación Tecnológica" es coordinado por el Dr. Gilberto Rivera Zárate.
Anteproyecto de Innovación Tecnológica · Maestría en Inteligencia Artificial y Analítica de Datos · UACJ · Periodo enero–mayo 2026 · Coordinación: Dr. Gilberto Rivera Zárate.
Para consultas académicas sobre el anteproyecto, colaboración, intercambio bibliográfico o solicitud del repositorio del demostrador local cuando esté disponible.