Aviso académico: este sitio es proyecto personal del autor con fines descriptivos del trabajo. No es el entregable académico evaluado de la tesis MIAAD — el demostrador oficial se entrega como aplicación ejecutable desde el repositorio público bajo licencia abierta (Apéndice A.2 del anteproyecto).
★ Anteproyecto MIAAD · UACJ · Mayo 2026 · v5.13

Predicción de fechas de prioridad en el Visa Bulletin de los Estados Unidos

Sistema predictivo aplicado para el panel multiserie indexado por país o área de cargabilidad × categoría migratoria × tipo de tabla × mes. Pronósticos a horizontes de 1, 3, 6 y 12 meses con intervalos de predicción al 95 %, bajo metodología CRISP-DM y validación walk-forward expansiva — sin privilegiar arquitecturas de antemano.

panel.multiserie · yp,c,b,t
Demo
200d 150d 100d 50d 2018 2022 2026 F4-MX F2A-IN EB-3 RoW PI 95%
8
Modelos comparados
5
Países/áreas piloto
≈400
Obs FAD por serie
64
Referencias IEEE
8
Subsecciones · Marco teórico
2
Hipótesis cualitativas
7
Componentes de reproducibilidad
CRISP-DM
Metodología nominada

Visión sintética del proyecto

El proyecto desarrollará un sistema predictivo aplicado para las fechas de prioridad del Visa Bulletin, organizado como panel multiserie indexado por país de cargabilidad, categoría migratoria y tipo de tabla, bajo la metodología CRISP-DM (Chapman et al. 2000). Se compararán empíricamente modelos lineales y no lineales sin privilegiar arquitecturas de antemano.

Problema

Pronóstico transparente del Visa Bulletin

El boletín mensual del Departamento de Estado de EE. UU. publica fechas de prioridad por país de cargabilidad y categoría migratoria. Más de tres décadas de datos públicos (1992–2026) sin modelos predictivos abiertos y sistemáticamente evaluados que reporten intervalos de predicción al 95 %. Cerca de 4 millones de personas aguardan una visa familiar [6], dentro de un rezago global de USCIS de 11.5 millones de casos para todos los formularios [4].

Unidad de análisis

Panel multiserie yp,c,b,t

Cada celda combina un país o área de cargabilidad p, una categoría migratoria c, un tipo de tabla b (FAD o DFF) y un mes calendario t. La variable predicha es continua: días desde una fecha base. El sistema se entrena exclusivamente sobre observaciones con fecha específica; las celdas Current y Unavailable se conservan como anotación descriptiva.

Estrategia

Marco comparativo bajo CRISP-DM

Tres familias complementarias: lineales (naïve estacional, ARIMA, SARIMA, Prophet), no lineales locales (LSTM puro, ARIMA-LSTM) y globales/tabulares (DeepAR, XGBoost). Validación walk-forward expansiva con métricas escaladas (sMAPE, MASE, MAE, RMSE) e intervalos de predicción al 95 % por tres mecanismos (ARIMA analítico, MC dropout, predicción conforme).

Entregables tangibles

Dataset, sistema y aplicación

(1) Base de datos longitudinal reproducible del Visa Bulletin 1992–2026 publicada bajo licencia abierta; (2) sistema predictivo reproducible con código y manifiestos de versiones; (3) aplicación de demostración académica con advertencias explícitas sobre el carácter informativo y no legal de las estimaciones.

Introducción

Antecedentes del régimen estatutario, definición operativa del problema, objetivos, justificación en triple eje contributivo, preguntas de investigación e hipótesis cualitativas verificables empíricamente.

1.1 Antecedentes

La Immigration and Nationality Act (INA) de 1965 [10] establece el sistema actual de cuotas anuales por categoría con un límite estatutario del 7 % por país (per-country limit) que es el origen primario de la retrogresión severa observada en países de alta demanda como México, India, China y Filipinas [6].

El Departamento de Estado publica mensualmente el Visa Bulletin [7] con dos calendarios: Final Action Dates (FAD, desde 1992, ≈408 obs) que autoriza la adjudicación final, y Dates for Filing (DFF, desde noviembre de 2015, ≈125 obs) que autoriza el inicio anticipado del trámite de ajuste. Bier [60] documenta que las categorías basadas en empleo de países con límite efectivo, en particular India, han experimentado retrogresiones de varios años en periodos recientes.

Trabajos previos: Vegesana [11] aplica clasificadores discriminativos al pronóstico de aprobación; Jain et al. [12] proponen un híbrido ARIMA-LSTM para series con dinámica compleja; Carammia et al. [13] y Pu et al. [9] integran aprendizaje automático con datos a escala en flujos migratorios.

1.2 Definición del problema

No se identificó, en la revisión preliminar, trabajo académico publicado que ofrezca un sistema predictivo abierto, reproducible y sistemáticamente evaluado sobre el panel multiserie del Visa Bulletin con intervalos de predicción al 95 %. Las plataformas comerciales existentes son cajas negras sin metodología, datos ni protocolo de evaluación publicados de forma auditable.

La consecuencia directa es que millones de solicitantes deben planificar decisiones de mediano y largo plazo (estabilidad familiar, profesional y financiera) sobre estimaciones opacas o con métodos de baja calidad. Las cifras del rezago se documentan en la Sección 1.1 [4], [6].

La necesidad es construir una base de datos longitudinal pública del Visa Bulletin 1992–2026 y un sistema predictivo evaluable que convierta más de tres décadas de datos en pronósticos auditables con intervalos de predicción al 95 %, llenando una brecha verificable de la literatura aplicada.

1.3 Objetivos

Objetivo general

Desarrollar e implementar un sistema predictivo aplicado para las fechas de prioridad del Visa Bulletin, organizado como panel multiserie $y_{p,c,b,t}$ indexado por país de cargabilidad, categoría migratoria y tipo de tabla, con pronósticos mensuales a horizontes de 1, 3, 6 y 12 meses acompañados de intervalos de predicción al 95 %, bajo metodología CRISP-DM [64].

Objetivos específicos

  1. Construir la base de datos longitudinal del Visa Bulletin 1992–2026 estructurada por país × categoría × tabla × mes, publicada bajo licencia abierta.
  2. Caracterizar empíricamente el comportamiento histórico de las fechas de prioridad y sus regímenes administrativos por país o área de cargabilidad.
  3. Diseñar e implementar la familia completa de modelos enumerada en la Tabla 3, sin privilegiar de antemano ninguna arquitectura.
  4. Evaluar el desempeño predictivo mediante validación temporal walk-forward expansiva con métricas escaladas (sMAPE, MASE, MAE, RMSE) e intervalos de predicción al 95 %, reportando resultados agregados y desagregados por país, categoría y tipo de tabla.
  5. Entregar una aplicación de demostración académica que permita consultar series históricas, pronósticos e intervalos de predicción al 95 % con advertencias explícitas sobre el carácter informativo y no legal de las estimaciones.

1.4 Justificación

Contribución social

El proceso de obtención de la residencia permanente afecta a millones de personas en términos de estabilidad familiar, laboral y financiera. Cerca de 4 millones permanecen en el extranjero esperando una visa de base familiar [6], dentro del rezago global del USCIS de 11.5 millones de casos pendientes para todos los formularios [4]. El proyecto apoya la planificación de los solicitantes con intervalos de predicción al 95 % y mayor transparencia que las herramientas cerradas no auditables del mercado.

Contribución técnica

El sistema atiende limitaciones observables de las plataformas comerciales cerradas, particularmente la falta de transparencia sobre datos, metodología y protocolo de evaluación. La integración de un panel multiserie completo (multipaís × multicategoría × multitabla) bajo un marco comparativo riguroso constituye un aporte aplicado al pronóstico de fenómenos migratorios.

Contribución académica

  • Base de datos abierta 1992–2026 con licencia permisiva, criterios de evaluabilidad pre-registrados y reproducibilidad verificable (R1–R7, Apéndice A.3).
  • Marco comparativo nominado bajo CRISP-DM con familia de modelos lineales y no lineales evaluados sin privilegiar arquitecturas de antemano.
  • Cuantificación de incertidumbre con tres mecanismos para los intervalos de predicción al 95 %: ARIMA analítico, MC dropout [40] y predicción conforme [59].

1.5 Preguntas e hipótesis

Coherente con el perfil profesionalizante del programa MIAAD, las preguntas se formulan como preguntas abiertas y las hipótesis como enunciados cualitativos blandos que se contrastarán empíricamente con los datos del piloto. El rigor estadístico formal (Diebold-Mariano + corrección de Holm a $\alpha = 0.05$) se documenta como decisión metodológica del Capítulo IV, no como umbral pre-comprometido en el cuerpo.

Pregunta general

¿Con qué precisión y con qué calibración de los intervalos de predicción al 95 % puede pronosticarse el comportamiento futuro del panel multiserie del Visa Bulletin bajo un marco comparativo CRISP-DM, sobre la cobertura de series evaluables y respetando la heterogeneidad estructural entre celdas país–categoría–tabla?

Preguntas específicas

  1. Patrones. ¿Qué patrones de avance, estancamiento y retrogresión presentan las series por país de cargabilidad y categoría migratoria, y qué proporción de cada serie es evaluable bajo los criterios pre-registrados?
  2. Desempeño predictivo. ¿Qué modelo de los implementados —lineales (ARIMA, SARIMA, Prophet) o no lineales (LSTM, ARIMA-LSTM, DeepAR, XGBoost)— ofrece el mejor desempeño predictivo en sMAPE y MASE sobre el conjunto piloto evaluable, y con qué consistencia entre estratos?
  3. Características de las series. ¿Qué características estructurales (longitud efectiva, frecuencia de retrogresiones, frecuencia de estados Current/Unavailable) explican la dificultad predictiva por celda?
  4. Cobertura. ¿Qué cobertura empírica alcanzan los intervalos de predicción al 95 % frente a su nominal, en agregado y por estrato?

Hipótesis

H1 · Desempeño predictivo · cualitativa

El mejor modelo no lineal mejorará al lineal más fuerte en proporción material de las series piloto.

El mejor modelo no lineal de la familia evaluada {LSTM, ARIMA-LSTM, DeepAR, XGBoost} reducirá las métricas centrales (sMAPE, MASE) respecto al modelo lineal más fuerte (ARIMA o Prophet, según el estrato) en una proporción material de las series piloto evaluables. La identidad del modelo ganador es una pregunta empírica que el experimento responderá con datos.

H2 · Heterogeneidad y calibración · cualitativa

La dificultad predictiva varía por estrato y los intervalos pueden desviarse en regímenes inestables.

La dificultad predictiva —medida como MASE bajo el ganador empírico— presentará asociación con la longitud efectiva de la serie y con la frecuencia de discontinuidades (retrogresiones, transiciones C/U). Los intervalos de predicción al 95 % alcanzarán cobertura empírica cercana a la nominal en el agregado, pero podrán desviarse en estratos con régimen administrativo inestable.

Estas hipótesis se interpretan en términos de asociaciones predictivas verificables empíricamente con los datos del proyecto, no como afirmaciones causales sobre la dinámica administrativa del Departamento de Estado. La interpretación causal queda explícitamente fuera del alcance.

Marco teórico y tecnológico

Ocho subsecciones de marco teórico (§2.1.1–§2.1.8) cubren desde el sistema de inmigración estadounidense hasta la heterogeneidad del pronóstico multiserie, más cinco subsecciones de marco tecnológico (§2.2.1–§2.2.5). Cada subsección teórica cierra con un párrafo Implicación para este proyecto que conecta el contenido con decisiones de diseño concretas.

A

Sistema de inmigración & Visa Bulletin

INA 1965 [10], cuotas anuales, per-country limit del 7 %, calendarios Final Action Dates (FAD) y Dates for Filing (DFF) [7]. Convención: F1–F4 = {F1, F2A, F2B, F3, F4} (cinco series por país de cargabilidad), no rango excluyente.

B

Series de tiempo clásicas

Descomposición clásica $Y_t = T_t + S_t + C_t + \varepsilon_t$. Box & Jenkins [24], [29]; Hamilton [25]; Hyndman & Athanasopoulos [26]. Pruebas de estacionariedad ADF [27] y KPSS [28] (con hipótesis nulas opuestas), criterios AIC [30] y BIC [31]. ARIMA, SARIMA y Prophet [32] como modelos lineales de referencia.

C

Fundamentos de DL para series

Backpropagation [36], MLP, regularización (weight decay, dropout [39], dropout recurrente [40], batch normalization [41]) y early stopping. ReLU [37] y optimizador Adam [38] como estándares. Componentes empleados en los modelos no lineales del marco comparativo.

D

RNN y LSTM

Elman [42], Bengio et al. [37]: el problema del gradiente desvaneciente. Hochreiter & Schmidhuber [43] introducen LSTM con celdas de memoria y compuertas. Variantes BiLSTM [44], [45] y GRU [47]. La LSTM constituye el componente no lineal del híbrido ARIMA-LSTM.

E

Híbridos y arquitecturas modernas

Zhang [19] formaliza la hibridación lineal+no-lineal; ARIMA-LSTM en epidemiología [12], [21], economía [51], energía [52] y comercio [20]. La M4 Competition [50] y ES-RNN [49] muestran que las combinaciones dominan. DeepAR [22] global y XGBoost [56] tabular completan la familia comparada; TFT [54], N-BEATS [53] y PatchTST [55] sólo como referencia.

F

Aprendizaje aplicado a fenómenos migratorios

Vegesana [11] aplica clasificadores discriminativos al pronóstico de aprobación; Carammia et al. [13] forecast de flujos de asilo con aprendizaje automático y datos a escala; Pu et al. [9] revisan métodos y fuentes; Hoffmann Pham & Luengo-Oroz [57] sobre modelado predictivo de movimientos de refugiados.

G

Métricas, validación e intervalos al 95 %

Hyndman & Koehler [16]: MASE como métrica universal escalada por el naïve estacional. Walk-forward de Tashman [58] y Bergmeir & Benítez [17]. Diebold-Mariano [18] con corrección de Holm para la familia pre-registrada. Intervalos de predicción al 95 % por tres mecanismos: ARIMA analítico, MC dropout [40] y predicción conforme [59].

H

Pronóstico multiserie y heterogeneidad

Modelos locales (entrenados por celda), globales (DeepAR [22] sobre el panel) y tabulares (XGBoost [56]). La elección entre regímenes es una pregunta empírica que el proyecto responde con datos, dado el régimen de datos pequeño por serie ($\sim$400 obs FAD, $\sim$125 obs DFF).

📐 Marco tecnológico (resumen)

Lenguaje y librerías: Python 3.x con pandas, numpy, statsmodels, scikit-learn [62], XGBoost [56], PyTorch [63], Prophet [32]. Visualización: matplotlib, seaborn. Versionado: Git/GitHub bajo licencia abierta. Documentación: LaTeX/Overleaf. Reproducibilidad: manifiestos de versiones (requirements.txt), semillas registradas, MLflow para bitácora de hiperparámetros.

Producto esperado y validación

Descripción del producto, gobernanza del alcance y forma de validación. El capítulo responde estrictamente a «¿qué se entrega?» y «¿cómo se valida?»; las decisiones operativas (parámetros, hiperparámetros, esquema de pruebas) se documentan en el Capítulo IV.

3.1 Descripción de la solución

3.1.1 · Marco metodológico

Marco comparativo sin privilegiar arquitecturas de antemano, instrumentado bajo CRISP-DM [64]. Tres familias complementarias: (a) modelos lineales (naïve estacional, ARIMA, SARIMA, Prophet), (b) modelos no lineales locales (LSTM, ARIMA-LSTM), (c) modelos globales y tabulares (DeepAR, XGBoost). La identidad del modelo con mejor desempeño es una pregunta empírica del estudio.

3.1.2 · Arquitectura tentativa

Datos crudos ETL Representación + estados Pronóstico Evaluación 1. Fuente Visa Bulletin DOS / USCIS + texto de foros (ext.) 2. Ingesta Scraping y normalización 3. Features + anotación Series numéricas Calendario fiscal C/U/F (descriptiva) 4. Modelado Regresor temporal entrenado sólo con e = F Marco comparativo 8 modelos · CRISP-DM lineales + no lineales + globales / tabulares 5. Validación Walk-forward expansiva sMAPE · MASE MAE · RMSE cobertura PI 95% Resultado esperado Pronóstico mensual por país × categoría × tabla (h = 1, 3, 6, 12 meses) con intervalos de predicción al 95 %, 8 modelos comparados, repositorio reproducible bajo licencia abierta.

3.1.3 · Cobertura analítica en tres niveles

La cobertura del sistema se organiza en tres niveles explícitos:

  • Base de datos estructural. Contiene todas las combinaciones de país (México, India, China, Filipinas, All Chargeability Areas Except Those Listed) × categoría (familiares F1, F2A, F2B, F3, F4 y basadas en empleo EB-1 a EB-5 con subcategorías) × tabla (FAD, DFF).
  • Cobertura evaluable. Series con histórico, continuidad y variabilidad suficientes para pronóstico, según los criterios pre-registrados de la Tabla 2.
  • Cobertura piloto inicial. Categorías familiares F1–F4 sobre los países de alta demanda y la agrupación residual, comenzando por México por la severidad de sus rezagos.

3.1.4 · Variable predicha

Sea $y_{p,c,b,t}$ la fecha de prioridad transformada a días desde una fecha base, para la celda (país $p$, categoría $c$, tabla $b$) en el mes $t$. La variable es continua y constituye el objetivo de un regresor temporal único. El sistema se entrena exclusivamente sobre observaciones con estado $e=F$ (fecha específica); las observaciones Current y Unavailable se preservan en la base de datos como anotación descriptiva pero no son objetivo predictivo. Las retrogresiones dentro del régimen $F$ se conservan como observaciones legítimas (fenómeno objetivo del sistema migratorio).

3.1.5 · Aislamiento del entrenamiento

Las métricas de regresión se calculan exclusivamente sobre observaciones con fecha específica. Esto evita contaminar la evaluación con observaciones categóricas (Current/Unavailable) que están fuera del objetivo predictivo del sistema. La caracterización descriptiva de los regímenes C/U/F vive en el reporte de exploración (Cap. IV, Fase 2), no en las métricas operativas.

3.2 Delimitaciones, limitaciones y gobernanza

El alcance se acota mediante un conjunto explícito de delimitaciones (decisiones soberanas del investigador), mientras que las restricciones impuestas por factores externos se reconocen como limitaciones.

Delimitaciones · 7

Decisiones del investigador

  • Geografía: MX · IN · CN · PH · All Charg.
  • Tablas: FAD & DFF (evaluadas separadamente)
  • Horizontes: h = 1, 3, 6, 12 meses
  • Modelos: 8 comparados (lineales + no lineales)
  • Métricas: sMAPE · MASE · MAE · RMSE
  • Validación: walk-forward expansiva
  • Aplicación: demostración académica desde repositorio
Limitaciones · 5

Factores externos

  • Datos: $\sim$400 obs FAD, $\sim$125 obs DFF por serie
  • Discontinuidades estructurales del marco regulatorio
  • Composición variable de All Chargeability
  • Recursos computacionales académicos (no productivos)
  • Volatilidad regulatoria con impacto no observado en el periodo (p. ej. anuncios de política recientes [3])

Gobernanza del alcance

Producto científico

(i) Base longitudinal reproducible CSV bajo licencia abierta; (ii) protocolo de series evaluables (Tabla 2); (iii) implementación de la familia completa (Tabla 3) bajo regresor temporal único entrenado con observaciones $e=F$ sobre la cobertura piloto; (iv) walk-forward con métricas de regresión y calibración de los intervalos de predicción al 95 %.

Producto demostrativo

Aplicación de demostración académica ejecutable desde el repositorio, con disclaimer versionado. No compromiso de despliegue público continuo; el dominio visapredictai.com es proyecto personal del autor, no entregable evaluado (Apéndice A.4).

3.3 Forma de validación

El Capítulo III describe qué se valida y con qué nivel se reporta éxito. Las decisiones operativas (parámetros del walk-forward, esquema de pruebas confirmatorias, control familiar de error) se documentan en el Capítulo IV.

01

Walk-forward expansivo

Validación temporal con conjunto de entrenamiento que avanza un mes a la vez, respetando la causalidad. Reporte por horizonte ($h = 1, 3, 6, 12$ meses).

02

Métricas escaladas

sMAPE, MASE, MAE y RMSE definidas formalmente en §2.1.7. MAPE sólo como complemento. Calibración: cobertura empírica de los intervalos de predicción al 95 % vs. nominal.

03

Comparación estadística

Comparación formal entre el mejor modelo no lineal y el lineal más fuerte sobre la familia pre-registrada de celdas piloto (instrumentación específica en Cap. IV §4.4).

04

Intervalos de predicción al 95 %

Tres mecanismos complementarios: ARIMA analítico bajo supuestos gaussianos, MC dropout [40] para redes neuronales y predicción conforme [59] como referencia agnóstica al modelo.

05

Validación cualitativa

Estudios de caso en celdas críticas y validación retrospectiva acotada sobre boletines posteriores al cierre del entrenamiento; lectura legible para usuarios finales con disclaimer.

06

Amenazas a la validez

Validez interna (data leakage), externa (generalización), de constructo (proxies de la dificultad) y estadística (tamaño muestral, potencia preliminar).

Niveles de éxito

Mínimo

Reporte honesto del experimento

Construcción reproducible del dataset, ejecución completa del walk-forward sobre la cobertura piloto, reporte de métricas escaladas e intervalos de predicción al 95 %. No requiere que ningún modelo no lineal supere a los lineales: el reporte de un resultado nulo también satisface el nivel mínimo.

Satisfactorio

Mejora material y verificable

El mejor modelo no lineal de la familia {LSTM, ARIMA-LSTM, DeepAR, XGBoost} mejora a los lineales más fuertes en una proporción material de las series piloto, con magnitud verificable en sMAPE/MASE. La instrumentación estadística específica vive en el Cap. IV §4.4.

Ideal ★

Calibración + bitácora estable

Los intervalos de predicción al 95 % alcanzan cobertura empírica cercana a la nominal en el agregado. Bitácora retrospectiva sobre al menos 6 ciclos mensuales del boletín posteriores al cierre del entrenamiento. Aplicación de demostración funcional con disclaimer.

Metodología CRISP-DM

El proyecto se instrumenta bajo CRISP-DM (Cross-Industry Standard Process for Data Mining) [64], metodología establecida desde 2000 que se ha convertido en estándar de facto para proyectos de minería de datos y aprendizaje automático aplicado. Sus seis fases canónicas se mapean a las cinco fases operativas del proyecto.

Fase 1 · CRISP-DM 1+2

Comprensión del negocio & de los datos

Atendida en los Capítulos I y II del anteproyecto. Define el problema, los actores afectados (millones de solicitantes), las cifras del rezago, el régimen estatutario INA 1965, la estructura del Visa Bulletin y las decisiones metodológicas de alto nivel.

Fase 2 · CRISP-DM 2

Análisis exploratorio

Caracterización del comportamiento histórico por serie evaluable: descomposición STL, pruebas ADF [27] y KPSS [28], identificación cuantitativa de retrogresiones y periodos C/U, aplicación de los criterios de exclusión de la Tabla 2.

Fase 3 · CRISP-DM 3+4

Preparación & modelado

Construcción del panel multiserie $y_{p,c,b,t}$ y entrenamiento de los 8 modelos de la Tabla 3: lineales (naïve, ARIMA, SARIMA, Prophet), no lineales locales (LSTM, ARIMA-LSTM) y globales/tabulares (DeepAR, XGBoost). Selección de hiperparámetros sin data leakage; generación de intervalos de predicción al 95 % por tres mecanismos.

Fase 4 · CRISP-DM 5

Evaluación

Walk-forward expansivo con métricas escaladas (sMAPE, MASE, MAE, RMSE) por horizonte y agregadas. Cálculo de cobertura empírica de los intervalos al 95 %. Comparación estadística formal con Diebold-Mariano [18] sobre la familia pre-registrada de comparaciones, con corrección de Holm a $\alpha = 0.05$ familiar. Diagnóstico de overfitting y leakage, amenazas a la validez.

Fase 5 · CRISP-DM 6

Despliegue

Publicación del dataset bajo licencia abierta, congelación del repositorio (R1–R7), aplicación de demostración académica con advertencias de uso (disclaimer del Apéndice A.5) y reporte final integral. No hay compromiso de servicio público permanente: el sistema es académico, evaluado y reproducible, no operativo.

⏱️ Cronograma agosto 2026 – mayo 2027

Las cinco fases se distribuyen sobre 10 meses con granularidad semanal (40 semanas activas + receso académico de diciembre 2026), alineadas con los periodos PI-I (ago–nov 2026) y PI-II (ene–may 2027) del programa MIAAD. Hitos verificables en cada cierre de fase, con revisión del documento entregable y valoración del director de tesis.

Visualizaciones clave

Cobertura propuesta, criterios de exclusión metodológica, baselines comparados y matriz país×categoría×tabla con tres niveles de cobertura (estructural / evaluable / piloto).

Tabla 1 · Cobertura analítica propuesta

DimensiónValores admitidosNotas operativas
País / cargabilidadMéxico, India, China, Filipinas, All Chargeability Areas Except Those ListedLa última no es un país sino agrupación administrativa con composición variable.
Categorías familiaresF1, F2A, F2B, F3, F4Convención F1–F4 = conjunto completo {F1, F2A, F2B, F3, F4}.
Categorías de empleoEB-1, EB-2, EB-3, EB-4, EB-5 (+ subcategorías)Esquemática; incluye Other Workers, Certain Religious Workers, set-asides.
Tipo de tablaFinal Action Dates (FAD), Dates for Filing (DFF)Evaluadas separadamente, sin comparación cruzada directa.
Códigos especialesCurrent (C) y Unavailable (U)Conservados como anotación descriptiva en la base de datos; no participan del entrenamiento del regresor (§3.1.5).

Estructura del panel multiserie $y_{p,c,b,t}$. Fuente: elaboración propia.

Tabla 2 · Criterios de exclusión metodológica

CriterioDescripción operativa
Longitud insuficienteMenos de 60 observaciones mensuales tras filtrado de datos faltantes; impide construir partición walk-forward viable.
Variabilidad nulaSerie con valor constante (ej. Current permanente) en el periodo evaluado; no aporta información predictiva.
Datos faltantes no recuperablesTres o más meses consecutivos no publicados sin recuperación posible mediante archivos del DOS.
Cambios normativos no armonizablesModificaciones administrativas que alteran la definición de la categoría (ej. redefinición de subcategorías EB).
Ausencia de fecha específicaLa combinación nunca publicó una fecha específica; sólo Current o Unavailable. Sin objetivo numérico para entrenar el regresor.
Composición variableAplicable a All Chargeability Areas Except Those Listed: composición de países cambia a lo largo del periodo (no-estacionariedad de composición). Se acompañará de advertencia explícita en cualquier inferencia.

Series excluidas se reportan descriptivamente pero no entran al pipeline cuantitativo. Fuente: elaboración propia.

Tabla 3 · Modelos comparados (8 candidatos del marco comparativo)

Modelo Tipo sMAPE obj. MASE obj. Función en el marco comparativo
Naïve estacionalLínea base ingenua1.00Referencia mínima.
ARIMALineal univariado [24], [29]< 25 %< 0.97Modelo lineal sin estacionalidad.
SARIMALineal estacional< 22 %< 0.94Captura ciclos anuales del año fiscal.
ProphetAditivo con changepoints [32]< 20 %< 0.92Modela retrogresiones como cambios de régimen.
LSTM puroProfundo univariado [43]< 20 %< 0.90Capacidad no lineal sin componente lineal.
ARIMA-LSTMHíbrido local [12], [19]< 17 %< 0.88Referencia híbrida lineal + no lineal por serie.
DeepARProfundo global multiserie [22]< 17 %< 0.88Aprende transferencia entre series del panel.
XGBoost + regresoresTabular con exógenas [56]< 18 %< 0.90Alternativa con features de calendario.

Ningún modelo se privilegia de antemano como «central»: el marco comparativo determinará empíricamente cuál(es) lidera(n) en cada estrato. Umbrales objetivo orientativos. Fuente: elaboración propia.

Figura · Matriz de cobertura país × categoría × tabla

País / Categoría F1F2AF2BF3F4 EB-1EB-2EB-3EB-4EB-5
México 🇲🇽
India 🇮🇳
China 🇨🇳
Filipinas 🇵🇭
All Charg. *
★ Piloto · entregable mínimo ● Evaluable · pipeline cuantitativo ○ Estructural · sólo descriptivo * Composición variable · advertencia explícita

FAD evaluado desde 1992 (≈408 obs); DFF desde noviembre 2015 (≈125 obs). Cada celda piloto se reporta agregada y desagregada. Fuente: elaboración propia.

Anexo de reproducibilidad

Conforme al compromiso enunciado en la Sección 3.2, el repositorio público incluye los siguientes siete componentes verificables por terceros. La obtención del DOI académico es condicional, no compromiso del entregable mínimo.

R1
DOI académico (condicional)

Si el autor decide solicitarlo, archivado en Zenodo o equivalente, con identificador único persistente vinculado al commit hash congelado en la fecha de defensa. La publicación bajo licencia abierta (MIT o equivalente) sí es compromiso firme.

R2
Manifiesto de dependencias

requirements.txt con versiones fijadas (==), complementado opcionalmente con environment.yml para Conda.

R3
Semillas aleatorias

Cada experimento documenta la(s) semilla(s) usada(s) para NumPy, PyTorch y Scikit-learn al inicio de cada notebook o script.

R4
Especificación del hardware

Memoria, modelo de CPU, presencia/ausencia de GPU, sistema operativo y arquitectura (Apple Silicon, x86_64) en REPRODUCIBILITY.md.

R5
Tiempos de ejecución

Tiempos por etapa del pipeline (ingesta, features, entrenamiento, walk-forward, evaluación) reportados como información orientativa.

R6
Integridad de datos

Checksums SHA-256 publicados para datos crudos (data/raw/) y procesados (data/processed/); verificación bit a bit.

R7
Bitácora de hiperparámetros

Registro completo de configuraciones exploradas y configuraciones finalmente seleccionadas por modelo y por estrato (MLflow o equivalente).

📁 Estructura del repositorio

src/ · data/raw/ · data/processed/ · notebooks/ · models/ · tests/ · docs/ · README.md con instrucciones paso a paso para reproducir cada figura y tabla del manuscrito desde cero, junto con REPRODUCIBILITY.md que consolida R1–R7 y docs/disclaimer_academico.txt que se inyecta automáticamente en toda salida del demostrador académico.

Vocabulario operativo

Cuarenta y dos términos del dominio migratorio y del aprendizaje estadístico utilizados a lo largo del anteproyecto. Use el buscador para filtrar por término o por palabra clave dentro de la definición.

ACFAutocorrelation Function
Función que cuantifica la correlación entre observaciones separadas por distintos rezagos temporales; herramienta central en la identificación de modelos ARIMA.
AdamAdaptive Moment Estimation
Algoritmo de optimización de gradiente estocástico que combina momento y tasas de aprendizaje adaptativas por parámetro; estándar de facto en entrenamiento de redes profundas.
AICAkaike Information Criterion
Criterio de selección de modelos que balancea ajuste y parsimonia: AIC = 2k − 2 ln(L).
ARIMAAutoregressive Integrated Moving Average
Familia de modelos estadísticos de series de tiempo que combina componentes autorregresivos, de diferenciación y de media móvil para capturar dinámicas lineales.
ARIMAX
Extensión de ARIMA que incorpora variables exógenas regresoras además de la dinámica endógena de la serie objetivo.
Backlog (neto)
En el contexto migratorio, volumen acumulado de solicitudes pendientes de procesamiento que excede la capacidad operativa del sistema, medido restando las solicitudes resueltas de las recibidas en un período.
País de cargabilidad (chargeability area)
Categoría administrativa bajo la cual el Departamento de Estado contabiliza una solicitud para fines del límite estatutario del 7 %. Por defecto coincide con el país de nacimiento del solicitante principal, no con su nacionalidad ni con su país de residencia. Las áreas de cargabilidad reportadas en el Visa Bulletin incluyen países individuales (México, India, China, Filipinas, etc.) y la categoría agregada All Chargeability Areas Except Those Listed, que NO es un país sino una agrupación residual.
All Chargeability Areas Except Those Listed
Categoría agregada del Visa Bulletin que reúne a todos los países de cargabilidad no listados explícitamente. Es una agrupación administrativa, no una entidad geográfica única; incluye decenas de países de baja a media demanda. Su composición varía a lo largo del tiempo conforme países entran y salen del estado de “límite efectivo” por superación de cuota, lo cual constituye una forma de no-estacionariedad de composición. Por esta razón, esta serie se reportará en la cobertura piloto pero será analizada con cautela explícita: cualquier inferencia sobre tendencia se acompañará de la advertencia sobre cambio de composición.
Nacionalidad vs. país de cargabilidad
Términos no equivalentes en derecho migratorio estadounidense. La cargabilidad sigue, por defecto, al país de nacimiento (INA Sección 202); la nacionalidad del solicitante puede o no coincidir con su país de cargabilidad. Para evitar ambigüedad, el presente documento utiliza consistentemente país o área de cargabilidad cuando se refiere a la dimensión p del Visa Bulletin.
Batch Normalization
Técnica de regularización que estandariza las activaciones de una capa al interior de cada minibatch para estabilizar y acelerar el entrenamiento.
BiLSTMBidirectional Long Short-Term Memory
Variante de LSTM que procesa la secuencia simultáneamente en dirección cronológica y anticronológica, permitiendo que cada estado oculto incorpore contexto pasado y futuro.
DeepAR
Arquitectura probabilística basada en LSTM autorregresiva, diseñada para producir pronósticos de series de tiempo con distribuciones predictivas en lugar de puntos.
Dates for Filing
Calendario publicado mensualmente por el Departamento de Estado que autoriza el inicio anticipado del trámite de ajuste de estatus, generalmente con fechas más recientes que las Final Action Dates.
Diebold-Mariano (prueba)
Prueba estadística formal de comparación de precisión predictiva entre dos modelos sobre una misma serie, bajo hipótesis nula de igualdad de errores esperados.
Dropout
Técnica de regularización que desactiva aleatoriamente una fracción de neuronas durante el entrenamiento, forzando redundancia representacional y reduciendo el sobreajuste.
EB-1 a EB-5
Categorías de preferencia laboral para residencia permanente en EE. UU., desde trabajadores prioritarios con habilidades extraordinarias (EB-1) hasta inversionistas (EB-5).
Early Stopping
Estrategia de regularización implícita que interrumpe el entrenamiento cuando el error sobre el conjunto de validación deja de mejorar durante un número predefinido de épocas.
F1, F2A, F2B, F3, F4
Categorías de preferencia familiar definidas por la INA: hijos adultos solteros de ciudadanos (F1), cónyuges e hijos menores de residentes (F2A), hijos adultos solteros de residentes (F2B), hijos casados de ciudadanos (F3) y hermanos de ciudadanos (F4).
Final Action Dates
Fecha de prioridad publicada mensualmente en el Visa Bulletin que determina qué solicitantes pueden recibir la adjudicación final de su residencia permanente en ese mes fiscal.
Gradient Boosting
Familia de métodos de ensamble que construye secuencialmente modelos débiles, cada uno enfocado en corregir los errores residuales del ensamble previo; XGBoost es su implementación más difundida.
INAImmigration and Nationality Act
Ley federal estadounidense de 1965 que estableció el sistema actual de cuotas por categoría y país para la residencia permanente.
LSTMLong Short-Term Memory
Arquitectura de red neuronal recurrente diseñada por Hochreiter y Schmidhuber en 1997 que incorpora celdas de memoria y compuertas para capturar dependencias temporales de largo plazo y mitigar el desvanecimiento del gradiente.
MAEMean Absolute Error
Error absoluto medio: promedio de los valores absolutos de los errores de predicción.
MAPEMean Absolute Percentage Error
Error porcentual absoluto medio; sensible a valores cercanos a cero y asimétrico entre sobre y subestimaciones.
MASEMean Absolute Scaled Error
Error absoluto escalado medio propuesto por Hyndman y Koehler; métrica universal que normaliza el error por el error del naïve estacional.
Monte Carlo Dropout
Técnica de cuantificación de incertidumbre que aplica dropout también en inferencia, interpretando las predicciones resultantes como muestras de una distribución predictiva aproximada.
N-BEATSNeural Basis Expansion Analysis for Time Series
Arquitectura profunda puramente basada en bloques residuales que ofrece pronósticos interpretables sin recurrir a mecanismos recurrentes.
PACFPartial Autocorrelation Function
Función que mide la correlación entre la observación actual y observaciones rezagadas eliminando la influencia lineal de los rezagos intermedios.
PatchTST
Arquitectura transformer reciente para pronóstico de series largas que segmenta la serie en patches temporales tratados como tokens, logrando un rendimiento competitivo con un costo computacional reducido.
Predicción conformeConformal Prediction
Marco no paramétrico introducido por Vovk, Gammerman y Shafer que produce intervalos de predicción con garantías de cobertura válidas bajo el supuesto mínimo de intercambiabilidad de los datos.
Priority Date
Fecha de prioridadFecha oficial de registro de una petición migratoria, asignada al recibirse por USCIS o por el Departamento del Trabajo; funciona como turno en la cola de procesamiento.
Prophet
Biblioteca de pronóstico desarrollada por Meta AI que modela series de tiempo como suma de componentes de tendencia, estacionalidad y efectos de festividades, robusta ante observaciones faltantes y valores atípicos.
Per-country limit
Límite legal del 7 % de las visas de preferencia anuales disponibles para nacionales de un mismo país, origen principal de la severa retrogresión observada en países de alta demanda como México, India, China y Filipinas.
ReLURectified Linear Unit
Función de activación no lineal f(x) = max(0, x); de uso dominante en redes profundas modernas por su simplicidad computacional y su mitigación del desvanecimiento del gradiente.
Retrogresión
Fenómeno del sistema migratorio estadounidense en el que las fechas de prioridad del Visa Bulletin retroceden en lugar de avanzar, reflejando un agotamiento anticipado de cuotas o reajustes internos en la asignación de visas.
RMSERoot Mean Squared Error
Raíz del error cuadrático medio; métrica sensible a errores grandes por su penalización cuadrática.
SARIMA
Extensión estacional de ARIMA que incorpora componentes autorregresivos, de diferenciación y de media móvil a nivel estacional con período s.
sMAPESymmetric Mean Absolute Percentage Error
Variante simétrica del MAPE que utiliza el promedio de los valores absolutos observados y predichos en el denominador.
TFTTemporal Fusion Transformer
Arquitectura híbrida transformer-recurrente para pronóstico multi-horizonte con entradas heterogéneas (pasado, covariables conocidas, variables estáticas).
Visa Bulletin
Boletín mensual publicado por la Oficina de Asuntos Consulares del Departamento de Estado de EE. UU. que actualiza las fechas de prioridad para cada categoría migratoria y país.
Walk-forward Validation
Estrategia de validación para series de tiempo en la que el conjunto de entrenamiento se expande progresivamente hacia el futuro, respetando la causalidad temporal.
XGBoosteXtreme Gradient Boosting
Implementación escalable y regularizada de gradient boosting sobre árboles de decisión; referente de alto rendimiento en competiciones de aprendizaje automático.

Referencias IEEE

Sesenta y cuatro referencias IEEE en orden monotónico estricto de primera aparición. Filtre por bloque temático para navegar las fuentes del problema migratorio, los modelos lineales y profundos, los híbridos y arquitecturas modernas, las métricas y validación temporal, los recursos aplicados o la metodología CRISP-DM.

  1. [1]U.S. Citizenship and Immigration Services, “The Colorful History of the Green Card,” USCIS Stories from the Archives, ene. 2023. [En línea]. Disponible en: https://www.uscis.gov/about-us/our-history/stories-from-the-archives/the-colorful-history-of-the-green-card
  2. [2]CitizenPath, “History of the Green Card,” CitizenPath, nov. 2023. [En línea]. Disponible en: https://citizenpath.com/history-green-card/
  3. [3]A. Bao, “Trump says U.S. to `permanently pause migration from all Third World Countries' after DC shooting,” CNBC, nov. 2025. [En línea]. Disponible en: https://www.cnbc.com/2025/11/28/trump-us-to-permanently-pause-migration-from-all-third-world-countries.html
  4. [4]U.S. Citizenship and Immigration Services, “Quarterly All Forms, Net Backlog and Frontlog, Fiscal Year 2025, Quarter 3,” USCIS Immigration and Citizenship Data, 2025. [En línea]. Disponible en: https://www.uscis.gov/tools/reports-and-studies/immigration-and-citizenship-data
  5. [5]Boundless Immigration, “USCIS Backlogs Hit Record High as EB-1A Growth Slows: Q2 FY2025 Data Analysis,” sep. 2025. [En línea]. Disponible en: https://www.boundless.com/blog/uscis-q2-fy2025-data
  6. [6]FWD.us, “Family-Based Immigration Backlogs: 5 Things to Know,” FWD.us Policy Report, 2022. [En línea]. Disponible en: https://www.fwd.us/news/family-based-immigration-backlogs/
  7. [7]U.S. Department of State, Bureau of Consular Affairs, “Visa Bulletin for May 2026,” Washington, DC, EE. UU., may. 2026. [En línea]. Disponible en: https://travel.state.gov/content/travel/en/legal/visa-law0/visa-bulletin/2026/visa-bulletin-for-may-2026.html
  8. [8]E. Fabio, “Time series analysis on U.S. immigration data,” tesis de maestría, Dept. of Mathematics and Statistics, San Diego State University, San Diego, CA, EE. UU., 2022. [En línea]. Disponible en: https://digitalcollections.sdsu.edu/do/d37e5cc6-0741-4312-b779-167574c09d57
  9. [9]T. Pu, C. Huang, J. Yang y M. Huang, “Transcending Time and Space: Survey Methods, Uncertainty, and Development in Human Migration Prediction,” Sustainability, vol. 15, no. 13, art. 10584, jul. 2023, doi: 10.3390/su151310584.
  10. [10]U.S. Congress, “Immigration and Nationality Act of 1965 (Hart-Celler Act),” Pub. L. 89-236, 79 Stat. 911, oct. 1965. [En línea]. Disponible en: https://www.govinfo.gov/content/pkg/STATUTE-79/pdf/STATUTE-79-Pg911.pdf
  11. [11]S. Vegesana, “Predictive analytics for classification of immigration visa applications: a discriminative machine learning approach,” reporte de maestría, Dept. of Computer Science, Kansas State University, Manhattan, KS, EE. UU., 2018. [En línea]. Disponible en: https://krex.k-state.edu/items/895cd8b1-8b57-4ffa-9570-4427e97ed4a1
  12. [12]S. Jain, S. Agrawal, E. Mohapatra y K. Srinivasan, “A novel ensemble ARIMA-LSTM approach for evaluating COVID-19 cases and future outbreak preparedness,” Health Care Science, vol. 3, no. 6, pp. 409–425, dic. 2024, doi: 10.1002/hcs2.123.
  13. [13]M. Carammia, S. M. Iacus y T. Wilkin, “Forecasting asylum-related migration flows with machine learning and data at scale,” Scientific Reports, vol. 12, no. 1, art. 1457, ene. 2022, doi: 10.1038/s41598-022-05241-8.
  14. [14]U.S. Department of State, Bureau of Consular Affairs, “Immigrant Visa Statistics: Mexico Family Preference Final Action Dates from FY1992–2023,” 2024. [En línea]. Disponible en: https://travel.state.gov/content/travel/en/legal/visa-law0/visa-statistics/immigrant-visa-statistics.html
  15. [15]M. Jordan, “Immigrants Are Becoming U.S. Citizens at Fastest Clip in Years,” The New York Times, ago. 2024. [En línea]. Disponible en: https://www.nytimes.com/2024/08/12/us/immigration-us-citizenship-rates.html
  16. [16]R. J. Hyndman y A. B. Koehler, “Another look at measures of forecast accuracy,” Int. J. Forecasting, vol. 22, no. 4, pp. 679–688, 2006, doi: 10.1016/j.ijforecast.2006.03.001.
  17. [17]C. Bergmeir y J. M. Benítez, “On the use of cross-validation for time series predictor evaluation,” Information Sciences, vol. 191, pp. 192–213, may. 2012, doi: 10.1016/j.ins.2011.12.028.
  18. [18]F. X. Diebold y R. S. Mariano, “Comparing predictive accuracy,” Journal of Business & Economic Statistics, vol. 13, no. 3, pp. 253–263, 1995, doi: 10.1080/07350015.1995.10524599.
  19. [19]G. P. Zhang, “Time series forecasting using a hybrid ARIMA and neural network model,” Neurocomputing, vol. 50, pp. 159–175, 2003, doi: 10.1016/S0925-2312(01)00702-0.
  20. [20]C. B. A. Satrio, W. Darmawan, B. U. Nadia y N. Hanafiah, “Forecasting Indonesia exports using a hybrid model ARIMA-LSTM,” Procedia Computer Science, vol. 179, pp. 480–487, 2021, doi: 10.1016/j.procs.2021.01.031.
  21. [21]M. S. A. Mahmud y N. M. Noor, “Hybrid ARIMA-LSTM for COVID-19 forecasting: A comparative AI modeling study,” PeerJ Computer Science, vol. 11, art. e3195, 2025, doi: 10.7717/peerj-cs.3195.
  22. [22]D. Salinas, V. Flunkert, J. Gasthaus y T. Januschowski, “DeepAR: Probabilistic forecasting with autoregressive recurrent networks,” Int. J. Forecasting, vol. 36, no. 3, pp. 1181–1191, 2020, doi: 10.1016/j.ijforecast.2019.07.001.
  23. [23]S. Makridakis, E. Spiliotis y V. Assimakopoulos, “Statistical and machine learning forecasting methods: Concerns and ways forward,” PLoS ONE, vol. 13, no. 3, art. e0194889, 2018, doi: 10.1371/journal.pone.0194889.
  24. [24]G. E. P. Box y G. M. Jenkins, Time Series Analysis: Forecasting and Control, rev. ed. San Francisco, CA, EE. UU.: Holden-Day, 1976.
  25. [25]J. D. Hamilton, Time Series Analysis. Princeton, NJ, EE. UU.: Princeton Univ. Press, 1994.
  26. [26]R. J. Hyndman y G. Athanasopoulos, Forecasting: Principles and Practice, 3.ª ed. Melbourne, Australia: OTexts, 2021. [En línea]. Disponible en: https://otexts.com/fpp3/
  27. [27]D. A. Dickey y W. A. Fuller, “Distribution of the estimators for autoregressive time series with a unit root,” J. Amer. Statist. Assoc., vol. 74, no. 366a, pp. 427–431, 1979, doi: 10.1080/01621459.1979.10482531.
  28. [28]D. Kwiatkowski, P. C. B. Phillips, P. Schmidt y Y. Shin, “Testing the null hypothesis of stationarity against the alternative of a unit root,” J. Econometrics, vol. 54, no. 1–3, pp. 159–178, 1992, doi: 10.1016/0304-4076(92)90104-Y.
  29. [29]G. E. P. Box, G. M. Jenkins, G. C. Reinsel y G. M. Ljung, Time Series Analysis: Forecasting and Control, 5.ª ed. Hoboken, NJ, EE. UU.: John Wiley & Sons, 2015.
  30. [30]H. Akaike, “A new look at the statistical model identification,” IEEE Trans. Autom. Control, vol. 19, no. 6, pp. 716–723, dic. 1974, doi: 10.1109/TAC.1974.1100705.
  31. [31]G. Schwarz, “Estimating the dimension of a model,” Ann. Statist., vol. 6, no. 2, pp. 461–464, mar. 1978, doi: 10.1214/aos/1176344136.
  32. [32]S. J. Taylor y B. Letham, “Forecasting at scale,” The American Statistician, vol. 72, no. 1, pp. 37–45, 2018, doi: 10.1080/00031305.2017.1380080.
  33. [33]V. I. Kontopoulou, A. D. Panagopoulos, I. Kakkos y G. K. Matsopoulos, “A review of ARIMA vs. machine learning approaches for time series forecasting in data driven networks,” Future Internet, vol. 15, no. 8, art. 255, jul. 2023, doi: 10.3390/fi15080255.
  34. [34]I. Goodfellow, Y. Bengio y A. Courville, Deep Learning. Cambridge, MA, EE. UU.: MIT Press, 2016. [En línea]. Disponible en: http://www.deeplearningbook.org
  35. [35]Y. LeCun, Y. Bengio y G. Hinton, “Deep learning,” Nature, vol. 521, no. 7553, pp. 436–444, may. 2015, doi: 10.1038/nature14539.
  36. [36]D. E. Rumelhart, G. E. Hinton y R. J. Williams, “Learning representations by back-propagating errors,” Nature, vol. 323, no. 6088, pp. 533–536, 1986, doi: 10.1038/323533a0.
  37. [37]Y. Bengio, P. Simard y P. Frasconi, “Learning long-term dependencies with gradient descent is difficult,” IEEE Trans. Neural Netw., vol. 5, no. 2, pp. 157–166, mar. 1994, doi: 10.1109/72.279181.
  38. [38]D. P. Kingma y J. Ba, “Adam: A method for stochastic optimization,” en Proc. 3rd Int. Conf. Learning Representations (ICLR), San Diego, CA, EE. UU., may. 2015.
  39. [39]N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever y R. Salakhutdinov, “Dropout: A simple way to prevent neural networks from overfitting,” Journal of Machine Learning Research, vol. 15, no. 56, pp. 1929–1958, 2014.
  40. [40]Y. Gal y Z. Ghahramani, “A theoretically grounded application of dropout in recurrent neural networks,” en Advances in Neural Information Processing Systems 29 (NIPS 2016), 2016.
  41. [41]S. Ioffe y C. Szegedy, “Batch normalization: Accelerating deep network training by reducing internal covariate shift,” en Proc. 32nd Int. Conf. Machine Learning (ICML), Lille, Francia, jul. 2015, pp. 448–456.
  42. [42]J. L. Elman, “Finding structure in time,” Cognitive Science, vol. 14, no. 2, pp. 179–211, 1990, doi: 10.1207/s15516709cog1402_1.
  43. [43]S. Hochreiter y J. Schmidhuber, “Long short-term memory,” Neural Computation, vol. 9, no. 8, pp. 1735–1780, nov. 1997, doi: 10.1162/neco.1997.9.8.1735.
  44. [44]M. Schuster y K. K. Paliwal, “Bidirectional recurrent neural networks,” IEEE Trans. Signal Process., vol. 45, no. 11, pp. 2673–2681, nov. 1997, doi: 10.1109/78.650093.
  45. [45]A. Graves y J. Schmidhuber, “Framewise phoneme classification with bidirectional LSTM and other neural network architectures,” Neural Netw., vol. 18, no. 5–6, pp. 602–610, 2005, doi: 10.1016/j.neunet.2005.06.042.
  46. [46]B. Lindemann, T. Müller, H. Vietz, N. Jazdi y M. Weyrich, “A survey on long short-term memory networks for time series prediction,” Procedia CIRP, vol. 99, pp. 650–655, 2021, doi: 10.1016/j.procir.2021.03.088.
  47. [47]K. Cho, B. van Merriënboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk y Y. Bengio, “Learning phrase representations using RNN encoder-decoder for statistical machine translation,” en Proc. 2014 Conf. Empirical Methods Natural Language Processing (EMNLP), Doha, Qatar, oct. 2014, pp. 1724–1734, doi: 10.3115/v1/D14-1179.
  48. [48]B. Lim y S. Zohren, “Time-series forecasting with deep learning: A survey,” Phil. Trans. R. Soc. A, vol. 379, no. 2194, art. 20200209, 2021, doi: 10.1098/rsta.2020.0209.
  49. [49]S. Smyl, “A hybrid method of exponential smoothing and recurrent neural networks for time series forecasting,” Int. J. Forecasting, vol. 36, no. 1, pp. 75–85, 2020, doi: 10.1016/j.ijforecast.2019.03.017.
  50. [50]S. Makridakis, E. Spiliotis y V. Assimakopoulos, “The M4 Competition: 100,000 time series and 61 forecasting methods,” Int. J. Forecasting, vol. 36, no. 1, pp. 54–74, 2020, doi: 10.1016/j.ijforecast.2019.04.014.
  51. [51]S. Hamiane, Y. Ghanou, H. Khalifi y M. Telmem, “Comparative analysis of LSTM, ARIMA, and hybrid models for forecasting future GDP,” Ingénierie des Systèmes d'Information, vol. 29, no. 3, pp. 1061–1072, 2024, doi: 10.18280/isi.290306.
  52. [52]A. Agbessi Pierre, A. A. Salami, K. S. Agbosse y B. Birregah, “Peak electrical energy consumption prediction by ARIMA, LSTM, GRU, ARIMA-LSTM and ARIMA-GRU approaches,” Energies, vol. 16, no. 12, art. 4739, 2023, doi: 10.3390/en16124739.
  53. [53]B. N. Oreshkin, D. Carpov, N. Chapados y Y. Bengio, “N-BEATS: Neural basis expansion analysis for interpretable time series forecasting,” en Proc. 8th Int. Conf. Learning Representations (ICLR), abr. 2020.
  54. [54]B. Lim, S. Ö. Arık, N. Loeff y T. Pfister, “Temporal Fusion Transformers for interpretable multi-horizon time series forecasting,” Int. J. Forecasting, vol. 37, no. 4, pp. 1748–1764, 2021, doi: 10.1016/j.ijforecast.2021.03.012.
  55. [55]Y. Nie, N. H. Nguyen, P. Sinthong y J. Kalagnanam, “A time series is worth 64 words: Long-term forecasting with transformers,” en Proc. 11th Int. Conf. Learning Representations (ICLR), may. 2023.
  56. [56]T. Chen y C. Guestrin, “XGBoost: A scalable tree boosting system,” en Proc. 22nd ACM SIGKDD Int. Conf. Knowledge Discovery and Data Mining (KDD), San Francisco, CA, EE. UU., ago. 2016, pp. 785–794, doi: 10.1145/2939672.2939785.
  57. [57]K. Hoffmann Pham y M. Luengo-Oroz, “Predictive modelling of movements of refugees and internally displaced people: Towards a computational framework,” J. Ethnic and Migration Studies, vol. 49, no. 2, pp. 408–444, 2023, doi: 10.1080/1369183X.2022.2100546.
  58. [58]L. J. Tashman, “Out-of-sample tests of forecasting accuracy: An analysis and review,” Int. J. Forecasting, vol. 16, no. 4, pp. 437–450, 2000, doi: 10.1016/S0169-2070(00)00065-0.
  59. [59]V. Vovk, A. Gammerman y G. Shafer, Algorithmic Learning in a Random World. Nueva York, NY, EE. UU.: Springer, 2005, doi: 10.1007/b106715.
  60. [60]D. J. Bier, “Immigration wait times from quotas have doubled: Green card backlogs are long, growing, and inequitable,” Cato Institute Policy Analysis No. 873, jun. 2019. [En línea]. Disponible en: https://www.cato.org/publications/policy-analysis/immigration-wait-times-quotas-have-doubled
  61. [61]F. Chollet, Deep Learning with Python, 2.ª ed. Shelter Island, NY, EE. UU.: Manning Publications, 2021.
  62. [62]F. Pedregosa et al., “Scikit-learn: Machine learning in Python,” Journal of Machine Learning Research, vol. 12, pp. 2825–2830, 2011.
  63. [63]A. Paszke et al., “PyTorch: An imperative style, high-performance deep learning library,” en Advances in Neural Information Processing Systems 32 (NeurIPS 2019), 2019, pp. 8026–8037.
  64. [64]P. Chapman, J. Clinton, R. Kerber, T. Khabaza, T. Reinartz, C. Shearer, y R. Wirth, CRISP-DM 1.0: Step-by-step Data Mining Guide. Chicago, IL, EE. UU.: SPSS Inc. / The CRISP-DM Consortium, 2000.

Acerca del autor y del asesor

Tesista y director de tesis del proyecto MIAAD, Universidad Autónoma de Ciudad Juárez. El curso anfitrión "Anteproyecto de Innovación Tecnológica" es coordinado por el Dr. Gilberto Rivera Zárate.

Javier Augusto Rebull Saucedo
Javier Augusto Rebull Saucedo
Tesista · MIAAD · UACJ · Matrícula 263483

Estudiante de la Maestría en Inteligencia Artificial y Analítica de Datos (MIAAD) de la Universidad Autónoma de Ciudad Juárez. En el ámbito profesional se desempeña como Sr. Associate Application Developer en Banco Santander US, con residencia en Boston, Massachusetts. Su interés académico se centra en el modelado predictivo de fenómenos sociales con impacto en comunidades migrantes, combinando técnicas de aprendizaje profundo, series de tiempo y analítica de datos aplicada.

▶ al263483@alumnos.uacj.mx Programa · MIAAD UACJ Línea · Analítica descriptiva y predictiva
Dr. Vicente García Jiménez
Dr. Vicente García Jiménez
Director de tesis · UACJ

Profesor-investigador del Departamento de Ingeniería Eléctrica y Computación de la UACJ y miembro del núcleo académico del programa MIAAD. Su línea de investigación comprende aprendizaje automático aplicado, clasificación con conjuntos desbalanceados y minería de datos. Como asesor del proyecto, orienta el diseño metodológico, el rigor experimental y la coherencia teórica del sistema experimental.

▶ vicente.jimenez@uacj.mx Departamento · Ing. Eléctrica y Computación Programa · MIAAD UACJ
🎓 Curso anfitrión

Anteproyecto de Innovación Tecnológica · Maestría en Inteligencia Artificial y Analítica de Datos · UACJ · Periodo enero–mayo 2026 · Coordinación: Dr. Gilberto Rivera Zárate.

¿Interesado en el proyecto?

Para consultas académicas sobre el anteproyecto, colaboración, intercambio bibliográfico o solicitud del repositorio del demostrador local cuando esté disponible.

Escribir al tesista Repositorio del scraping