En un mundo caracterizado por la abundancia de información, la tarea de
recabar y extraer los datos necesarios es fundamental para crear
aplicaciones tecnológicas más potentes y diseñar equipos más rápidos. Un
método importante para lograr esta tarea por medios informáticos es la
eliminación de datos redundantes mediante el modelado disperso, una
disciplina en rápida evolución que aúna la estadística, el aprendizaje
automático y el procesamiento de señales. En términos informáticos, los
modelos dispersos están compuestos mayoritariamente de ceros y unos
pocos parámetros distintos a cero, lo que permite explorar innovadoras
herramientas algorítmicas y teóricas para lograr sus objetivos.
En este contexto, el proyecto
SOL (Sparse Online Learning), financiado con fondos europeos, se centró en el desarrollo de nuevos algoritmos y teorías que posibilitasen un aprendizaje sensible a la dispersión en tiempo real. En lugar de conformarse con el método de almacenamiento y posterior tratamiento de datos, el proyecto se propuso procesar estos en tiempo real tan pronto como estaban disponibles.
Para lograr sus objetivos, el equipo del proyecto elaboró los algoritmos necesarios para detectar la dispersión y así posibilitar una operación efectiva en tiempo real. Se integraron estructuras avanzadas de dispersión en un marco de aprendizaje automático y se mejoró el proceso de aprendizaje mediante la recopilación de datos a través de topologías y dispositivos multisensoriales que aprovechaban estructuras conjuntas de dispersión, para lo cual fue necesario el desarrollo de una plataforma que permitiera evaluar con precisión las nuevas técnicas articuladas en comparación con otras entidades o competidores de este sector.
Aplicando las tecnologías recién desarrolladas a la industria biomédica, el equipo del proyecto SOL desarrolló un innovador sistema inalámbrico de supervisión por electrocardiograma (ECG) que consume menos energía y posiblemente sea más potente que la tecnología ECG existente.
El equipo también abordó casos más generales en los que se emplean la dispersión y las estructuras avanzadas para la factorización y el análisis de matrices de datos, además de estudiar tareas generales que implican un seguimiento subespacial robusto, un aprendizaje de diccionario (dictionary learning) en línea y distribuido y una factorización matricial basada en el aprendizaje de diccionario en el análisis de imágenes por resonancia magnética funcional (IRMf).
Nuevas herramientas matemáticas alternativas que implicaron la utilización de proyecciones aleatorias se aplicaron a la reducción de la dimensionalidad y se adaptaron a algoritmos desarrollados anteriormente, lo que posibilitó una reducción del tiempo computacional necesario para el análisis de los datos IRMf. Posteriormente, el equipo desarrolló un método innovador y sólido de regresión lineal a partir de proyecciones aleatorias para aplicaciones con grandes cantidades de datos.
Los nuevos algoritmos y las técnicas de modelado, análisis y/o reconstrucción de señales han demostrado ser muy útiles, especialmente teniendo en cuenta que operan en tiempo real y no por lotes. Permiten procesar con gran eficacia grandes cantidades de datos, lo que sienta las bases para muchas aplicaciones nuevas y emergentes que requieren ese grado de complejidad. Los valiosos resultados del proyecto se publicaron en revistas prestigiosas, varios capítulos de libros y muchas publicaciones de congresos.