Propósito

Un CELFI dedicado a la Información en sus diversas vertientes.

El primero de estos CELFI se constituye en la Ciudad Universitaria de Buenos Aires e incluye como infraestructura edilicia al IFIBYNE y al nuevo pabellón Cero+Infinito (a construirse).

La temática de investigación gira en torno al problema de la codificación y transmisión de la Información en sus diversas vertientes: matemática (modelos y aplicaciones), computacional (codificación, procesamiento, transmisión), biológica (bioinformática, genómica y neurociencias), química, física, ciencias de la tierra, del océano y de la atmósfera.

El Centro conforma una asociación sinérgica con la Facultad de Ciencias Exactas de la UBA (Exactas-UBA), compartiendo el mismo ámbito con el Departamento de Computación, el de Ciencias de la Atmósfera y los Océanos, y el Instituto de Cálculo. Se aprovecha que en dicha Facultad, en donde también se ubican los Departamentos de Química, Biología, Física, Matemática y Geología, se encuentra la mayor concentración institucional de investigadores, responsables de alrededor de 15% de la producción científica de Argentina así como el 20% de los estudiantes del país obtienen anualmente el título de Doctor.

Fundamentación de la temática del Centro

En las últimas décadas ha habido una explosión en nuestra capacidad de adquirir, almacenar y procesar datos en un volumen y de una diversidad sin precedentes. Sin embargo, nuestra habilidad para extraer conocimiento a partir de estos datos es limitada, las técnicas que se han desarrollado son ad-hoc y los esfuerzos están principalmente compartimentados por aplicación. La ciencia de los datos incorpora elementos de ciencias de la computación y matemática con el objetivo de desarrollar y aplicar técnicas que permitan la extracción sistemática de conocimiento de grandes volúmenes de datos heterogéneos.

Este CELFI dedicado a la Ciencia de los Datos busca desarrollar los fundamentos, herramientas y métodos de extracción de conocimiento para asistir el avance de las ciencias, desde las exactas hasta las humanas, y el sector productivo, tanto público como privado, mediante la síntesis de las distintas experiencias que vaya adquiriendo en la resolución concreta de problemas aplicados.

La humanidad ha generado conocimiento a partir de datos desde sus inicios, pero hoy tenemos una situación única y novedosa. Aunque desde los 60’ la computación se ofrece como la disciplina capaz de procesar y dar valor a datos digitales, la singularidad de este momento es el volumen y heterogeneidad de los datos disponibles y la disponibilidad de capacidad de cómputo para procesarlos. Este cambio de escala presenta a la vez una oportunidad y un desafío que intenta abordar la ciencia de los datos a partir de los avances recientes y la gestión de nuevos desarrollos tecnológicos en los campos de la electrónica, computación y matemática.

Tenemos sistemas que administran datos de todo tipo, desde estructurados (como los almacenados en las bases de datos) pasando por semi-estructurados (incluyendo todo lo que se encuentra en la web, en formato de texto libre, imagen y sonido) a los provenientes de una creciente cantidad de sensores de datos físicos y de las redes sociales. Hemos desarrollado nuevas técnicas analíticas basadas en avances importantes en matemática aplicada, estadística, minería de datos, inteligencia artificial y algorítmica. Tenemos hardware sofisticado que permite paralelización masiva en procesadores multi-core, acumulación de datos precisos en tiempo real mediante sensores robustos y económicos y pocos límites en términos de almacenamiento de corto y largo plazo. Y finalmente, tenemos virtualización a través de cloud computing que permite escalar soluciones en varios órdenes de magnitud.

¿Cómo se deben conjugar todos estos elementos para avanzar la ciencia, la industria y la sociedad en general? Actualmente esta pregunta está siendo explorada por distintas comunidades de manera aislada. Un ejemplo destacado es la disciplina llamada bioinformática, cuya definición es justamente la aplicación de tecnología de computadoras a la gestión y análisis de datos biológicos. Sin embargo, hay muchas otras disciplinas que ya no pueden pensarse fuera del contexto de la ciencia de los datos: las ciencias climáticas, de los materiales, genómica, la ingeniería en todas sus subdisciplinas y otras. También la industria se ha volcado agresivamente a este tema en lo que se llama business intelligence o analytics.

La pregunta de cómo extraer conocimiento de grandes volúmenes heterogéneos de datos es central a la ciencia de los datos. Y la respuesta incorpora elementos de ciencias de la computación y la matemática aplicada, incluyendo bases de datos y data warehousing, computo de alto rendimiento, algorítmica, inteligencia artificial, minería de datos, métodos numéricos, estadística, investigación operativa, ingeniería de software, visualización y modelado.