Aunque toda empresa o gobierno explota estratégicamente sus datos, las grandes tecnológicas son las que mejor lo hacen. Por ejemplo, los científicos de Instagram y Facebook extraen información, como la edad y la educación que, junto con los «me gusta», se usa para predecir los productos que podría comprar cada usuario y enviarle publicidad personalizada. Estas empresas no gastan dinero en la recolección porque los mismos usuarios regalan los datos cuando utilizan las redes sociales.
La ciencia de datos consiste en procesar hechos históricos sobre algún fenómeno (económico, político, comercial, social, ambiental) y por medio de algoritmos (métodos estadísticos) crean modelos predictivos (fórmulas matemáticas) para calcular (predecir) el comportamiento futuro con algún grado de certeza estadística. Si se utilizan grandes cantidades de datos, entonces se habla de big data. Los modelos son utilizados para predecir o planificar.
LEA MÁS: Costa Rica desaprovecha rastreo con celulares para combatir covid-19
El gobierno, en un intento, creó la Unidad Presidencial de Análisis de Datos (UPAD) para la definición de políticas públicas y mejorar el destino de los fondos del erario; sin embargo, la iniciativa terminó en un escándalo político.
La UPAD presuntamente careció de seguridad, lo que habría comprometido la privacidad de la información.
En el uso de perfiles sobre personas, siempre hay que mantener un balance entre el interés público y la confidencialidad de la información recabada. Una buena idea mal ejecutada.
La Coalición Costarricense de Iniciativas de Desarrollo (Cinde) afirma que en nuestro país los científicos de datos están entre los profesionales más solicitados, pero el sistema educativo no suple la demanda.
En cuestión de oferta académica, tanto en universidades públicas como privadas, estamos bien, pero necesitamos más jóvenes dispuestos a estudiar esta disciplina. Además, existen iniciativas como las Científicas de Datos Costa Rica (cientificasdedatos.com/costarica/) que imparten talleres gratuitos, organizan programas para mentores y publican artículos de acceso público.
LEA MÁS: Sistema público de ayuda a pobres descuida confidencialidad de datos sensibles
Los científicos de datos necesitan conocimientos en programación, matemática, estadística y negocios para hacer minería en fuentes heterogéneas y producir conocimiento para la toma de decisiones.
Según el informe 2020 sobre el futuro del trabajo del Foro Económico Mundial, la ciencia de datos es el tercer trabajo con mayor demanda y los especialistas en inteligencia artificial ocupan el primer lugar.
Uso global. Google desarrolló una herramienta predictiva llamada LYNA para detectar tumores en las mamas que hacen metástasis en los ganglios linfáticos cercanos.
Incluso una clínica privada en Costa Rica utiliza fotografías de alta resolución de la piel y las compara con millones de imágenes almacenadas en la base de datos histórica que, mediante un algoritmo de cotejo de patrones, determina la probabilidad de cáncer.
LEA MÁS: Editorial: El altar del ‘consentimiento informado’
La agencia de impuestos de Estados Unidos construye perfiles multidimensionales de los contribuyentes para pronosticar las declaraciones de impuestos. El software Northpointe intenta medir, también en Estados Unidos, el riesgo de reincidencia de una persona encarcelada, basándose en un cuestionario que cubre la situación laboral, el grado educativo y otra información con una precisión del 60 %.
Planificación. La aplicación Clue, desarrollada en Alemania, emplea la ciencia de datos para pronosticar los ciclos menstruales de las mujeres y la salud reproductiva de los usuarios.
UPS echa mano de la ciencia de datos para optimizar el transporte de paquetes a través del aprendizaje automático y la inteligencia artificial para resolver problemas logísticos. De acuerdo con sus cálculos, ahorró entre $100 millones y $200 millones el año pasado.
LEA MÁS: Presidente Alvarado niega haber solicitado información detallada sobre personas y empresas
Equipos de fútbol alemanes y británicos ya efectúan el análisis de datos para medir con exactitud el desplazamiento de los jugadores durante un partido y así mejorar las tácticas de juego.
China aventaja al resto del mundo porque las regulaciones sobre recolección y uso de información personal son más laxas y el gran tamaño de su población le facilita obtener grandes cantidades de manera casi instantánea. Resulta que la exactitud y precisión de los modelos mejoran sustancialmente cuando se cuenta con más datos de entrada.
Cabe destacar la llamada localización de datos, que se refiere al requisito regulatorio respecto de dónde y cómo los datos pueden ser almacenados y procesados dentro de una jurisdicción específica.
Por ejemplo, la Unión Europea obliga a hacerlo dentro de su jurisdicción geográfica, lo que forzó a los grandes tenedores, como Apple, Google y Facebook, a construir enormes centros en territorio europeo para cumplir la legislación.
La ciencia de datos contribuye al análisis y la toma decisiones para la gobernación, la economía, la salud e incluso el deporte. Costa Rica tiene el potencial para aprovechar la demanda mundial de científicos en esta materia, pero debe incentivar la formación y especialización de más jóvenes —especialmente mujeres— mediante becas y capacitación, con la vista puesta en competir globalmente de la misma forma que lo ha hecho con éxito en desarrollo de software.
Marcelo Jenkins Coronas es profesor y Paola Ortega Saborío, estudiante en la Universidad de Costa Rica.