lunes, 8 de marzo de 2021

Sistemas estadísticos suizos mejorados por big data



Se ha recopilado, almacenado y compartido un gran volumen de datos digitales en los últimos años a partir de fuentes como las redes sociales, los sistemas de geolocalización e imágenes aéreas de drones y satélites, lo que brinda a los investigadores muchas formas nuevas de estudiar la información y descifrar nuestro mundo. En Suiza, la Oficina Federal de Estadística (FSO) se ha interesado por la revolución del big data y las posibilidades que ofrece para generar estadísticas predictivas en beneficio de la sociedad.

Los métodos convencionales como los censos y las encuestas siguen siendo el punto de referencia para generar indicadores socioeconómicos a nivel municipal, cantonal y nacional. Pero estos métodos ahora pueden complementarse con datos secundarios, en su mayoría preexistentes, de fuentes como suscripciones a teléfonos móviles y tarjetas de crédito. Según la Estrategia de innovación de datos de 2017 de FSO, "el objetivo de la innovación de datos es mejorar la calidad, el alcance y la rentabilidad de los productos estadísticos y reducir la carga de respuesta en los hogares y las empresas".

Datos anonimizados

En este contexto, un equipo de científicos del Laboratorio de Relaciones Humano-Medio Ambiente en Sistemas Urbanos (HERUS) de la EPFL llevó a cabo un estudio innovador sobre usos novedosos de los datos en poder de las compañías de seguros. La empresa asociada líder del laboratorio, La Mobilière, proporcionó datos anónimos de cientos de miles de asegurados. Estos datos incluyeron factores como la edad, el código postal de la residencia, la propiedad de automóvil y vivienda y la situación laboral.

"Queríamos ver si podíamos usar estos datos para predecir indicadores socioeconómicos específicos, aquellos que podrían darnos una mejor imagen de la calidad de las áreas urbanas de Suiza. Una gran ventaja de los datos en poder de las aseguradoras, siempre que estén dispuestos compartirlo, es que son baratos de usar, ya que ya existen, y se pueden realizar encuestas anuales sin costo adicional ", dice Emanuele Massaro, autor principal del estudio, que se publicó en PLOS ONE el 3 de marzo .

Utilizando técnicas de extracción de datos, el equipo de investigación extrajo la información relevante y la agregó para cubrir las 170 ciudades suizas más pobladas. En total, obtuvieron cerca de 600.000 perfiles, cada uno identificado por un código único. "El conjunto de datos de La Mobilière es muy completo; contiene una amplia gama de información que nos permitió factorizar más de 30 variables, que usamos principalmente para seleccionar aquellas variables que mejor se ajustan a cada indicador socioeconómico", dice Lorenzo Donadio, estudiante de maestría en ciencias e ingeniería ambiental en EPFL y el primer autor del estudio.

Un modelo de regresión espacial

Los científicos desarrollaron un modelo de regresión espacial para predecir con precisión doce variables en seis categorías: población, transporte, trabajo, espacio y región, vivienda y economía. "Por supuesto, nuestras predicciones no pueden reemplazar los censos oficiales, pero pueden servir como indicadores anuales. También queríamos mostrar que los conjuntos de datos de las aseguradoras contienen una gran cantidad de información socialmente relevante, más allá de la que utilizan para marketing e investigación de mercado, y que las aseguradoras deberían considerar trabajar más de cerca con los investigadores ", dice Massaro.

El modelo estadístico del equipo se desarrolló únicamente con fines de investigación y no tiene una aplicación práctica como tal. Podría utilizarse para ayudar a orientar a los encargados de formular políticas, pero aún se necesitan datos censales periódicos. Los datos de La Mobilière carecen de cierta información, como por ejemplo para los jóvenes menores de 18 años, pero son, sin embargo, representativos de una gran parte de la población. "Nuestro modelo podría ser utilizado por los legisladores de la ciudad y las oficinas de estadísticas gubernamentales, que podrían incorporar este tipo de información en sus esfuerzos de modernización. Los conjuntos de datos de las aseguradoras son muy granulares porque contienen información muy específica sobre sus clientes", dice Massaro.

No hay comentarios:

Publicar un comentario