Sí hay riesgos de privacidad en la compilación de datos de movilidad apunta MIT

(4 Marzo 2019) Redacción. Un estudio realizado por investigadores del MIT concluyó que la creciente práctica de compilar conjuntos de datos masivos y anónimos sobre los patrones de movimiento de las personas es un arma de doble filo: si bien puede proporcionar una visión profunda del comportamiento humano para la investigación, también podría poner en riesgo los datos privados de las personas.

Las empresas, los investigadores y otras entidades están comenzando a recopilar, almacenar y procesar datos anónimos que contienen “sellos de ubicación” (coordenadas geográficas y sellos de tiempo) de los usuarios. Los datos se pueden obtener de registros de teléfonos móviles, transacciones con tarjetas de crédito, tarjetas inteligentes de transporte público, cuentas de Twitter y aplicaciones móviles. La fusión de esos conjuntos de datos podría proporcionar información valiosa sobre cómo viajan los humanos, por ejemplo, para optimizar el transporte y la planificación urbana, entre otras cosas.

Pero con los grandes datos surgen grandes problemas de privacidad: los sellos de ubicación son extremadamente específicos para los individuos y se pueden utilizar para propósitos nefarios. Investigaciones recientes han demostrado que, con solo unos pocos puntos seleccionados al azar en los conjuntos de datos de movilidad, alguien podría identificar y aprender información confidencial sobre individuos. Con los conjuntos de datos de movilidad combinados, esto se vuelve aún más fácil: un agente podría potencialmente emparejar las trayectorias de los usuarios en datos anónimos de un conjunto de datos, con datos de-anonimizados en otro, para desenmascarar los datos anónimos.

La fusión de diferentes tipos de datos con marcas de ubicación puede hacer que sea más fácil discernir las identidades de los usuarios, incluso cuando los datos están anónimos.

En un artículo publicado hoy en IEEE Transactions on Big Data, los investigadores del MIT muestran cómo puede suceder esto en el primer análisis de la llamada “compatibilidad” de los usuarios en dos conjuntos de datos a gran escala de Singapur, uno de un operador de redes móviles y uno de un sistema de transporte local.

Los investigadores usan un modelo estadístico que rastrea los sellos de ubicación de los usuarios en ambos conjuntos de datos y proporciona una probabilidad de que los puntos de datos en ambos conjuntos provengan de la misma persona. En los experimentos, los investigadores encontraron que el modelo podría igualar a alrededor del 17 por ciento de los individuos en una semana de datos, y más del 55 por ciento de los individuos después de un mes de datos recopilados. El trabajo demuestra una manera eficiente y escalable de hacer coincidir las trayectorias de movilidad en conjuntos de datos, lo que puede ser una gran ayuda para la investigación. Pero, advierten los investigadores, tales procesos pueden aumentar la posibilidad de de-anonimizar datos reales de los usuarios.

“Como investigadores, creemos que trabajar con conjuntos de datos a gran escala puede permitir descubrir perspectivas sin precedentes sobre la sociedad humana y la movilidad, lo que nos permite planificar mejor las ciudades. Sin embargo, es importante mostrar si la identificación es posible, para que las personas puedan conocer los posibles riesgos de compartir datos de movilidad “, dice Daniel Kondor, un postdoctorado en el Future Urban Mobility Group de la Alianza de Investigación y Tecnología Singapur-MIT.

“Al publicar los resultados, y, en particular, las consecuencias de la falta de personalización de los datos, nos sentimos un poco como “white hat” o ” hackers “éticos”, agrega el coautor Carlo Ratti, profesor de práctica en el Departamento de Urbanismo del MIT. Estudios y Planificación y director del Senseable City Lab de MIT. “Sentimos que era importante advertir a las personas sobre estas nuevas posibilidades [de la fusión de datos] y [considerar] cómo podríamos regularlo”.

Los coautores del estudio son Behrooz Hashemian, postdoctorado en el Senseable City Lab, e Yves-Alexandre de Montjoye, del Departamento de Informática y del Instituto de Ciencia de Datos del Imperial College de Londres.

Eliminando los falsos positivos.

Para comprender cómo funcionan los sellos de ubicación coincidentes y la posible de-anonimización, considere este escenario: “Hace dos días estuve en la isla Sentosa en Singapur, fui al aeropuerto de Dubai y hoy estoy en la playa de Jumeirah en Dubai. Es altamente improbable que la trayectoria de otra persona se vea exactamente igual. En resumen, si alguien tiene la información anónima de mi tarjeta de crédito, y tal vez mis datos de ubicación abierta de Twitter, entonces podrían de-anonimizar los datos de mi tarjeta de crédito “, dice Ratti.

Existen modelos similares para evaluar la de-anonimización en los datos. Pero aquellos utilizan enfoques intensivos computacionalmente para la reidentificación, lo que significa fusionar datos anónimos con datos públicos para identificar individuos específicos. Estos modelos solo han trabajado en conjuntos de datos limitados. Los investigadores del MIT, en cambio, utilizaron un enfoque estadístico más simple, que mide la probabilidad de falsos positivos, para predecir de manera eficiente la compatibilidad entre las puntuaciones de los usuarios en conjuntos de datos masivos.

En su trabajo, los investigadores compilaron dos conjuntos de datos anónimos de “baja densidad”, unos pocos registros por día, sobre el uso de teléfonos móviles y el transporte personal en Singapur, registrados durante una semana en 2011. Los datos móviles provinieron de un gran operador de redes móviles. comprendía marcas de tiempo y coordenadas geográficas en más de 485 millones de registros de más de 2 millones de usuarios. Los datos de transporte contenían más de 70 millones de registros con marcas de tiempo para individuos que se desplazan por la ciudad.

La probabilidad de que un usuario determinado tenga registros en ambos conjuntos de datos aumentará junto con el tamaño de los conjuntos de datos combinados, pero también lo hará la probabilidad de falsos positivos. El modelo de los investigadores selecciona un usuario de un conjunto de datos y encuentra un usuario del otro conjunto de datos con un alto número de sellos de ubicación coincidentes. En pocas palabras, a medida que aumenta el número de puntos coincidentes, la probabilidad de una coincidencia falsa positiva disminuye. Después de hacer coincidir un cierto número de puntos a lo largo de una trayectoria, el modelo descarta la posibilidad de que la coincidencia sea un falso positivo.

Centrándose en usuarios típicos, estimaron una tasa de éxito de emparejamiento del 17 por ciento a lo largo de una semana de datos compilados, y alrededor del 55 por ciento durante cuatro semanas. Esa estimación aumenta a aproximadamente el 95 por ciento con datos compilados durante 11 semanas.

Los investigadores también estimaron cuánta actividad se necesita para coincidir con la mayoría de los usuarios durante una semana. Al observar a los usuarios con entre 30 y 49 registros de transporte personal, y alrededor de 1,000 registros móviles, estimaron más del 90 por ciento de éxito con una semana de datos compilados. Además, al combinar los dos conjuntos de datos con rastreos de GPS, que las aplicaciones de los teléfonos inteligentes recopilan de forma activa y pasiva, los investigadores estimaron que podrían igualar el 95 por ciento de las trayectorias individuales, utilizando menos de una semana de datos.

Mejor privacidad

Con su estudio, los investigadores esperan aumentar la conciencia pública y promover regulaciones más estrictas para compartir datos del consumidor. “Todos los datos con sellos de ubicación (que son la mayoría de los datos recopilados de hoy) son potencialmente muy confidenciales y todos deberíamos tomar decisiones más informadas sobre con quién los compartimos”, dice Ratti. “Tenemos que seguir pensando en los desafíos en el procesamiento de datos a gran escala, sobre las personas, y en la forma correcta de proporcionar garantías adecuadas para preservar la privacidad”.

Con ese fin, Ratti, Kondor y otros investigadores han estado trabajando extensamente en los problemas éticos y morales de los grandes datos. En 2013, el Senseable City Lab en MIT lanzó una iniciativa llamada “Datos interactivos”, que involucra a líderes del gobierno, grupos de derechos de privacidad, instituciones académicas y empresas, que estudian cómo los datos de movilidad pueden y deben ser utilizados por las empresas de recopilación de datos de hoy.

“El mundo de hoy está lleno de datos”, dice Kondor. “En 2015, la humanidad produjo tanta información como se creó en todos los años anteriores de la civilización humana. Aunque los datos significan un mejor conocimiento del entorno urbano, en la actualidad gran parte de esta riqueza de información está en manos de unas pocas empresas e instituciones públicas que saben mucho sobre nosotros, mientras que nosotros sabemos muy poco sobre ellas. Tenemos que cuidarnos de evitar los monopolios de datos y el mal uso “.