Wired: Метаданные угрожают вашей конфиденциальности

Специалисты по безопасности из института Алана Тьюринга и Лондонского университета провели довольно занятный эксперимент: сперва они отобрали 10 тыс. пользователей Twitter и попытались разобраться, по каким данным их можно было бы идентифицировать, а затем написали специальный алгоритм, который почти со стопроцентной точностью сумеет найти вас по фрагментам метаданных одного их ваших твиттов. Способов защиты пока не существует. Перевод заметки Wired.

Метаданные Twitter могут обернуться настоящим кошмаром для тех, кого беспокоят проблемы конфиденциальности

Метаданные повсюду: всё, что вы твиттите, каждый снимок, который вы выкладываете в Instagram, каждое обновление статуса на Facebook. Зачастую вы даже не подозреваете, как много информации скрыто в каждой вашей публикации. Именно поэтому эти данные так ценны для правоохранительных органов, ведь с их помощью можно идентифицировать пользователя, который скрывает или просто не афиширует свою личность, а банальное селфи, сделанное не в то время или не в том месте, может разрушить любое алиби.

И метаданные Twitter – это как раз та штука, с помощью которой каждого из нас можно идентифицировать. Причём точность такой идентификации чрезвычайно высока. По крайней мере этого мнения придерживаются исследователи из института Алана Тьюринга и Лондонского университета. Оказывается, каким бы анонимным не казался вам Twitter, каждое ваше сообщение может выдать вашу личность. Ошибки случаются, но крайне редко. И всё, что нужно для того, чтобы раскрыть вашу личность, это лишь ваши метаданные.

Для участия в исследовании было отобрано 10 тыс. пользователей Twitter. Специалисты пытались идентифицировать пользователя, используя лишь метаданные, привязанные к одному из его твиттов. И в 96.7% случаев им это удавалось! Даже если метаданные точны лишь на 60%, этого вполне достаточно, чтобы идентифицировать конкретного пользователя с точностью более 95%.

«Метаданные – это намного больше, чем та информация, которая фактически содержится в вашем твитте», – объясняет Саввас Заннеттоу, аспирант из Технологического университета Кипра. «Людям же кажется, что поскольку их данные хранятся на удалённом сервере, использовать их для идентификации невозможно. Но это не так!», – добавляет соавтор статьи Беатрис Перес из Лондонского университета.

Никто в здравом уме не станет сообщать незнакомцу свой адрес. Но если незнакомец спросит вас, как часто вы включаете или выключаете свет в спальне, вы, возможно, ответите. Что в этом такого? Точно также работают и метаданные. «Людям кажется, что всё это не имеет почти никакого значения. А раз так, зачем это скрывать? Но ведь этой информации достаточно, чтобы узнать, когда вы бываете дома», – продолжает Перес.

И Заннетоу с ней полностью согласен: «Это довольно распространённое заблуждение. Среднестатистический пользователь не понимает, как легко его можно идентифицировать с помощью метаданных». По их мнению, большинство пользователей Twitter и понятия не имеют о том, как много информации содержится в твитте длиною всего в две сотни символов. И все эти данные доступны через API сайта.

Обезличивание данных не решит проблему

Специалисты использовали базу из 5 млн. пользователей Twitter, а потом прогнали 14 фрагментов метаданных из собственных твиттов (информацию о времени размещения публикации, дате регистрации учётной записи, количестве избранных твиттов, числе подписок и подписчиков) через три различных алгоритма машинного обучения.

По мнению исследователей, самый простой способ идентификации оказался самым эффективным и точным. И это доказывает, что, имея на руках лишь фрагменты метаданных, можно с почти абсолютной точностью идентифицировать любого пользователя Twitter.

Алгоритм анализирует имеющиеся у него данные и пытается обнаружить в них определённые закономерности. Потом ИИ выпускают «на волю», где он ищет знакомые совпадения. Если кандидатов несколько, алгоритм выберет того, кто кто наиболее точно соответствует критериям.

«Если социальная сеть попытается обезличить собранные данные, проблему это всё равно не решит, – считает Перес. – К тому же из-за специфики информации обезличить метаданные будет не так-то просто». Любые попытки удалить из метаданных личную информацию о пользователе тщетны, ведь мы всегда можем использовать несколько видом имеющихся у нас данных, и этого будет вполне достаточно для весьма точной идентификации.

Перес и её коллеги несколько раз пытались запутать систему, выборочно удаляя некоторые части метаданных. В теории это должно было запутать алгоритм и существенно усложнить его работу. «Даже если бы у нас была лишь размытая информация о пользователе, мы бы всё равно смогли найти его и идентифицировать», – заявляет Перес. Скорость идентификации пользователя оставалась стабильно высокой вплоть до того момента, пока исследователи не удалили абсолютно все данные и идентификация стала невозможной.

Возможно, после вступления в силу нового регламента хранения данных GDPR ситуация начнёт меняться. «Я думаю, нам следует уделять метаданным чуть больше внимания», – говорит консультант по защите данных Пэт Уолш. Данные должны быть защищены изначально и по умолчанию. Как раз об этом говорится в 25-й статье GDPR. Это касается в том числе и минимизации тех данных, которые может собирать и обрабатывать компания. Новый регламент запрещает сбор данных, если они необязательны для нормальной работы сервиса.

Но гораздо важнее, как именно компании хранят данные, по которым нас так легко идентифицировать. Ведь этих данные слишком много и они могут быть слишком опасны для рядового пользователя. Ещё важнее, как сами пользователи будут воспринимать сложившуюся ситуацию. «Разумеется, пользователи должны быть обеспокоены собственной конфиденциальностью, – говорит Заннетоу, – вот только я настроен скептически и почему-то не верю, что завтра что-то изменится»…

Крис Стокел-Уокер,
Wired UK – 9 июля 2018 г.

Join the Conversation

Comment