Wired: #10YearChallenge – это просто мем?

Новый год наступил всего две недели назад, а интернет-пользователи уже сравнивают 2019-й с 2009-м. Как сильно вы изменились за эти 10 лет? Как сильно изменилась ваша жизнь? И как сильно она изменится ещё лет через 10? Ведь каждый ваш шаг влияет на ваше будущее. Особенно, если сегодня вы с радостью помогаете крупным компаниям обучать их алгоритмы для распознавания лиц. По крайней мере так считает Кейт О’Нил, недавно опубликовавшая заметку для Wired.

Флэшмоб #10YearChallenge – это обычный интернет-мем… Или всё-таки нечто большее?

Скорее всего, вы уже заметили, что сотни, а, может быть, уже и тысячи людей по всему миру начали выкладывать в сеть свои старые фотографии, сравнивая 2019 и 2009. Facebook, Instagram и Twitter наводнили публикации с хэштегами #10YearChallenge и #2009vs2019challenge. Тенденция, кстати, далеко не новая: люди и раньше массово сравнивали себя теперешних с собой тогдашними.

Я же вместо того, чтобы присоединиться к столь массовому движению, опубликовала твитт следующего содержания:

Я 10 лет назад: Наверное стоит подобрать подходящую аватарку, чтобы вписываться во всю эту движуху в Facebook и Instagram…
Я сейчас: Хм… А что, если кто-то воспользуется этими фотографиями, чтобы обучить алгоритмы распознавать возрастные изменения?

И понеслась… Я вовсе не утверждала, что флэшмоб опасен и зародился именно по этой причине. Но я уверена, что такой сценарий возможен и люди должны об этом знать. Нам стоило бы почаще задумываться о том, как много данных о себе мы оставляем каждый день.

Большинство пользователей, раскритиковавших мои подозрения, аргументировали это тем, что большинство этих фотографий и так были доступны. Никто ведь не делал новых фото и не копался в архиве неопубликованных фотографий. Самым распространённый комментарием под тем твиттом был «Да брось! Эти фотографии уже были на сайте, а значит у Facebook уже были все необходимые для обучения алгоритмов данные».

И это правда. В первых публикациях пользователи действительно сравнивали свою аватарку 10 лет назад со своей нынешней аватаркой. Эти данные у Facebook действительно уже были, причём с отметкой о времени каждой такой публикации. У большинства активных пользователей сети таких фотографий много, и почти всегда они находятся в открытом доступе.

Однако, давайте-ка просто немного поиграем с этой идеей…

Представьте, что у вас есть собственный механизм распознавания лиц и вы хотите научить его лучше распознавать возрастные изменения. Он отлично справляется с «узнаванием» человека сейчас, но справится ли он с этой задачей через несколько лет? Вам нужны новые данные, много данных, много идентичных по своим характеристикам данных. Идеально было бы получить два массива изображений с одинаковым временным интервалом. Например, через 10 лет.

Разумеется, вы могли бы «достать» эти фотографии из Facebook. Но как на счёт тех, кто использовал в качестве аватарки фотографию своего кота или любимого персонажа из аниме? Я пробежалась по списку друзей на Facebook: кто-то годами не менял аватарку, кто-то вдруг превратился в милого щенка, кто-то стал героем мультфильма, глубокомысленной надписью или абстрактным узором. Слишком много мусора, который лишь помешает вашему алгоритму обучаться!

К тому же вам бы вручную пришлось отбирать каждую пару фотографий. Уж слишком трудозатратно! Вам нужен простой и чёткий набор релевантных фотографий, условно помеченных как «тогда» и «сейчас».

И не забывайте о том, что дата публикации фото в Facebook не всегда совпадает с моментом, когда этот снимок был сделан на самом деле. Даже скрытые метаданные, прописанные в свойствах файла, могут быть недостаточно достоверными. А вам нужна точность!

Проблем много:

  • Кто-то мог использовать в качестве аватарки скан старой фотографии. Данные о времени её создания искажены.
  • Кто-то могу несколько раз загружать на сайт одну и ту же фотографию, снова и снова «обновляя» её в глазах Facebook.
  • Кто-то мог загрузить в качестве аватарки картинку, скаченную из интернета. Кто подтвердит её релевантность?

К тому же далеко не факт, что у Facebook остались данные, спрятанные глубоко в свойствах оригинального файла. Ведь многие сайты попросту удаляют ненужные данные.

Но благодаря флэшмобам пользователи массово загружают в сеть нужные файлы. Многие из них даже снабжают фото воспоминаниями из жизни: «я в университете», «фотографию нашёл в альбоме у Джо», «был в Нью-Йорке», «тогда я ещё ходил по музеям» и т. д.

Проще говоря, если кому-то был нужен массив четко структурированных данных, то благодаря простенькому интернет-мему он его получил. Миллионы фотографий одних и тех же людей с разницей в 10 лет!

Многие пользователи со мной несогласны, и у многих из них есть разумные аргументы, спорить с которыми сложно. Например, кто-то из комментаторов предположил, что даже собирая данные таким способом, придётся сперва удалить из них мусор, оставленный интернет-троллями, ведь многим подобные помешательства кажутся прекрасной возможностью блеснуть своим чувством юмора. Я же считаю, что прежде, чем тролли и спам-боты «захватят» хэштег и начнут использовать его в своих целях, пользователи и так успеют опубликовать достаточное количество данных.

Распознать лицо не так просто! Это сложный механизм, анализирующий сотни, а, может быть, и тысячи различных факторов. Неужели вы думаете, что, если кто-то решит пошутить и загрузит в сеть фотографию своей кошки «тогда» и «сейчас», нейросеть не сможет заметить подмены? Такие фотографии легко отбраковать, оставив лишь нужные данные. С этой задачей могла бы справится и сама нейросеть (как та же, так и специально написанная).

Кстати, Facebook полностью отрицает свою причастность к #10YearChallenge: «Это мем, и, как и любой другой интернет-мем, этот зародился сам по себе. Флэшмоб запустили не Facebook, его запустили сами пользователи. Все эти фотографии и так были у Facebook, так что в данном случае мы вообще бы не получили новых данных (кроме напоминания о странных тенденциях моды 2009-го). Кстати, пользователи Facebook в любое время могут включить функцию автоматического распознавания лиц. Но всё это строго добровольно!», – пояснил представитель компании.

Что ж… Допустим мем действительно зародился сам по себе и социальная инженерия тут совершенно не при чём. Однако случаев, когда подобные массовые помешательства на казалось бы безобидных темах оборачивались попыткой скрытого сбора данных, и так хватает: взять хотя бы прошлогоднюю утечку данных 70 миллионов пользователей Faceboook, ведь как раз игры и публикации Cambridge Analytica использовала для прикрытия и распространения своих приложений.

Но давайте слегка сменим тему и порассуждаем вот о чём: разве плохо, что кто-то воспользуется уже опубликованным фотографиями из интернета и с их помощью обучит нейронную сеть немного лучше распознавать лица? Не обязательно: в некотором смысле такое развитие событий неизбежно, а в некоторых случаях это могло бы быть нам полезно. Однако рядовых пользователей цели и последствия такого сценария интересуют мало, но так и должно быть! Важно, чтобы каждый из нас осознал, как много данных о себе мы генерируем каждый день и как много данных мы перестаём контролировать сразу же после публикации. Вы вольны лишь рассказать что-то всему миру, но вы уже не сможете заставить его об этом забыть. Но всё же я предположу три возможных варианта развития событий: приемлемый, привычный и рискованный.

Начнём, пожалуй, с чего-то хорошего: алгоритмы распознавания лиц (особенно те, которые заточены на предсказания возрастных изменений) помогут нам находить пропавших детей. Подобные технологии уже доступны и уже приносят свои плоды. Лишь за прошлый год полиция Нью-Дели обнаружила более 3 тыс. пропавших детей. Однако, если бы прошло чуть больше времени, нейросеть, скорее всего, уже не узнала в них лица пропавших. Алгоритм, предсказывающий возрастные изменения, смог бы предугадать, как выглядит ребёнок, пропавший много лет назад, мог бы спасти тысячи детских жизней.

Есть и чуть более привычный способ использования подобных алгоритмов. Например, в рекламе. Рекламные сеть могли бы адаптировать объявления под конкретную возрастную группу, к которой принадлежит пользователь. Данные о дате рождения больше не понадобятся. Скорее всего, именно это и ждёт нас в ближайшее десятилетие. Да, это скучно, но именно так и устроен современный мир. Однако в сочетание с той информацией о нас, которая уже имеется в распоряжении крупных рекламных сетей, даже такой сценарий может обернуться чем-то по-настоящему жутким…

Технологии сами по себе нейтральны. Важно, как именно их будут использовать, и предсказать последствия далеко не так просто, как кажется обывателям. Например, алгоритмы, обученные распознавать возраст пользователя, могли бы использовать в медицине или страховке: если нейросети покажется, что вы выглядите хуже, чем большинство ваших ровесников, страховки и льгот вам не видать! Стареете быстрее положенного? Готовьте кошелёк!

В 2016 г. Amazon разработал систему распознавания лиц в реальном времени. К концу года доступ к ней был предоставлен правоохранительным органам нескольких штатов (например, Орландо, Вашингтону и Оригону). Однако применение таких технологий у многих вызывает опасение: что если помимо преступников полицейские начнут отслеживать и участников протестных акций?

Американский союз гражданский свобод (American Civil Liberties Union) попросил Amazon прекратить сотрудничество с государственными структурами. Их поддержали акционеры и некоторые сотрудники компании: по их мнению репутационные потери могут быть гораздо выше, чем приобретённая выгода.

Влияние технологий на развитие человечества трудно переоценить. У нас есть шанс сделать этот мир чуточку лучше, но для этого мы должны чётко осознавать последствия и возможные риски. И прежде, чем мы примем решение, нужно взвесить все «за» и «против».

Ну так что? Рухнет ли мир от того, что вы разместите у себя в профиле несколько фотографий? И так ли опасно способствовать обучению искусственного интеллекта, натренированного на распознавание возрастных изменений в лице человека? Не совсем…

Не столь важно, где зародился мем и кто именно начал этот флэшмоб. Важно, чтобы пользователи почувствовали ответственность за мир, в котором мы живём. Если бы всё это изначально было игрой? Что если бы вам открыто рассказали о целях эксперимента? Что если бы вам объяснили, зачем и для каких целей всё это нужно? Стали бы вы в этом участвовать? Или вы бы предпочли остаться в стороне? Но какое бы решение вы ни приняли, это был бы только ваш выбор и ваша ответственность.

Ну и чему же учит нас эта история? Да хотя бы тому, что в мире постоянно развивающихся технологий мы сами становимся неисчерпаемым источником данных для самообучающихся алгоритмов. Постарайтесь не забывать об этом и будьте осмотрительны!

Именно мы связываем физический мир с цифровым. И именно мы делаем развитие технологий таким непредсказуемым. Но именно это и делает мир интересным. Мир изменился, изменились и ресурсы, которые его питают. Отныне мы сами становимся главным ресурсом и главной ценностью. Мы и данные, которые мы оставляем.

И именно поэтому мы должны потребовать, чтобы к нашим данным относились с должными уважением и осторожностью. Но с той же осторожностью мы должны относиться к собственным данным!

Кейт О’Нил
специально для Wired
15 января 2019 г.

Comment