Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры. Эрец ЭйденЧитать онлайн книгу.
ученых эта ситуация ведет к полному изменению правил игры. Мы привыкли к миру, в котором мы создаем или получаем данные, а затем анализируем их любым желательным для нас образом. В некоторых случаях ученому может потребоваться одобрение со стороны научного совета по этике. Однако традиционный подход мог сделать незаконным и неэтичным каждое из исследований в области больших данных, упомянутых нами во «Введении», – от произведенного Левином анализа eBay до проведенного Барабаши исследования движений мобильного телефона. В мире больших данных получить все сразу и проанализировать это позднее невозможно ни по практическим, ни по моральным соображениям. Как можно воспользоваться всеми преимуществами больших данных, если их не хотят – или даже не имеют права – передать нам?
Вопрос Норвига заставил нас задуматься над этой важнейшей проблемой.
Большие данные и их большая тень
Если бы мы попросили Google просто передать нам полные тексты всех книг мира, эта просьба повисла бы в воздухе. К счастью, это было не нужно.
Дело в том, что большие данные отбрасывают большие тени. Подобно тому как тень представляет собой темную проекцию реального объекта – визуальную трансформацию, сохраняющую некоторые характеристики изначального объекта, при этом искажающую остальные, тень данных сохраняет часть изначальной информации. Хотя анализ тени представляет собой скорее искусство, а не науку, он крайне важен для успеха при работе с большими данными. Неправильная тень может оказаться этически сомнительной, юридически ущербной и бесполезной с научной точки зрения. Но если вы выберете правильный угол, то, возможно, вам удастся справиться с юридически и этически чувствительными элементами изначального массива данных, сохраняя при этом значительную часть его содержания.
Если вам повезет, создание тени для набора данных становится простым процессом. Например, часто проблема большого массива данных состоит в том, что он придает огласке конфиденциальную и личную информацию. В этом случае можно просто удалить имя человека, связанного с каждой записью. Но такая простая ситуация возникает крайне редко. Проблема состоит в том, что множество больших массивов данных настолько перенасыщено информацией, что при ближайшем рассмотрении имя человека становится лишним. Данные содержат так много определяющих характеристик, что под них часто подпадает один-единственный житель планеты. И в этом случае удаление имени нам мало чем поможет.
Компания America Online усвоила этот печальный урок в 2006 году, когда, пытаясь помочь научным исследованиям, предоставила в открытый доступ поисковые логи более чем 650 000 пользователей[87]. Разумеется, AOL отредактировала их – имена людей были исключены, а идентификатор каждого пользователя был заменен на ничего не значащую цифровую комбинацию. AOL посчитала, что это обеспечит должную степень конфиденциальности пользователей. Однако компания сильно ошиблась.
Благодаря изучению логов, оказавшихся в открытом доступе,
87
См. Barbaro Michael, Zeller Tom, Jr. A Face Is Exposed for AOL Searcher No. 4417749 // New York Times (9 августа 2006 г.), доступно в сети Интернет: http://goo.gl/c8MCY; About AOL Search Data Scandal, доступно в сети Интернет: http://goo.gl/6hnfuI.