BIG DATA. Вся технология в одной книге. Андреас ВайгендЧитать онлайн книгу.
постараться обнаружить закономерность. И хотя статистик сможет порекомендовать, сколько времени нужно потратить на наблюдение за каждым из этих шумных устройств, у вас все равно останется выбор – или исследовать новые варианты, или использовать тот, который уже доказал свою результативность. Может показаться, что пример об «одноруком бандите» имеет мало общего с конечной продукцией инфопереработки, однако в списке рекомендаций для пользователей в качестве ключевой задачи значится как раз поддержание баланса между исследованием и использованием. Из этих соображений пользователь выбирает наиболее подходящую ему рекомендацию. И здесь аналогия с нефтью снова придется кстати. Геологи-нефтяники и инженеры оценивают альтернативу: стоит ли и дальше вкладывать значительные средства до полной выработки существующего месторождения или же переключиться на поиски новых, где добыча может обходиться не так дорого. Инфопереработчикам также приходится решать проблемы лучшего применения ресурсов для максимизации эффективности входящих и исходящих потоков данных. В том, что касается информации, главным параметром, который надлежит контролировать, является время пользователей.
Когда поисковик вроде Google выдает ответ на ваш запрос, перечень сайтов представляет не десятки одинаковых позиций, а предлагает различные варианты в рамках определенной степени релевантности предмету поиска. Иногда бывает понятно, что вам нужна информация о чем-то совершенно конкретном, например в случае, когда вы вводите в строку поиска словосочетание «Panthera onca». Но если вы введете в качестве предмета поиска просто «ягуар», то компьютер покажет вам не только то, что относится к представителю кошачьих, автомобилю или старой операционной системе компьютеров Mac[43]. Алгоритмы поисковой системы создают кластеры значений слова «ягуар» на основе количества слов на странице, связей между страницами и перемещениями пользователей между страницами и предлагают для изучения выборки из каждого такого кластера, чтобы обеспечить большую вероятность успеха вашего поиска.
Разновидностью задачи об «одноруком бандите» является задача «оптимального момента остановки», или «взыскательного ухажера». Впервые ее описал Мартин Гарднер в своей колонке «Математические игры» в журнале Scientific American. В его варианте на листках бумаги пишутся любые числа, «от мельчайших долей единицы до астрономически больших, вроде единицы со ста нулями»[44]. Листочки перетасовываются, а затем перебираются один за другим до тех пор, пока вы не останавливаетесь на том, где, как вы считаете, значится самое большое число. Со временем листочки бумаги в мысленном эксперименте превратились в ухажеров, идущих на свидание. Вы приходите на свидание, и вам надо решить: будете ли вы встречаться с остальными девушками или прекратите поиск, потому что это та самая? В реальной жизни выбор между исследованием и использованием может иметь критически важное значение.
Понятно,
43
Спасибо одному из заслуженных разработчиков Microsoft Яну О. Педерсену за его рассказ о том, как решалась проблема исследования/использования в Yahoo! (где он прежде работал главным научным сотрудником поисковой системы) на примере поискового запроса «ягуар».
44
Гарднер рассмотрел так называемую «задачу секретаря» в журнале Scientific American за февраль/март 1960 года. См. Gardner, Martin, Martin Gardner’s New Mathematical Diversions (New York: Simon & Schuster, 1966), p. 35.