Роман с Data Science. Как монетизировать большие данные. Роман ЗыковЧитать онлайн книгу.
использующие свои данные. Вот рекомендации Патила, которые следуют из этого принципа:
• Собирайте все данные, какие только возможно. Вне зависимости от того, строите ли вы просто отчетную систему или продукт.
• Продумывайте заранее и делайте вовремя измерение метрик проектов.
• Позвольте как можно большему количеству сотрудников знакомиться с данными. Множество глаз поможет быстрее выявить очевидную проблему.
• Стимулируйте интерес сотрудников задавать вопросы относительно данных и искать на них ответы.
Эти мысли я еще озвучу в главе про данные. А теперь самое время поговорить о том, что мы получаем на выходе анализа данных.
Артефакты анализа данных
Здесь и далее под артефактами я буду понимать осязаемый результат, физический или виртуальный объект.
Рис. 2.1. Артефакты аналитики
Их можно разделить на три вида (рис. 2.1):
• артефакты бизнес-анализа данных (business intelligence);
• артефакты машинного обучения (machine learning);
• артефакты инженерии данных (data engineering).
Поговорим о них подробнее.
Бизнес-анализ данных
Бизнес-анализ данных (Business Intelligence, BI) – термин уже устоявшийся. Вот какое определение дает Википедия:
«Business Intelligence – это обозначение компьютерных методов и инструментов для организаций, обеспечивающих перевод транзакционной деловой информации в человекочитаемую форму, пригодную для бизнес-анализа, а также средства для работы с такой обработанной информацией».
Под бизнес-анализом я подразумеваю объединение контекста бизнеса и данных, когда становится возможным бизнесу задавать вопросы к данным и искать ответы Первыми артефактами являются так называемые инсайты и гипотезы, вторыми – отчеты или дашборды, метрики и ключевые показатели (Key Performance Indicator). Поговорим подробнее об инсайтах и гипотезах.
Гипотезы и инсайты
Инсайт (insight) в переводе с английского – понимание причин. Именно за этим обращаются к аналитикам. В поиске инсайтов помогают аналитика и статистика:
• Цель аналитики заключается [10] в помощи формулирования гипотезы.
• Цель статистики [10] в том, чтобы эту гипотезу проверить и подтвердить.
Это требует пояснений. В бизнесе, да и в жизни тоже, мы ищем причину проблемы, задавая вопрос «почему?». Не зная причины, мы не можем принять решение. В игру вступает аналитика – мы формулируем список возможных причин: это и есть гипотезы. Чтобы это сделать, нужно задать несколько вопросов:
• Не происходило ли что-нибудь подобное раньше? Если да, то какие тому были причины? Тогда у нас будет самая первая и самая вероятная гипотеза.
• Обращаемся к бизнес-контексту: не происходило ли каких-либо неординарных событий? Часто как раз параллельные события влияют на возникновение проблемы. Еще плюс пара гипотез.
• Описательный анализ данных (exploratory data analysis): смотрим данные в аналитической системе (например, кубах OLAP), не видно ли каких-либо аномалий на глаз? Например,