Ciencia de datos. Брендан ТирниЧитать онлайн книгу.
de estadística e informática para procesar datos para encontrar patrones. El científico de datos que participa en los aspectos aplicados del aprendizaje automático no tiene que escribir sus propias versiones de algoritmos de aprendizaje automático. Al comprender estos algoritmos, para qué se pueden usar, qué significan los resultados que generan y qué tipo de algoritmos de datos particulares se pueden ejecutar, el científico de datos puede considerar los algoritmos de aprendizaje automático como un cuadro gris. Esto le permite concentrarse en los aspectos aplicados de la ciencia de datos y probar los diversos algoritmos para ver cuáles funcionan mejor para el escenario y los datos que le interesan.
Finalmente, un aspecto clave de ser un científico de datos exitoso es poder comunicar la historia en los datos. Esta historia podría descubrir el conocimiento que ha revelado el análisis de los datos o cómo los modelos creados durante un proyecto se ajustan a los procesos de una organización y el probable impacto que tendrán en el funcionamiento de la misma. No tiene sentido ejecutar un proyecto brillante de ciencia de datos a menos de que se utilicen y comuniquen los resultados de este de tal manera que los colegas con antecedentes no técnicos puedan comprenderlos y confiar en ellos.
¿Dónde se usa la ciencia de datos?
La ciencia de datos impulsa la toma de decisiones en casi todos los aspectos de las sociedades modernas. En esta sección, describimos tres estudios de caso que ilustran el impacto de la ciencia de datos: las compañías de consumo que usan la ciencia de datos para ventas y marketing; los gobiernos que utilizan la ciencia de datos para mejorar la salud, la justicia penal y la planificación urbana; y las franquicias deportivas profesionales que utilizan ciencia de datos en el reclutamiento de jugadores.
Ciencia de datos en ventas y marketing
Walmart tiene acceso a grandes conjuntos de datos sobre las preferencias de sus clientes mediante el uso de sistemas de punto de venta, rastreando el comportamiento del cliente en el sitio web de Walmart y los comentarios de las redes sociales sobre Walmart y sus productos. Durante más de una década, Walmart ha estado utilizando la ciencia de datos para optimizar los niveles de stock en las tiendas, un ejemplo bien conocido es cuando en 2004 reabasteció con Pop-Tarts de fresas sus tiendas en la ruta del huracán Francis en base a un análisis de datos de ventas previos al huracán Charley, que había golpeado unas semanas antes. Más recientemente, Walmart ha utilizado la ciencia de datos para impulsar sus ingresos minoristas en términos de introducir nuevos productos basados en el análisis de las tendencias de las redes sociales, el análisis de la actividad de las tarjetas de crédito para hacer recomendaciones de productos a los clientes y la optimización y personalización de la experiencia en línea de los clientes en el sitio web de Walmart. Walmart atribuye un aumento del 10% al 15% en las ventas en línea a las optimizaciones de ciencia de datos (DeZyre 2015).
El equivalente de ventas superiores y ventas cruzadas en el mundo en línea es el “sistema de recomendación”. Si has visto una película en Netflix o has comprado un artículo en Amazon, sabrás que estos sitios web utilizan los datos que recopilan para proporcionar sugerencias sobre lo que debes ver o comprar a continuación. Estos sistemas de recomendación se pueden diseñar para guiarte de diferentes maneras: algunos te guían hacia éxitos de taquilla y bestsellers, mientras que otros te guían hacia artículos de nicho que son específicos para tus gustos. El libro de Chris Anderson, La Economía Long Tail (2008), argumenta que a medida que la producción y la distribución se vuelven menos costosas, los mercados pasan de vender grandes cantidades de un pequeño número de artículos exitosos a vender cantidades más pequeñas de un mayor número de artículos de nicho. Esta compensación entre impulsar las ventas de productos exitosos o de nicho es una decisión de diseño fundamental para un sistema de recomendación y afecta los algoritmos de ciencia de datos utilizados para implementar estos sistemas.
Gobiernos que usan ciencia de datos
En los últimos años, los gobiernos han reconocido las ventajas de adoptar la ciencia de datos. En 2015, por ejemplo, el gobierno de Estados Unidos nombró al Dr. D. J. Patil como el primer científico de datos en jefe. Algunas de las mayores iniciativas de ciencia de datos encabezadas por el gobierno de Estados Unidos han estado en salud. La ciencia de datos está en el centro de las iniciativas “Cancer Moonshot”4 y “Precision Medicine”. La iniciativa “Precision Medicine” [Medicina de precisión] combina la secuenciación del genoma humano y la ciencia de datos para diseñar medicamentos para pacientes individuales. Una parte de la iniciativa es el programa “All of Us” [Todos nosotros], 5 que recopila datos ambientales, de estilo de vida y biológicos de más de un millón de voluntarios para crear los conjuntos de datos más grandes del mundo para la medicina de precisión. La ciencia de datos también está revolucionando la forma en que organizamos nuestras ciudades: se utiliza para rastrear, analizar y controlar los sistemas ambientales, de energía y de transporte e informar la planificación urbana a largo plazo (Kitchin 2014a). Volveremos al tema de la salud y las ciudades inteligentes en el capítulo 7, en el que discutiremos cómo la ciencia de datos será aún más importante en nuestras vidas en las próximas décadas.
La iniciativa de datos policiales del gobierno de EE.UU.6 se centra en el uso de la ciencia de datos para ayudar a los departamentos de policía a comprender las necesidades de sus comunidades. La ciencia de datos también se está utilizando para predecir los puntos críticos del crimen y la reincidencia. Sin embargo, los grupos de libertad civil han criticado algunos de los usos de la ciencia de datos en la justicia penal. En el capítulo 6, discutiremos las preguntas de privacidad y ética planteadas por la ciencia de datos, y uno de los factores interesantes en esta discusión es que las opiniones que las personas tienen en relación con la privacidad personal y la ciencia de datos varían de un dominio a otro. Muchas personas que están contentas de que sus datos personales sean utilizados para investigaciones médicas financiadas con fondos públicos tienen opiniones muy diferentes cuando se trata del uso de datos personales para la vigilancia y la justicia penal. En el capítulo 6, también discutiremos el uso de datos personales y ciencia de datos para determinar las primas de seguros de vida, salud, automóvil, hogar y viajes.
Ciencia de datos en deportes profesionales
La película Moneyball (Bennett Miller 2011), protagonizada por Brad Pitt, muestra el creciente uso de la ciencia de datos en los deportes modernos. La película se basa en el libro del mismo título (Lewis 2004), que cuenta la verdadera historia de cómo el equipo de béisbol Oakland Athletics utilizó la ciencia de datos para mejorar su reclutamiento de jugadores. La gerencia del equipo identificó que las estadísticas de porcentaje en base y el poder de un bateador eran indicadores más informativos del éxito ofensivo que las estadísticas tradicionalmente enfatizadas en el béisbol, como el promedio de bateo de un jugador. Esta idea permitió a Oakland Athletics reclutar una lista de jugadores infravalorados y tener un desempeño por encima de su presupuesto. El éxito de Oakland Athletics con la ciencia de datos ha revolucionado el béisbol, y la mayoría de los otros equipos de béisbol ahora integran estrategias similares basadas en datos en sus procesos de reclutamiento.
La historia de Moneyball es un ejemplo muy claro de cómo la ciencia de datos puede dar a una organización una ventaja en un espacio de mercado competitivo. Sin embargo, desde una perspectiva de ciencia de datos pura, quizás el aspecto más importante de la historia de Moneyball es que destaca que a veces el valor principal de la ciencia de datos es la identificación de atributos informativos. Una creencia común es que el valor de la ciencia de datos está en los modelos creados a través del proceso. Sin embargo, una vez que conocemos los atributos importantes en un dominio, es muy fácil crear modelos basados en datos. La clave del éxito es obtener los datos correctos y encontrar los atributos correctos.
La clave del éxito es obtener los datos correctos y encontrar los atributos correctos. |
En Freakonomics: Un economista politicamente incorrecto explora el lado oculto de lo que nos afecta, Steven D. Levitt y Stephen Dubner ilustran la importancia de esta observación en una amplia gama de problemas. Como lo expresaron, la clave para entender la vida moderna es “saber qué medir y cómo medirlo” (2009, 14). Mediante la ciencia de datos podemos descubrir los patrones importantes en un conjunto de datos, y estos patrones pueden revelar los atributos importantes en el dominio. La razón por la cual la ciencia de datos