La distribución de colores para chocolates M&M

clip_image002
Por Rick Wicklin en The DO Loop 
VERSIÓN traducida

Muchos cursos introductorios de probabilidad y estadística alientan a los estudiantes a recopilar y analizar datos reales. Un experimento popular en el análisis de datos categóricos es ofrecerles a los estudiantes una bolsa de caramelos M & M® y pedirles que calculen la proporción de colores en la población a partir de los datos de muestra. En algunas clases, también se les pide a los estudiantes que realicen un análisis de chi-cuadrado para comprobar si los colores están distribuidos uniformemente o si los colores coinciden con un conjunto hipotético de proporciones.
clip_image004
M & M's® tiene una larga historia en SAS. SAS es el mayor consumidor corporativo de M& M en el mundo. Todos los miércoles un empleado de SAS visita cada descanso en el campus y llena dos contenedores grandes llenos de M & M. Este artículo usa el software SAS para analizar el clásico experimento de "distribución de colores".

La proporción de colores para M & M

Los dulces "simples" de M & M (ahora llamados "M & M de chocolate con leche") son producidos por la compañía Mars, Inc. La distribución de colores en M & M tiene una historia larga y colorida. Los colores y las proporciones cambian ocasionalmente, y la distribución es diferente para el maní y otras variedades. Algunos incidentes de mi vida que hicieron las noticias nacionales son:
  • 1976: Red M & M's son reemplazados por naranja. Esta fue una gran historia.  Se descubrió que el "colorante rojo # 2" era carcinógeno.  Aunque Mars no usó este tinte en sus dulces, la compañía cambió los colores para aliviar las preocupaciones de los clientes.
  • 1986: Red M & M's son traídos de vuelta. Naranja se queda.
  • 1995: El color tostado se reemplaza por un color más vivo. En una campaña promocional, se le pide al público que vote por el color de reemplazo. Diez millones de votos; el azul gana en un deslizamiento de tierra.
  • Finales de los 90: el sitio web de M & M enumera la distribución de colores. Hacia 1997, la distribución del color era  30% marrón, 20% amarilla, 20% roja, 10% naranja, 10% verde y 10% azul. Los estadísticos y los educadores se regocijan y publican muchos artículos sobre el tema.
  • 2008: Mars cambia la distribución del color a  24% azul, 20% naranja, 16% verde, 14% amarillo, 13% rojo, 13% marrón.  Algún tiempo después, las proporciones se eliminaron del sitio web y no se restauraron.
  • 2017: ¿Cuál es la distribución actual de colores? ¡Sigue leyendo para ver una historia interesante!


Proporciones y prueba de chi-cuadrado

Los contenedores de descanso en SAS se llenan con bolsas de dos libras. Para no robar todos los M & M's en el salón de descanso, realicé este experimento durante muchas semanas a finales de 2016 y principios de 2017, tomando una cucharada de M & M's cada semana. El siguiente conjunto de datos contiene los recuentos acumulados para cada uno de los seis colores en una muestra de tamaño N = 712:
clip_image006
En la parte superior de este artículo, se muestra un gráfico de barras que muestra la distribución observada de los colores en M & M.
Para estimar la proporción de colores en la población, simplemente divida cada recuento por el tamaño total de la muestra, o utilice el procedimiento FREQ en SAS. PROC FREQ también le permite ejecutar una prueba de chi-cuadrado que compara los recuentos de muestra con los recuentos esperados en una distribución especificada. La distribución publicada más reciente es de 2008, así que probemos esas proporciones:
clip_image008

clip_image010
Las proporciones observadas y esperadas se muestran en la tabla a la derecha. La prueba de chi-cuadrado rechaza la hipótesis de la prueba en el nivel de significancia α = 0.05 (95% de confianza). En otras palabras, ¡la distribución de colores para M & M en esta muestra de 2017 NO parece ser la misma que la distribución de color de 2008! Puede ver esto visualmente desde el gráfico de barras: las barras rojas y verdes son demasiado altas y la barra azul es demasiado corta en comparación con los valores esperados.
Necesita una muestra grande para estar seguro de que esta desviación empírica es real. Después de recolectar datos durante algunas semanas, hice un análisis preliminar que analizó alrededor de 300 caramelos. Con esa muestra más pequeña, la diferencia entre las proporciones observadas y las esperadas podría atribuirse a la variabilidad del muestreo, por lo que la prueba de chi-cuadrado no rechazó la hipótesis nula. Sin embargo, mientras ejecutaba esa prueba noté que los colores verde y azul representaban la mayor parte de la diferencia entre las proporciones observadas y teóricas, así que decidí recopilar más datos.

Intervalos de confianza simultáneos para las proporciones de M & M

Como expliqué en un artículo anterior, puede usar las proporciones de muestra para construir intervalos de confianza simultáneos para las proporciones de población. Las siguientes sentencias SAS / IML cargan y llaman a las funciones de la publicación anterior:
clip_image011
La tabla indica que la proporción de 2008 publicada para azul (0.24) está muy por fuera del intervalo de confianza del 95%, y la proporción para el verde (0.16) apenas se encuentra dentro de su intervalo. Eso por sí solo no prueba que la proporción de 2008 ya no sea válida (podríamos haber tenido mala suerte durante el muestreo), pero combinada con la prueba de chi-cuadrado anterior, parece poco probable que las proporciones de 2008 sean aplicables a estos datos.

Llamando a los expertos

Las proporciones publicadas para verde y azul no parecen coincidir con las proporciones de muestra de 2008. Para esta gran muestra, la proporción publicada de azul es demasiado grande, mientras que la proporción publicada de verde es demasiado pequeña.
Después de leer artículos anteriores, sé que el equipo de Atención al Cliente de M & M / Mars es muy amable y receptivo. Aparentemente se les pregunta sobre la distribución de colores con bastante frecuencia, así que les envié una nota. Al día siguiente enviaron un desglose de los colores para todos los dulces de M & M.
Curiosamente, los M & M simples (y de maní) ahora se producen en dos fábricas diferentes en los EE. UU. ¡Y las fábricas no usan la misma mezcla de colores! Debe buscar en el paquete el código de fabricación, que generalmente está estampado dentro de un rectángulo. En el medio del código estarán las letras HKP o CLV. Por ejemplo, el código podría leer 632G CLV 20.

  • CLV : La planta de Cleveland usa la siguiente proporción de colores para M & M simples:  Rojo = 0.131, Naranja = 0.205, Amarillo = 0.135, Verde = 0.198, Azul = 0.207, y Café = 0.124.
  •  HKP : La planta de Hackettstown, NJ, usa la siguiente proporción de colores para M& M simples:  Rojo = 0.125, Naranja = 0.25, Amarillo = 0.125, Verde = 0.125, Azul = 0.25 y Marrón = 0.125.


Aunque no sabía acerca de los códigos de fabricación cuando recopilé los datos, creo que está claro que el grueso de mis datos provino de la planta de CLV. Puede crear un gráfico que muestre las proporciones de muestra, los intervalos de confianza simultáneos al 95% y las marcas de almohadilla verticales para indicar los parámetros de población de CLV, de la siguiente manera:
clip_image013
El gráfico muestra que las proporciones observadas son cercanas a las proporciones de la planta CLV. Todas las proporciones están dentro del intervalo de confianza simultáneo del 95% de los datos. Si vuelve a ejecutar el análisis chi-cuadrado PROC FREQ con las proporciones CLV, la prueba no rechaza la hipótesis nula.

Resumen

La evidencia experimental indica que los colores de M & M simples en 2017 no coinciden con las proporciones que se publicaron en 2008.
Después de contactar al equipo de atención al cliente de M & M / Mars, me enviaron un nuevo conjunto de proporciones para 2017. Las proporciones de color ahora dependen de dónde se fabricaron los dulces. Mis datos coinciden con la proporción de colores de la planta de Cleveland (código de fabricación CLV).
Si está ejecutando este análisis usted mismo, asegúrese de registrar si sus dulces provienen de la planta de HKP o CLV. Si desea ver mi análisis, puede descargar el programa SAS completo que analiza estos datos.
Los educadores que utilizan M & M's para enseñar probabilidad y estadística necesitan registrar la planta de fabricación, pero este sigue siendo un experimento divertido (¡y delicioso!). ¿Qué piensas? ¿Prefiere la distribución casi igualitaria naranja-azul-verde de la planta CLV? ¿O te gusta el dominio naranja-azul de la planta de HKP? ¿O simplemente disfrutas de la cáscara crujiente y la bondad de derretirse en la boca, independientemente de qué color son los dulces?

Comentarios

Entradas más populares de este blog

Facultamiento y delegación: Concepto, objetivos, beneficios del facultamiento

Facultamiento y delegación: Factores que inhiben el facultamiento

El Control y su periodicidad