La distribución de colores para chocolates M&M
Por Rick Wicklin en The DO
Loop
VERSIÓN traducida
Muchos
cursos introductorios de probabilidad y estadística alientan a los estudiantes
a recopilar y analizar datos reales. Un experimento popular en el análisis
de datos categóricos es ofrecerles a los estudiantes una bolsa de caramelos M
& M® y pedirles que calculen la proporción de colores en la población a
partir de los datos de muestra. En algunas clases, también se les pide a
los estudiantes que realicen un análisis de chi-cuadrado para comprobar si los
colores están distribuidos uniformemente o si los colores coinciden con un
conjunto hipotético de proporciones.
M
& M's® tiene una larga historia en SAS. SAS es el mayor
consumidor corporativo de M& M en el mundo. Todos los miércoles un
empleado de SAS visita cada descanso en el campus y llena dos contenedores
grandes llenos de M & M. Este artículo usa el software SAS para
analizar el clásico experimento de "distribución de colores".
La proporción de colores para M & M
Los
dulces "simples" de M & M (ahora llamados "M & M de chocolate con
leche") son producidos por la compañía Mars, Inc. La distribución de
colores en M & M tiene una historia larga y colorida. Los colores y las
proporciones cambian ocasionalmente, y la distribución es diferente para el maní
y otras variedades. Algunos incidentes de mi vida que hicieron las noticias
nacionales son:
- 1976: Red M & M's son reemplazados por naranja. Esta fue una gran historia. Se descubrió que el "colorante rojo # 2" era carcinógeno. Aunque Mars no usó este tinte en sus dulces, la compañía cambió los colores para aliviar las preocupaciones de los clientes.
- 1986: Red M & M's son traídos de vuelta. Naranja se queda.
- 1995: El color tostado se reemplaza por un color más vivo. En una campaña promocional, se le pide al público que vote por el color de reemplazo. Diez millones de votos; el azul gana en un deslizamiento de tierra.
- Finales de los 90: el sitio web de M & M enumera la distribución de colores. Hacia 1997, la distribución del color era 30% marrón, 20% amarilla, 20% roja, 10% naranja, 10% verde y 10% azul. Los estadísticos y los educadores se regocijan y publican muchos artículos sobre el tema.
- 2008: Mars cambia la distribución del color a 24% azul, 20% naranja, 16% verde, 14% amarillo, 13% rojo, 13% marrón. Algún tiempo después, las proporciones se eliminaron del sitio web y no se restauraron.
- 2017: ¿Cuál es la distribución actual de colores? ¡Sigue leyendo para ver una historia interesante!
Proporciones y prueba de chi-cuadrado
Los
contenedores de descanso en SAS se llenan con bolsas de dos libras. Para
no robar todos los M & M's en el salón de descanso, realicé este
experimento durante muchas semanas a finales de 2016 y principios de 2017,
tomando una cucharada de M & M's cada semana. El siguiente conjunto de
datos contiene los recuentos acumulados para cada uno de los seis colores en
una muestra de tamaño N =
712:
En la parte superior de este artículo, se muestra un
gráfico de barras que muestra la distribución observada de los colores en M
& M.
Para
estimar la proporción de colores en la población, simplemente divida cada
recuento por el tamaño total de la muestra, o utilice el procedimiento FREQ en
SAS. PROC FREQ también le permite ejecutar una prueba de chi-cuadrado que
compara los recuentos de muestra con los recuentos esperados en una distribución
especificada. La distribución publicada más reciente es de 2008, así que
probemos esas proporciones:
Las proporciones observadas y esperadas
se muestran en la tabla a la derecha. La prueba de chi-cuadrado rechaza la
hipótesis de la prueba en el nivel de significancia α = 0.05
(95% de confianza). En otras palabras, ¡la distribución de colores para M
& M en esta muestra de 2017 NO parece ser la misma que la distribución de
color de 2008! Puede ver esto visualmente desde el gráfico de barras: las
barras rojas y verdes son demasiado altas y la barra azul es demasiado corta en
comparación con los valores esperados.
Necesita
una muestra grande para estar seguro de que esta desviación empírica es
real. Después de recolectar datos durante algunas semanas, hice un análisis
preliminar que analizó alrededor de 300 caramelos. Con esa muestra más
pequeña, la diferencia entre las proporciones observadas y las esperadas podría
atribuirse a la variabilidad del muestreo, por lo que la prueba de chi-cuadrado
no rechazó la hipótesis nula. Sin embargo, mientras ejecutaba esa prueba
noté que los colores verde y azul representaban la mayor parte de la diferencia
entre las proporciones observadas y teóricas, así que decidí recopilar más
datos.
Intervalos de confianza simultáneos para las proporciones de M & M
Como
expliqué en un artículo anterior, puede usar
las proporciones de muestra para construir intervalos de confianza
simultáneos para las proporciones de población. Las siguientes
sentencias SAS / IML cargan y llaman a las funciones de la publicación
anterior:
La tabla
indica que la proporción de 2008 publicada para azul (0.24) está muy por fuera
del intervalo de confianza del 95%, y la proporción para el verde (0.16) apenas
se encuentra dentro de su intervalo. Eso por sí solo no prueba que la
proporción de 2008 ya no sea válida (podríamos haber tenido mala suerte durante
el muestreo), pero combinada con la prueba de chi-cuadrado anterior, parece poco
probable que las proporciones de 2008 sean aplicables a estos datos.
Llamando a los expertos
Las
proporciones publicadas para verde y azul no parecen coincidir con las
proporciones de muestra de 2008. Para esta gran muestra, la proporción publicada
de azul es demasiado grande, mientras que la proporción publicada de verde es
demasiado pequeña.
Después
de leer artículos anteriores, sé que el equipo de Atención al Cliente de M &
M / Mars es muy amable y receptivo. Aparentemente se les pregunta sobre la
distribución de colores con bastante frecuencia, así que les envié una
nota. Al día siguiente enviaron un desglose de los colores para todos los
dulces de M & M.
Curiosamente, los M & M simples (y de maní) ahora
se producen en dos fábricas diferentes en los EE. UU. ¡Y las
fábricas no usan la misma mezcla de colores! Debe buscar en el
paquete el código de fabricación, que generalmente está estampado dentro de un
rectángulo. En el medio del código estarán las letras HKP o CLV. Por
ejemplo, el código podría leer 632G CLV 20.
- CLV : La planta de Cleveland usa la siguiente proporción de colores para M & M simples: Rojo = 0.131, Naranja = 0.205, Amarillo = 0.135, Verde = 0.198, Azul = 0.207, y Café = 0.124.
- HKP : La planta de Hackettstown, NJ, usa la siguiente proporción de colores para M& M simples: Rojo = 0.125, Naranja = 0.25, Amarillo = 0.125, Verde = 0.125, Azul = 0.25 y Marrón = 0.125.
Aunque
no sabía acerca de los códigos de fabricación cuando recopilé los datos, creo
que está claro que el grueso de mis datos provino de la planta de
CLV. Puede crear un gráfico que muestre las proporciones de muestra, los
intervalos de confianza simultáneos al 95% y las marcas de almohadilla
verticales para indicar los parámetros de población de CLV, de la siguiente
manera:
El
gráfico muestra que las proporciones observadas son cercanas a las proporciones
de la planta CLV. Todas las proporciones están dentro del intervalo de
confianza simultáneo del 95% de los datos. Si vuelve a ejecutar el
análisis chi-cuadrado PROC FREQ con las proporciones CLV, la prueba no rechaza
la hipótesis nula.
Resumen
La
evidencia experimental indica que los colores de M & M simples en 2017 no
coinciden con las proporciones que se publicaron en 2008.
Después
de contactar al equipo de atención al cliente de M & M / Mars, me enviaron
un nuevo conjunto de proporciones para 2017. Las proporciones de color ahora
dependen de dónde se fabricaron los dulces. Mis datos coinciden con la
proporción de colores de la planta de Cleveland (código de fabricación
CLV).
Si está
ejecutando este análisis usted mismo, asegúrese de registrar si sus dulces
provienen de la planta de HKP o CLV. Si desea ver mi análisis,
puede descargar
el programa SAS completo que analiza estos datos.
Los
educadores que utilizan M & M's para enseñar probabilidad y estadística
necesitan registrar la planta de fabricación, pero este sigue siendo un
experimento divertido (¡y delicioso!). ¿Qué piensas? ¿Prefiere la
distribución casi igualitaria naranja-azul-verde de la planta CLV? ¿O te
gusta el dominio naranja-azul de la planta de HKP? ¿O simplemente disfrutas
de la cáscara crujiente y la bondad de derretirse en la boca, independientemente
de qué color son los dulces?
Articulo original en inglés: https://blogs.sas.com/content/iml/2017/02/20/proportion-of-colors-mandms.html#prettyPhoto
Comentarios
Publicar un comentario