3,949 701 12MB
Spanish Pages 517 pa [520] Year 2016
Ejercicios de inferencia estadística y muestreo para economía y administración de empresas
JOSÉ MIGUEL CASAS SÁNCHEZ
CARMELO GARCÍA PÉREZ
CATEDRÁTICO DE ESTADÍSTICA ECONÓMICA Y EMPRESARIAL DE LA UNIVERSIDAD DE ALCALÁ
PROFESOR DE ESTADÍSTICA ECONÓMICA Y EMPRESARIAL DE LA UNIVERSIDAD DE ALCALÁ
LUIS FELIPE RIVERA GALICIA
ANA ISABEL ZAMORA SANZ
PROFESOR DE ESTADÍSTICA ECONÓMICA Y EMPRESARIAL DE LA UNIVERSIDAD DE ALCALÁ
PROFESORA DE ESTADÍSTICA ECONÓMICA Y EMPRESARIAL DE LA UNIVERSIDAD DE ALCALÁ
Ejercicios de inferencia estadística y muestreo para economía y administración de empresas
EDICIONES PIRÁMIDE
COLECCIÓN «ECONOMÍA Y EMPRESA» Director:
Miguel Santesmases Mestre Catedrático de la Universidad de Alcalá
Edición en versión digital
Está prohibida la reproducción total o parcial de este libro electrónico, su transmisión, su descarga, su descompilación, su tratamiento informático, su almacenamiento o introducción en cualquier sistema de repositorio y recuperación, en cualquier forma o por cualquier medio, ya sea electrónico, mecánico, conocido o por inventar, sin el permiso expreso escrito de los titulares del copyright.
© José Miguel Casas Sánchez, Carmelo García Pérez, Luis Felipe Rivera Galicia y Ana Isabel Zamora Sanz, 2016 © Primera edición electrónica publicada por Ediciones Pirámide (Grupo Anaya, S. A.), 2016 Para cualquier información pueden dirigirse a [email protected] Juan Ignacio Luca de Tena, 15. 28027 Madrid Teléfono: 91 393 89 89 www.edicionespiramide.es ISBN digital: 978-84-368-3549-6
Estadística Descriptiva
Índice Prólogo ......................................................................................................................................
9
Distribuciones en el muestreo. Estimación ................................................................
11
1.
Distribuciones en el muestreo. Estimación puntual. Propiedades de los estimadores: insesgadez, eficiencia y consistencia. Métodos de construcción de estimadores: método de los momentos y de la máxima verosimilitud. Estimación por intervalos de confianza. Determinación del tamaño muestral. 2.
Contraste de hipótesis paramétrico ............................................................................
67
Región crítica y región de aceptación. Tipos de errores y representación gráfica. Función de potencia. Determinación del tamaño muestral. Contraste de razón de verosimilitud. Contrastes en poblaciones normales: para la media, para la varianza, sobre medias de dos poblaciones, sobre varianzas de dos poblaciones. Contrastes sobre proporciones. 3.
Contraste de hipótesis no paramétrico ......................................................................
133
Contrastes de bondad de ajuste: c2 de Pearson, Kolmogorov-Smirnov para una muestra, de normalidad de Lilliefors y de Shapiro-Wilks. Tablas de contigencia: contrastes de independencia y homogeneidad. Contraste de aleatoriedad: rachas de Wald-Wolfowitz. Contrastes de localización: contraste de signos de la mediana, contraste de rangos-signos de Wilcoxon. Contrastes de comparación de poblaciones: contraste de la mediana, contraste de Kolmogorov-Smirnov para dos muestras, contraste de la U de WilcoxonMann-Whitney, contraste de Siegel-Tukey, contraste de Kruskal-Wallis, método de Dunn de comparaciones múltiples. © Ediciones Pirámide
7
Ejercicios de estadística descriptiva y probabilidad Índice 4.
Análisis de la varianza ...................................................................................................... Análisis de la varianza para una clasificación simple. Método de Scheffé de comparaciones múltiples. Test de Barlett de homocedasticidad. Análisis de la varianza para una clasificación doble.
249
5.
Muestreo en poblaciones finitas ...................................................................................
315
Muestreo aleatorio simple: estimadores, error de muestreo, intervalos de confianza, determinación del tamaño muestral para obtener un error determinado. Muestreo estratificado: estimadores, error de muestreo, intervalos de confianza, tipos de afijación y determinación del tamaño muestral. Muestreo por conglomerados. Muestreo sistemático. 6.
Teoría de la decisión ........................................................................................................
365
Decisión bajo riesgo: criterio del valor monetario esperado y criterio de la pérdida de oportunidad esperada. Valor esperado de la información perfecta. Decisiones secuenciales: árbol de decisión. Decisión bajo incertidumbre: criterio maximax, criterio maximin o de Wald, criterio de Hurwicz, criterio de Laplace, criterio de Savage. Tablas estadísticas ...................................................................................................................
435
Bibliografía ................................................................................................................................
513
Índice de materias ..................................................................................................................
515
8
© Ediciones Pirámide
Estadística Descriptiva
Prólogo Los ejercicios y problemas contenidos en este libro pretenden ser un complemento práctico de los desarrollos teóricos sobre inferencia estadística y teoría de la decisión contenidos en los manuales de Estadística para Economía y Administración de Empresas de los profesores J. M. Casas Sánchez y J. Santos Peñas, catedráticos en la Universidad de Alcalá y la Universidad Nacional de Educación a Distancia (UNED), respectivamente. Los diferentes capítulos del libro se dedican, por este orden, a distribuciones en el muestreo, estimación puntual y por intervalos, contrastes de hipótesis paramétricos, contrastes de hipótesis no paramétricos, análisis de la varianza, muestreo en poblaciones finitas y teoría de la decisión. Hemos querido enfocar la resolución de cada ejercicio desde una perspectiva didáctica, buscando la comprensión de los conceptos teóricos a través de la explicación detallada y secuencial de los pasos que conducen a la solución final y de continuas referencias a los conceptos teóricos que se utilizan en la resolución del problema. Por otra parte, se ha procurado también que los enunciados respondan a situaciones reales de la actividad económica y empresarial. Con el fin de facilitar la selección de los diferentes tipos de ejercicios, presentamos un índice temático en el que se identifica cada problema con dos números representativos del capítulo en el que aparece y de su orden dentro del mismo. En las páginas finales del libro se incluyen las tablas estadísticas que se han utilizado a lo largo del texto. Por último, queremos dedicar este texto a nuestras familias y amigos, por su apoyo constante. Madrid, septiembre de 2006. Los autores © Ediciones Pirámide
9
1
Distribuciones en el muestreo. Estimación
Distribuciones en el muestreo. Estimación
Sean X1, X2, ..., Xn n variables aleatorias independientes de Bernoulli con el mismo parámetro p. Consideramos los siguientes estimadores:
Ejercicio 1.1
n
pˆ1 =
n
∑ Xi
i =1
;
n
pˆ 2 =
∑ Xi2
i =1
n
a) ¿Son ambos estimadores insesgados para el parámetro p? b) ¿Cuál de los dos estimadores es más eficiente? c) Estudie la consistencia de ambos estimadores.
Solución
a) Para comprobar la insesgadez de pˆ 1 y pˆ 2 calculamos sus esperanzas y comprobamos si coinciden con p. Como Xi ~ B(p), se sabe que: E[ Xi ] = p
y
Var [ Xi ] = pq
Además: Var [ Xi ] = E[ Xi2 ] − ( E[ Xi ])2 por tanto: E[ Xi2 ] = Var [ Xi ] + ( E[ Xi ])2 = pq + p 2 = p( q + p) = p © Ediciones Pirámide
11
Ejercicios de inferencia estadística y muestreo y así: ⎡ n ⎤ ⎢ ∑ Xi ⎥ n i =1 ⎥ = 1 ∑ E[ X ] = np = p E[ pˆ1 ] = E ⎢ i ⎢⎣ n ⎥⎦ n i = 1 n ⎡ ∑ Xi2 ⎤ 1 n np 2 E[ pˆ 2 ] = E ⎢ = p ⎥ = ∑ E[ Xi ] = n ⎣ n ⎦ n i =1 Luego queda probado que pˆ 1 y pˆ 2 son insesgados. b) Será más eficiente el estimador que tenga menor varianza: n
Var [ pˆ1 ] =
1 n2
i =1
Var [ pˆ 2 ] =
1 n2
∑ Var [ Xi2 ] = n2 npq =
∑ Var [ Xi ] =
npq pq = n2 n
n
1
i =1
pq n
donde: Var [ Xi2 ] = E[ Xi4 ] − ( E[ Xi2 ])2 = p − p 2 = pq Como las varianzas son iguales, ambos estimadores son igualmente eficientes. c) Como los dos estimadores son insesgados, si su varianza tiende a cero al aumentar el tamaño muestral, ambos estimadores serían consistentes1. lím Var [ pˆ1 ] = lím
pq =0 n
y
E[ pˆ1 ] = p
lím Var [ pˆ 2 ] = lím
pq =0 n
y
E[ pˆ 2 ] = p
n→∞
n→∞
n→∞
n→∞
Por tanto, se verifica la consistencia de pˆ 1 y pˆ 2. 1
Una sucesión de estimadores {qˆ n} es consistente si, y sólo si, ∀ e > 0
lím P(冟θˆn − θ 冟 < ε ) = 1
n→∞
,
∀θ ∈ Ω
Cada elemento de {qˆ n} se dice que es un estimador consistente. Ahora bien, una condición suficiente para la consistencia de un estimador es que se verifiquen las dos condiciones siguientes:
1. 2.
12
lím E[θˆn ] = θ .
n→∞
lím Var [θˆn ] = 0.
n→∞
© Ediciones Pirámide
Distribuciones en el muestreo. Estimación Los errores mensuales de la predicción del IPC que realiza un instituto de estudios económicos se distribuyen normalmente. Demuestre que el error mensual medio calculado a partir de una muestra aleatoria simple de tamaño n es un estimador consistente para el verdadero error mensual medio. Ejercicio 1.2
Solución
Sea X la variable aleatoria que representa el error mensual de la predicción del IPC: X
~ N ( μ, σ )
Dada una muestra aleatoria simple de tamaño n, (X1, ..., Xn), el error mensual medio se define como:
Xn =
1 n ⋅ ∑ Xi n i =1
Para probar que este estimador es consistente para el parámetro m, debemos comprobar que: Xn ⎯⎯→ μ P
es decir, que, ∀ e > 0, se verifica: lím P(冟 Xn − μ冟 < ε ) = 1
n→∞
,
∀μ
Teniendo en cuenta que como X ~ N(m, s), entonces:
X
~ N 冢 μ,
Z= © Ediciones Pirámide
X−μ σ/ n
σ n
冣
~ N (0, 1) 13
Ejercicios de inferencia estadística y muestreo pudiendo escribir: P(冟 Xn − μ冟 < ε ) = P( − ε < X − μ < ε ) = P =P
冢 − εσ⋅
n
0:
ε⋅ n =∞ n→∞ σ lím
resulta que: lím P(冟 Xn − μ冟 < ε ) = lím P
n→∞
n→∞
冢 − εσ⋅
n
0: lím P(冟 X − μ冟 < ε ) = 1
n→∞
,
∀μ
o, lo que es lo mismo, si ∀ e > 0: lím P(冟 X − μ冟 ε ) = 0
n→∞
Para comprobar esto, utilizaremos el teorema de Chebychev2. Previamente, calcu— lamos la esperanza y la varianza de X , teniendo en cuenta que X1, ..., Xn son variables aleatorias independientes e idénticamente distribuidas a X: ⎡1 n ⎤ 1 n nE[ X ] 1 n = E[ X ] = μ E[ X ] = E ⎢ ∑ Xi ⎥ = ∑ E[ Xi ] = ∑ E[ X ] = n i =1 n ⎢⎣ n i = 1 ⎥⎦ n i = 1 ⎡1 n ⎤ 1 Var [ X ] = Var ⎢ ∑ Xi ⎥ = 2 ⎢⎣ n i = 1 ⎥⎦ n 2
n
n
1
∑ Var [ Xi ] = n 2 ∑ Var [ X ] =
i =1
i =1
n Var [ X ] Var [ X ] σ 2 = = n2 n n
Si Y es una variable aleatoria con media y varianza finitas, entonces ∀ k > 0 se verifica:
P(冟Y − E[Y ]冟 k ) © Ediciones Pirámide
Var [Y ] k2
15
Ejercicios de inferencia estadística y muestreo Por tanto, aplicando la desigualdad de Chebychev, se tiene que, ∀ e > 0: 0 P(冟 X − μ冟 ε ) = P(冟 X − E[ X ]冟 ε )
Var [ X ] σ 2 / n = 2 ε2 ε
es decir: 0 P(冟 X − μ冟 ε )
σ2 nε 2
Como:
σ2 =0 n → ∞ nε 2 lím
entonces: lím P(冟 X − μ冟 ε ) = 0
n→∞
—
y, por tanto, X es consistente para m en una población cualquiera. b) Una condición suficiente para la consistencia de un estimador es que sea asintóticamente insesgado y que su varianza tienda a cero. Sabemos que la varianza muestral: S2 =
1 n ( Xi − X )2 ∑ n − 1 i =1
es insesgado para la varianza poblacional s2, es decir: E[ S 2 ] = σ 2 y como: S′2 = 16
n −1 2 1 n S ( Xi − X ) 2 = ∑ n i =1 n © Ediciones Pirámide
Distribuciones en el muestreo. Estimación resulta que3: E[ S ′ 2 ] = Var [ S ′ 2 ] =
n −1 n −1 2 E[ S 2 ] = σ n n (n − 1)2 (n − 1)2 ⎡ μ 4 3−n ⎤ 2 Var [ ] S = + σ 4⎥ ⎢ 2 2 n n ⎣ n n(n − 1) ⎦
y, por tanto: n −1 2 σ = σ2 n→∞ n
lím E[ S ′ 2 ] = lím
n→∞
(n − 1)2 n→∞ n3
lím Var [ S ′ 2 ] = lím
n→∞
3 − n 4⎤ ⎡ ⎢⎣ μ 4 + n − 1 σ ⎥⎦ = 0
con lo cual, S¢2 es consistente para s2. Sea (X1, X2, X3) una muestra aleatoria simple procedente de una población que sigue una distribución normal con media m y varianza s2. Consideremos los siguientes estimadores de m: Ejercicio 1.4
μˆ 1 =
X1 + 2 X2 + 3 X3 6
;
μˆ 2 =
X1 − 4 X2 −3
a) ¿Cuáles son insesgados? b) ¿Cuál es más eficiente? c) Busque un estimador eficiente para m.
Solución
de mˆ 1 y mˆ 2:
a) Para que un estimador sea insesgado, su esperanza debe coincidir con el parámetro que pretende estimar; por tanto, se calcula la esperanza
1 ⎡ X + 2 X2 + 3 X3 ⎤ 1 = E[ X1 + 2 X2 + 3 X3 ] = ( E[ X1 ] + 2 E[ X2 ] + 3E[ X3 ]) = E[ μˆ 1 ] = E ⎢ 1 ⎥ 6 6 ⎦ 6 ⎣ = 3
1 1 ( μ + 2 μ + 3μ ) = 6 μ = μ 6 6
Véase Casas Sánchez, J. M.: Inferencia estadística, para las expresiones de E [S2] y Var [S2].
© Ediciones Pirámide
17
Ejercicios de inferencia estadística y muestreo Como E [mˆ 1] = m, mˆ 1 es un estimador insesgado para m. 1 1 ⎡ X − 4 X2 ⎤ = − E[ X1 − 4 X2 ] = − ( E[ X1 ] − 4 E[ X2 ]) = E[ μˆ 2 ] = E ⎢ 1 ⎥ 3 3 ⎣ −3 ⎦ 1 1 = − ( μ − 4 μ ) = − ( − 3μ ) = μ 3 3 Como E [mˆ 2] = m, mˆ 2 es también un estimador insesgado de m. b) La eficiencia de un estimador insesgado se mide por su varianza. Así, un estimador insesgado será tanto más eficiente cuanto menor sea su varianza. Como mˆ 1 y mˆ 2 son insesgados, para ver cuál de ellos es más eficiente, calculamos sus varianzas respectivas teniendo en cuenta que X1, X2 y X3 son variables independientes, pues se trata de una muestra aleatoria simple: ⎡ X + 2 X2 + 3 X3 ⎤ 1 Var [ μˆ 1 ] = Var ⎢ 1 ⎥⎦ = 36 Var [ X1 + 2 X2 + 3 X3 ] = 6 ⎣ =
1 (Var [ X1 ] + 4 Var [ X2 ] + 9 Var [ X3 ]) = 36
=
1 2 14 2 7σ 2 [σ + 4σ 2 + 9σ 2 ] = σ = 36 36 18
1 ⎡ X − 4 X2 ⎤ 1 Var [ μˆ 2 ] = Var ⎢ 1 = Var [ X1 − 4 X2 ] = (Var [ X1 ] − 16 Var [ X2 ]) = ⎥ 9 ⎣ −3 ⎦ 9 =
1 2 17σ 2 [σ + 16σ 2 ] = 9 9
Como Var [mˆ 1] < Var [mˆ 2], mˆ 1 es la más eficiente de los dos. c) En una muestra aleatoria simple obtenida de una población que sigue una distribución normal, la media muestral es un estimador insesgado y eficiente. — Verifiquemos que X cumple estas dos propiedades: ⎡ X + X2 + X3 ⎤ 1 E[ X ] = E ⎢ 1 ⎥⎦ = 3 E[ X1 + X2 + X3 ] = 3 ⎣ = 18
1 1 ( E[ X1 ] + E[ X2 ] + E[ X3 ]) = ( μ + μ + μ ) = μ 3 3 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación —
Se ha comprobado así que X es un estimador insesgado para m: ⎡ X + X2 + X3 ⎤ 1 Var [ X ] = Var ⎢ 1 ⎥⎦ = 9 Var [ X1 + X2 + X3 ] = 3 ⎣ =
σ2 1 1 (Var [ X1 ] + Var [ X2 ] + Var [ X3 ]) = (σ 2 + σ 2 + σ 2 ) = 9 9 3 —
Para comprobar la eficiencia de X , vista su insesgadez, hay que verificar que su varianza coincide con la cota de Frechet-Cramer-Rao para un estimador insesgado. Para ello calculamos dicha cota: 1
Cota de Frechet-Cramer-Rao = nE
冤冢
∂ ln f ( x; θ ) ∂θ
冣冥 2
Como la muestra procede de una población normal, tenemos: 1 ( x − μ )2 σ2
− 1 f ( x; μ ) = e 2 σ 2π
ln f ( x; μ ) = −
1 ( x − μ )2 1 + ln 2 2 σ σ 2π
∂ ln f ( x; μ ) ( x − μ ) = σ2 ∂μ Así, tenemos que:
nE
冤冢
∂ ln f ( x; μ ) ∂μ
冣冥 2
= nE
冤冢
X−μ σ2
冣冥 2
=
n nσ 2 n 2 [( − μ ) ] = = 2 E X 4 4 σ σ σ
Por tanto: Cota de Frechet-Cramer-Rao = © Ediciones Pirámide
1 σ2 = n /σ 2 n 19
Ejercicios de inferencia estadística y muestreo Así pues, cualquier estimador de m insesgado tiene una varianza mayor o igual que s2 /n. Como la muestra aleatoria simple que hemos considerado tiene tamaño tres, cual— quier estimador de m tiene una varianza superior o igual a s2 /3. En nuestro caso, X es insesgado y de mínima varianza, porque su varianza coincide con la cota de Frechet— Cramer-Rao; por tanto, X es un estimador eficiente.
Sea (X1, X2, ..., Xn) una muestra aleatoria simple procedente de una población con distribución uniforme U(a, b). Obtenga los estimadores de a y b según el método de los momentos y el método de máxima verosimilitud. Ejercicio 1.5
Solución
La función de densidad de la distribución U(a, b) es: ⎧ 1 ⎪ f ( x) = ⎨ b − a ⎪⎩0
si a x b en otro caso
Método de los momentos Los momentos de orden 1 y 2 con respecto al origen de la población U(a, b) son:
α1 = E[ X ] =
冮
b
a
α 2 = E[ X 2 ] =
冮
b
⎡ x2 ⎤ 1 b2 − a2 b+a = = x⋅ dx = ⎢ ⎥ b−a 2 ⎣ 2( b − a ) ⎦ a 2( b − a ) b
b
a
x2 ⋅
⎡ x3 ⎤ 1 b3 − a3 a 2 + ab + b 2 dx = ⎢ = = ⎥ b−a 3 ⎣ 3(b − a) ⎦ a 3(b − a)
Los correspondientes momentos muestrales son: n
a1 =
∑ Xi
i =1
n
=X
n
a2 = 20
∑ Xi2
i =1
n © Ediciones Pirámide
Distribuciones en el muestreo. Estimación Igualando ambos momentos, se tiene el siguiente sistema de ecuaciones: ⎫ ⎪ b + a i =1 = = a1 ⎪ ⎪ n 2 ⎬ n ⎪ 2 X ∑ i 2 2 ⎪ a + ab + b i =1 = = a2 ⎪ n 3 ⎭ n
∑ Xi
Se resuelve ahora dicho sistema: b = 2 a1 − a a 2 + a(2 a1 − a) + (2 a1 − a)2 = a2 3 a 2 + 2 a1a − a 2 + 4 a12 + a 2 − 4 a1a = a2 3 a 2 − 2 a1a + 4 a12 = 3a2 a 2 − 2 a1a + ( 4 a12 − 3a2 ) = 0 a=
2 a1 ±
4 a12 − 16 a12 + 12 a2 = a1 ± 2
− 3a12 + 3a2
luego: n
∑ Xi2
i =1 aˆ = X ± 3 n
− 3 X 2 = X ± 3S ′ 2 = X ± 3 S ′
y n
∑ Xi2
i =1 bˆ = X 3 n © Ediciones Pirámide
− 3 X 2 = X 3S ′ 2 = X 3 S ′ 21
Ejercicios de inferencia estadística y muestreo y como a < b, se tiene que la estimación por el método de los momentos es: aˆ = X − 3S ′ bˆ = X + 3S ′ Método de máxima verosimilitud Consiste en obtener aˆ y bˆ tales que: L( x1 ,..., xn ; aˆ, bˆ ) = máx L( x1 ,..., xn ; a, b) a, b
Si se plantea la función de verosimilitud, se tiene: n
L( x1 ,..., xn ; a, b) = ∏ f ( xi ; a, b) = i =1
冢
1 b−a
冣
n
si a xi b, ∀ i = 1, ..., n. Tomando el logaritmo neperiano: ln L( x1 ,..., xn ; a, b) = − n ln(b − a) y si se deriva esta expresión con respecto a los parámetros a y b, se tiene: ∂ ln L( x1 ,..., xn ; a, b) n = ∂a b−a ∂ ln L( x1 ,..., xn ; a, b) n =− b−a ∂b Al igualar estos cocientes a cero, se observa que b – a debería ser infinito, pero esto no es posible, pues los parámetros de la distribución uniforme proporcionan un intervalo finito. Este hecho se produce porque el campo de variación X depende de los parámetros (a x b). Por tanto, no se puede aplicar el proceso anterior y habrá que encontrar el máximo de la función de verosimilitud de otra forma. Como se ha encontrado que: ⎧ 1 ⎪ L( x1 ,..., xn ; a, b) = ⎨ (b − a)n ⎪⎩0 22
si a xi b
,
∀ i = 1,..., n
en caso contrario © Ediciones Pirámide
Distribuciones en el muestreo. Estimación El máximo de L se alcanzará en: a xi b
,
∀ i = 1,..., n
es decir, cuando: a mín{xi} i
máx{xi} b i
pues el máximo de 1/(b – a) n se obtendrá minimizado b – a, pero b no debe ser inferior al máximo valor obtenido en la muestra, ni a debe ser superior al mínimo de ellos. Por tanto, los estimadores máximo-verosímiles de a y b serán, respectivamente: aˆ = mín{Xi} i
bˆ = máx{Xi} i
Analíticamente: máx L( x1 ,..., xn ; a, b) ≡ a, b
1 mín (b − a)n a, b
pero como: xi b, ∀ i = 1,..., n ⇔ máx{xi} b i
a xi , ∀ i = 1,..., n ⇔ a mín{xi} i
4
a
X(1)
X(2)
…
X(n)
b
entonces: b − a máx{xi} − mín{xi} i
i
4 X (i) es el estadístico de orden i. Es decir, una vez ordenadas de forma creciente las observaciones muestrales X (i), tomará el valor de la que ocupe el lugar i-ésimo.
© Ediciones Pirámide
23
Ejercicios de inferencia estadística y muestreo y, por tanto:
[
]
mín (b − a)n máx{xi} − mín{xi} a, b
i
i
n
con lo cual: máx L( x1 ,..., xn ; a, b) ≡ a, b
1 1 n n mín (b − a) máx{xi} − mín{xi}
[
a, b
i
i
]
y, por tanto: aˆ = mín{Xi}
Ejercicio 1.6
Solución
bˆ = máx{Xi}
;
i
i
Encuentre el estimador de máxima verosimilitud del parámetro p de una variable de Bernoulli y compruebe si es consistente. Sea (X1, ..., Xn) una muestra aleatoria simple procedente de una B(p). La función de probabilidad de una B(p) para cada Xi es: P( xi ; p) = p xi (1 − p)1 − xi
xi = 0, 1,
,
i = 1,..., n
La función de verosimilitud será: n
n
L( x1 ,..., xn ; p) = P( x1 ,..., xn ; p) = ∏ P( xi ; p) = p
∑ xi
i =1
n
(1 − p)
n − ∑ xi i =1
i =1
Maximizamos el logaritmo neperiano de esa función:
冢 冣
冢
n
ln L( x1 ,..., xn ; p) =
i =1
n
∂ ln L( x1 ,..., xn ; p) = ∂p n
∑ xi
i =1
p 24
n
冣
∑ xi ln p + n − ∑ xi ln (1 − p) i =1
n
∑ xi
i =1
−
p
n − ∑ xi i =1
1− p
=0
n
=
n − ∑ xi i =1
1− p
⇒
n
n
n
i =1
i =1
i =1
∑ xi − p∑ xi = pn − p∑ xi © Ediciones Pirámide
Distribuciones en el muestreo. Estimación Por tanto, el estimador de máxima verosimilitud es: n
pˆ =
∑ Xi
i =1
n n
Para comprobar que se ha maximizado la función de verosimilitud en p =
∑ xi
i =1
n
,
calculamos la derivada segunda: n
n
∑ xi
n − ∑ xi
∂ 2 ln L( x1 ,..., xn ; p) i =1 i =1 =− 2 − ∂p 2 p (1 − p)2 n
y comprobamos cuánto vale en p = n
−
n
:
−
n
n − ∑ xi i =1 n
冢 冣 冢 冣 ∑ xi
i =1
n
n
∑ xi
i =1 n
∑ xi
i =1
2
1−
∑ xi
2
=−
i =1
n2 n
∑ xi
−
i =1
n
=
n − ∑ xi
冢
i =1 n
n − ∑ xi i =1
n
冣
n
n
i =1
i =1
2
− n 3 + n 2 ∑ xi − n 2 ∑ xi
∑ xi 冢n − ∑ xi 冣 n
n
i =1
i =1
=−
n2 n
∑ xi
i =1
=−
−
n2 n
n − ∑ xi
=
i =1
n3
∑ xi 冢n − ∑ xi 冣 n
n
i =1
i =1
= P χ15 > = 2 2 25 σ σ
2 2 = P( χ15 > 5,229) = 1 − P( χ15 5,229) = 1 − 0,010 = 0,99
Para encontrar esta probabilidad se ha buscado en la tabla 9.
En una estación de ferrocarril se encuentra una máquina automática de café regulada de tal forma que la cantidad de café dispensado se distribuye normalmente con una desviación típica de 0,5 centímetros cúbicos por taza. En una muestra aleatoria de 50 tazas se ha medido un total de 7.500 centímetros cúbicos de café. Ejercicio 1.10
a) Estime qué cantidad de café suministra la máquina en cada taza. b) Construya un intervalo de confianza al 95 % para la cantidad media de café que suministra la máquina.
Solución
Sea X = «Cantidad de café dispensada en una taza»:
X
~ N ( μ; 0,5)
a) La mejor estimación puntual para la media poblacional se calcula mediante la media muestral. Así: n
μˆ =
∑ xi
i =1
n
=
7.500 = 150 cm 3 50
b) Como la cantidad de café que es suministrada en cada taza sigue una distribución normal con s = 0,5 centímetros cúbicos, conocida, el estadístico: X−μ σ/ n sigue una distribución N(0, 1). © Ediciones Pirámide
31
Ejercicios de inferencia estadística y muestreo Por tanto, el intervalo solicitado no es más que el intervalo simétrico centrado en 0, de tal forma que:
冢
P − zα / 2
冣
X−μ zα / 2 = 1 − α σ/ n
En este caso, 1 – a = 0,95, luego a = 0,05, por lo que, mirando la tabla 7, se obtiene que z a/2 = 1,96. Por tanto:
冢
P − 1,96
冢
P X − 1,96
冣
X−μ 1,96 = 0,95 0,5 / 50
0,5 0,5 μ X + 1,96 50 50
冣 = 0,95
y como x– = 150, el intervalo de confianza al 95 % será: [149,8614; 150,1386]
Un fabricante de componentes electrónicos afirma que sus condensadores tienen un tiempo medio de duración de 500 horas. Para verificar si dicho tiempo medio se mantiene, decide examinar 25 condensadores cada mes. Con una confianza del 90 %, ¿qué conclusiones debería extraer este fabricante de una muestra cuyo tiempo medio de duración es de 518 horas, con desviación típica de 40 horas? Se asume que el tiempo de duración de los condensadores se distribuye normalmente. Ejercicio 1.11
Solución
Sea X la variable que representa el tiempo de duración de un condensador: X
~ N ( μ; σ )
A partir de la muestra, se ha obtenido: x– = 518 horas 32
;
s = 40 horas © Ediciones Pirámide
Distribuciones en el muestreo. Estimación Como n es pequeño (n = 25, luego menor que 30), el estadístico: X−μ S/ n sigue una distribución t de Student con (n – 1) grados de libertad. El intervalo de confianza para m en esta caso sería:
冤X − t
α /2
S S ; X + tα / 2 n n
冥
Calculemos t a/2: 1 − α = 0,9 ⇒ α = 0,1 ⇒ α / 2 = 0,05 t a/2 es un valor tal que P(t t a/2) = a/2, con t una distribución t de Student de n – 1 = 24 grados de libertad. Si se busca en la tabla 10, se obtiene: t0,05;24 = 1,711 Por tanto, el intervalo queda:
冤518 − 1,711 4025 ; 518 + 1,711 4025 冥 [504,312; 531,688] Se puede afirmar, con una confianza del 95 %, que los condensadores que produce este fabricante tienen una duración media de entre 504,312 horas y 531,688 horas, mayor, por tanto, de 500 horas. Si se tomara una serie de muestras de tamaño 25, aproximadamente el 95 % de ellas proporcionarían intervalos que contendrían el verdadereo valor de parámetro que se prentende estimar, mientras que un 5 % de dichas muestras darían lugar a intervalos que no contendrían el verdadero valor de la duración media poblacional. Por tanto, el intervalo numérico obtenido puede ser de cualquiera de los dos tipos. © Ediciones Pirámide
33
Ejercicios de inferencia estadística y muestreo Ejercicio 1.12
Los niveles de audiencia (en miles de personas) de un programa de televisión, medidos en 10 emisiones elegidas aleatoriamente, han sido los
siguientes: 682, 553, 555, 666, 657, 649, 522, 568, 700, 552 Suponiendo que los niveles de audiencia siguen una distribución normal: a) ¿Se podría afirmar, con un 95 % de confianza, que la audiencia media del programa es de 600.000 espectadores por programa? b) La compañía productora del programa televisivo afirmó, durante las negociaciones para la venta del programa, que éste acapararía una audiencia fiel y que la desviación típica del número de espectadores sería de 15.000. ¿Queda esta afirmación probada con los datos disponibles, con un 95 % de confianza?
Solución
Definimos X = «Nivel de audiencia (miles de personas)». X
~ N ( μ; σ )
A partir de la información que se suministra en el enunciado, se puede calcular la media y la desviación típica muestral: n
x= s′2 =
∑ xi
i =1
=
n
∑ xi2 n
6.104 = 610, 4 miles de espectadores/ programa 10
− ( x )2 =
3.765.176 − (610,4)2 = 3.929, 44 10
luego: s2 =
10 2 10 s′ = 3.929, 44 = 4.366,0444 9 9
y, por tanto: s= 34
s 2 = 66,0761 miles de espectadores/ programa © Ediciones Pirámide
Distribuciones en el muestreo. Estimación a) Se puede calcular un intervalo de confianza para la media y comprobar si el valor 600 se encuentra dentro de él o no (sería como buscar la región de aceptación en un contraste de hipótesis bilateral):
冤
Iμ = X − tα / 2
S S ; X + tα / 2 n n
冥
donde t a/2 es tal que P(tn – 1 t a/2) = a/2. Se ha elegido este intervalo porque tenemos una muestra pequeña (n = 10). Como 1 – a = 0,95, entonces a = 0,05, luego a/2 = 0,025. El valor t a/2 es 2,262, puesto que tiene nueve grados de libertad (se ha buscado dicho valor en la tabla 10). Por tanto:
冤
Iμ = 610, 4 − 2,262
冥
66,0761 66,0761 ; 610, 4 + 2,262 = 10 10
= [610, 4 − 47,2647; 610, 4 + 47,2647] = [563,1353; 657,6647] Como el valor 600 se encuentra dentro del intervalo de confianza construido, podemos decir, con un 95 % de confianza, que la audiencia media del programa es de 600.000 espectadores (o, lo que es lo mismo, no se podría rechazar esta afirmación). Este apartado se podría resolver igualmente mediante un contraste de hipótesis bilateral. b) Se calcula ahora un intervalo de confianza para s2: Iσ 2 =
冤
(n − 1)S 2 (n − 1)S 2 ; χ n2 − 1;1 − α / 2 χ n2 − 1; α / 2
冥
donde: P( χ n2 − 1 χ n2 − 1;1 − α / 2 ) = 1 − α / 2 = 1 − 0,025 = 0,975 P( χ n2 − 1 χ n2 − 1; α / 2 ) = α / 2 = 0,025 Utilizando los valores de la tabla 9 con n – 1 = 9 grados de libertad, hallamos:
χ 92;1 − α / 2 = 19,02 χ 92; α / 2 = 2,7 © Ediciones Pirámide
35
Ejercicios de inferencia estadística y muestreo Por tanto:
Iσ 2 =
,0444 冤 9 ⋅ 4 ⋅19366,02,0444 ; 9 ⋅ 4 ⋅ 366 冥 = [2.065,9516; 14.553,4813] 2,7
El intervalo de confianza para s será: Iσ = [ 45, 4527; 120,6378] Este intervalo no contiene el valor 15, por lo que no queda probada la afirmación de que la audiencia tenga una desviación típica de 15.000 espectadores con una confianza del 95 %.
Para establecer las especificaciones del sistema de control de calidad de una máquina que fabrica grapas se realizan distintas mediciones y pruebas. Las longitudes de una muestra aleatoria de 10 grapas se observa que tienen una varianza de 0,32 cm2. Construya un intervalo de confianza al 90 % para la varianza de la longitud de las grapas; suponga normalidad. Ejercicio 1.13
Llamamos X a la variable aleatoria que representa la longitud de una grapa, y suponemos que su distribución es N(m, s). El intervalo de confianza para la varianza s2 es: Solución
Iσ 2 =
冤
(n − 1)S 2 (n − 1)S 2 ; χ n2 − 1;1 − α / 2 χ n2 − 1; α / 2
冥
con 1 – a = 0,90 fi a/2 = 0,05: P( χ n2 − 1 χ n2 − 1;1 − α / 2 ) = 1 − α / 2 = 0,95 P( χ n2 − 1 χ n2 − 1; α / 2 ) = α / 2 = 0,05 En la tabla 9 de la distribución c2 con n – 1 = 9 grados de libertad, obtenemos los valores: 36
© Ediciones Pirámide
Distribuciones en el muestreo. Estimación
2 9
0,90
0,05
0,05 0 3,325
16,92
χ 92; 0,05 = 3,325 χ 92; 0,95 = 16,92 Por tanto, sustituyendo en la expresión del intervalo: 0,32 冤 916⋅ 0,92,32 ; 93⋅,325 冥 = [0,1702; 0,8662]
Un empresario, propietario de una gasolinera, está interesado en conocer la diferencia entre las cantidades que se consumen de gasolina y de gasoil en su estación de servicio. En una semana, se registraron las cantidades suministradas de combustible a dos muestras de vehículos de tal forma que a 15 automóviles que solicitaron gasolina se les suministró una cantidad media de 27 litros, mientras que otros 10 adquirieron una media de 23 litros de gasoil por vehículo. Para obtener información del consumo de carburantes en España, se consultó el anuario estadístico de una importante compañía petrolífera y se encontró que la varianza poblacional en el suministro de combustibles era de 1002 litros, en el caso de la gasolina, y de 802 litros en el caso del gasoil. Se supone que el consumo de los carburantes de distribuye normalmente. Calcule un intervalo de confianza al 99 % para la diferencia entre los consumos medios de ambos tipos de carburante y comente el resultado. Ejercicio 1.14
© Ediciones Pirámide
37
Ejercicios de inferencia estadística y muestreo Solución
Se tienen dos poblaciones, X e Y, donde X es el consumo de gasolina, e Y es el consumo de gasoil, de tal forma que se conoce que: X → N ( μ x , 100 ) Y → N ( μ y , 80 )
Se han tomado dos muestras que han producido los siguientes resultados: nx = 15
x = 27 litros
ny = 10
y = 23 litros
El intervalo de confianza para mx – my, en estas condiciones, es el siguiente:
冤
( X − Y ) − zα / 2
σ x2 σ y2 σ x2 σ y2 + ; ( X − Y ) + zα / 2 + nx ny nx ny
冥
donde za/2 es tal que: P[ Z > zα / 2 ] =
α 2
y
Z → N (0, 1)
Como 1 – a = 0,99, a = 0,01, luego a/2 = 0,005. Si se mira la tabla 7, se obtiene que za/2 = 2,575, puesto que P(Z 2,57) = 0,0051 y P(Z 2,58) = 0,0049, y por interpolación entre esos dos valores se tiene que P(Z 2,575) = 0,005. En este caso, y con la información muestral recogida, el intervalo queda:
冤(27 − 23) − 2,575
100 80 100 80 + + ; (27 − 23) + 2,575 15 10 15 10
冤4 − 2,575
440 440 ; 4 + 2,575 30 30
冥
冥
[ 4 − 9,861; 4 + 9,861] [ − 5,861; 13,861] A la vista del intervalo obtenido, no se puede afirmar que el consumo medio de gasolina sea superior al de gasoil, puesto que en el intervalo se admiten también valores negativos y el cero. 38
© Ediciones Pirámide
Distribuciones en el muestreo. Estimación Una compañía quiere conocer la proporción de consumidores que adquieren su producto. Para ello, contrata una empresa que realiza investigaciones de mercado y le pide que el error de estimación máximo sea del 3 % con una confianza del 95 %. Ejercicio 1.15
a) ¿Cuál debe ser el tamaño de la muestra para cumplir los objetivos marcados por la compañía? b) Si, una vez extraída la muestra, se observa que la proporción muestral es del 74 %, ¿entre qué valores se encontraría la proporción poblacional si se pretende seguir teniendo la confianza inicial? ¿Cuál es el error de estimación en este caso, y a qué se debe el cambio con el error pedido previamente?
Solución
Definimos la variable aleatoria X como: ⎧1 si un consumidor adquiere el producto X=⎨ ⎩0 si un consumidor no adquiere el producto
Sea p = P(X = 1) la proporción de consumidores que adquiere el producto. a) Se quiere estimar p, con eˆp = 0,03 y 1 – a = 0,95. El intervalo de confianza para p es:
冤
I p = pˆ − zα / 2
ˆˆ pq ; pˆ + zα / 2 n
ˆˆ pq n
冥
Si se despeja del intervalo, se obtiene: eˆ p = zα / 2
ˆˆ pq n
de donde: n=
ˆˆ zα2 / 2 pq 2 eˆ p
Como no se tiene información de pˆ ni, por supuesto, de qˆ (qˆ = 1 – pˆ ), se considera a priori el peor de los casos, cuando pˆqˆ = pˆ(1 – pˆ) se hace máximo: pˆ = qˆ = © Ediciones Pirámide
1 = 0,5 2 39
Ejercicios de inferencia estadística y muestreo Al considerar estos valores para pˆ y qˆ, obtenemos un tamaño muestral máximo, válido para garantizar el error fijado por la compañía sea cual sea el valor del parámetro p. Luego: n=
1,96 2 ⋅ 0,5 ⋅ 0,5 = 1.067,1111 0,032
Por tanto, n = 1.068 consumidores. El valor za/2 = 1,96 se ha obtenido en la tabla 7, y es tal que P(Z za/2) = 0,975. b) En este caso tenemos la información adicional de pˆ = 0,74. Por tanto, qˆ = 0,26. Además, n = 1.068. En esta situación: eˆ p = 1,96
0,74 ⋅ 0,26 = 0,02631 1.068
Luego p pertenece al intervalo [0,74 – 0,02631; 0,74 + 0,02631], con una confianza del 95 %. El error de estimación es más pequeño (0,02631), y eso se debe a que disponemos de información sobre pˆ y qˆ, que consideramos como conocidos y que no representan el peor de los casos.
Un prestigioso diario de información general quiere hacer un estudio sobre la diferencia en la intención de voto a los dos principales partidos políticos de su país. Lo único que se conoce es que ambos partidos están muy igualados en cuanto a intención de voto. ¿A cuántas personas debería entrevistar para estimar, con una confianza del 95 %, dicha diferencia de intención de voto con un error menor del 1 %? Ejercicio 1.16
La intención de voto de cada persona sigue una distribución B(1, p). Sean p1 = «Proporción de votantes del partido 1» y p2 = «Proporción de votantes del partido 2», el intervalo de confianza para la diferencia de proporciones es: Solución
冤( pˆ − pˆ ) − z 1
2
α /2
pˆ1qˆ1 pˆ 2 qˆ2 + ; ( pˆ1 − pˆ 2 ) + zα / 2 n n
pˆ1qˆ1 pˆ 2 qˆ2 + n n
冥
en donde za/2 = 1,96, ya que 1 – a = 0,95. 40
© Ediciones Pirámide
Distribuciones en el muestreo. Estimación Como no se tiene información sobre p1 y p2, salvo que los partidos están igualados, se toma el peor de los casos: pˆ 1 = pˆ 2 = 0,5. Despejando, se tiene:
error = 1,96
0,25 0,25 1,96 2 ⋅ 0,5 + ⇒ n= = 19.208 personas n n (0,01)2
En una determinada comunidad autónoma se va a lanzar al mercado un nuevo modelo de ordenador. Con el fin de valorar la acogida que tendrá el producto, se encargan dos investigaciones piloto, en función de un mismo tamaño de muestra, para obtener información sobre la proporción de consumidores dispuestos a adquirir el nuevo modelo, obteniéndose en cada una de ellas las siguientes estimaciones: pˆ 1 = 0,45 y pˆ 2 = 0,6. Ejercicio 1.17
a) Utilizando los resultados de estas investigaciones piloto, ¿cuál debería ser el tamaño muestral definitivo para estimar, con un 90 % de confianza, la proporción de consumidores que adquirirían el nuevo ordenador garantizando un error inferior al 0,5 %? b) Construya un intervalo de confianza al 90 % para la proporción de consumidores dispuestos a adquirir el ordenador, en el caso de que en una muestra de 40 individuos el 20 % se manifiesten favorables a la compra.
Solución
Sea: ⎧1 si una persona está dispuesta a adquirir el ordenador X=⎨ ⎩0 en otro caso
Esta variable sigue una distribución B(1, p), con p = P(X = 1), la proporción de consumidores dispuestos a adquirir el ordenador. a) Sabemos que el intervalo al nivel de confianza 100(1 – a) % para el parámetro p es:
冤 pˆ − z
α /2
© Ediciones Pirámide
ˆˆ pq ; pˆ + zα / 2 n
ˆˆ pq n
冥 41
Ejercicios de inferencia estadística y muestreo Estimando el error cometido como:
eˆ = zα / 2
ˆˆ pq n
se pretende que: 0,005 < zα / 2
ˆˆ pq n
en los dos casos. Como el nivel de confianza es del 90 %, a/2 = 0,05, luego, buscando en la tabla 7, se obtiene: zα / 2 = 1,645 por interpolación entre los dos valores de Z cuya probabilidad acumulada se encuentra más próxima a 0,95: P( Z 1,64) = 0,9495 P( Z 1,65) = 0,9505 Ahora, si despejamos n de la ecuación anterior, se obtiene: n=
ˆˆ zα2 / 2 pq 2 e
En el primer caso, pˆ 1 = 0,45, se tiene: n1 =
(1,645)2 ⋅ 0, 45 ⋅ 0,55 = 26.789,6475 ≈ 26.790 personas (0,005)2
En el segundo caso, pˆ 2 = 0,6, se tiene: n2 = 42
(1,645)2 ⋅ 0,6 ⋅ 0, 4 = 25.977,84 ≈ 25.978 personas (0,005)2 © Ediciones Pirámide
Distribuciones en el muestreo. Estimación Por tanto, para garantizar un error inferior al 0,5 % con un nivel de confianza del 90 %, el tamaño de la muestra que habría de ser elegida para garantizar la cota de error en cualquiera de los casos será de 26.790 personas. b) El intervalo de confianza para p será:
冤
ˆˆ pq ; pˆ + zα / 2 n
I p = pˆ − zα / 2
ˆˆ pq n
冥
Si sustituimos los valores que conocemos en esta expresión, obtendremos el intervalo de confianza para p:
冤0,2 − 1,645
0,2 ⋅ 0,8 0,2 ⋅ 0,8 ; 0,2 + 1,645 40 40
冥
[0,2 − 0,1040; 0,2 + 0,1040] [0,0960; 0,3040]
Se seleccionaron dos muestras aleatorias e independientes del número de puestos de trabajo creados en el último mes por diferentes empresas de dos sectores económicos. La información suministrada por las muestras es la siguiente: Ejercicio 1.18
Empresas
Número de empleos (sector A) Número de empleos (sector B)
1
2
3
4
5
6
13 18
14 19
21 20
19 22
15 31
15 26
Con el fin de conocer el impacto de las nuevas modalidades de contratación en los dos sectores y suponiendo que el número de empleos creados siguiera en ambos distribuciones normales con varianzas iguales: a) ¿Se puede admitir, con un 95 % de confianza, que la desviación típica del número de empleados en el sector B es igual a 2? b) Con un 99 % de confianza, ¿podríamos afirmar que ambos sectores son similares en cuanto al número medio de empleos creados en el último mes? c) Sin utilizar la información muestral anterior, ¿qué tamaño muestral sería necesario seleccionar para estimar, mediante un intervalo de confianza de amplitud © Ediciones Pirámide
43
Ejercicios de inferencia estadística y muestreo 0,05, la proporción de empresas del sector B que crearon más de 20 empleos en el último mes, con un nivel de confianza del 95 %? Sean las variables aleatorias X e Y las que representan el número de puestos de trabajo creados en el último mes por las empresas de los sectores económicos, A y B, respectivamente. Entonces: Solución
~ N(μx , σ x ) Y ~ N(μy , σ y )
X
con X e Y independientes y sx = sy = s. a) Para ver si 22 es un valor admisible para sy2, obtenemos el correspondiente intervalo de confianza al 95 %: Iσ 2 = y
(ny − 1)Sy2
冤χ
2 n y − 1;1 − α / 2
;
(ny − 1)Sy2
χ n2y − 1; α / 2
冥
donde los denominadores son los cuantiles de órdenes 1 – a/2 y a/2 de una distribución c2 con ny – 1 = 6 – 1 = 5 grados de libertad, es decir, utilizando que 1 – a = 0,95,
χ25
1–
= 0,90
/2 = 0,025
/2 = 0,025
χ25;
/2
χ25; 1–
/2
P( χ 52 χ 52;1 − α / 2 ) = 0,975 ⇒ χ 52;1 − α / 2 = 12,83 P( χ 52 χ 52; α / 2 ) = 0,025 ⇒ χ 52; α / 2 = 0,8312 44
© Ediciones Pirámide
Distribuciones en el muestreo. Estimación Calculamos la media y varianza muestral de las observaciones del sector B: yi
18
19
20
22
31
26
yi2
324
361
400
484
961
676
y=
1 ny
ny
∑ yi =
i =1
136 = 22,6667 6
⎡ ny ⎢ ny 1 1 2 ⎢∑ y 2 − sy2 = ( y − y ) = ∑ i ny − 1 i = 1 ny − 1 ⎢⎣i = 1 i =
冢 冣 ⎤⎥⎥ ny
∑ yi
2
i =1
ny
⎥⎦
=
1⎡ 136 2 ⎤ = 24,6667 . 3 206 − 5 ⎢⎣ 6 ⎥⎦
Por tanto, el intervalo de confianza al 95 % para sy2: ⎡ (6 − 1)24,6667 (6 − 1)24,6667 ⎤ Iσ 2 = ⎢ ; ⎥ = [9,6129; 148,3801] y 12,83 0,8312 ⎣ ⎦ y extrayendo la raíz cuadrada: Iσ y = [3,1005; 12,1811] Como 2 œ Isy, entonces, con un 95 % de confianza, no puede admitirse este valor para la desviación típica. b) Obtengamos el intervalo de confianza al 99 % para la diferencia de las medias poblacionales; como sx y sy son desconocidas, pero iguales, y los tamaños muestrales son pequeños, éste será:
冤
Iμ x − μ y = ( X − Y ) − tα / 2
© Ediciones Pirámide
(nx − 1)Sx2 + (ny − 1)Sy2
nx + ny
nx + ny − 2
nx ny
; ( X − Y ) + tα / 2
(nx − 1)Sx2 + (ny − 1)Sy2
nx + ny
nx + ny − 2
nx ny
冥
45
Ejercicios de inferencia estadística y muestreo donde t a/2 es el cuantil de una t de Student con nx + ny – 2 = 10 grados de libertad, tal que: P(t10 > tα / 2 ) =
α 0,01 = = 0,005 2 2
Entonces: P(t10 tα / 2 ) = 1 − 0,005 = 0,995 y utilizando la tabla 10: tα / 2 = 3,169 Obtengamos la media y varianza muestral de X:
x=
xi
13
14
21
19
15
15
xi2
169
196
441
361
225
225
1 nx
nx
∑ xi =
i =1
97 = 16,1667 6
⎡ ⎢ nx 1 ⎢∑ x 2 − s x2 = nx − 1 ⎢⎣i = 1 i
冢 ∑ xi 冣 nx
i =1
nx
2
⎤ ⎥ 1⎡ 972 ⎤ ⎥ = ⎢1.617 − = 9,7667 6 ⎥⎦ ⎥⎦ 5 ⎣
y sustituyendo en la expresión del intervalo:
冤
Iμ x − μ y = (16,1667 − 22,6667) − 3,169
5 ⋅ 9,7667 + 5 ⋅ 24,6667 6+6−2
6+6 ; 6⋅6
(16,1667 − 22,6667) + 3,169
5 ⋅ 9,7667 + 5 ⋅ 24,6667 6+6−2
6+6 6⋅6
冥
Iμ x − μ y = [ − 14,0917; 1,0917] 46
© Ediciones Pirámide
Distribuciones en el muestreo. Estimación Como el valor 0 está dentro de Imx – my, entonces puede admitirse la similitud en la creación de puestos de trabajo en estos dos sectores. c)
El intervalo de confianza para estimar una proporción es:
冤
pˆ (1 − pˆ ) ; pˆ + zα / 2 n
I p = pˆ − zα / 2
pˆ (1 − pˆ ) n
冥
con za/2 el cuantil de orden 1 – a/2 en una N(0, 1), es decir, tal que: P( Z > zα / 2 ) = α / 2 o bien: P( Z zα / 2 ) = 1 − α / 2 La longitud o amplitud de este intervalo será: L = 2 zα / 2
pˆ (1 − pˆ ) n
y, despejando el valor de n, tendremos: n=
4 ⋅ zα2 / 2 ⋅ pˆ (1 − pˆ ) L2
Si 1 – a = 0,95, entonces a/2 = 0,025 y, buscando en la tabla 7, el valor de za/2 será 1,96. El valor de L se sustituirá por el deseado, es decir, 0,05, y al no tener información muestral para pˆ, tomamos la situación más desfavorable: aquella que hace máxima pˆ(1 – pˆ):
pˆ (1 – pˆ) 1/4
pˆ 0 © Ediciones Pirámide
1/2
1
47
Ejercicios de inferencia estadística y muestreo por tanto, pˆ = 0,5, y así: n=
4 ⋅ 1,96 2 0,5 ⋅ (1 − 0,5) = 1.536,64 0,052
Así pues, el tamaño muestral necesario será: n 1.537 La autoridad monetaria de un país decide llevar a cabo una investigación sobre los rendimientos que produce un determinado producto financiero ofertado por los bancos. Seleccionada una muestra aleatoria simple de nueve entidades bancarias, y suponiendo que los rendimientos de este producto en el conjunto bancario se distribuyen normalmente, con media del 23 % y desviación típica del 6 %, calcule: Ejercicio 1.19
a) La probabilidad de que el rendimiento medio muestral se mantenga entre el 18,72 y el 25,76 %. b) La probabilidad de que la varianza muestral sea superior a 60,12. c) El valor de k, tal que P(S2 > k) = 0,95. d) Suponiendo ahora que la desviación típica fuera desconocida, y sabiendo que la desviación típica de la muestra de nueve bancos es 4,5 %, obtenga la probabilidad de que la media muestral sea superior al 25,79 %.
Solución
Definimos X como la variable aleatoria que representa el rendimiento de este producto en cada entidad bancaria. La distribución de esta variable
será: X
~ N (23, 6)
a) Seleccionada una muestra aleatoria simple, X1, ..., Xn, de tamaño 9, n = 9, la media muestral: X =
1 n ∑ Xi n i =1
se mantiene entre el 18,72 % y el 25,76 % con probabilidad: P(18,72 X 25,76) 48
© Ediciones Pirámide
Distribuciones en el muestreo. Estimación Para calcular esta probabilidad, tenemos en cuenta que:
X
~ N (23, 6)
⇒ X
~ N 冢23;
冣 冢
6 6 ≡ N 23; n 9
冣
y entonces: Z=
X − 23 6/ 9
~ N (0, 1)
por tanto: P(18,72 X 25,76) = P
冢18,672/ −923 X6 /− 239 25,676/ −9 23 冣 = P(− 2,14 Z 1,38) =
= P( Z 1,38) − P( Z < − 2,14) = P( Z 1,38) − P( Z − 2,14) = = 0,9162 − 0,0162 = 0,9 donde las probabilidades han sido buscadas en la tabla 7 de una distribución N(0, 1). b) La varianza muestral se define como:
S2 =
1 n ∑ ( Xi − X )2 n − 1 i =1
Se sabe que: (n − 1)S 2 σ2
~ χ n2 − 1
Como ahora n = 9 y s = 6, entonces: (9 − 1)S 2 36 © Ediciones Pirámide
~ χ 82 49
Ejercicios de inferencia estadística y muestreo Por tanto, utilizaremos esta distribución para calcular la probabilidad deseada: P( S 2 > 60,12) = P
冢
冣
(9 − 1)S 2 (9 − 1)60,12 > = P( χ 82 > 13,36) = 1 − P( χ 82 13,36) 36 36
Buscando esta probabilidad en la tabla 9, tenemos: P( S 2 > 60,12) = 1 − 0,900 = 0,10 c)
Para encontrar k, tal que: 0,95 = P( S 2 > k )
utilizamos el suceso complementario: 0,95 = 1 − P( S 2 k ) de donde: 0,05 = P( S 2 k ) = P
冢
8 ⋅ S2 8k 36 36
冣
y, de nuevo, de la tabla 9 se deduce que: 8k = 2,733 36 y, por tanto: k=
36 ⋅ 2,733 = 12,2985 8
d) Si suponemos ahora que la desviación típica es desconocida, entonces la distribución de X será: X 50
~ N (23, σ ) © Ediciones Pirámide
Distribuciones en el muestreo. Estimación La desviación típica muestral del rendimiento del producto en las nueve entidades ha sido de 4,5 %, por tanto: s = 4,5 Utilizando que: X−μ S/ n
~ tn − 1 ≡ t8
se tiene la probabilidad deseada buscando en la tabla 10 de una t de Student con ocho grados de libertad: P( X > 25,79) = P
冢 4X,5−/ 239 > 254,,795/ −923冣 = P(t
8
> 1,86) =
= 1 − P(t8 1,86) = 1 − 0,95 = 0,05
La empresa Buenavista, S. A., se dedica a la fabricación de monturas de gafas. Ante la celebración del próximo consejo de administración, el departamento comercial elabora un informe sobre la producción diaria, X, en cientos de unidades, que se distribuye normalmente. Para ello, recoge información durante 16 días seleccionados al azar y obtiene los siguientes resultados: Ejercicio 1.20
16
∑ xi = 276
i =1
16
;
∑ xi2 = 4.826
i =1
a) Obtenga, razonadamente, un intervalo de confianza al 95 % para la desviación típica de la producción diaria de esta empresa. b) La empresa de la competencia, Gafaplus, S. A., estudia la posibilidad de una fusión con la empresa Buenavista, S. A. Para ello, decide comprobar si existe una diferencia significativa entre sus producciones diarias. Se sabe que la producción diaria de la empresa Gafaplus, S. A. se distribuye también normalmente. Sobre la base de una muestra aleatoria tomada a lo largo de 26 días, Gafaplus, S. A., encuentra una producción media de 1.250 unidades y una varianza de 38.6002 unidades. Elabore un intervalo de confianza al 95 % para la diferencia de producciones medias. © Ediciones Pirámide
51
Ejercicios de inferencia estadística y muestreo a) La variable X, producción diaria de monturas de la empresa Buenavista, S. A. (en cientos de unidades), sigue una distribución normal de la que no se conoce ni la media, mx, ni la desviación típica, sx, aunque éstas se pueden estimar a partir de los resultados muestrales: Solución
x=
1 n 276 xi = = 17, 25 cientos de monturas/día ∑ n i =1 16
s x2 =
1 n 1 ( xi − x ) 2 = ∑ n − 1 i =1 n −1
=
冤
冤∑ xi2 − n 冢∑ xi 冣 冥 = n
n
1
i =1
2
i =1
冥
1 1 4.826 − (276)2 = 4,3333 15 16
El intervalo de confianza para la varianza, como m es desconocida y n = 20 (pequeña), será:
Iσ 2 = x
冤
(nx − 1)Sx2 (nx − 1)Sx2 ; χ n2 − 1;1 − α / 2 χ n2 − 1; α / 2
冥
donde los denominadores son los cuantiles de órdenes 1 – a/2 y a/2, tales que en una c2 con n – 1 = 15 grados de libertad verifican que:
χ215
1–
/2
/2
χ215;
52
/2
χ215; 1–
/2
© Ediciones Pirámide
Distribuciones en el muestreo. Estimación Como 1 – a = 0,95, a/2 = 0,025, entonces, utilizando la tabla 9, estos valores serán: 2 χ15 ;1 − α / 2 = 27, 49 2 χ15 ; α / 2 = 6,262
Sustituyendo en el intervalo:
Iσ 2 = x
,3333 冤1527⋅ 4,,493333 ; 156⋅ ,4262 冥 = [2,3645; 10,3800]
Por tanto, para sx, el intervalo lo podemos obtener tomando raíces cuadradas: Iσ x = [1,5377; 3,2218] b) Si denominamos Y a la variable que representa la producción de monturas de gafas de la empresa Gafaplus, S. A. (en cientos de unidades), se ha obtenido a partir de la muestra: y = 12,50 cientos de unidades sy2 = 3, 86 (cientos de unidades)2 Para construir un intervalo de confianza para la diferencia de medias, se debe conocer, en primer lugar, si las varianzas son iguales o no. Para ello, podemos construir un intervalo de confianza sobre el cociente de varianzas y comprobar si el valor 1 pertenece al intervalo (lo que implicaría la posibilidad de igualdad de varianzas). Este intervalo será: Iσ 2 /σ 2 = x
y
冤
Sx2 Sx2 1 1 ⋅ ; ⋅ 2 2 Sy Fnx − 1,ny − 1;1 − α / 2 Sy Fnx − 1,ny − 1; α / 2
冥
siendo: Fnx − 1,ny − 1;1 − α / 2 = © Ediciones Pirámide
1 Fny − 1,nx − 1; α / 2 53
Ejercicios de inferencia estadística y muestreo y Fnx − 1,ny − 1; α / 2 el cuantil de orden a/2 en una distribución de Ᏺ de Snedecor con nx – 1 = 15, ny – 1 = 25 grados de libertad. Gráficamente:
Ᏺ15,25
/2
/2
F15,25;
F15,25; 1 –
/2
/2
es decir: P(Ᏺ 15,25 F15,25;1 − α / 2 ) = 1 − α / 2 = 1 −
0,05 = 0,975 2
Buscando en la tabla 11, con n1 = 15 y n2 = 25, obtenemos: F15,25;1 − α / 2 = 2, 41 Por otra parte: P(Ᏺ 15,25 < F15,25; α / 2 ) = α / 2 = 0,025 0,025 = P(Ᏺ 15,25 < F15,25; α / 2 ) = P =P
冢F
1
15,25; α / 2
< Ᏺ 25,15
冢F
1
15,25; α / 2
4,
se pide: a) b) c) d) e)
¿Es una función de probabilidad? Calcule y represente la función de distribución en función de q. Obtenga la esperanza de X y su varianza. ¿Cuál es la probabilidad P(0,5 X < 3) en función de q? Dada una muestra aleatoria simple de tamaño 20, se obtienen los siguientes resultados: X
Observados
0 1 2 3
8 5 3 4
Estime q por el método de los momentos y por el método de máxima verosimilitud.
Solución
56
La distribución de probabilidad de la variable X es: X=x
0
1
2
3
P(x) = P(X = x)
1 q
5 2q
q–4 q
1 2q © Ediciones Pirámide
Distribuciones en el muestreo. Estimación a) Para comprobar que se trata de una distribución de probabilidad, debemos demostrar que: i)
P( x ) 0, ∀ x
ii )
∑ P( x ) = 1 x
En este caso, como q > 4, entonces, en particular también q > 0 y, por tanto, se tiene que:
P( X = 0) =
1 >0 θ
P( X = 1) =
5 >0 2θ
P( X = 2) =
θ−4 > 0, θ
P( X = 3) =
1 >0 2θ
pues θ > 4 ⇒ θ − 4 > 0
con lo cual, queda probado i). Veamos que la suma de las probabilidades es igual a la unidad: 1
5
∑ P( x ) = P( X = 0) + P( X = 1) + P( X = 2) + P( X = 3) = θ + 2θ + x
=
θ−4 1 + = 2θ θ
6 θ − 3 3+θ − 3 θ + = = =1 2θ θ θ θ
Por tanto, se trata de una función de probabilidad. b) Por definición, la función de distribución en un valor x representa la probabilidad acumulada hasta ese punto: F( x ) = P( X x ) © Ediciones Pirámide
57
Ejercicios de inferencia estadística y muestreo Entonces: ⎧0 ⎪ ⎪1 ⎪θ ⎪ ⎪⎪ 1 + 5 = 7 F( x ) = P( X x ) = ⎨θ 2θ 2θ ⎪ ⎪ 7 + θ − 4 = 2θ − 1 ⎪ 2θ θ 2θ ⎪ ⎪ 2θ − 1 + 1 = 2θ = 1 ⎪⎩ 2θ 2θ 2θ
si x < 0 si 0 x < 1 si 1 x < 2 si 2 x < 3 si x 3
cuya representación gráfica es: F(x) F(x)
1 (2 – 1) ——— 2 7 —– 2 1 ––
0
1
2
3
x
c) El valor esperado o esperanza de una variable aleatoria discreta se define como: E[ X ] =
∑ x ⋅ P( X = x ) x
58
© Ediciones Pirámide
Distribuciones en el muestreo. Estimación Por tanto, en nuestro caso: 3
E[ X ] =
1
∑ x ⋅ P( X = x ) = 0 ⋅ θ
+ 1⋅
x=0
=
5 1 θ−4 + 2⋅ + 3⋅ = 2θ 2θ θ
0 + 5 + 4θ − 16 + 3 4θ − 8 2θ − 4 = = 2θ 2θ θ
Para calcular la varianza de X, utilizaremos que: Var [ X ] = E[ X 2 ] − [ E[ X ]]2 donde: 3
E[ X 2 ] =
1
5
∑ x 2 ⋅ P( X = x ) = 0 2 ⋅ θ + 12 ⋅ 2θ + 2 2 ⋅
x=0
=
1 θ−4 + 32 ⋅ = 2θ θ
5 8θ − 32 9 8θ − 18 4θ − 9 + + = = 2θ 2θ 2θ 2θ θ
Así: Var [ X ] = =
冢
4θ − 9 2θ − 4 − θ θ
冣
2
=
4θ − 9 4θ 2 + 16 − 16θ − = θ θ2
4θ 2 − 9θ − 4θ 2 − 16 + 16θ 7θ − 16 = θ2 θ2
que toma un valor positivo, pues q > 4 y, por tanto: 7q – 16 > 0
d)
P(0,5 X < 3) = P( X = 1) + P( X = 2) = =
© Ediciones Pirámide
5 θ − 4 5 + 2θ − 8 + = = 2θ 2θ θ
2θ − 3 3 = 1− 2θ 2θ 59
Ejercicios de inferencia estadística y muestreo e) Para emplear el método de los momentos, igualamos los momentos poblacionales a los muestrales. Por tanto:
α1 = a1 y en nuestro caso: 2θ − 4 ⎫ θ ⎪⎪ n ⎬ 1 a1 = ∑ Xi = X ⎪ n i =1 ⎪⎭
α1 = E[ X ] =
Con lo cual: X =
2θ − 4 θ
θX = 2θ − 4 4 = θ (2 − X )
θˆ =
4 2−X
Ahora bien, como: x=
1 0 ⋅ 8 + 1 ⋅ 5 + 2 ⋅ 3 + 3 ⋅ 4 23 xi ni = = ∑ n xi 20 20
entonces:
θˆ =
4 23 2− 20
=
4 ⋅ 20 80 = = 4,706 40 − 23 17
Para estimar el parámetro q por el método de máxima verosimilitud, obtenemos, en primer lugar, la función de verosimilitud asociada a esta muestra: 60
© Ediciones Pirámide
Distribuciones en el muestreo. Estimación 20
L( x1 ,..., x20 ; θ ) = P( x1 ,..., x20 ; θ ) = ∏ P( xi ; θ ) = i =1
= ( P( X = 0))8 ( P( X = 1))5 ( P( X = 2))3 ( P( X = 3)) 4 = =
冢 冣冢 冣冢 1 θ
8
5 2θ
5
θ−4 θ
冣冢 冣 3
1 2θ
4
=
3.125 ⋅ (θ − 4)3 515 ⋅ θ 20
Debemos hallar el valor que hace máxima esta función o, lo que es equivalente, el valor que maximiza su logaritmo neperiano: ⎡ 3.125 ⎤ ln L( x1 ,..., x20 ; θ ) = ln ⎢ + 3 ln (θ − 4) − 20 ln θ ⎣ 512 ⎥⎦ 3 20 ∂ ln L( x1 ,..., x20 ; θ ) =0+ − (θ − 4) θ ∂θ 3 20 ∂ ln L( x1 ,..., x20 ; θ ) =0 ⇒ = (θ − 4) θ ∂θ 3θ = 20θ − 80 80 = 17θ 80 θˆ = = 4,706 17 Un experimento realizado en un laboratorio refleja que, al inyectar determinada sustancia a un tipo de células, el tiempo de vida de éstas (en horas) se distribuye normalmente con varianza 100. Halle el número de células necesario que deben incluirse en una muestra aleatoria simple para que se verifique que: Ejercicio 1.22
P( μ − 5 < X < μ + 5) = 0,803 —
siendo X la media de la muestra de los tiempos de vida de las células.
Solución
Sea X la variable aleatoria que representa el tiempo de vida de una de estas células tras inyectarles dicha sustancia.
Como: X © Ediciones Pirámide
~ N ( μ, σ
= 10) 61
Ejercicios de inferencia estadística y muestreo entonces:
X
~ N 冢 μ,
冣 冢
σ 10 ≡ N μ, n n
冣
y, por tanto: Z=
X−μ 10 / n
~ N (0, 1)
Así, tendremos que: 0,803 = P( μ − 5 < X < μ + 5) = P
冢 μ10− /5 −nμ < 10X /− μn < μ10+ /5 −nμ 冣 =
= P( − 0,5 n < Z < 0,5 n ) = P( Z < 0,5 n ) − P( Z − 0,5 n ) = = P( Z < 0,5 n ) − P( Z 0,5 n ) = P( Z < 0,5 n ) − 1 + P( Z < 0,5 n ) = = 2 P( Z < 0,5 n ) − 1 Por tanto, como se trata de una variable continua: P( Z < 0,5 n ) = P( Z 0,5 n ) = 0,9015 y, utilizando la tabla correspondiente a la función de distribución de una N(0, 1), tenemos: P( Z 1,29) = 0,9015 Así, igualando las expresiones del percentil: 0,5 n = 1,29 Con lo cual: n= 62
冢 冣 = 6,6564 ⯝ 7 1,29 0,5
2
© Ediciones Pirámide
Distribuciones en el muestreo. Estimación Supongamos una variable aleatoria X con distribución normal de media tres y varianza 100. Si se pretende tomar una muestra aleatoria simple de tamaño 25, (X1, ..., X25), calcule: Ejercicio 1.23
P(0 < X < 6; 65,25 < S 2 < 151,75) —
Por el teorema de Fisher, se sabe que X y S2 son variables aleatorias independientes y, por tanto, la probabilidad conjunta pedida será el producto de las probabilidades marginales: Solución
P(0 < X < 6; 65,25 < S 2 < 151,75) = P(0 < X < 6) ⋅ P(65,25 < S 2 < 151,75) Como X ~ N(3, 10), entonces:
X
~ N 冢3;
冣
10 ≡ N (3, 2) 25
y así: Z=
X −3 2
~ N (0, 1)
Por tanto, tipificando en el primer factor del producto de probabilidades, quedaría: P(0 < X < 6) = P
冢 0 2− 3 < Z < 6 2− 3冣 = P(− 1,5 < Z < 1,5) =
= P( Z < 1,5) − P( Z − 1,5) = = 0,9332 − 0,0668 = 0,8664 Para el segundo factor, se puede utilizar un resultado del teorema de Fisher, que indica que: (n − 1)S 2 24 S 2 = σ2 100 © Ediciones Pirámide
~ χ n2 − 1 ≡ χ 242 63
Ejercicios de inferencia estadística y muestreo y así: P(65,25 < S 2 < 151,75) = P
25 ⋅ 24 Y ) = P( X − Y > 0 ) = P Z >
冣
0 − ( − 1) = P( Z > 0,85) = 1 − P( Z 0,85) = 117 ,
= 1 − 0,8023 = 0,1977
En una ciudad existen dos discotecas de gran capacidad que son muy populares. Se sabe que, en la situada en el centro de la ciudad, el 70 % de los clientes tienen, cuando marchan de la fiesta, un grado de alcohol en sangre mayor que el permitido por ley para conducir un vehículo. En la que está situada a las afueras de la ciudad, este porcentaje viene a ser del 60 %. Para tratar de informar y concienciar a la población, durante un fin de semana, la policía pretende llevar a cabo un simulacro de control de alcoholemia situándose en las salidas de los dos lugares. Si se decide elegir aleatoriamente a 45 personas en la discoteca del centro y 38 en la otra, calcule la probabilidad de que la proporción muestral de personas que superan el nivel de alcohol permitido por ley descienda en más de un 5 % de la zona centro a las afueras. Ejercicio 1.25
Solución
Definimos la variable aleatoria X como: ⎧1 si un cliente de la discoteca del centro presenta ⎪ X = ⎨ mayor grado de alcohol en sangre del permitido ⎪⎩0 en otro caso
© Ediciones Pirámide
65
Ejercicios de inferencia estadística y muestreo Análogamente, se define la variable Y para los clientes de la otra discoteca. Por tanto:
~ B(1; px = 0,70) Y ~ B(1; py = 0,60)
X
y suponemos independencia entre estas variables. Denotando las proporciones muestrales correspondientes como pˆ x y pˆ y, debemos calcular: P( pˆ x > pˆ y + 0,05) = P( pˆ x − pˆ y > 0,05) Puesto que la distribución de la diferencia de proporciones muestrales es: pˆ x − pˆ y
~ N 冢 px − py ;
px q x py q y + nx ny
冣
si hacemos px = 0,70, qx = 0,30, nx = 45, py = 0,60, qy = 0,40 y ny = 38, se tendrá: pˆ x − pˆ y Z=
pˆ x − pˆ y − 0,1 0,105
~
N (0,1; 0,105)
~
N (0, 1)
Así pues, tipificando en la probabilidad anterior:
冢
P( pˆ x − pˆ y > 0,05) = P Z >
冣
0,05 − 0, 1 = P( Z > − 0,48) = 1 − P( Z − 0,48) = 0,105
= 1 − 0,6844 = 0,3156
66
© Ediciones Pirámide
2
Contraste de hipótesis paramétrico
Contraste de hipótesis paramétrico
Con anterioridad al lanzamiento de un producto, una empresa realiza un estudio de mercado para recoger información sobre el precio que los compradores estarían dispuestos a pagar. Se supone que este precio sigue una distribución normal con desviación típica 10 euros. Los técnicos del departamento de marketing emiten un informe en el que se afirma que el precio medio que el público consideraría como adecuado sería de 30 euros, y para contrastar esta hipótesis frente a la de que el precio adecuado sería de 40 euros, se dedice seleccionar al azar una muestra de 25 personas y adoptar la siguiente regla de decisión: si la media muestral es inferior o igual a 35, se considerará que lo adecuado es fijar un precio de 30 euros. Obtenga: Ejercicio 2.1
a) b) c) d) e)
La probabilidad de cometer error de tipo I. La probabilidad de cometer error de tipo II. La representación gráfica de ambos tipos de errores. La potencia del contraste y su representación gráfica. La región de rechazo, la de aceptación y la probabilidad de error de tipo II para un nivel de significación del 1 %.
Llamemos X a la variable aleatoria «Precio que una persona consideraría adecuado para el producto en cuestión». Se supone que la distribución seguida por esta variable es: Solución
X ~ N(m, 10) Las hipótesis que desea contrastar el departamento de marketing son las siguientes: H0 : μ = 30 H1: μ = 40 © Ediciones Pirámide
67
Ejercicios de inferencia estadística y muestreo Para ello, se decide seleccionar una muestra aleatoria de 25 personas, en la que se – calculará el valor de X, y se adoptará la correspondiente decisión según la regla fijada, es decir: Si X 35, acepta que μ = 30 Si X > 35, acepta que μ = 40 a) Para obtener la probabilidad de cometer error de tipo I, se debe conocer la – distribución del estadístico X. Sabemos que en poblaciones normales, X ~ N(m; 10), se tiene que: X
~ N 冢 μ,
冣 冢
冣
σ 10 ≡ N μ, ≡ N ( μ, 2) n 25
Con esta información, y aplicando el concepto de error de tipo I, se obtiene:
α ( μ ) = P[error de tipo I] = P[ rechazar H0 / H0 cierta ] = P[ X > 35 /μ = 30] = = P[ X > 35 / X
⎡
~ N (30, 2)] = P ⎢ X − 30 > 35 − 30 ⎣
2
2
X
⎤
~ N (30, 2)⎥ = ⎦
= P[ Z > 2,5] = 1 − P[ Z 2,5] = 1 − 0,9938 = 0,0062 – pues si X ~ N(30, 2), entonces: Z=
X − 30 2
~ N (0, 1)
b) De forma análoga, obtenemos la probabilidad de cometer error de tipo II:
β ( μ ) = P[error de tipo II] = P[aceptar H0 / H0 falsa ] = P[aceptar H0 / H1 cierta ] = = P[ X 35 /μ = 40] = P[ X 35 / X ⎡ X − 40 35 − 40 = P⎢ X 2 ⎣ 2
~ N (40, 2)] = ⎤
~ N (40, 2)⎥ = P[ Z − 2,5] = P[ Z 2,5] = ⎦
= 1 − P[ Z < 2,5] = 1 − 0,9938 = 0,0062 68
© Ediciones Pirámide
Contraste de hipótesis paramétrico c)
Representamos gráficamente las probabilidades de estos errores: N(40, 2)
N(30, 2)
= 0,0062
= 30
= 0,0062
35
Se acepta H0
= 40 Se rechaza H0
d) La función de potencia se define como la probabilidad de rechazar la hipótesis nula con los diferentes puntos del espacio paramétrico, en este caso W = {30, 40}; así: ⎧ P[ X > 35 /μ = 30] Pc ( μ ) = P[ rechazar H0 /μ ] = P[ X > 35 /μ ] = ⎨ ⎩ P[ X > 35 /μ = 40] Por tanto: si μ = 30 ⎧0,0062 si μ = 30 ⎧α Pc ( μ ) = ⎨ =⎨ ⎩1 − β si μ = 40 ⎩0,9938 si μ = 40 Su representación gráfica será: Pc( ) 1 0,9938
1– 0,0062
α
30
e)
40
μ
Para encontrar la región de rechazo y la de aceptación del contraste anterior: H0 : μ = 30 H1: μ = 40
© Ediciones Pirámide
69
Ejercicios de inferencia estadística y muestreo con un nivel de significación a = 0,01, debemos encontrar un valor, x–c, tal que: Si X xc , aceptamos μ = 30 (aceptamos H0 ) Si X > xc , aceptamos μ = 40 (rechazamos H0 ) y, además, se verifica que, como H0 y H1 son simples: 0,01 = α =
máx α ( μ ) = α (30) = P[ rechazar H0 /μ = 30] = P[ X > xc /μ = 30]
μ ∈Ω 0 = {30}
– Si m = 30, entonces la distribución de X será: X
~ N (30, 2)
y, por tanto: X − 30 2
Z=
~ N (0, 1)
Entonces: ⎡ X − 30 xc − 30 ⎤ x − 30 ⎤ ⎡ 0,01 = P[ X > xc /μ = 30] = P ⎢ > μ = 30 ⎥ = P ⎢ Z > c = 2 2 ⎥⎦ ⎣ ⎣ 2 ⎦ x − 30 ⎤ ⎡ P⎢Z c = 0,99 2 ⎥⎦ ⎣ y, buscando en la tabla 7, obtenemos: xc − 30 = 2,33 2 xc = 30 + 2 ⋅ 2,33 = 34,66 Con lo cual, la región de rechazo y la de aceptación son, respectivamente: C = {( X1 ,..., X25 ) ∈ ⺢ 25 / X > 34,66} C = {( X1 ,..., X25 ) ∈ ⺢ 25 / X 34,66} 70
© Ediciones Pirámide
Contraste de hipótesis paramétrico Para calcular la probabilidad del error del tipo II utilizamos su definición: P[error de tipo II] = P[aceptar H0 / H0 falsa ] = P[aceptar H0 /μ = 40] = β ( 40) = ⎡ X − 40 34,66 − 40 ⎤ = P[ X 34,66 /μ = 40] = P ⎢ μ = 40 ⎥ = 2 ⎣ 2 ⎦ = P[ Z − 2,67] = 0,0038 pues si m = 40, entonces: Z=
X − 40 2
~ N (0, 1)
La representación gráfica conjunta de los dos tipos de errores sería ahora: N(40, 2)
N(30, 2)
= 0,0038
= 0,01 x–
= 30 Aceptamos H0
34,66
= 40 Rechazamos H0
Dos revistas especializadas en temas de derecho laboral publican cada una un estudio sobre el porcentaje de juicios ganados de los despachos de abogados laboralistas más importantes del país. En uno de los estudios se recoge que la firma de abogados Lader gana el 40 % de los juicios, mientras que en la otra revista aparece un porcentaje del 50 %. Un sindicato se plantea contratar los servicios de esta firma de abogados y, para tomar la decisión, desea conocer qué porcentaje es correcto. Con este fin se selecciona una muestra aleatoria de los juicios defendidos por este despacho y se obtiene el porcentaje de juicios ganados. Si este porcentaje es inferior al 100k %, el sindicato aceptará que el verdadero porcentaje es del 40 %; en caso contrario, aceptará que es del 50 %. Obtenga el valor de la constante k y el número de juicios, de entre todos los defendidos por Lader, que será necesario seleccionar para que los tamaños de los errores de tipo I y tipo II sean del 5 % y del 15 %, respectivamente. Ejercicio 2.2
© Ediciones Pirámide
71
Ejercicios de inferencia estadística y muestreo Sea una variable aleatoria que toma el valor 1 cuando un juicio defendido por Lader ha sido ganado, y el valor 0 en caso contrario. Por tanto, se trata de una variable con distribución B(1, p). Las hipótesis que se desea contrastar son: Solución
H0 : p = 0, 40 H1: p = 0,50 Para decidir entre ellas, se elige una muestra aleatoria simple X1, ..., Xn de esta población y se toma la siguiente regla de decisión: Si pˆ =
1 n ∑ Xi < k ⇒ se acepta H0 : p = 0,40 n i =1
Si pˆ =
1 n ∑ Xi k ⇒ se rechaza H0 y se acepta H1: p = 0,50 n i =1
El tamaño muestral necesario, n, dependerá del tamaño de los errores de tipo I y tipo II que se esté dispuesto a tolerar. Así, utilizando la información del enunciado: 0,05 = α = máx α ( p) = máx P( rechazar H0 / H0 cierta) = máx P( pˆ k / H0 cierta) p ∈Ω 0
p ∈Ω 0
p ∈Ω 0
0,15 = β = máx β ( p) = máx P(aceptar H0 / H0 falsa) = máx P( pˆ < k / H0 falsa) p ∈Ω1
p ∈Ω1
p ∈Ω1
teniendo en cuenta que tanto H0 como H1 son simples (W 0 = {0,40}; W1 = {0,50}) y que la distribución de la proporción muestral se puede aproximar por la distribución:
冢
pq n
N p,
冣
se tiene que:
冢
冢
0,05 = α = P( pˆ k / p = 0, 40) = P pˆ k / pˆ ~ N 0, 40;
冢
=P Z
冣
冢
冢
冣冣 =
k − 0, 40 = P( Z zα ) 0,24 / n
冢
0,15 = β = P( pˆ < k / p = 0,50) = P pˆ < k / pˆ ~ N 0,50; =P Z
0} Ω 0 = {λ0 = 55} Ω1 = {λ ∈ ⺢ + / λ ≠ 55} = ⺢ + − {55} entonces: n
∑ xi
λ0 r r r L*( e − nλ 0 0 x ; λ ) = máx L( x ; λ ) = L( x ; λ 0 ) = n λ ∈Ω 0 ∏ ( xi !) i =1
i =1
y r r r L*( x ; λ ) = máx L( x ; λ ) = L( x ; λˆ ) λ ∈Ω
donde lˆ es el estimador de máxima verosimilitud del parámetro l: r ln L( x ; λ ) =
冢∑ xi 冣 ln λ − nλ − ln 冤∏ ( xi!)冥 n
n
i =1
i =1
n
r ∂ ln L( x ; λ ) = ∂λ
∑ xi
i =1
−n−0
λ
n
∑ xi
i =1
λ r ∂ 2 ln L( x ; λ ) ∂λ2
−n= 0 ⇒ λ =
冷
λ=x
=−
1 λ2
1 n ∑ xi = x n i =1
冢 ∑ xi 冣 − 0 < 0 n
i =1
pues xi 0, ∀ i = 1, ..., n, ya que X ~ ᏼ(l). © Ediciones Pirámide
75
Ejercicios de inferencia estadística y muestreo Por tanto, en una distribución de Poisson, el estimador de máxima verosimilitud de l es:
λˆ = X y así: n
X r r r L*( x ; λ ) = máx L( x ; λ ) = L( x ; λˆ ) = n λ ∈Ω
∑ Xi
i =1
e − nX
∏ ( Xi !) i =1
r Sustituyendo L*0 y L* en la expresión del estadístico l(x), tenemos: n
r L*( x ; λ ) r λ(x) = 0 r = L*( x ; λ )
∑ xi
λ0
i =1
e − nλ0
n
∏ ( Xi !) i =1
n
∑ Xi
X i = 1 e − nX
n
n
=
∏ ( Xi !)
冢 λX 冣 0
∑ Xi
i =1
e n( X − λ0 )
i =1
Con lo cual, la región crítica de este contraste será: n
冦
r C = {( X1 ,..., Xn ) ∈ ⺢ n / λ ( x ) < c} = ( X1 ,..., Xn ) ∈ ⺢ n
冢 λX 冣 0
∑ Xi
i =1
冧
e n( X − λ0 ) < c
con k la constante, tal que: r α = P( rechazar H0 / H0 cierta) = P(λ ( x ) < c /λ = λ0 ) Teniendo en cuenta que, al ser n = 150, podemos utilizar la aproximación siguiente: r − 2 ln λ ( x )
~ H0 n→∞
χ k2 ≡ χ12
en la que k es el número de parámetros desconocidos (el parámetro l) menos el número de parámetros desconocidos bajo H0 (0) y, por tanto, en el caso que nos ocupa, k = 1 – 0 = 1. 76
© Ediciones Pirámide
Contraste de hipótesis paramétrico Utilizando la aproximación anterior: r r α = P(λ ( x ) < c /λ = λ0 ) = P( − 2 ln λ ( x ) > − 2 ln c /λ = λ0 ) ≈ ≈ P( χ12 > − 2 ln c /λ = λ0 ) Gráficamente:
χ21
1–
– 2 ln c
de donde: − 2 ln c = χ12;1 − α con c21; 1 – a el cuantil de orden 1 – a en una c2 con 1 grado de libertad, que podría obtenerse de la tabla 9, cuando a sea una cantidad concreta. Despejando c en la igualdad anterior: c=
1 − χ12− α e 2
y, por tanto, la región crítica quedará como: r r C = {( X1 ,..., Xn ) ∈ ⺢ n / λ ( x ) < c} = {( X1 ,..., Xn ) ∈ ⺢ n / − 2 ln λ ( x ) > − 2 ln c} = r = {( X1 ,..., Xn ) ∈ ⺢ n / − 2 ln λ ( x ) > χ12;1 − α } = n
冦
= ( X1 ,..., Xn ) ∈ ⺢ n / − 2 ln © Ediciones Pirámide
冤冢 λX 冣 0
∑ Xi
i =1
冥
e n( X − λ0 ) > χ12;1 − α
冧 77
Ejercicios de inferencia estadística y muestreo Sustituyendo l0 por 55 y n por 150, tendremos: 150
冦
C = ( X1 ,..., X150 ) ∈ ⺢
150
/ − 2 ln
冤冢 冣 55 X
∑ Xi
i =1
冥
e150 ( X − 55) > χ12;1 − α
冧
y la regla de decisión será, por tanto: 150
r «Si − 2 ln λ ( x ) = − 2 ln
冤冢 冣 55 X
∑ Xi
i =1
冥
e150 ( X − 55) > χ12;1 − α , entonces se rechaza H0 »
b) La información muestral de las 150 horas: 150
∑ xi = 6.000 aterrizajes
i =1
con lo cual:
x=
1 150 6.000 xi = = 40 ∑ 150 i = 1 150
Así pues: r − 2 ln λ ( x ) = − 2 ln
冤
冤冢 4055 冣
6.000
= − 2 6.000 ln
冥
e150 ( 40 − 55) =
冢 4055 冣 + 150(40 − 55)冥 = 678,5552
que será el valor experimental. La región crítica, para a = 0,10, se obtendrá utilizando la tabla 9, y se representará como: 78
© Ediciones Pirámide
Contraste de hipótesis paramétrico
χ21
0,90
= 0,10
– 2 ln c = χ21; 0,90 = 2,70
Por tanto, al ser: r − 2 ln λ ( x ) = 678,5552 > 2,70 = χ12; 0,90 entonces se rechaza H0, es decir, al 10 % de significación los datos muestrales presentan evidencia suficiente para rechazar H0, por lo que hay motivos para considerar incorrecta la afirmación del informe de la torre de control. Se ha estudiado el beneficio anual (pérdida en el caso de valores negativos) de las empresas de una determinada localidad, y se ha caracterizado por una distribución normal con dos millones de euros de desviación típica. Ejercicio 2.4
a) Se elige una muestra aleatoria de 25 empresas, y la media muestral observada es de 0,5 millones. Determine el intervalo de confianza del 90 % y del 95 % para el beneficio medio anual de las empresas de la localidad. b) A la vista de los resultados anteriores, ¿sería adecuado pensar que las empresas de esta localidad tienen pérdidas anualmente? c) Si se desea obtener un intervalo de confianza al 90 % para el beneficio medio con una amplitud de dos millones de euros, ¿qué tamaño deberá tener la muestra seleccionada? Sea X = «Beneficio anual, en millones de euros, de las empresas de esta localidad». Esta variable aleatoria se distribuye según una normal con desviación típica dos millones de euros, es decir: Solución
X © Ediciones Pirámide
~ N ( μ; 2) 79
Ejercicios de inferencia estadística y muestreo a) Se eligió una muestra aleatoria de tamaño 25, x1, ..., x25, y la media muestral fue x– = 0,5. Para construir el intervalo de confianza de esta situación, sustituimos la información muestral en:
冤
Iμ = X − zα / 2
σ σ ; X + zα / 2 n n
冥
Para niveles de confianza del 90 % y 95 %, los valores za/2 correspondientes serán tales que: Al 90 % de confianza 1 − α = 0,90 ⇒ α / 2 = 0,05 ⇒ P( Z z0,05 ) = 0,95 ⇒ z0,05 = 1,645 Al 95 % de confianza 1 − α = 0,95 ⇒ α / 2 = 0,025 ⇒ P( Z z0,025 ) = 0,975 ⇒ z0,025 = 1,96 Por tanto, el intervalo de confianza del 90 % es:
冤
Iμ = 0,5 − 1,645
冥
2 2 ; 0,5 + 1,645 = [ − 0,158; 1158 , ] 25 25
y el intervalo de confianza del 95 % será:
冤
Iμ = 0,5 − 1,96
冥
2 2 ; 0,5 + 1,96 = [ − 0,284; 1,284] 25 25
Se observa que el intervalo de confianza tiene mayor amplitud cuanto mayor es el nivel de confianza exigido. b) No se podría descartar esta posibilidad, ya que ambos intervalos de confianza contienen valores menores o iguales a cero. Otra posibilidad para responder a esta pregunta sería contrastar si la media de la variable X es o no mayor que cero utilizando niveles de significación del 10 % y del 5 %; por tanto, planteamos las hipótesis del contraste como: H0 : μ 0 = μ 0 H1: μ > 0 80
© Ediciones Pirámide
Contraste de hipótesis paramétrico El estadístico de prueba a utilizar será: Z=
X − μ0 σ/ n
~ N (0, 1)
H0
cuyo valor experimental se obtiene a partir de la información muestral: zexp =
x −0 0,5 − 0 = = 1,25 σ / n 2 / 25
La región crítica o de rechazo de la hipótesis nula se representa gráficamente como: N(0,1)
1–
z
Para un nivel de significación del 5 %, el valor crítico será tal que: P( Z zα ) = 1 − α = 1 − 0,05 = 0,95 ⇒ zα = 1,645 Por tanto, la región crítica quedará como: N(0,1)
1–
= 0,95
= 0,05
z = 1,645 © Ediciones Pirámide
81
Ejercicios de inferencia estadística y muestreo Para un nivel de significación del 10 %, el valor crítico verificará: P( Z zα ) = 1 − α = 1 − 0,1 = 0,90 ⇒ zα = 1,28 y la región crítica será, por tanto: N(0,1)
1–
= 0,9
= 0,1
z = 1,28
Como en ambos casos: zexp = 1,25 < 1,645 = zα zexp = 1,25 < 1,28 = zα entonces no se rechaza la hipótesis nula ni con un 5 % de significación ni con un 10 % de significación. Por tanto, no se puede descartar que las empresas de esta localidad tienen pérdidas anualmente. c)
El intervalo de confianza:
冤
Iμ = X − zα / 2
σ σ ; X + zα / 2 n n
冥
tiene por amplitud: L = X + zα / 2
冢
冣
σ σ σ − X − zα / 2 = 2 ⋅ zα / 2 n n n
Por tanto, el tamaño muestral necesario para conseguir una amplitud determinada, L, con un nivel de confianza (1 – a) %, será: n= 82
4 ⋅ zα2 / 2 ⋅ σ 2 L2 © Ediciones Pirámide
Contraste de hipótesis paramétrico Si se quiere que la amplitud sea de dos millones de euros con una confianza del 90 %, entonces: L=2 z0,05 = 1, 645 y, por tanto, el tamaño muestral necesario será: n=
4 ⋅ 1,6452 ⋅ 2 2 = 10,8241 ≈ 11 empresas 22
El importe de la factura eléctrica mensual de un determinado tipo de empresas se distribuye normalmente con desviación típica de 21.200 euros. El Ministerio de Energía sostiene que el gasto medio mensual en electricidad de estas empresas no es inferior a 100.000 euros y que sería conveniente elaborar un plan de ahorro energético para las mismas. Seleccionada una muestra aleatoria de 100 empresas de este tipo, se obtiene un gasto medio mensual en electricidad de 125.600 euros. Ejercicio 2.5
a) ¿Es admisible, con un 2 % de significación, la hipótesis del Ministerio de Energía? b) ¿Cuántas empresas sería necesario seleccionar para que el test anterior detectara un gasto medio mensual en electricidad de 75.000 euros con una probabilidad de 0,995?
Se define X = «Gasto mensual de una empresa en electricidad». Esta variable se distribuye según una normal con desviación típica conocida e igual a 21.200 euros: Solución
X
~ N ( μ, 21.200)
a) El Ministerio de Energía sostiene que m no es inferior a 100.000 euros, es decir, que m 100.000. Para contrastar esta afirmación, planteamos las hipótesis del contraste como: H0 : μ 100.000 H1: μ < 100.000 © Ediciones Pirámide
83
Ejercicios de inferencia estadística y muestreo utilizando como estadístico de prueba: X − μ0 σ/ n
Z=
~ N (0, 1)
H0
La región crítica unilateral queda representada de la siguiente forma: N(0,1)
= 0,02
0,98
– z = – 2,05
donde – za verifica que: P( Z < − zα ) = α = 0,02 Por tanto, utilizando la simetría de una N(0, 1), tenemos que: P( Z > zα ) = α = 0,02 ⇒ P( Z zα ) = 1 − α = 0,98 con lo cual, de la tabla 7: zα = 2,05 − zα = − 2,05 Calculamos el valor experimental del estadístico: zexp =
x − μ 0 125.600 − 100.000 = = 12,0755 σ/ n 21.200 / 100
Entonces no se rechaza la hipótesis nula con una significación del 2 %, pues zexp > – za y, por tanto, podemos admitir la hipótesis del Ministerio de Energía. 84
© Ediciones Pirámide
Contraste de hipótesis paramétrico b) Debemos calcular el tamaño muestral n para que: P(aceptar H1 / μ1 = 75.000) = 0,995 es decir: 0,995 = P( rechazar H0 / μ1 = 75.000) = P
冢 Xσ /− μn
< − 2,05 μ1 = 75.000
0
冣
Como X ~ N(m, 21.200), entonces la media muestral seguirá una distribución, también normal, con parámetros: X
~ N 冢 μ, 21.200 冣 n
En particular, si m = m1 = 75.000, entonces: X
~ N 冢75.000; 21.200 冣 n
y tipificando: Z=
X − 75.000 21.200 / n
~ N (0, 1)
Por tanto:
冢
0,995 = P X < μ 0 − 2,05 ⋅
σ n
冢
= P X < 100.000 − 2,05 ⋅
冢
=P Z
zα ) = α = 0,02 ⇒ zα = 2,05 P( Z > zβ ) = β = 1 − 0,995 = 0,005 ⇒ zβ = 2,575
Cuando las ventas medias, por establecimiento autorizado, de una marca de relojes caen por debajo de los 170.000 euros anuales, se considera razón suficiente para lanzar una campaña publicitaria que active las ventas de esta marca. Para conocer la evolución de las ventas, el departamento de marketing realiza una encuesta a 51 establecimientos autorizados, seleccionados aleatoriamente, que facilitan la cifra de ventas del último año en relojes de esta marca. A partir de estas cifras se obtienen los siguientes cálculos: Ejercicio 2.6
51
∑ xi = 8.640 miles de euros
i =1
86
51
;
∑ xi2 = 1.517.600 (miles de euros)2
i =1
© Ediciones Pirámide
Contraste de hipótesis paramétrico Suponiendo que las ventas anuales por establecimiento se distribuyen normalmente: a) Con un nivel de significación del 5 % y en vista de la situación reflejada en los datos, ¿se considerará oportuno lanzar una nueva campaña publicitaria? b) ¿Podría afirmarse que la desviación típica de las ventas por establecimiento del último año es igual a 20.000 euros?
Definimos la variable aleatoria X como aquella que representa las ventas anuales, en miles de euros, de un establecimiento en relojes de la marca considerada. Esa variable se supone normalmente distribuida con media y varianza desconocidas: Solución
X
~ N ( μ, σ )
La campaña publicitaria se lanzará si m < 170, luego las hipótesis a contrastar son: H0 : μ 170 = μ 0 H1: μ < 170 Utilizaremos el siguiente estadístico de prueba: t=
X − μ0 S/ n
~
t H0 n − 1
≡ t51 − 1 ≡ t50
a) Para un nivel de significación del 5 %, a = 0,05, la región crítica del contraste vendrá determinada por aquellas muestras tales que texp < – t a , siendo – t a el cuantil que en una t de Student con 50 grados de libertad deja una probabilidad a = 0,05 a su izquierda y que puede buscarse en la tabla 10. t50
= 0,05
1–
= 0,95
– t = – 1,676 © Ediciones Pirámide
87
Ejercicios de inferencia estadística y muestreo El valor experimental se calcula como:
texp =
x − μ 0 169, 4118 − 170 = = − 0,1280 32,8275 / 51 s/ n
pues:
x=
1 n 8.640 xi = = 169, 4118 miles de euros ∑ 51 n i =1
s2 =
1 n −1
= s=
冤∑ xi2 − n 冢∑ xi 冣 冥 = n
1
i =1
n
2
i =1
冤
冥
1 1 1.517.600 − (8.640)2 = 1.077,6471 (miles de euros)2 51 − 1 51 s 2 = 32,8275 miles de euros
Vemos que el valor experimental del estadístico es mayor que el valor crítico (texp = – 0,128 > – t a = – 1,676), por tanto, no se rechaza la hipótesis nula (m 170), con lo cual no se considerará oportuno o necesario lanzar una nueva campaña publicitaria. b) Para contrastar si la desviación típica de las ventas por establecimiento en el último año es de 20.000 euros (s = 20), planteamos las hipótesis: H0 : σ 2 = 20 2 = 400 = σ 02 H1: σ 2 ≠ 400 Para resolver este contraste utilizaremos como estadístico de prueba:
χ2 = 88
(n − 1)S 2 σ 02
~ χ n2 − 1 ≡ χ 512 − 1 ≡ χ 502
H0
© Ediciones Pirámide
Contraste de hipótesis paramétrico Los valores críticos y la región crítica para a = 0,05 aparecen en el siguiente gráfico:
χ250
0,95
0,025
χ2n – 1;
/2
= 32,357
/2 = 0,025
χ2n–1; 1–
/2
= 71,42
2 P( χ 50 χ n2 − 1; α / 2 ) = 0,025 ⇒ χ n2 − 1; α / 2 = 32,357 2 P( χ 50 χ n2 − 1;1 − α / 2 ) = 0,975 ⇒ χ n2 − 1;1 − α / 2 = 71, 42
Obtenemos el valor experimental sustituyendo en la expresión del estadístico del contraste: 2 = χ exp
(n − 1)s 2 (51 − 1) ⋅ 1.077,6471 = = 134,7059 400 σ 02
Según este valor calculado, la muestra es de las que se sitúa en la región crítica del contraste; entonces rechazamos la hipótesis nula (s2 = 400) y, por tanto, no admitimos una desviación típica igual a 20.000 euros.
El director de una compañía aseguradora afirma que el importe medio de las reparaciones de automóviles pagadas por la compañía a talleres colaboradores es superior a los 4.000 euros. Seleccionadas al azar 20 facturas de diferentes reparaciones, se observa que la suma de importes es 84.500 euros y su varianza muestral 1.502,5625. Por otra parte, también afirma el director que los importes de las facturas son muy similares y que su desviación típica es inferior a 100 euros, por lo que sospecha que los talleres no facturan adecuadamente en cada reparación, guiándose por Ejercicio 2.7
© Ediciones Pirámide
89
Ejercicios de inferencia estadística y muestreo un importe medio orientativo sujeto a pocos cambios. Compruebe si cada una de las afirmaciones es cierta a un nivel de significación del 1 %, suponiendo que los importes de las facturas siguen una distribución normal.
Sea X = «Importe de una factura correspondiente a una reparación efectuada por un taller colaborador». La distribución de esta variable aleatoria puede suponerse normal: Solución
X
~ N ( μ, σ )
Contrastaremos, en primer lugar, la afirmación de que el importe medio es superior a 4.000 euros. Por tanto, planteamos las hipótesis: H0 : μ 4.000 = μ 0 H1: μ > 4.000 El estadístico de prueba en este caso, como s es desconocida, será: t=
X − μ0 S/ n
~
t H0 n − 1
≡ t20 − 1 ≡ t19
cuyo valor experimental es: texp =
x − μ 0 4.225 − 4.000 = = 25,9586 s/ n 38,7629 / 20
pues:
x=
1 n 1 xi = 8.450 = 4.225 euros ∑ n i =1 20
s 2 = 15.025,625 (euros)2 s= 90
s 2 = 38,7629 euros © Ediciones Pirámide
Contraste de hipótesis paramétrico La región crítica delimitada por el valor crítico (texp > t a) es la siguiente: t19
1–
= 0,99
= 0,01
t = 2,539
donde t a se busca en la tabla 10 para una t de Student con 19 grados de libertad: P[t19 tα ] = 1 − α = 0,99 ⇒ tα = 2,539 Como texp = 25,9586 > 2,539 = t a, rechazamos H0 al 1 % de significación, luego admitimos la hipótesis del director referente a que el importe medio de las facturas de reparaciones realizadas en talleres colaboradores era superior a 4.000 euros. A continuación, comprobaremos si la desviación típica es inferior a 100 euros contrastando las siguientes hipótesis: H0 : σ 2 (100)2 = 10.000 = σ 02 H1: σ 2 < (100)2 = 10.000 El estadístico de prueba será ahora:
χ2 =
(n − 1)S 2 σ 02
~ χ n2 − 1 ≡ χ 202 − 1 ≡ χ192
H0
y su valor experimental a partir de la información muestral:
2 = χ exp
© Ediciones Pirámide
(n − 1)s 2 (20 − 1) ⋅ 1.502,5625 = = 2,8549 (100)2 σ 02 91
Ejercicios de inferencia estadística y muestreo El valor crítico que determina la región crítica se obtiene utilizando la tabla 9, teniendo en cuenta que: 2 P( χ19 χ n2 − 1; α ) = α = 0,01
por lo que: 2 χ19 ; 0 , 01 = 7,633
Gráficamente:
χ219
0,99
= 0,01
χ219; 0,01 = 7,633
Se rechaza la hipótesis nula si: 2 2 χ exp χ19 ; 0 , 01 = 7,633
Como en este caso: 2 2 χ exp = 2,8549 < 7,633 = χ19 ; 0 , 01
entonces se rechaza H0 con esta información muestral y un nivel de significación del 1 %. Por tanto, no descartamos la afirmación del director sobre la dispersión de los importes de las reparaciones. 92
© Ediciones Pirámide
Contraste de hipótesis paramétrico Una cadena de producción de un componente electrónico debe revisarse cuando el porcentaje de productos defectuosos supera el 3 %. Según el mecanismo establecido para el control de calidad, se extrae a lo largo del día, y de forma aleatoria, una muestra de 300 unidades de las que se detectan 17 defectuosas. Utilizando una significación del 1 %, ¿debería revisarse el sistema de producción? Ejercicio 2.8
Definimos la variable aleatoria X como aquella que toma el valor 1 cuando una unidad es defectuosa y 0 cuando no lo es. Esta variable se distribuye según una B(1, p) con: Solución
p = P(X = 1) = Proporción de productos defectuosos La cadena de producción deberá revisarse si el porcentaje de productos defectuosos (100p) supera el 3 %; así, tendremos que contrastar las hipótesis: H0 : p 0,03 = p0 H1: p > 0,03 Para realizar este contraste utilizaremos como estadístico de prueba: Z=
pˆ − p0 p0 (1 − p0 ) n
~ H0 n→∞
N (0, 1)
pues el tamaño muestral, n = 300, puede considerarse suficientemente grande para que la aproximación a la distribución asintótica sea aceptable. Como el nivel de significación es del 1 %, obtendremos, en la tabla 7, el siguiente valor crítico y la correspondiente región crítica: P( Z > zα ) = α = 0,01 ⇒ zα = 2,33 N(0,1)
1–
= 0,99
= 0,01
z = 2,33
rechazando H0 si zexp > za. © Ediciones Pirámide
93
Ejercicios de inferencia estadística y muestreo Calculamos el valor experimental del estadístico sustituyendo los resultados muestrales en la expresión anterior:
pˆ =
1 n 17 xi = ∑ n i =1 300
zexp =
17 − 0,03 300 = 2,7076 0,03 ⋅ (1 − 0,03) 300
Por tanto, al ser zexp = 2,7076 > 2,33 = za, se rechaza la hipótesis nula (p 0,03) y, según los resultados de la muestra y con un nivel de significación del 1 %, debería revisarse el sistema de producción.
Los niveles de audiencia por capítulo de dos series de televisión se distribuyen normalmente con desviaciones típicas 100.000 y 210.000 espectadores, respectivamente. Un estudio de medios afirma que ambas series tienen igual nivel de audiencia. Las audiencias, en millones de espectadores, de ocho capítulos seleccionados al azar para cada una de las series fueron las siguientes: Ejercicio 2.9
Serie A
2,15
2,61
2,11
2,26
2,01
2,31
2,51
2,80
Serie B
2,24
2,53
2,35
2,22
2,21
2,22
2,21
2,01
¿Se podría admitir, con un 5 % de significación, que ambos niveles de audiencia son iguales?
Sean X = «Nivel de audiencia por capítulo, en millones de espectadores, de la serie A», e Y = «Nivel de audiencia por capítulo, en millones de espectadores, de la serie B». Estas variables siguen distribuciones normales: Solución
~ N ( μ x ; 0,1) Y ~ N ( μ y ; 0,21)
X
94
© Ediciones Pirámide
Contraste de hipótesis paramétrico Las hipótesis que deben plantearse para contrastar la igualdad de audiencias son: H0 : μ x − μ y = 0 H1: μ x − μ y ≠ 0 El estadístico de prueba que corresponde al caso de sx y sy conocidas es: Z=
X − Y − d0
σ x2 σ y2 + nx ny
~ N (0, 1)
H0
A continuación, obtenemos la región crítica del contraste, utilizando la tabla 7, para buscar los dos valores críticos. Gráficamente, la situación queda representada como: N(0,1)
/2 = 0,025
–z
/2
1–
= 0,95
= – 1,96
/2 = 0,025
z
/2
= 1,96
Con los datos muestrales, calculamos el valor experimental del estadístico: zexp =
x − y − d0
σ y2
σ x2 + nx ny
=
2,345 − 2,249 0,12 0,212 + 8 8
= 11674 ,
pues: x=
y= © Ediciones Pirámide
1 nx 1 ny
nx
1
∑ xi = 8 18,76 = 2,345
i =1 ny
1
∑ yi = 8 17,99 = 2,249
i =1
95
Ejercicios de inferencia estadística y muestreo Como zexp = 1,1674 está comprendida entre los valores críticos – 1,96 y 1,96, el valor experimental se sitúa en la región de aceptación; por tanto, puede decirse que no hay evidencia, al 5 % de significación, para rechazar la hipótesis de igualdad de medias y entonces admitimos que los niveles de audiencia son similares. Para realizar un estudio sobre los salarios mensuales pagados por una entidad financiera española a sus empleados, se selecciona aleatoriamente una muestra de hombres y otra de mujeres. De dichas muestras se obtienen los siguientes resultados a partir de los salarios expresados en euros: Ejercicio 2.10
Muestra de hombres 10
10
i =1
i =1
Muestra de mujeres
∑ xi = 17.100 ∑ xi2 = 29.670.000
10
10
i =1
i =1
∑ yi = 13.500 ∑ yi2 = 18.410.000
Se supone que los salarios mensuales siguen una distribución normal en ambas poblaciones de hombres y mujeres y que son independientes: a) ¿Se podría afirmar, con un 5 % de significación, que el salario medio de los hombres que trabajan en la entidad es de 1.400 euros? b) Obtenga un intervalo de confianza al 95 % para el cociente de varianzas poblacionales de los salarios de hombres y mujeres. c) ¿Podemos admitir que el salario pagado por la entidad a los hombres es superior al de las mujeres con un 5 % de significación? Definimos las variables X = «Salario mensual de los hombres empleados en la entidad financiera (en euros)», e Y = «Salario mensual de las mujeres empleadas en la entidad financiera (en euros)», que son independientes y cuyas distribuciones son: Solución
~ N(μx , σ x ) Y ~ N(μy , σ y )
X
a) Debemos contrastar, a un 5 % de significación, si mx = 1.400 (euros). Para ello, planteamos las siguientes hipótesis: H0 : μ x = 1.400 H1: μ x ≠ 1.400 96
© Ediciones Pirámide
Contraste de hipótesis paramétrico En el caso de población normal con varianza desconocida, el estadístico que se utiliza para realizar un contraste sobre la media es: X − μx0 Sx / n x
t=
~
t H0 n x − 1
≡ t10 − 1 ≡ t9
Con un nivel de significación del 5 %, la región crítica de este contraste bilateral queda determinada por los valores críticos t a/2 = 2,262 y – t a/2 = – 2,262, obtenidos a partir de la tabla 10 de una t de Student con nueve grados de libertad. Rechazaremos H0 si texp < – t a/2 o si texp > t a/2, según se aprecia en el gráfico: t9
/2 = 0,025
–t
1–
= 0,95
= – 2,262
/2
/2 = 0,025
t
/2
= 2,262
Para calcular el valor experimental del estadístico, debemos obtener previamente la media y la desviación típica muestrales:
x=
s x2 =
1 nx
nx
1
∑ xi = 10 17.100 = 1.710 euros
i =1
1 nx − 1
冤∑ xi2 − n 冢∑ xi 冣 冥 = 9 冤29.670.000 − 10 (17.100)2 冥 = nx
nx
1
i =1
x
2
1
1
i =1
= 47.666,6667 (euros)2 sx =
s x2 = 218,33 euros
El valor experimental será: texp = © Ediciones Pirámide
x − μ x 0 1.710 − 1.400 = = 4,490 s x / nx 218,33 / 10 97
Ejercicios de inferencia estadística y muestreo Como texp > t a/2 = 2,262, el valor experimental se sitúa en la región crítica del contraste; por tanto, al 5 % de significación, los datos muestrales presentan evidencia suficiente para rechazar la hipótesis nula, con lo cual, no podemos afirmar que el salario medio de los hombres que trabajan en la entidad sea de 1.400 euros. Hay que observar que este apartado se podría haber resuelto también obteniendo el correspondiente intervalo de confianza. b) El intervalo correspondiente al cociente de varianzas poblacionales cuando las medias poblacionales son desconocidas será: Iσ 2 / σ 2 = x
y
冤
Sx2 Sx2 1 1 ⋅ ; ⋅ 2 2 Sy Fnx − 1, ny − 1;1 − α / 2 Sy Fnx − 1, ny − 1; α / 2
冥
donde Fnx – 1, ny – 1; 1 – a/2 y Fnx – 1, ny – 1; a/2 son los cuantiles que en una F de Snedecor con nx – 1, ny – 1 grados de libertad verifican que: P( Fnx − 1, ny − 1 Fnx − 1, ny − 1; α / 2 ) = α / 2 P( Fnx − 1, ny − 1 Fnx − 1, ny − 1;1 − α / 2 ) = 1 − α / 2 Gráficamente, teniendo en cuenta que 1 – a = 0,95;
Ᏺnx –1, ny –1 ≡ Ᏺ9,9
/2 = 0,025
Fnx – 1, ny – 1;
/2
/2 = 0,025
Fnx –1, ny –1; 1–
/2
Entonces, utilizando la tabla de una F de Snedecor (tabla 11), se tiene: Fnx − 1, ny − 1;1 − α / 2 = F9, 9; 0,975 = 4,03 98
© Ediciones Pirámide
Contraste de hipótesis paramétrico Para obtener el cuantil Fnx – 1, ny – 1; a/2 = F9, 9; 0,025, utilizamos la siguiente propiedad de la distribución F de Snedecor con n1, n2 grados de libertad:
Fn1 , n2 ; p =
1 Fn2 , n1 ;1 − p
Así, tenemos que:
F9, 9; 0,025 =
1 F9, 9; 0,975
=
1 = 0,2481 4,03
Gráficamente:
Ᏺ9,9
1–
= 0,95
/2 = 0,025
/2 = 0,025
F9,9; 0,025 = 0,2481
F9,9; 0,975 = 4,03
Calculamos ahora sy2, pues del apartado anterior tenemos sx2 = 47.666,6667:
sy2 =
1 ny − 1
冤∑ yi2 − n 冢∑ yi 冣 冥 = 10 − 1 冤18.410.000 − 10 (13.500)2 冥 = ny
i =1
1
y
ny
2
1
1
i =1
= 20.555,5556 © Ediciones Pirámide
99
Ejercicios de inferencia estadística y muestreo y así, el intervalo de confianza al 95 % será: Iσ 2 / σ 2 = x
y
=
冤
冥
1 1 s x2 s x2 ⋅ ; ⋅ = 2 2 sy Fnx − 1, ny − 1;1 − α / 2 sy Fnx − 1, ny − 1; α / 2
666,6667 1 47.666,6667 1 ⋅ ; ⋅ = 冤 2047..555 ,5556 4,03 20.555,5556 0,2481冥
= [0,5754; 9,3467] c) Hay que someter a contrastación la hipótesis mx > my, es decir, que el salario medio de los hombres es superior al de las mujeres. Por tanto, las hipótesis se plantearán como: H0 : μ x − μ y 0 H1: μ x − μ y > 0 Admitimos la igualdad de varianzas poblacionales de las variables X e Y según los resultados obtenidos en el apartado b), donde el intervalo calculado para el cociente de varianzas incluía el valor 1; por tanto, el estadístico del contraste será: t=
X − Y − d0 (nx − 1)Sx2
+ (ny − 1)Sy2
nx + ny − 2
~
1 1 + nx ny
t H0 n x + n y − 2
≡ t10 + 10 − 2 ≡ t18
Para un nivel de significación del 5 %, la región crítica será la siguiente: t18
1–
= 0,95
= 0,05
t = 1,734
donde t a se obtiene de la tabla 10, y se rechazará H0 si: texp > tα = 1,734 100
© Ediciones Pirámide
Contraste de hipótesis paramétrico Con los resultados muestrales calculamos el valor experimental del estadístico: texp =
1.710 − (13.500 /10) − 0 (10 − 1)47.666,6667 + (10 − 1)20.555,5556 1 1 + 10 + 10 − 2 10 10
= 4,3585
como: texp = 4,3585 > 1,734 = tα entonces, rechazamos la hipótesis nula y, por tanto, admitimos, al 5 % de significación, que el salario medio pagado a los hombres es superior al de las mujeres. En un estudio sobre los efectos de los nuevos métodos de planificación en el ámbito de la gestión empresarial, se comprobó, en una muestra aleatoria simple de seis empresas en las que se aplicaban dichos métodos, que el incremento medio de sus ingresos netos, con respecto al anterior ejercicio, era del 9,972 %, con una varianza muestral 7,740. Paralelamente, y con fines comparativos, se seleccionó una muestra aleatoria simple de nueve empresas que seguían los métodos de gestión tradicionales. En función de los datos de esta última muestra, se calculaba un incremento medio de 6,098 % y una varianza muestral de 10,834. Suponiendo que los porcentajes de incrementos de ingresos en ambas poblaciones de empresas están distribuidos normal e independientemente con la misma varianza: Ejercicio 2.11
a) ¿Se puede admitir, con un 10 % de significación, que el conjunto de empresas que aplican los nuevos métodos de planificación obtienen incrementos medios de ingresos superiores a las empresas que utilizan métodos tradicionales? b) Construya un intervalo de confianza al 90 % para la diferencia de incrementos medios poblacionales de ambos tipos de empresas. Sean X e Y las variables aleatorias que representan los incrementos porcentuales de los ingresos en empresas que aplican métodos nuevos de planificación (X) y tradicionales (Y). Las distribuciones de estas variables son: Solución
~ N(μx , σ x ) Y ~ N(μy , σ y )
X
con X e Y independientes y sx = sy = s. © Ediciones Pirámide
101
Ejercicios de inferencia estadística y muestreo a) Se pretende contrastar según la información muestral si mx > my. Por tanto, planteamos las hipótesis: H0 : μ x − μ y 0 H1: μ x − μ y > 0 (ingresos superiores con nuevos métodos) El estadístico de prueba para realizar este contraste será: t=
X − Y − d0 (nx − 1)Sx2 + (ny − 1)Sy2 nx + ny − 2
~
t H0 n x + n y − 2
1 1 + nx ny
≡ t6 + 9 − 2 ≡ t13
pues sx = sy = s, aunque son desconocidas. El valor experimental de este estadístico se obtiene sustituyendo la información muestral en la expresión anterior:
texp =
nx = 6
;
x = 9,972
;
s x2 = 7,740
ny = 9
;
y = 6,098
;
s x2 = 10,834
9,972 − 6,098 − 0 (6 − 1)7,740 + (9 − 1)10,834 6+9−2
1 1 + 6 9
= 2,3669
La región crítica unilateral es: t13
1–
= 0,90
= 0,10
t = 1,350
rechazándose H0 si: texp > tα = 1,350 102
© Ediciones Pirámide
Contraste de hipótesis paramétrico Como en este caso: texp = 2,3669 > tα = 1,350 entonces, con un nivel de significación del 10 %, se rechaza la hipótesis nula (H0; mx – my 0) y admitimos que los incrementos medios de los ingresos son superiores en las empresas que aplican métodos nuevos. b) El intervalo de confianza para la diferencia de medias de poblaciones normales, independientes y con desviaciones típicas desconocidas iguales, será:
冤
Iμ x − μ y = ( X − Y ) − tα / 2
( X − Y ) + tα / 2
(nx − 1)Sx2 + (ny − 1)Sy2
nx + ny
nx + ny − 2
nx ny
(nx − 1)Sx2 + (ny − 1)Sy2
nx + ny
nx + ny − 2
nx ny
;
冥
pues nx = 6, ny = 9 se consideran tamaños muestrales pequeños. El valor t a/2 es el cuantil que en una distribución t de Student con n x + ny – 2 = = 6 + 9 – 2 = 13 grados de libertad verifica que: P(t13 > tα / 2 ) = α / 2 Como el nivel de confianza es del 90 %, entonces: 1 − α = 0,90 ⇒ α = 0,10 ⇒ α / 2 = 0,05 y, utilizando la tabla 10: tα / 2 = 1,771 Sustituyendo en el intervalo:
冤
Iμ x − μ y = (9,972 − 6,098) − 1,771
(9,972 − 6,098) + 1,771
5 ⋅ 7,740 + 8 ⋅ 10,834 6+9−2 5 ⋅ 7,740 + 8 ⋅ 10,834 6+9−2
6+9 ; 6⋅9 6+9 6⋅9
冥
Iμ x − μ y = [0,9753; 6,7727] © Ediciones Pirámide
103
Ejercicios de inferencia estadística y muestreo El vicerrectorado de docencia de una universidad decide publicar los resultados de las encuestas que cada año se realizan para evaluar la calidad de la docencia de todos sus profesores. Seleccionados al azar 10 profesores, se recogen en la tabla adjunta las calificaciones obtenidas en el curso anterior y posterior a la toma de esta medida por parte del vicerrectorado. Suponiendo que las puntuaciones se distribuyen normalmente en cada curso, ¿podríamos afirmar, con un 2,5 % de significación, que la decisión de hacer públicos los resultados de las encuestas mejora las puntuaciones de los profesores? Ejercicio 2.12
Solución
Profesor
Puntuación antes de la publicación
Puntuación después de la publicación
1 2 3 4 5 6 7 8 9 10
3,2 3,3 3,4 2,1 4,1 3,1 2,9 4,2 3,5 2,8
3,1 3,5 3,6 3 4,2 3,3 2,5 4 3,6 2,9
Definimos las variables aleatorias X e Y como:
X = «Puntuación de cada uno de los profesores en el curso anterior a la toma de la medida». X
~ N(μx , σ x )
Y = «Puntuación de cada uno de los profesores en el curso posterior a la toma de la medida». Y
~ N(μy , σ y )
Estamos en el caso de muestras apareadas: ( X1 , Y1 ),..., ( X10 , Y10 ) 104
© Ediciones Pirámide
Contraste de hipótesis paramétrico por tanto, debemos definir las diferencias: Di = Xi − Yi que calculamos obteniendo los siguientes resultados: Profesor
1
2
3
4
5
6
7
8
9
10
di
0,1
– 0,2
– 0,2
– 0,9
– 0,1
– 0,2
0,4
0,2
– 0,1
– 0,1
La publicación de resultados mejorará las puntuaciones si mx < my. El contraste que hay que realizar se planteará como: H0 : μ x − μ y 0 H1: μ x − μ y < 0 (los resultados mejoran) El estadístico experimental que utilizaremos será: t=
D − d0 Sd / n
~
t H0 n − 1
≡ t9
con D=
1 n ∑ Di n i =1
Sd2 =
1 n ( Di − D )2 ∑ n − 1 i =1
La región crítica de este contraste unilateral se representa gráficamente como: t9
= 0,025
1–
= 0,975
– t = – 2,262
donde el valor crítico se obtiene de la tabla 10. © Ediciones Pirámide
105
Ejercicios de inferencia estadística y muestreo Para calcular el valor del estadístico de prueba obtenemos primero la media y la desviación típica de las diferencias di: d =
1 n 1 di = ( − 11 , ) = − 0,11 ∑ n i =1 10
sd2 =
1 n 1 ( di − d )2 = ∑ n − 1 i =1 n −1
冤
n
∑ di2 −
i =1
1 n
, − 冢∑ di 冣 冥 = 9 冤117 n
2
1
i =1
冥
( − 11 , )2 = 0,1166 10
sd = + sd2 = 0,3414 y sustituimos en la expresión del estadístico de prueba: texp =
d − d0 − 0,11 − 0 = = − 1,0189 sd / n 0,3414 / 10
Como: texp = − 1,0189 > − tα = − 2,262 entonces, no hay evidencia suficiente, al 2,5 % de significación, para rechazar la hipótesis nula y, por tanto, no se puede afirmar, con este nivel de significación, que la publicación de los resultados de las encuestas mejore las puntuaciones de los profesores. Según la Consejería de Agricultura de una comunidad autónoma, la subvención media percibida por agricultor en la provincia A, supera en más de 2.000 euros a la subvención media percibida en la provincia B. Seleccionadas dos muestras aleatorias de 10 agricultores en cada una de las provincias, se obtienen los siguientes resultados, expresados en miles de euros: Ejercicio 2.13
Provincia A
Provincia B
x¯ = 14 sx2 = 25
y¯ = 9 sy2 = 0,25
Suponiendo que la cuantía de las subvenciones sigue en ambas provincias distribuciones normales con varianza diferente, ¿se puede admitir, con un 1 % de significación, la afirmación de la consejería? 106
© Ediciones Pirámide
Contraste de hipótesis paramétrico Definimos las variables aleatorias X = «Subvención percibida por un agricultor de la provincia A (miles de euros)», e Y = «Subvención percibida por un agricultor de la provincia B (miles de euros)», cuyas distribuciones son: Solución
~ N(μx , σ x ) Y ~ N(μy , σ y )
X
Se quiere contrastar si mx > my + 2, es decir, las hipótesis se formularán como: H0 : μ x − μ y 2 H1: μ x − μ y > 2 Utilizaremos el siguiente estadístico de prueba, pues sx2 ≠ sy2 según el enunciado: t=
X − Y − d0 Sx2 Sy2 + nx ny
~
t H0 v
siendo: ⎡ ⎤ Sx2 Sy2 2 ⎥ ⎢ + ⎢ ⎥ nx ny v=⎢ ⎥ +1 Sy2 2 ⎥ ⎢ Sx2 2 ⎢ ⎥ ⎢ nx + ny ⎥ ⎢ nx − 1 ny − 1 ⎥ ⎣ ⎦
冢
冣
冢 冣 冢 冣
donde [ · ] indica la parte entera. Sustituyendo en la expresión anterior los datos muestrales, tendremos: ⎡ 25 0,25 2 ⎤ ⎢ ⎥ + 10 10 ⎢ ⎥ + 1 = [9,18] + 1 = 9 + 1 = 10 v= ⎢ 25 2 0,25 2 ⎥ ⎢ ⎥ ⎢ 10 + 10 ⎥ ⎢⎣ 10 − 1 10 − 1 ⎥⎦
冢
冣
冢 冣 冢 冣
© Ediciones Pirámide
107
Ejercicios de inferencia estadística y muestreo Por tanto, el estadístico de prueba seguirá bajo H0 una distribución t de Student con 10 grados de libertad. Utilizando la tabla correspondiente a esta distribución, obtenemos el valor crítico de la región de rechazo de este contraste. Su representación gráfica es: t10
1–
= 0,99
= 0,01
t = 2,764
El valor experimental del estadístico de prueba se calcula como: texp =
x − y − d0 Sx2 Sy2 + nx ny
14 − 9 − 2
=
25 + 10
0,25 10
= 1,888
Como: texp = 1,888 < tα = 2,764 no se rechaza la hipótesis nula, por tanto, no se admite la afirmación de la consejería (mx > my + 2) al 1 % de significación. Los estudios de una asociación de mutuas de accidentes aseguran que el número medio de bajas ocurridas en el último mes debidas a accidentes laborales, en empresas constructoras que realizan su actividad en la capital de la provincia, superan en más de cinco al número medio de bajas en las mismas circunstancias en empresas constructoras que trabajan en el resto de la provincia. Con el fin de contrastar esta afirmación, se seleccionan aleatoriamente 10 empresas constructoras, en cada una de las zonas, para obtener los datos correspondientes al número de bajas por accidentes laborales ocurridas en el último mes. Los resultados fueron: Ejercicio 2.14
108
Capital de la provincia
6
8
9
5
0
1
4
2
0
1
Resto de la provincia
3
4
2
2
1
0
5
0
1
3
© Ediciones Pirámide
Contraste de hipótesis paramétrico Suponiendo que las cifras de bajas por accidentes laborales pudieran considerarse normalmente distribuidas: a) Contraste la afirmación realizada por la asociación utilizando un 5 % de significación. b) ¿Podría afirmarse, al 10 % de significación, que el número medio de bajas por accidentes laborales en las empresas constructoras que realizan su actividad en la capital de la provincia es superior a cuatro?
Solución
Sean las variables aleatorias X e Y definidas como:
X = «Número de bajas por accidentes laborales ocurridos durante el último mes en empresas constructoras que realizan su actividad en la capital de provincia». Y = «Número de bajas por accidentes laborales ocurridos durante el último mes en empresas constructoras que realizan su actividad en el resto de la provincia». Ambas variables se distribuyen normalmente:
~ N(μx , σ x ) Y ~ N(μy , σ y )
X
a) La afirmación realizada por la asociación de mutuas de accidentes es que mx > 5 + my. Por tanto, el contraste a realizar será: H0 : μ x − μ y 5 H1: μ x − μ y > 5
(1)
El estadístico de prueba que se utilizará dependerá de si las varianzas poblacionales pueden considerarse similares o no. Por tanto, realizaremos previamente un contraste sobre la igualdad de estas varianzas: H0 : σ x2 = σ y2 H1: σ x2 ≠ σ y2
(2)
El estadístico de prueba para contrastar la hipótesis de (2) será, teniendo en cuenta que las medias poblacionales son desconocidas: F= © Ediciones Pirámide
Sx2 Sy2
~ Ᏺ n − 1, n − 1 ≡ Ᏺ 10 − 1,10 − 1 ≡ Ᏺ 9, 9
H0
x
y
109
Ejercicios de inferencia estadística y muestreo y para una significación del 5 %, la región crítica se representa gráficamente como:
Ᏺ9,9
/2 = 0,025
/2 = 0,025
F
F1–
/2
/2
donde Fa/2 y F1 – a/2 son, respectivamente, los cuantiles de órdenes a/2 y 1 – a/2, que verifican: P[Ᏺ 9, 9 F9, 9;1 − α / 2 ] = 1 − α / 2 = 1 − 0,025 = 0,975 P[Ᏺ 9, 9 F9, 9; α / 2 ] = α / 2 = 0,025 De la primera probabilidad, utilizando la tabla 11, se tiene: F9, 9;1 − α / 2 = F9, 9; 0,975 = 4,03 Para obtener F9,9;a/2 = F9,9;0,025, utilizamos la siguiente propiedad de una F de Snedecor con n1 y n2 grados de libertad: Fn1 , n2 ; p =
1 Fn2 , n1 ;1 − p
por tanto, aplicando este resultado a Fa/2, tenemos que: Fα / 2 = F0,025 = F9, 9; 0,025 = 110
1 F9, 9;1 − 0,025
=
1 F9, 9; 0,975
=
1 = 0,2481 4,03 © Ediciones Pirámide
Contraste de hipótesis paramétrico con lo cual, rechazaremos la hipótesis nula de igualdad de varianza si: Fexp < Fα / 2 = 0,2481 o si: Fexp > F1 − α / 2 = 4,03 Para calcular el valor experimental, obtenemos primero las varianzas muestrales: 10
Capital de la provincia:
10
∑ xi = 36
∑ xi2 = 228
i =1
Resto de la provincia:
s x2 =
sy2 =
i =1
10
10
i =1
i =1
∑ yi = 21 ∑ yi2 = 69
1 nx − 1
冤∑ xi2 − n 冢∑ xi 冣 冥 = 10 − 1 冤228 −
1 ny − 1
冤∑ yi2 − n 冢∑ yi 冣 冥 = 10 − 1 冤69 −
10
i =1 10
i =1
10
1
x
1
y
2
1
i =1 10
2
1
i =1
冥
36 2 = 10,9333 10
冥
212 = 2,7666 10
Por tanto, el valor experimental del estadístico del contraste (2) quedaría como:
Fexp =
s x2 10,9333 = = 3,95 sy2 2,7666
y, puesto que: 0,2481 = Fα / 2 < Fexp = 3,95 < F1 − α / 2 = 4,03 entonces no se rechaza, al 5 % de significación, la hipótesis nula de igualdad de varianzas (sx2 = sy2). © Ediciones Pirámide
111
Ejercicios de inferencia estadística y muestreo Realizamos a continuación el contraste (1) sobre la diferencia de medias considerando que las varianzas poblacionales son similares y utilizando, por tanto: t=
X − Y − d0 (nx − 1)Sx2
~
+ (ny − 1)Sy2
1 1 + nx ny
nx + ny − 2
t H0 n x + n y − 2
≡ t18
como estadístico del contraste. La región crítica de (1) viene representada por: t18
0,95
= 0,05
t = 1,734
donde el valor crítico, t a, se ha buscado en la tabla 10 de una t de Student con 18 grados de libertad, de tal forma que se verifique: P[t18 > tα ] = α = 0,05 Las medias muestrales son: x=
y=
1 nx 1 ny
nx
1
∑ xi = 10 ⋅ 36 = 3,6
i =1 ny
1
∑ yi = 10 ⋅ 21 = 2,1
i =1
Sustituyendo la información muestral en t, obtenemos el valor experimental: texp =
112
3,6 − 2,1 − 5 9 ⋅ 10,9333 + 9 ⋅ 2,7666 1 1 + 10 + 10 − 2 10 10
= − 2,9903
© Ediciones Pirámide
Contraste de hipótesis paramétrico y como: texp = − 2,9903 < 1,734 = tα entonces, no se rechaza la hipótesis nula H0 : mx – my 5. Por tanto, al 5 % de significación, no hay evidencia para confirmar la afirmación de la asociación de mutuas de accidentes. b) Se pretende contrastar si mx > 4. Por tanto, planteamos las hipótesis: H0 : μ x 4 H1: μ x > 4 El estadístico de prueba de este caso es:
t=
X − μ0 S/ n
~
t H0 n − 1
≡ t10 − 1 ≡ t9
pues la desviación típica poblacional, sx, es desconocida. La región crítica, al 10 % de significación, de este contraste unilateral viene dada por: t9
1–
= 0,90
= 0,10
t = 1,383
con t a calculado a partir de la tabla 10, teniendo en cuenta que: P[t9 > tα ] = 0,10 © Ediciones Pirámide
113
Ejercicios de inferencia estadística y muestreo El valor experimental del estadístico del contraste será: texp =
3,6 − 4 = − 0,3825 10,9333 / 10
que verifica: texp < tα por lo que no se rechaza tampoco en este caso la hipótesis nula, H0 : mx 4, con lo cual no podría afirmarse que el número medio de bajas por accidentes laborales en las empresas constructoras de la capital de la provincia sea superior a cuatro.
Una cadena de grandes almacenes está considerando la decisión de adquirir nuevas máquinas etiquetadoras. Para comprobar si las nuevas máquinas mejoran significativamente la eficiencia de los empleados, selecciona aleatoriamente dos grupos de nueve trabajadores para realizar un control sobre el número de etiquetas colocadas en períodos de cinco minutos. En uno de los grupos, se utilizan las antiguas máquinas, y en el otro, las nuevas, tras un período de adaptación de los empleados. Los resultados obtenidos son los siguientes: Ejercicio 2.15
Grupo 1 (etiquetadoras antiguas)
305
312
300
248
290
264
272
301
275
Grupo 2 (etiquetadoras nuevas)
303
301
310
303
309
296
315
282
272
Suponiendo que el número de etiquetas colocadas cada cinco minutos sigue una distribución normal, y utilizando un nivel de significación del 5 %, ¿mejoran las nuevas máquinas significativamente la eficiencia de los empleados?
Solución
Sean las variables X e Y definidas como:
X = «Número de etiquetas colocadas en un período de cinco minutos por un empleado que utiliza una etiquetadora antigua». Y = «Número de etiquetas colocadas en un período de cinco minutos por un empleado que utiliza una etiquetadora nueva». 114
© Ediciones Pirámide
Contraste de hipótesis paramétrico Estas dos variables son independientes y siguen distribuciones normales:
~ N(μx , σ x ) Y ~ N(μy , σ y )
X
Las nuevas etiquetadoras mejorarán la eficiencia de los empleados si éstos colocan más etiquetas que el grupo que utiliza las antiguas máquinas, es decir, en términos medios, necesitamos contrastar si my > mx. Por tanto, debemos realizar el contraste: H0 : μ x − μ y 0 H1: μ x − μ y < 0
(μy > μx )
(1)
Para determinar el estadístico de prueba del contraste se debe comprobar previamente la igualdad o desigualdad de varianzas poblacionales; por tanto, antes de realizar el anterior contraste, debemos contrastar la hipótesis sx2 = sy2 y, en función del resultado, utilizaremos un estadístico u otro. Así pues, realicemos, al 5 % de significación, el contraste: H0 : σ x2 = σ y2 H1: σ x2 ≠ σ y2 El estadístico de prueba que utilizaremos será: F=
Sx2 Sy2
~ Ᏺ n − 1, n − 1 ≡ Ᏺ 9 − 1, 9 − 1 ≡ Ᏺ 8, 8
H0
x
y
pues las medias poblacionales, mx y my, son desconocidas. Para un nivel de significación del 5 %, la región crítica bilateral que se obtiene es: Ᏺ8,8
1–
= 0,95
/2 = 0,025
/2 = 0,025
F © Ediciones Pirámide
/2
= 0,226
F1–
/2
= 4,43
115
Ejercicios de inferencia estadística y muestreo rechazándose la hipótesis de igualdad de varianzas si: Fexp > F1 − α / 2 = 4, 43 o si Fexp < Fα / 2 = 0,226 Estos dos valores críticos han sido obtenidos a partir de la tabla 11 de una Ᏺ8, 8, teniendo en cuenta que:
P[Ᏺ 8, 8 F1 − α / 2 ] = 1 − α / 2 = 1 −
0,05 = 1 − 0,025 = 0,975 2
lo que implica: F1 − α / 2 = 4, 43 = F0,975 El valor crítico inferior verifica que: P[Ᏺ 8, 8 Fα / 2 ] = 0,025 y, utilizando que en una F de Snedecor con n1, n2 grados de libertad, se verifica que: Fn1 , n2 ; p =
1 Fn2 , n1 ;1 − p
el valor anterior se obtiene como:
F8, 8; 0,025 = 116
1 F8, 8; 0,975
=
1 = 0,226 4, 43 © Ediciones Pirámide
Contraste de hipótesis paramétrico Calculamos a continuación las varianzas muestrales de ambos grupos: 9
∑ xi = 2.567
i =1
s x2 = sy2 =
9
9
∑ xi2 = 735.879
∑ yi = 2.691
i =1
i =1
9
∑ yi2 = 806.149
i =1
1 nx − 1
冤∑ xi2 − n 冢∑ xi 冣 冥 =
1 1 735.879 − (2.567)2 = 464,1944 9 −1 9
1 ny − 1
冤∑ yi2 − n 冢∑ yi 冣 冥 =
1 1 806.149 − (2.691)2 = 192,5 9 −1 9
nx
i =1 ny
i =1
1
x
1
y
nx
2
i =1 ny
2
i =1
冤
冥
冤
冥
Con lo cual, el valor experimental: Fexp =
s x2 464,1944 = = 2, 4114 sy2 192,5
y como: 0,226 = Fα / 2 < Fexp = 2, 4114 < F1 − α / 2 = 4, 43 entonces nos encontramos en la región de aceptación. Es decir, al 5 % de significación no se rechaza la hipótesis nula de igualdad de varianzas (sx2 = sy2). Por tanto, para realizar el contraste sobre la diferencia de medias (1) se utilizará como estadístico de prueba: t=
X − Y − d0 (nx − 1)Sx2 + (ny − 1)Sy2 nx + ny − 2
~
1 1 + nx ny
t H0 n x + n y − 2
≡ t9 + 9 − 2 ≡ t16
pues estamos admitiendo que las varianzas de X e Y son similares. La región crítica de (1), con un nivel de significación del 5 %, es: t16
= 0,05
1–
= 0,95
– t = – 1,746
rechazándose H0 si texp < – t a = – 1,746. © Ediciones Pirámide
117
Ejercicios de inferencia estadística y muestreo Para buscar el cuantil – t a en una t de Student con 16 grados de libertad se ha utilizado la tabla 10 y la simetría de esta distribución: P(t16 < − tα ) = 0,05 ⇒ P(t16 > tα ) = 0,05 ⇒ P(t16 tα ) = 0,95 ⇒ tα = 1,746 Calculemos ahora el valor experimental del estadístico del contraste: x=
1 nx
1 y= ny texp =
nx
∑ xi =
2.567 = 285,2222 9
,
s x2 = 464,1944
ny
2.691 = 299 9
,
sy2 = 192,5
i =1
∑ yi =
i =1
285,2222 − 299 (9 − 1)464,1944 + (9 − 1)192,5 9+9−2
1 1 + 9 9
= − 1,6129
luego, como: texp = − 1,6129 > − 1,746 = − tα no se rechaza la hipótesis nula (mx – my 0). Por tanto, no podemos decir que las nuevas máquinas etiquetadoras mejoran la eficiencia significativamente. Según los dirigentes del partido político A, su intención de voto en Andalucía supera en más de cuatro puntos a la obtenida en Extremadura. Un diario de tirada nacional realiza una encuesta a 1.500 votantes de Andalucía, de los que 752 manifiestan su apoyo al partido A, y a 1.000 votantes de Extremadura, de los que 548 se inclinan por el partido A. Contraste, al 5 % de significación, la afirmación realizada por la dirección del partido A. Ejercicio 2.16
Solución
Sean X e Y las variables aleatorias definidas como: ⎧1 X=⎨ ⎩0 ⎧1 Y=⎨ ⎩0
118
si un votante de Andalucía apoya al partido político A en caso contrario si un votante de Extremadura apoya al partido A en caso contrario © Ediciones Pirámide
Contraste de hipótesis paramétrico Estas variables son independientes y se distribuirán según el modelo de Bernoulli:
~ B(1, px ) Y ~ B(1, py )
X
siendo: px = P( X = 1) = «Proporción de votantes de Andalucía que apoyarían al partido A». py = P(Y = 1) = «Proporción de votantes de Extremadura que apoyarían al partido A». Los dirigentes del partido A afirman que: px > py + 0,04 Por tanto, para contrastar esta afirmación, debemos plantear las hipótesis: H0 : px − py 0,04 H1: px − py > 0,04 Como los tamaños muestrales se pueden considerar grandes, utilizaremos como estadístico del contraste:
Z=
pˆ x − pˆ y − p0 nx + ny nx ny
ˆˆ pq
~ H0 nx , ny → ∞
N (0, 1)
siendo:
pˆ = © Ediciones Pirámide
nx pˆ x + ny pˆ y nx + ny 119
Ejercicios de inferencia estadística y muestreo La región crítica, al 5 % de significación, será: N(0,1)
1–
= 0,95
= 0,05
z = 1,645
rechazándose H0 si zexp > za : pˆ x =
752 1.500
zexp =
;
pˆ y =
548 1.000
;
pˆ =
752 + 548 = 0,52 1.500 + 1.000
752 548 − − 0,04 1.500 1.000 = − 4,249 1.500 + 1.000 ⋅ 0,52 ⋅ 0, 48 1.500 ⋅ 1.000
como: zexp = − 4,249 < zα = 1,645 entonces, al 5 % de significación, no se rechaza la hipótesis nula. Por tanto, la afirmación de la dirección del partido A no se encuentra apoyada por la evidencia empírica con este nivel de significación.
Una compañía del sector agroalimentario desea introducir sus yogures en un nuevo mercado, por lo que encarga a su centro de investigación analizar cuáles deberían ser el aspecto y la textura de éstos para que tuvieran una mejor aceptación. Uno de los investigadores cree que deberían ser más líquidos que de costumbre. Para estimar la proporción de personas que, en el nuevo mercado, aceptarían estos yogures más líquidos, se decidió realizar una degustación con una muestra aleatoria de 500 potenciales clientes; de ellos, 280 opinaron favorablemente sobre estos yogures más líquidos. Ejercicio 2.17
120
© Ediciones Pirámide
Contraste de hipótesis paramétrico a) A la vista de estos datos, y con un 1 % de significación, ¿puede afirmarse que el porcentaje de aceptación de estos yogures no superaría el 50 % del nuevo mercado? b) ¿Qué tamaño muestral sería necesario para que el test anterior detectara un porcentaje de aceptación del 60 % con una probabilidad de 0,9? c) Los investigadores se preguntan si los yogures más líquidos tendrían también éxito en el mercado actual, por lo que se decide realizar una degustación entre 300 clientes habituales y solicitarles que indiquen su preferencia por unos u otros sin admitir la posibilidad de indiferencia. Los resultados de esta degustación señalaron que 230 de ellos preferían los yogures más líquidos. ¿Indican estos datos que el porcentaje de aceptación de los yogures más líquidos en el mercado actual es superior al del futuro mercado? Nivel de significación: 1 %.
Solución
a) Sea px la proporción de personas que, en el nuevo mercado, serían favorables a estos yogures más líquidos. Definimos la variable aleatoria X
como: ⎧1 si una persona en el nuevo mercado es favorable a estos yogures X=⎨ ⎩0 en caso contrario Se trata, por tanto, de un experimento de Bernoulli con probabilidad de éxito px: X
~ B(1, px )
Los resultados de la degustación, realizada con una muestra aleatoria de nx = 500 potenciales clientes, indican que 280 fueron favorables a estos yogures, con lo cual: 500
∑ xi = 280
i =1
Para tratar de comprobar si el porcentaje de aceptación de los yogures en el nuevo mercado no superaría el 50 % (px 0,5), planteamos el siguiente contraste: H0 : px 0,5 H1: px > 0,5 © Ediciones Pirámide
121
Ejercicios de inferencia estadística y muestreo Utilizando el estadístico de prueba:
Z=
pˆ x − p0 p0 (1 − p0 ) n
=
pˆ x − 0, 5 0,5(1 − 0,5) 500
~
N (0, 1)
H0
se tiene que la región crítica o de rechazo de H0 en este contraste unilateral es, al 1 % de significación: N(0,1)
0,99
= 0,01
z = 2,33
Calculamos el valor experimental del estadístico de prueba utilizando la información muestral:
pˆ x = zexp =
1 n 280 xi = = 0,56 ∑ n i =1 500 0,56 − 0, 5 0,5(1 − 0,5) 500
= 2,6833
y como: zexp = 2,6833 > zα = 2,33 entonces, al 1 % de significación, y con estos datos, existe evidencia suficiente para rechazar H0 ; por tanto, no puede afirmarse que el porcentaje de aceptación de los yogures no superaría el 50 % del nuevo mercado. 122
© Ediciones Pirámide
Contraste de hipótesis paramétrico b) Para que el test anterior detecte un porcentaje real de compradores del 60 % con probabilidad 0,9, habría que rechazar la hipótesis nula cuando el verdadero valor de px fuese igual a 0,6 con la probabilidad anterior: 0,9 = P( rechazar H0 / px = 0,6) = P
冢
pˆ x − 0,5 > 2,33 px = 0,6 0,5 ⋅ 0, 5 n
冣
Utilizando que la distribución de la proporción muestral puede aproximarse por una normal: pˆ x =
1 n ∑ Xi n i =1
~
n→∞
冢
px q x n
N px ,
冣
tenemos que, para px = 0,6, la distribución de pˆx es: pˆ x
~
n→∞
N (0,6; 0,24 / n ) ⇒ Z =
pˆ x − 0,6 0,24 n
~
n→∞
N (0, 1)
y así: 0,9 = P( pˆ x > 0,5 + 2,33 0,25 / n px = 0,6) = = P( pˆ x > 0,5 + 2,33 0,25 / n pˆ x → N (0,6; 0,24 / n ) =
冢
=P Z>
0,5 + 2,33 0,25 / n − 0,6 0,24 / n
冣
con Z
~ N (0, 1)
Utilizando la tabla 7 para buscar un valor z tal que: P(Z > z) = 0,9 © Ediciones Pirámide
123
Ejercicios de inferencia estadística y muestreo se tiene que: z = – 1,28 con lo cual: 0,5 − 0,6 + 2,33 0,25 / n = − 1,28 0,24 / n y despejando el valor de n: 1 (2,33 0,25 + 1,28 0,24 ) = 0,6 − 0,5 n n=
冤 2,33
0,25 + 1,28 0,24 0,6 − 0,5
, ≈ 322 冥 = 32115 2
c) Definimos una variable aleatoria similar a la anterior, pero que refleje la información sobre la aceptación de los yogures más líquidos en el mercdado actual. Sea: ⎧1 si una persona en el mercado actual es favorable a los nuevos yogures Y=⎨ ⎩0 en otro caso De nuevo Y ~ B(1, py) con py la proporción de personas que aceptan favorablemente los yogures más líquidos en el mercado actual. Las variables X e Y tienen, por tanto, distribuciones de Bernoulli y son independientes. Para probar si el porcentaje de aceptación en el mercado actual es superior al del futuro mercado, py > px, planteamos las hipótesis: H0 : p x py H1: px < py El estadístico del contraste será: Z=
pˆ x − pˆ y nx + ny nx ny
124
~ ˆˆ pq
H0 nx , ny → ∞
N (0, 1)
© Ediciones Pirámide
Contraste de hipótesis paramétrico con
pˆ =
1 x+y = nx + ny nx + ny
冢
nx
ny
i =1
i =1
∑ xi + ∑ yi
冣
qˆ = 1 − pˆ y su región crítica o de rechazo de la hipótesis nula viene determinada por: N(0,1)
= 0,01
0,99
– z = – 2,33
Con los datos muestrales, calculamos el valor experimental del estadístico: pˆ x =
280 = 0,56 500
pˆ y =
230 = 0,77 300
pˆ =
x+y 280 + 230 510 = = = 0,6375 nx + ny 500 + 300 800
qˆ = 1 − 0,6375 = 0,3625 zexp =
0,56 − 0,77 500 + 300 ⋅ 0,6375 ⋅ 0,3625 150.000
= − 5,9817
y al ser: zexp = − 5,9817 < − zα = − 2,33 © Ediciones Pirámide
125
Ejercicios de inferencia estadística y muestreo rechazamos la hipótesis nula H0 : px py. Por lo que al 1 % de significación se refiere, estos datos indican que el porcentaje de aceptación de los yogures en el mercado actual supera al del mercado nuevo.
El centro de salud de una determinada ciudad está realizando un estudio sobre el consumo de tabaco en la población adulta. Para comparar los porcentajes de mujeres y hombres fumadores, se seleccionaron dos muestras aleatorias independientes de 25.000 mujeres y 23.500 hombres, resultando que 6.150 y 7.228, respectivamente, eran consumidores habituales de tabaco. ¿Presentan estos datos evidencia suficiente para concluir que el porcentaje de fumadores supera al de fumadoras en esta localidad? Nivel de significación del 10 %. Ejercicio 2.18
Definimos la variable aleatoria X como aquella que toma el valor 1 si un hombre es fumador, y 0 en caso contrario. La variable aleatoria Y se define de la misma forma, pero para las mujeres. Por tanto: Solución
~ B(1, px ) Y ~ B(1, py )
X
y se quiere probar si los datos presentan evidencia suficiente para afirmar que px > py. Planteamos el contraste como: H0 : p x py H1: px > py El estadístico de prueba a utilizar es: Z=
pˆ x − pˆ y nx + ny nx ny
~ ˆˆ pq
H0 nx , ny → ∞
N (0, 1)
con pˆ = 126
x+y nx + ny
y
qˆ = 1 − pˆ © Ediciones Pirámide
Contraste de hipótesis paramétrico y la región crítica para a = 0,1 viene dada por: N(0,1)
0,90
= 0,1
z = 1,28
Para determinar el valor experimental del estadístico de prueba calculamos primero las proporciones muestrales: pˆ x =
7.228 = 0,308 23.500
pˆ y =
6.150 = 0,246 25.000
pˆ =
7.228 + 6.150 = 0,276 23.500 + 25.000
Así: zexp =
0,308 − 0,246 23.500 + 25.000 (0,276) ⋅ (0,724) 23.500 ⋅ 25.000
= − 15,27
Como zexp = 15,27 > 1,28 = za, entonces rechazamos H0 al 10 % de significación y, por tanto, los datos presentan evidencia suficiente para concluir que el porcentaje de fumadores supera al de fumadoras.
Una compañía de refrescos presenta un nuevo producto en el mercado afirmando que posee menos calorías que su homólogo más antiguo y conserva el resto de propiedades. Para tratar de verificar la afirmación de la compañía se eligieron al azar 14 botes del refresco nuevo y se calculó su media, 20 calorías por bote, y su desviación típica muestral, tres calorías. De modo independiente, se tomó otra Ejercicio 2.19
© Ediciones Pirámide
127
Ejercicios de inferencia estadística y muestreo muestra aleatoria de 16 botes del refresco antiguo, obteniéndose una media de 28 calorías por bote con desviación típica muestral 5. Suponiendo que la cantidad de calorías por bote sigue una distribución normal en ambos refrescos, pero con desviaciones típicas diferentes, ¿existe alguna razón para no creer en la afirmación de la compañía con un nivel de significación del 2,5 %?
Solución
Denotaremos por X e Y las variables aleatorias que representan la cantidad de calorías por bote en el nuevo producto y en el antiguo, respectivamente:
~ N(μx , σ x ) Y ~ N(μy , σ y )
X
siendo X e Y independientes y con sx ≠ sy. Se pretenden contrastar las hipótesis: H0 : μ x − μ y 0 H1: μ x − μ y < 0 (el nuevo producto posee menos calorías que el antiguo) Como las desviaciones típicas son desconocidas y distintas, el estadístico de prueba a utilizar es: t=
X − Y − d0 Sx2 Sy2 + nx ny
~
t H0 v
con
冢
冣
Sx2 Sy2 2 + nx ny Sy2 Sx2 2
冢
冣
9 25 2 + 14 16 v= = 2 9 2 25 ny 14 16 nx + + 13 15 nx − 1 ny − 1
冢 冣 冢 冣 冢 冣 冢 冣
2
= 24,999
Tomando como grados de libertad la parte entera de v más una unidad, se tiene que: texp 128
~
t H0 25 © Ediciones Pirámide
Contraste de hipótesis paramétrico y la región crítica unilateral viene dada por: t25
= 0,025
1–
–t
es decir, P(t25 < – t a) = 0,025, pero, por la simetría de la distribución t de Student: P(t25 > tα ) = 0,025 y P(t25 tα ) = 1 − 0,025 = 0,975 entonces t a = 2,06 y la región crítica o de rechazo de H0 será: texp − 2,06 = − tα Calculamos ahora el valor experimental del contraste: texp =
20 − 28 − 0 9 25 + 14 16
= − 5,387
Como texp = – 5,387 < – 2,06 = – t a , entonces se rechaza H0 y, por tanto, con estos datos y un 2,5 % de significación no existen razones para no creer en la afirmación de la compañía.
Un anuncio publicitario presenta un nuevo aparato de gimnasia cuyo uso durante 12 semanas reduce el peso considerablemente. Se tomó una muestra aleatoria simple de seis personas y se les ofreció probar gratuitamente el aparato durante 12 semanas. Los pesos, en kilogramos, de estas personas antes y después de la prueba fueron los siguientes: Ejercicio 2.20
© Ediciones Pirámide
129
Ejercicios de inferencia estadística y muestreo Antes
81,64
88,45
80,28
90,68
99,25
77,83
Después
78,25
80,45
64,35
79,27
82,30
73,15
Suponiendo que el peso de las personas se distribuye normalmente y utilizando un 2,5 % de significación, ¿se puede concluir a partir de estos datos que el peso medio que se pierde con este aparato no supera los tres kilogramos?
Tenemos aquí una muestra aleatoria de n = 6 pares de observaciones (X1, Y1), ..., (X6, Y6) correspondientes a los pesos de las personas antes y después de la utilización del aparato de gimnasia: Solución
~ N(μx , σ x ) Y ~ N(μy , σ y )
X
El contraste a realizar viene expresado por las hipótesis: H0 : μ x − μ y 3 H1: μ x − μ y > 3 Por tratarse de muestras apareadas, el estadístico de prueba que utilizaremos es: t=
d − d0 sd / n
~ t n − 1 ≡ t5
y la región crítica unilateral viene expresada en la siguiente gráfica: t5
0,975
0,025
t = 2,571
130
© Ediciones Pirámide
Contraste de hipótesis paramétrico Calculamos las diferencias di = xi – yi, que representan el peso perdido por cada una de las personas: di: 3,39
8
15,93
11,41
16,95
4,68
Hallamos la media y la varianza de estas cantidades: d =
1 n 60,36 di = = 10,06 ∑ 6 n i =1
sd2 =
1 n ∑ (di − d )2 = 32,29 n − 1 i =1
y calculamos el valor experimental: texp =
10,06 − 3 32,29 / 6
= 3,04
Por tanto, texp = 3,04 > 2,571 = t a, con lo cual rechazamos H0 al 2,5 % de significación. Es decir, con los datos de la muestra no puede concluirse que el peso medio perdido no supera los tres kilogramos, pues se está aceptando la hipótesis alternativa H1.
© Ediciones Pirámide
131
3
Contraste de hipótesis no paramétrico
Contraste de hipótesis no paramétrico
Las investigaciones realizadas por la Asociación de Fabricantes Artesanos de Turrón, cuya sede se encuentra en Jijona, señalan los siguientes porcentajes sobre las preferencias de los consumidores con respecto al turrón: el 35 % prefieren turrón de almendra duro; el 30 %, turrón de almendra blando; el 20 %, turrón de yema tostada, y el resto prefieren otros tipos de turrón (chocolate, coco, etc.). Una cadena de supermercados debe decidir, con anterioridad a las fiestas navideñas, la cantidad de turrón que solicitará a su proveedor con el fin de satisfacer las demandas de sus clientes, pero sin que la adquisición de las clases de turrón menos deseadas suponga un gasto innecesario. Para tratar de comprobar si los porcentajes facilitados por los fabricantes de turrón son admisibles, se lleva a cabo una desgustación entre 250 clientes seleccionados al azar, que deben optar por un solo tipo de turrón. Los resultados obtenidos fueron: Ejercicio 3.1
Tipo de turrón
Almendra duro Almendra blando Yema tostada Otros
Número de clientes
90 72 52 36
Teniendo en cuenta la información de esta muestra, ¿existen motivos para que la cadena de supermercados considere inadmisibles los porcentajes presentados por la Asociación de Fabricantes Artesanos de Turrón? Nivel de significación: 5 %.
Solución
Sea X la variable que representa el tipo de turrón preferido por un consumidor. Según la asociación, la distribución de probabilidad correspondien-
te a X sería: © Ediciones Pirámide
133
Ejercicios de inferencia estadística y muestreo Turrón (xi)
pi = P(X = xi)
Almendra duro Almendra blando Yema tostada Otros
0,35 0,30 0,20 0,15
Se pretende contrastar si las frecuencias obtenidas con las observaciones de los 250 clientes presentan diferencias significativas con las que cabría esperar si la afirmación de la asociación fuera cierta; es decir, se trata de un contraste de bondad de ajuste: H0 : p1 = 0,35; p2 = 0,30; p3 = 0,20; p4 = 0,15 H1: Al menos una pi toma un valor diferente a los anteriores que puede realizarse mediante el estadístico c2 de Pearson:
χ2 =
(ni − Ei )2 = ∑ E i =1 i k
(ni − npi )2 ∑ np i =1 i k
~ χ k2 − h − 1
H0
donde k: Número de categorías de X (después de agrupar si fuera necesario). h: Número de parámetros estimados con la muestra. k
n:
∑ ni > 30.
i =1
Ei : npi > 5, ∀ i. Si alguna frecuencia esperada, Ei, no es superior a cinco, entonces se agruparía con las categorías adyacentes hasta que se verificara la condición que permite la aproximación a la distribución c2 para el estadístico del contraste. Realizamos los cálculos en la siguiente tabla: Turrón (xi)
ni
pi = P(X = xi)
Ei = npi
(ni – Ei)2
(ni – Ei)2/Ei
Almendra duro Almendra blando Yema tostada Otros
90 72 52 36
0,35 0,30 0,20 0,15
87,5 75,0 50,0 37,5
6,25 9,00 4,00 2,25
0,07 0,12 0,08 0,06
n = 250
1,00
134
H0
0,33
© Ediciones Pirámide
Contraste de hipótesis no paramétrico Se observa que todas las Ei son mayores que cinco, por lo que no hay que realizar agrupaciones. Así, la distribución del estadístico bajo H0 será:
χ 2 H~ χ k2 − h − 1 ≡ χ 42 − 0 − 1 ≡ χ 32 0
rechazando H0, al nivel de significación a = 0,05, si: 2 χ exp > χ12− α
donde c21 – a se busca en la tabla 9, de manera que: P( χ 32 χ12− α ) = 1 − α = 1 − 0,05 = 0,95 de donde:
χ12− α = 7,81 Como el valor experimental es: 2 χ exp = 0,33 < χ12− α = 7,81
entonces no se rechaza H0 y, por tanto, con un 5 % de significación y con estos datos muestrales, no existirían motivos para considerar inadmisibles los porcentajes de la Asociación de Fabricantes Artesanos de Turrón. Una entidad bancaria trata de analizar si es rentable mantener en servicio el cajero automático situado en la plaza de cierta localidad. Para ello, decide estudiar el número de clientes por hora que acuden a este cajero a realizar sus operaciones. Durante 90 horas punta de días laborables elegidos al azar, se obtuvieron los siguientes resultados: Ejercicio 3.2
© Ediciones Pirámide
Número de clientes
Número de horas
0 1 2 3 4 5 6 o más
15 5 25 40 2 1 2
135
Ejercicios de inferencia estadística y muestreo ¿Indican estos datos que se trata de una distribución de Poisson con media tres clientes por hora? Nivel de significación: 1 %.
Solución
Sea X = «Número de clientes por hora que acuden a este cajero». Se trata de contrastar:
~ ᏼ(3) H1: X ~ / ᏼ(3)
H0 : X
para lo cual podemos utilizar el estadístico c2 de Pearson de bondad de ajuste:
χ2 =
(ni − npi )2 ∑ np i =1 i k
~ χ k2 − h − 1
H0
Mediante las probabilidades teóricas, pi, obtenidas en la tabla 5 para l = 3, construimos la tabla de frecuencias observadas (ni) y teóricas (Ei), realizando las agrupaciones necesarias hasta conseguir todas las frecuencias teóricas superiores a 5:
Número de clientes xi
Número de horas ni
0 1 1 2 3 4 5 6
15 20 5 25 40 2 1 2
冥
冥
pi H= P(X = xi)
Ei = npi
(ni – npi)2
0,0498 0,1494 0,2240 0,2240 0,1680 0,1008 0,0839
4,482 17,928 13,446 20,160 20,160 15,120 9,072 7,551
冥
(20 – 17,928)2
0,2395
2
1,1620 19,5251 11,3846 7,1822 4,0807
0
(ni – npi)2/npi
(25 – 20,160) (40 – 20,160)2 (2 – 15,120)2 (1 – 9,072)2 (2 – 7,551)2
43,5741
n = 90
Por tanto, la distribución del estadístico de prueba y la región crítica serán:
χ 2 H~ χ k2 − h − 1 ≡ χ 62 − 0 − 1 ≡ χ 52 0
136
© Ediciones Pirámide
Contraste de hipótesis no paramétrico
χ25
0,99
= 0,01
χ21– = 15,09
y como el valor experimental, c2exp = 43,5741, es superior al valor crítico, c21 – a = 15,09, entonces, al 1 % de significación, los datos de la muestra presentan evidencia suficiente para rechazar H0, con lo cual no se admite que el número de clientes por hora siga una distribución de Poisson con media 3.
Cierta universidad posee un programa de concesión de becas para realizar colaboraciones en los departamentos. Las cuantías de las becas varían según la dedicación y el tipo de colaboración que realicen los alumnos. Examinada una muestra aleatoria de 150 becas concedidas, se obtuvieron los siguientes resultados: Ejercicio 3.3
Cuantía de la beca (euros por semana)
Número de becas
[40, 50] (50, 60] (60, 65] (65, 70] (70, 75] (75, 80] (80, 100]
9 24 28 35 30 21 3
¿Puede decirse, a la vista de estos datos y utilizando un 5 % de significación, que las cuantías de las becas se conceden de acuerdo a una distribución normal? © Ediciones Pirámide
137
Ejercicios de inferencia estadística y muestreo Representamos con la variable aleatoria X la cuantía de una beca (euros por semana). De esta variable se ha observado una muestra aleatoria X1, ..., X150, y los resultados han sido clasificados en siete intervalos. Para contrastar si la distribución de las cuantías de las becas es normal, planteamos las siguientes hipótesis: Solución
~ N ( μ, σ ) H1: X ~ / N ( μ, σ )
H0 : X
Puesto que los datos están agrupados por intervalos, este contraste puede realizarse utilizando el test c2 de Pearson de bondad de ajuste; para ello, necesitamos estimar los parámetros poblacionales, m y s, mediante sus estimadores de máxima verosimilitud:
μˆ = X =
1 k ∑ Xi ni n i =1
σˆ 2 = S ′ 2 =
1 k ∑ ( Xi − X )2 ni n i =1
Realizamos los cálculos en la tabla siguiente: (Li, Li + 1]
xi = (Li + Li + 1)/2
ni
xi n i
xi2ni
[40, 50] (50, 60] (60, 65] (65, 70] (70, 75] (75, 80] (80, 100]
45,0 55,0 62,5 67,5 72,5 77,5 90,0
9 24 28 35 30 21 3
405,0 1.320,0 1.750,0 2.362,5 2.175,0 1.627,5 270,0
18.225,00 72.600,00 109.375,00 159.468,75 157.687,50 126.131,25 24.300,0
n = 150
9.910,0
667.787,5
Por tanto, las estimaciones máximo verosímiles serán: x= s′2 = s′ = 138
1 k 9.910 xi ni = = 66,07 ∑ n i =1 150
冢
9.910 1 k 1 k 1 ⋅ 667.787,5 − ( xi − x )2 ni = ∑ xi2 ni − x 2 = ∑ n i =1 n i =1 150 150
冣 = 87,11 2
87,11 = 9,33 © Ediciones Pirámide
Contraste de hipótesis no paramétrico Así, el contraste c2 de Pearson de bondad de ajuste a realizar será:
~ N (66,07; 9,33) H1: X ~ / N (66,07; 9,33)
H0 : X
cuyo estadístico de prueba es:
χ2 =
(ni − Ei )2 Ei i =1 k
∑
~ χ k2 − h − 1
H0
donde: Ei : n: pi: k: h:
npi > 5, ∀ i = 1, ..., 7. n1 + L + nk = 150 > 30. Probabilidad de cada intervalo bajo H0 cierta. Número de intervalos o categorías de X después de agrupar si fuera preciso. Número de parámetros estimados con la misma muestra que utilizamos para realizar el contraste. En este caso, h = 2, pues se han estimado los parámetros m y s.
Para calcular las frecuencias esperadas necesitamos las probabilidades teóricas obtenidas, suponiendo que H0 fuera cierta: pi H= P( Li < X Li + 1 )
,
0
i = 1,..., 7
Si H0 fuera cierta, entonces: Z=
X − 66,07 9,33
~ N (0, 1)
H0
Por tanto, tipificando y utilizando la tabla 7, las probabilidades teóricas serán: p1 = P( 40 X 50) = P
冢 40 −9,3366,07 Z 50 −9,3366,07 冣 = P(− 2,79 Z − 1,72) =
= P( Z − 1,72) − P( Z < − 2,79) H= 0,0427 − 0,0026 = 0,0401 0
p2 = P(50 < X 60) = P
冢 50 −9,3366,07 < Z 60 −9,3366,07 冣 = P(− 1,72 < Z − 0,65) =
= P( Z − 0,65) − P( Z − 1,72) H= 0,2578 − 0,0427 = 0,2151 0
© Ediciones Pirámide
139
Ejercicios de inferencia estadística y muestreo p3 = P(60 < X 65) = P( − 0,65 < Z − 0,11) H= 0, 4562 − 0,2578 = 0,1984 0
p4 = P(65 < X 70) = P( − 0,11 < Z 0, 42) H= 0,6628 − 0, 4562 = 0,2066 0
p5 = P( 70 < X 75) = P( 0, 42 < Z 0,96) H= 0,8315 − 0,6628 = 0,1687 0
p6 = P(75 < X 80) = P(0,96 < Z 1, 49) H= 0,9319 − 0,8315 = 0,1004 0
p7 = P(80 < X 100) = P(1, 49 < Z 3,64) H≈ 1 − 0,9319 = 0,0681 0
Con estas probabilidades obtenemos la siguiente tabla: Li – Li + 1
ni
pi
40-50 50-60 60-65 65-70 70-75 75-80 80-100
9 24 28 35 30 21 3
0,0401 0,2151 0,1984 0,2066 0,1687 0,1004 0,0681
n = 150
0,9974 ≈ 1
Ei = npi
6,015 32,265 29,76 30,99 25,305 15,06 10,215
(ni – Ei)2
(ni – Ei)2/Ei
8,9102 68,3102 3,0976 16,0801 22,0430 35,2836 52,0562
1,4813 2,1172 0,1041 0,5189 0,8711 2,3429 5,0961 12,5316
Como todos los valores Ei son mayores que cinco, no se han realizado agrupaciones de los intervalos. Por tanto, k = 7, y la distribución del estadístico de prueba, si la hipótesis nula es cierta, será:
χ 2 H~ χ k2 − h − 1 ≡ χ 72 − 2 − 1 ≡ χ 42 0
Rechazando H0, al 1 % de significación, si: 2 χ exp > χ12− α
con c21 – a tal que: P( χ 42 χ12− α ) = 1 − α = 1 − 0,01 = 0,99 utilizando la tabla 9:
χ12− α = 13,28 140
© Ediciones Pirámide
Contraste de hipótesis no paramétrico Como: 2 χ exp = 12,5316 < χ12− α = 13,28
entonces no se rechaza H0 al 1 % de significación y, por tanto, las cuantías de las becas concedidas pueden suponerse normalmente distribuidas.
La editorial Lea, S. A. está realizando una campaña de suscripción personalizada para la venta de una colección de libros de próxima aparición. Uno de los agentes comerciales de esta editorial visita cada día ocho hogares previamente concertados. Los resultados sobre el número de suscripciones diarias que este agente consiguió durante un período de 150 días aparecen recogidos en la siguiente tabla: Ejercicio 3.4
Número de suscripciones
Número de días
0 1 2 3 4 5 6 7 8
4 15 30 43 31 18 5 3 1
Contraste, utilizando un 10 % de significación, si el número de suscripciones diarias conseguidas por este agente puede considerarse una variable aleatoria distribuida según un modelo binomial.
Definimos la variable aleatoria X como el número de suscripciones conseguidas por el agente en las ocho visitas que realiza un día. Se pretende contrastar las hipótesis: Solución
~ B(n, p) H1: X ~ / B(n, p)
H0 : X
© Ediciones Pirámide
141
Ejercicios de inferencia estadística y muestreo donde n = 8 (pues cada día visita ocho hogares) y p es el parámetro que representa la probabilidad de conseguir una suscripción, cuyo estimador de máxima verosimilitud es:
pˆ =
X X = n 8
Como:
x=
1 r 477 xi ni = = 3,18 ∑ 150 i = 1 150
entonces: 477 150 3,18 pˆ = = = 0,3975 ≈ 0, 40 8 8 y, por tanto, el contraste a realizar quedará como:
~ B(8; 0,40) H1: X ~ / B(8; 0,40)
H0 : X
Podemos utilizar el contraste c2 de Pearson de bondad de ajuste, cuyo estadístico de prueba es:
χ2 =
(ni − npi )2 ∑ np i =1 i k
~ χ k2 − h − 1
H0
Para calcular su valor experimental obtenemos las probabilidades teóricas, pi, bajo la hipótesis nula, es decir, en la tabla de probabilidades de una B(8; 0,40), y comprobamos que las frecuencias esperadas, Ei = npi, sean todas superiores a cinco; en caso contrario, se realizará una agrupación. Los cálculos necesarios aparecen en la tabla siguiente: 142
© Ediciones Pirámide
Contraste de hipótesis no paramétrico Número de suscripciones xi
Número de días ni
冥
4 19 15 30 43 31 18 5 3 9 1
0 1 1 2 3 4 5 6 7 6 8
冥
冥
冥
pi = P(X = xi) H0
0,0168 0,0896 0,2090 0,2787 0,2322 0,1239 0,0413 0,0079 0,0007
Ei = npi
(ni – npi)2
冥
(19 – 15,96)20
2,520 15,96 13,440 31,350 41,805 34,830 18,585 6,195 1,185 7,485 0,105
冥
(ni – npi)2/npi
2
0,5790
(30 – 31,35) 0 (43 – 41,805)2 (31 – 34,83)20 (18 – 18,585)2
0,0581 0,0342 0,4212 0,0184
(9 – 7,485)20
0,3066
1,4175
n = 150
Como se han realizado agrupaciones, por la existencia de frecuencias esperadas inferiores a 5, y se ha estimado un parámetro, entonces la distribución del estadístico de prueba bajo la hipótesis nula será:
χ 2 H~ χ 62 − 1 − 1 ≡ χ 42 0
y la región crítica viene determinada por los valores mayores que c20,90, donde se tiene: P( χ 42 > χ 02,90 ) = 0,10 ⇒ χ 02,90 = 7,78 Por tanto, al ser: 2 χ exp = 1, 4175 < χ 02,90 = 7,78
no hay motivos suficientes para rechazar la hipótesis nula, por lo que admitimos la distribución B(8; 0,40) como válida para el número de suscripciones diarias conseguidas por el agente.
En un centro autorizado por la Dirección General de Tráfico para realizar la Inspección Técnica de Vehículos (ITV) se ha seleccionado al azar un período de cinco horas, recogiéndose los datos correspondientes a los vehículos y sus horas de llegada. Los tiempos transcurridos entre dos llegadas sucesivas se resumen de la siguiente forma: Ejercicio 3.5
© Ediciones Pirámide
143
Ejercicios de inferencia estadística y muestreo Tiempo entre dos llegadas sucesivas (minutos)
Número de vehículos
5 (5, 10] (10, 20] (20, 30] Más de 30
25 42 30 15 3
A la vista de estos datos, y con un 10 % de significación, ¿es admisible el modelo exponencial para la distribución del tiempo transcurrido entre dos llegadas sucesivas de vehículos? Sea la variable aleatoria X la que representa el tiempo transcurrido entre dos llegadas. Si X tuviera una distribución exponencial, entonces su correspondiente función de densidad y de distribución serían, respectivamente: Solución
f ( x ) = ae − ax
x>0
,
F( x ) = 1 − e − ax
x>0
,
con E[ X ] =
1 a
Var [ X ] =
y
1 a2
El contraste que se pretende realizar es:
~ Exp (a) H1: X ~ / Exp (a)
H0 : X
que puede realizarse utilizando el estadístico c2 de Pearson de bondad de ajuste, puesto que los datos están agrupados en cinco categorías. Para utilizar este test, hay que estimar el parámetro a mediante máxima verosimilitud: n
L( x1 ,..., xn ; a) = ae
− ax1
⋅…⋅ ae
− ax n
=a e n
− a ∑ xi i =1
n
ln L( x1 ,..., xn ; a) = n ln a − a ∑ xi i =1
∂ ln L( x1 ,..., xn ; a) n = − ∑ xi ∂a a i =1 n
144
© Ediciones Pirámide
Contraste de hipótesis no paramétrico igualando esta derivada a cero: n
n − a ∑ xi = 0 i =1
aˆ =
n n
∑ xi
=
1 x
i =1
Por tanto, calculamos la media muestral para las observaciones obtenidas, teniendo en cuenta que el tiempo entre llegadas es superior o igual a cero e inferior o igual a 300 minutos (5 horas · 60 = 300). (Li, Li + 1]
ni
xi
[0, 5] (5, 10] (10, 20] (20, 30] (30, 300]
25 42 30 15 3
2,5 7,5 15,0 25,0 165,0
62,5 315,0 450,0 375,0 495,0 1.697,5
n = 115
x=
xini
1 k 1.697,5 xi ni = ≈ 14,76 ∑ n i =1 115
Por tanto, la estimación correspondiente al parámetro a y las hipótesis del contraste serán: aˆ =
1 1 = = 0,07 x 14,76
~ Exp (0,07) H1: X ~ / Exp (0,07)
H0 : X
El estadístico c2 de Pearson de bondad de ajuste es:
χ2 = © Ediciones Pirámide
(ni − Ei )2 Ei i =1 k
∑
~ χ k2 − h − 1
H0
145
Ejercicios de inferencia estadística y muestreo donde: Ei : n: pi: h: k:
npi > 5, ∀ i. n1 + L + nk = 115 > 30. Probabilidades asignadas a los intervalos bajo la hipótesis nula. Número de parámetros estimados con la muestra; en este caso, h = 1. Número de categorías después de agrupar si ocurriera que Ei 5 para algún Ei.
Calculemos las probabilidades teóricas de los intervalos: p1 = P( X 5) = F(5) = 1 − e − 5a H= 1 − e − 0,07 ⋅ 5 = 0,2953 0
p2 = P(5 < X 10) = F(10) − F(5) H= 1 − e − 10 ⋅ 0,07 − 0,2953 = 0
= 0,5034 − 0,2953 = 0,2081 p3 = P(10 < X 20) = F(20) − F(10) H= 1 − e − 20 ⋅ 0,07 − 0,5034 = 0
= 0,7534 − 0,5034 = 0,25 p4 = P(20 < X 30) = F (30) − F (20) H= 1 − e − 30 ⋅ 0,07 − 0,7534 = 0
= 0,8775 − 0,7534 = 0,1241 p5 = P(30 < X 300) = F (300) − F (30) H= 1 − e − 300 ⋅ 0,07 − 0,8775 = 0
≈ 1 − 0,8775 = 0,1225 Utilizando estas probabilidades, realizamos los cálculos en la siguiente tabla: (Li, Li + 1]
ni
pi
Ei = npi
(ni – Ei)2/Ei
[0, 5] (5, 10] (10, 20] (20, 30] (30, 300]
25 42 30 15 3
0,2953 0,2081 0,2500 0,1241 0,1225
33,9595 23,9315 28,7500 14,2715 14,0875
2,3638 13,6419 0,0543 0,0372 8,7264
n = 115
1,0000
24,8236
Como ninguna Ei es inferior o igual a cinco, no hay necesidad de realizar agrupaciones, con lo cual el valor de k es 5 y la distribución del estadístico c2 de Pearson es:
χ 2 H~ χ k2 − h − 1 ≡ χ 52 − 1 − 1 ≡ χ 32 0
146
© Ediciones Pirámide
Contraste de hipótesis no paramétrico La región crítica se representa gráficamente como:
χ23
1–
= 0,90
= 0,10
χ21–
y la hipótesis nula será rechazada si: 2 χ exp > χ12− α
donde c21 – a es tal que: P( χ 32 > χ12− α ) = α = 0,10 Utilizando la tabla 9, tenemos que:
χ12− α = 6,25 como 2 χ exp = 24,8236 > χ12− α = 6,25
se rechaza la hipótesis nula con un 10 % de significación, es decir, el modelo Exp (0,07) no es admisible para la distribución del tiempo transcurrido entre llegadas sucesivas a este centro de ITV. © Ediciones Pirámide
147
Ejercicios de inferencia estadística y muestreo En una comunidad de vecinos, los gastos de agua caliente y fría son costeados hasta el momento con el dinero de la comunidad. En la última reunión celebrada, algunos vecinos propusieron modificar este sistema, de manera que la comunidad pagase sólo hasta una determinada cantidad anual de agua caliente por vivienda, debiendo abonar el propietario el gasto por la cantidad restante. Para determinar cuál debería ser la cantidad máxima anual por vivienda que pagaría la comunidad, se seleccionaron al azar 15 viviendas, contabilizándose en ellas la cantidad de agua caliente gastada (en m3) al año. Los resultados obtenidos fueron: Ejercicio 3.6
78 73 132 66 102 96 82 67 79 75 85 68 85 92 68 Contraste, utilizando un nivel de significación del 1 %, si el consumo anual de agua caliente en esta comunidad se distribuye normalmente.
Definimos X = «Consumo anual de agua caliente en una vivienda de la comunidad». De esta variable se ha seleccionado una muestra aleatoria de tamaño 15, X1, ..., X15 y se pretende contrastar, utilizando la información muestral, si la variable aleatoria X sigue una distribución normal. Por tanto, planteamos las hipótesis: Solución
H0 : La muestra aleatoria procede de una distribución normal con media y desviación típica desconocidas. H1: La muestra no procede de una población normal. o bien, si F(x) es la función de distribución desconocida de X, entonces: H0 : F(x) es la función de distribución de una normal. H1: F(x) no es la función de distribución de una normal. Como los datos no están agrupados y, además, el tamaño muestral es pequeño, no utilizaremos el contraste c2 de Pearson de bondad de ajuste. Sin embargo, podemos contrastar las hipótesis anteriores mediante el test de normalidad de Lilliefors y mediante el test de normalidad de Shapiro-Wilks. En ambos, la hipótesis de normalidad aparece sin especificar los parámetros poblacionales media y desviación típica.
Contraste de normalidad de Lilliefors Para realizar este contraste a partir de la información de X1, ..., X15, calculamos, en primer lugar, la media y la varianza muestral: 148
© Ediciones Pirámide
Contraste de hipótesis no paramétrico x=
1 n 1.248 xi = = 83,2 ∑ n i =1 15
⎡ ⎢ n 1 1 ⎢n 2 2 2 s = ∑ ( xi − x ) = n − 1 ⎢ ∑ xi − n − 1 i =1 ⎣i = 1
2⎤
冢∑ x 冣 ⎥⎥ n
i =1
i
冤
冥
1 (1.248)2 = − = 108 . 054 ⎥ 14 15 ⎦
n
= 301, 4571 s=
s2 =
301, 4571 = 17,3625
En segundo lugar, tipificamos las observaciones originales: zi =
xi − x xi − 83,2 = s 17,3625
,
i = 1,..., 15
cuyos valores incorporaremos a la tabla en la que se realizarán todos los cálculos. El estadístico del contraste de Lilliefors es el mismo que para el de KolmogorovSmirnov, pero construido sobre los valores tipificados: Dn′ = máx 冟Fn ( z ) − F0 ( z )冟 z
con F0 la función de distribución correspondiente a la N(0, 1) y Fn la función de distribución empírica de las observaciones muestrales tipificadas. La región crítica o de rechazo de H0 viene determinada por el valor D¢a, tal que: P( Dn′ > Dα′ / H0 ) = α Utilizando la tabla 15 con a = 0,05 y n = 15, se tiene: Dα′ = 0,257 rechazándose la hipótesis de normalidad si: Dn,′ exp > Dα′ = 0,257 © Ediciones Pirámide
149
Ejercicios de inferencia estadística y muestreo Para calcular el valor experimental del estadístico de prueba, ordenamos las observaciones muestrales de menor a mayor, calculamos F0 (zi), Fn (zi) y obtenemos los valores: ai = 冟F0 ( zi ) − Fn ( zi )冟 bi = 冟F0 ( zi ) − Fn ( zi − 1 )冟 Organizamos los cálculos en la siguiente tabla, teniendo en cuenta que: Fn ( z ) =
N ( z ) Número de observaciones z = n n
xi
ni
xini
xi2ni
zi
Fn(zi)
F0(zi)
ai = 兩F0(zi) – Fn(zi)兩
bi = 兩F0(zi) – Fn(zi – 1)兩
66 67 68 73 75 78 79 82 85 92 96 102 132
1 1 2 1 1 1 1 1 2 1 1 1 1
66 67 136 73 75 78 79 82 170 92 96 102 132
4.356 4.489 9.248 5.329 5.625 6.084 6.241 6.724 14.450 8.464 9.216 10.404 17.424
– 0,99 – 0,93 – 0,88 – 0,59 – 0,47 – 0,30 – 0,24 – 0,07 0,10 0,51 0,74 1,08 2,81
0,0667 0,1333 0,2667 0,3333 0,4000 0,4667 0,5333 0,6000 0,7333 0,8000 0,8667 0,9333 1,0000
0,1611 0,1762 0,1894 0,2776 0,3192 0,3821 0,4052 0,4721 0,5398 0,6950 0,7704 0,8599 0,9975
0,0944 0,0429 0,0773 0,0557 0,0808 0,0846 0,1281 0,1279 0,1935 0,1050 0,0963 0,0734 0,0025
0,1611 0,1095 0,0561 0,0109 0,0141 0,0179 0,0615 0,0612 0,0602 0,0383 0,0296 0,0068 0,0642
15
A partir de la tabla: Dn′, exp = máx{ai , bi} = 0,1935 < 0,257 = Dα′ i
Por tanto, al 1 % de significación, no se rechaza la hipótesis de normalidad de la distribución del agua caliente consumida. Contraste de normalidad de Shapiro-Wilks Para realizar el contraste, utilizaremos el estadístico W de Shapiro-Wilks:
冤∑ ai ( X(n − i +1) − X(i) )冥 k
W=
2
i =1
n
∑ ( Xi − X ) 2
i =1
150
© Ediciones Pirámide
Contraste de hipótesis no paramétrico donde: k=
n − 1 15 − 1 = = 7 ( pues n = 15 impar; si n fuera par, el valor de k sería igual a 2 2 n / 2).
ai, i = 1, ..., k son los coeficientes de normalidad de Shapiro-Wilks. X (i) es el estadístico ordenado de orden i (la observación i-ésima más pequeña). Con este estadístico, rechazaremos H0 si: Wˆ < Wα siendo Wa el valor, tal que: P[W < Wα / H0 ] = α Este valor crítico puede encontrarse en la tabla 17 utilizando n = 15 y a = 0,01, con lo cual: Wa = 0,835 Para calcular el valor experimental, Wˆ , ordenamos las observaciones de menor a mayor: ; X( 5) = 73 X(1) = 66 ; X( 2 ) = 67 ; X( 3) = 68 ; X( 4 ) = 68 ; X(10 ) = 85 X( 6 ) = 75 ; X( 7) = 78 ; X(8) = 79 ; X( 9 ) = 82 X(11) = 85 ; X(12 ) = 92 ; X(13) = 96 ; X(14 ) = 102 ; X(15) = 132 buscamos los coeficientes ai en la tabla 16 con n = 15 y calculamos las diferencias (X (n – i + 1) – X (i)): ai
X(n – i + 1) – X(i)
ai(X(n – i + 1) – X(i))
0,5150 0,3306 0,2495 0,1878 0,1353 0,0880 0,0433 0,0000
132 – 66 = 66 102 – 67 = 35 96 – 68 = 28 92 – 68 = 24 85 – 73 = 12 85 – 75 = 10 82 – 78 = 4 79 – 66 = 66
33,9900 11,5710 6,9860 4,5072 1,6236 0,8800 0,1732 00,000 59,7310
© Ediciones Pirámide
151
Ejercicios de inferencia estadística y muestreo El denominador de W se obtiene como:
∑ ( xi − x )2 = ∑ xi2 − nx 2 = 108.054 − 15 ⋅ 冢 n
D=
i =1
n
i =1
1.248 15
冣
2
= 108.054 −
(1.248)2 = 4.220, 4 15
Por tanto:
冤∑ a ( X k
Wˆ =
i =1
( n − i + 1)
i
n
冥
− X( i ) )
∑ ( xi − x ) 2
2
=
[59,731]2 = 0,8454 4.220, 4
i =1
Como: Wˆ = 0,8454 > Wα = 0,835 entonces, al 1 % de significación, no se rechaza la hipótesis de normalidad del consumo anual de agua caliente. En cierto ministerio se van a realizar unas oposiciones que permiten acceder al cuerpo de funcionarios del mismo. La primera prueba consiste en un examen tipo test con 100 preguntas. Los candidatos deben superar al menos la mitad de ellas para poder realizar los siguientes exámenes. Uno de los miembros del tribunal cree que este test está planteado de tal manera que la proporción de respuestas acertadas que obtendrá cada opositor es una variable aleatoria cuya función de densidad viene dada por: Ejercicio 3.7
⎧6 x (1 − x ) si 0 x 1 f ( x) = ⎨ en caso contrario ⎩0 Al finalizar la prueba se seleccionaron aleatoriamente los tests realizados por 12 opositores, que obtuvieron las siguientes puntuaciones: 50, 80, 42, 95, 80, 52, 40, 82, 56, 85, 46, 60 ¿Existen motivos para sospechar que esta persona está equivocada al suponer la función de densidad anterior como modelo de distribución para la proporción de respuestas acertadas? Nivel de significación: 1 %. 152
© Ediciones Pirámide
Contraste de hipótesis no paramétrico Sea X la variable aleatoria que representa la proporción de respuestas acertadas por un opositor en este test. Esta variable aleatoria tendrá una función de distribución F(x) desconocida. Se pretende realizar el siguiente contraste: Solución
H0 : F( x ) = F0 ( x ) H1: F( x ) ≠ F0 ( x ) donde F0 (x) es la función de distribución que se obtiene a partir de f(x):
F0 ( x ) =
冮
x
−∞
si x < 0 ⎧0 ⎪ 2 f (t ) dt = ⎨ x (3 − 2 x ) si 0 x < 1 ⎪1 si x 1 ⎩
Como el tamaño de la muestra es pequeño, n = 12, utilizaremos el contraste de bondad de ajuste de Kolmogorov-Smirnov para una muestra, cuyo estadístico de prueba es: Dn = máx 冟F0 ( x ) − Fn ( x )冟 x
con Fn ( x ) =
N ( x ) Número de observaciones muestrales menores o iguales que x = n n
Para un nivel de significación a = 0,01, la región crítica está determinada por aquellos valores de Dn que superen a un valor crítico D a, tal que: P( Dn > Dα / H0 ) = α Utilizando la tabla 14 para un test bilateral, se tiene que: D a = 0,449 y se rechazará H0 cuando Dn,exp > D a. Gráficamente: Dn D = 0,449 © Ediciones Pirámide
153
Ejercicios de inferencia estadística y muestreo Para calcular el valor experimental, ordenamos las observaciones muestrales de menor a mayor, calculamos F0 (xi), Fn (xi) y obtenemos: ai = 冟F0 ( xi ) − Fn ( xi )冟 bi = 冟F0 ( xi ) − Fn ( xi − 1 )冟 Recordemos que xi es la proporción de respuestas acertadas por un opositor, es decir: xi =
Puntuación(i ) 100
Puntuación
xi = Puntuación(i)/100
ni
Fn(xi)
F0(xi)
40 42 46 50 52 56 60 80 82 85 95
0,40 0,42 0,46 0,50 0,52 0,56 0,60 0,80 0,82 0,85 0,95
1 1 1 1 1 1 1 2 1 1 1
1/12 = 0,083 2/12 = 0,167 3/12 = 0,250 4/12 = 0,333 5/12 = 0,417 6/12 = 0,500 7/12 = 0,583 9/12 = 0,750 10/12 = 0,833 11/12 = 0,917 12/12 = 1,000
0,352 0,381 0,440 0,500 0,530 0,590 0,648 0,896 0,914 0,939 0,993
ai
bi
0,269 兩0,352 – 0兩 = 0,352,000 0,214 兩0,381 – 0,083兩 = 0,298 0,273 0,190 0,250 0,167 0,197 0,113 0,173 0,090 0,148 0,065 0,313 0,146 0,164 0,081 0,106 0,022 0,076 0,007
n = 12
Como: máx{ai , bi} = b1 = 0,352 entonces: Dn, exp = 0,352 < Dα = 0, 449 por lo que, con los datos de la muestra, y utilizando un 1 % de significación, no existen motivos para rechazar H0. Por tanto, los datos muestrales no presentan evidencia suficiente para sospechar que este miembro del tribunal está equivocado, y se acepta así que la proporción de respuestas acertadas por cada opositor se distribuye según la función de densidad del enunciado. 154
© Ediciones Pirámide
Contraste de hipótesis no paramétrico En una determinada región existen tres facultades en las que se cursan estudios de Economía. Un programa de radio universitario pretende debatir si la dificultad de estos estudios pudiera estar relacionada con el centro donde se cursan. Para aportar información al programa, se propuso a los oyentes licenciados en Economía que llamaran a un teléfono gratuito donde se les realizaría una serie de preguntas. Con la información obtenida se completó la siguiente tabla de frecuencias, en la que las llamadas han sido clasificadas según el lugar donde se realizaron los estudios y el tiempo empleado en terminarlos: Ejercicio 3.8
Número de años empleados para finalizar la licenciatura de Economía
Facultad
4 o menos
Entre 5 y 6
7 o más
300 110 325
150 125 350
50 90 100
A B C
Suponiendo que estos datos pudieran ser considerados como procedentes de una muestra aleatoria, ¿se podría afirmar que existe alguna relación entre el centro de estudio y el tiempo que un estudiante tarda en terminar su carrera en Economía? Nivel de significación: 10 %.
Definimos la variable X como la que representa la facultad en la que ha estudiado un licenciado en Economía, y la variable Y como aquella que representa el número de años empleados para finalizar la carrera. Se pretende contrastar si existe relación entre estas dos variables o si, por el contrario, son independientes. Para ello, se utilizará la información de las llamadas telefónicas, que se consideran una muestra aleatoria con tamaño: Solución
n = 300 + 150 + 50 + 110 + 125 + 90 + 325 + 350 + 100 = 1.600 Las hipótesis a contrastar son: H0 : X , Y son independientes H1: X , Y no son independientes © Ediciones Pirámide
155
Ejercicios de inferencia estadística y muestreo Para realizar el contraste utilizaremos el test de independencia de la c2 de Pearson, cuyo estadístico de prueba es:
χ2 =
r
s
∑∑
冢
nij −
ni.n. j n
冣
2
ni.n. j
i =1 j =1
~ χ (2r − 1)( s − 1)
H0
n Para que esta distribución asintótica sea aceptable, el valor de n debe ser grande y las frecuencias esperadas, Eij = ni. n. j /n, no demasiado pequeñas (n > 30 y Eij > 5). Puesto que n = 1.600 > 30, calculemos los valores de las Eij de acuerdo al siguiente esquema dentro de cada casilla: nij
Eij
(nij − Eij )2 Eij Por tanto, tendremos la siguiente tabla: Facultad
4 o menos
300
5-6
229,688
150
7 o más
195,313
50
ni.
75
500
48,75
325
A 21,524 110
10,513
149,297
125
8,333
126,953
90
B 10,344 325
0,030
356,016
350
302,734
34,904 100
116,25
775
C 2,702 n. j
7,380
735
625
2,272 240
1.600 = n
que posee todas las frecuencias esperadas superiores a cinco, por lo que no es preciso realizar ninguna agrupación, siendo, por tanto, la distribución del estadístico de prueba:
χ2 156
~ χ (23 − 1)(3 − 1) ≡ χ 42
H0
© Ediciones Pirámide
Contraste de hipótesis no paramétrico La región crítica correspondiente al test de la c2 de Pearson (tabla 9) es: χ24
1–
= 0,90
= 0,10
χ21– = 7,78
y como el valor experimental es: 2 χ exp = 21,524 + 10,513 + 8,333 + 10,344 + 0,030 + 34,904 +
+ 2,702 + 7,380 + 2,272 = 98,002 superior al valor crítico c21 – a = 7,78, entonces rechazamos la hipótesis de independencia al 10 % de significación. Por tanto, existirá alguna relación entre las dos variables. Las asociaciones de madres y padres de alumnos de los colegios públicos de una determinada ciudad pretenden organizar de forma conjunta las actividades extraescolares del próximo curso. Para tratar de conocer el interés de los padres en el tipo de actividades que pueden desarrollar sus hijos, la comisión encargada decide llevar a cabo una encuesta a una muestra aleatoria de 1.500 padres. Con los datos de esta encuesta, pudo construirse la siguiente tabla: Ejercicio 3.9
Nivel de estudios de los padres Actividades
Competiciones deportivas Talleres creativos en la propia ciudad Excursiones diversas Otras
Primarios
Bachillerato
Universitarios
150 90 60 50
195 100 330 75
175 46 180 49
¿Cabe pensar, al 1 % de significación, que el nivel de estudios de los padres influye en el tipo de actividad extraescolar elegida para sus hijos? © Ediciones Pirámide
157
Ejercicios de inferencia estadística y muestreo Sea la variable X la que representa el tipo de actividad extraescolar y la variable Y la que representa el nivel de estudios de los padres. Estas variables presentan las categorías señaladas en la tabla del enunciado. Para tratar de comprobar si el nivel de estudios de los padres influye en el tipo de actividad extrescolar, planteamos un contraste de independencia: Solución
H0 : X , Y son independientes H1: X , Y no son independientes que tiene como estadístico de prueba el de la c2 de Pearson:
χ2 =
r
(nij − Eij )2
s
∑∑
~ χ (2r − 1)( s − 1)
H0
Eij
i =1 j =1
con r
n=
s
∑ ∑ nij > 30
Eij =
y
i =1 j =1
ni.n. j n
>5
En este caso, n = 1.500 > 30 y calculamos las Eij en la tabla adjunta de acuerdo con el siguiente esquema para cada una de las celdas: nij
Eij
(nij − Eij )2 Eij Por tanto, tendremos la siguiente tabla: Nivel de estudios de los padres Actividades Primarios
Competiciones deportivas Talleres creativos en la propia ciudad Excursiones diversas
90
55,07 100 110,13 22,16 0,93
60
133 330 40,07
350
46
40,6
266 180
75
520
70,8
236
171
570
52,2
174
0,47 81,2
49
0,47 700
ni.
8,69
15,40
2,18 n. j
Universitarios
121,33 195 242,67 175 156 6,77 9,36 2,31
50
Otras
158
150
Bachillerato
0,20 450
1.500 © Ediciones Pirámide
Contraste de hipótesis no paramétrico Como se aprecia en la tabla, todas las frecuencias esperadas, Eij, son superiores a cinco, por lo que no es preciso agrupar. Por tanto, la distribución del estadístico c2 de Pearson será:
χ2
~ χ (24 − 1)(3 − 1) ≡ χ 62
H0
Su valor experimental se obtiene sumando las cantidades situadas en la parte central de cada celda: 2 χ exp = 6,77 + 9,36 + 2,31 + 22,16 + … + 0,20 = 109,01
Como la región crítica del contraste de independencia tiene la forma:
χ26
1–
= 0,99
= 0,01
χ21– = 16,81
donde c21 – a = 16,81 ha sido buscado en la tabla 9, de manera que: P( χ 62 χ12− α ) = α = 0,01 entonces rechazamos la hipótesis de independencia (H0), puesto que: 2 χ exp = 109,01 > 16,81 = χ12− α
por lo que cabe pensar que el nivel de estudios de los padres influye a la hora de elegir la actividad extraescolar de sus hijos. © Ediciones Pirámide
159
Ejercicios de inferencia estadística y muestreo Uno de los encargados de una planta de montaje tiene la creencia de que el rendimiento de los trabajadores a primera hora de la mañana puede estar relacionado con el tiempo de viaje para acudir desde sus respectivas residencias hasta el lugar de trabajo. Para tratar de contrastar esta teoría, una mañana, los encargados de la planta deciden seleccionar una muestra aleatoria de 300 trabajadores, clasificándolos en la siguiente tabla según la duración del viaje y el número de unidades montadas durante la primera hora de trabajo: Ejercicio 3.10
Número de unidades montadas durante la primera hora Tiempo de viaje (minutos)
(0, 5] (poco eficientes)
(5, 10] (eficientes)
(10, 15] (muy eficientes)
2 3 10
85 80 75
14 14 17
(0, 15] (15, 30] (30, 90]
¿Se encuentra apoyada por estos datos la creencia del encargado con una significación del 1 %?
Representamos con las variables X e Y el tiempo de viaje y el número de unidades montadas, respectivamente. Si la creencia del encargado es cierta, entonces las variables serían dependientes. Por tanto, planteamos el contraste: Solución
H0 : X , Y son independientes H1: X , Y no son independientes que puede resolverse utilizando como estadístico de prueba el de la c2 de Pearson:
χ2 =
r
s
∑∑
i =1 j =1
(nij − Eij )2
~ χ (2r − 1)( s − 1)
H0
Eij
con r
n=
s
∑ ∑ nij = 300 > 30
i =1 j =1
y
Eij =
ni.n. j n
>5
para que la distribución asintótica bajo H0 sea aceptable. 160
© Ediciones Pirámide
Contraste de hipótesis no paramétrico Realizamos los cálculos en la siguiente tabla teniendo en cuenta que la estructura de cada celda es: nij
Eij
(nij − Eij )2 Eij Así: Número de unidades montadas durante la primera hora Tiempo de viaje (0, 5]
(5, 10]
ni.
(10, 15]
(0, 15]
2
5,05
85
80,8
14
15,15
101
(15, 30]
3
4,85
80
77,6
14
14,55
97
(30, 90]
10
5,10
75
81,6
17
15,30
102
n. j
15
240
45
300
donde se observa una frecuencia teórica inferior a cinco: E21 =
n2.n.1 97 ⋅ 15 = = 4,85 n 300
Por tanto, habrá que realizar agrupaciones hasta que todas las Eij superen a cinco. Para tratar de discriminar, por ejemplo, entre los que tienen un tiempo de viaje moderado y los que emplean mucho tiempo, agruparemos la primera y la segunda fila, resultando que la nueva tabla quedará: Número de unidades montadas durante la primera hora Tiempo de viaje (0, 5]
(0, 30]
(30, 90] n. j © Ediciones Pirámide
5
(5, 10]
9,9
165
2,43 10
15
158,4
28
0,275 5,1
75
4,71
29,7
198
15,3
102
0,10 81,6
17
0,53 240
ni.
(10, 15]
0,19 45
300
161
Ejercicios de inferencia estadística y muestreo donde, por ejemplo, los datos correspondientes a la primera celda son: n11 = 2 + 3 = 5 E11 = 5,05 + 4,85 = 9,9 (n11 − E11 )2 (5 − 9,9)2 = = 2, 43 E11 9,9 La distribución del estadístico de prueba tendrá en cuenta la agrupación realizada:
χ2
~ χ (22 − 1)(3 − 1) ≡ χ 22
H0
Con los datos de esta segunda tabla calculamos el valor experimental del estadístico: 2 χ exp = 2, 43 + 0,275 + 0,10 + 4,71 + 0,53 + 0,19 = 8,235
La región crítica correspondiente a este contraste queda gráficamente como:
χ22
0,99
= 0,01
χ21– = 9,21
donde el valor crítico c21 – a se ha buscado en la tabla 9, de manera que: P( χ 22 χ12− α ) = 1 − α = 0,99 Como c2exp = 8,235 < 9,21 = c21 – a, entonces no se rechaza H0 al 1 % de significación; por tanto, los datos no apoyan la creencia del encargado. 162
© Ediciones Pirámide
Contraste de hipótesis no paramétrico Un sindicato pretende analizar los accidentes laborales en los sectores de la construcción y de la siderometalurgia. Para ello, toma una muestra aleatoria de 125 empresas dedicadas a la construcción y otra de 75 pertenecientes al sector de la siderometalurgia. Una vez analizados los porcentajes de accidentes en cada una de estas empresas, obtiene la siguiente clasificación: Ejercicio 3.11
Porcentaje de accidentes Sector Menos del 10 %
Mayor o igual al 10 %
98 54
27 21
Construcción Siderometalurgia
¿Presentan estos dos sectores diferencias significativas en cuanto a la cantidad de accidentes laborales? Nivel de significación: 1 %.
Representamos con X el porcentaje de accidentes en las empresas de estos sectores. Para saber si este porcentaje presenta diferencias significativas entre el sector de la construcción y el de la siderometalurgia, se han seleccionado dos muestras aleatorias cuyos tamaños respectivos son n1 = 125 (construcción) y n2 = 75 (siderometalurgia). Veamos si los porcentajes de accidentes en las empresas de estas muestras son homogéneos: Solución
H0 : Las muestras son homogéneas H1: Las muestras no son homogéneas Para realizar este contraste de homogeneidad utilizaremos el estadístico c2 de Pearson:
χ = 2
r
s
∑∑
(nij − Eij )2 Eij
i =1 j =1
~ χ (2r − 1)( s − 1)
H0
donde: Eij =
ni m j n
>5
n = n1 + n2 = 125 + 75 = 200 > 30 © Ediciones Pirámide
163
Ejercicios de inferencia estadística y muestreo Para calcular las frecuencias teóricas, Eij, y comprobar que efectivamente son superiores a cinco, construimos la tabla adjunta, en la que cada celda posee la siguiente estructura: nij
Eij
(nij − Eij )2 Eij
Porcentaje de accidentes Sector Menos del 10 %
Construcción
Siderometalurgia mj
98
95
Mayor o igual al 10 %
27
0,09
ni
30
125
18
75
0,3
54
57
21
0,16
0,5
152
48
n = 200
Por ejemplo, los datos de la primera celda corresponden a: n11 = 98 E11 =
n1m1 125 ⋅ 152 = = 95 n 200
(n11 − E11 )2 (98 − 95)2 = = 0,09 E11 95 Se observa que todos los valores Eij son superiores a cinco. Por tanto, la distribución del estadístico de prueba bajo la hipótesis nula será:
χ2
~ χ (22 − 1)( 2 − 1) ≡ χ12
H0
y su valor experimental se obtiene como suma de las cantidades centrales de las celdas: 2 χ exp = 0,09 + 0,3 + 0,16 + 0,5 = 1,05
164
© Ediciones Pirámide
Contraste de hipótesis no paramétrico La región crítica del test de homogeneidad se obtiene a partir de la tabla 9: P( χ12 χ12− α ) = 1 − α = 1 − 0,01 = 0,99 ⇒ χ12− α = 6,63
χ21
0,99
= 0,01
χ21– = 6,63
Como c2exp = 1,05 < 6,63, entonces, al 1 % de significación, no se rechaza la hipótesis H0 de homogeneidad de las muestras. Por tanto, los datos no señalan la existencia de diferencias significativas en los porcentajes de accidentes laborales.
Un comité de Naciones Unidas está encargado de realizar un estudio para implantar un programa de salud pública en una ciudad de un país que no dispone de censos fiables. Para conocer la distribución por edades de la población de esta ciudad se toma una muestra aleatoria de individuos en cada uno de los tres distritos administrativos en que se encuentra dividida. Los resultados obtenidos aparecen en la siguiente tabla: Ejercicio 3.12
Edades Distritos Menores de 14
14-24
25-34
35-44
45-64
65 o más
298 324 237
120 149 94
105 97 83
283 321 230
134 217 175
60 92 81
Distrito I Distrito II Distrito III
A la vista de estos datos, y con un 5 % de significación, ¿existen diferencias significativas en cuanto a la distribución por edades de la población en los tres distritos de la ciudad? © Ediciones Pirámide
165
Ejercicios de inferencia estadística y muestreo Sea X la variable aleatoria que representa la edad de un individuo. En este caso se considera dicha variable clasificada en seis intervalos de edades, que son los que aparecen en la tabla del enunciado. Se han tomado tres muestras aleatorias, una en cada distrito, de tamaños: Solución
n1 = 298 + 120 + 105 + 283 + 134 + 60 = 1.000 n2 = 324 + 149 + 97 + 321 + 217 + 92 = 1.200 n3 = 237 + 94 + 83 + 230 + 175 + 81 = 900 Si no existieran diferencias en las distribuciones por edades de la población en los distritos de la ciudad, cabría esperar la homogeneidad de las muestras seleccionadas. Por tanto, planteamos el contraste: H0 : Las muestras son homogéneas H1: Las muestras no son homogéneas Para tomar la decisión utilizaremos el estadístico c2 de Pearson:
χ2 =
r
s
∑∑
i =1 j =1
冢
nij −
ni m j n
冣
2
ni m j
~ χ (2r − 1)( s − 1)
H0
n Para que esta distribución asintótica sea aceptable, el valor de n debe ser grande y las frecuencias esperadas, Eij = nimj /n, no demasiado pequeñas (n > 30 y Eij > 5). Ahora bien, n = 1.000 + 1.200 + 900 = 3.100, con lo que se cumple la condición sobre el número de individuos. Para calcular las frecuencias esperadas nos ceñiremos al siguiente esquema:
nij
Eij =
ni m j n
(nij − Eij )2 Eij 166
© Ediciones Pirámide
Contraste de hipótesis no paramétrico Así pues: Edades 0,05 de donde se deduce que k¢a/2 = 3, y, además: P( R 7) = 0,8810 ⇒ P( R 8) = 1 − 0,8810 = 0,1190 > 0,05 P( R 8) = 0,9762 ⇒ P( R 9) = 1 − 0,9762 = 0,0238 0,05 por lo que k a/2 = 9. Por tanto, la región de rechazo de H0 será:
3
9
Como el número de rachas en la muestra de las 10 observaciones es: 3 = kα′ / 2 < Rˆ = 5 < kα / 2 = 9 entonces, al 5% de significación, no rechazamos la aleatoriedad en la dirección de las desviaciones de las cotizaciones con respecto a la media histórica de 18,00 euros. © Ediciones Pirámide
169
Ejercicios de inferencia estadística y muestreo b) Llamamos X a la variable aleatoria que representa las cotizaciones de las acciones de la compañía. Se tienen 10 observaciones de X, (X1, ..., X10), que pueden considerarse una muestra aleatoria. Planteamos las siguientes hipótesis: H0 : La muestra procede de una distribución normal con media y desviación típica desconocidas H1: La muestra no procede de una población normal Como los datos no están agrupados y el tamaño muestral es pequeño, no se utiliza el test c2 de Pearson de bondad de ajuste, sino los contrastes de normalidad de Lilliefors y de Shapiro-Wilks. En ninguno de estos dos se especifican los parámetros poblacionales en la hipótesis de normalidad.
Contraste de normalidad de Lilliefors Calculamos la media y desviación típica muestrales:
x=
1 n 169,35 xi = = 16,935 ∑ n i =1 10
⎡ ⎢ n 1 1 ⎢n 2 2 2 s = ∑ ( xi − x ) = n − 1 ⎢ ∑ xi − n − 1 i =1 ⎣i = 1 = s=
2⎤
冢∑ x 冣 ⎥⎥ n
i =1
i
n
冤
冥
1 (169,35)2 = − = 2 . 942 , 1975 ⎥ 9 10 ⎦
74,25525 = 8,250583 9 s 2 = 2,8724
Con estos valores tipificamos las observaciones originales, es decir, calculamos: zi =
xi − x xi − 16,935 = s 2,8724
cuyos valores incorporamos a la tabla de cálculos. 170
© Ediciones Pirámide
Contraste de hipótesis no paramétrico El estadístico de prueba de Lilliefors se construye sobre los valores tipificados, zi: Dn′ = máx 冟Fn ( z ) − F0 ( z )冟 z
con F0 (z) la función de distribución de una N(0, 1) y Fn (z) la función de distribución empírica de la muestra tipificada: Fn ( z ) =
N ( z ) Número de observaciones z = n n
Rechazaremos la hipótesis de normalidad si: Dn,′ exp > Dα′ siendo D¢a el valor, tal que: P( Dn′ > Dα′ / H0 ) = α = 0,10 Utilizando la tabla 15, se tiene que: Dα′ = 0,239 El valor experimental de D¢n se obtiene a partir de la tabla adjunta, donde se han ordenado las observaciones y calculado F0 (zi), Fn (zi) y: ai = 冟F0 ( zi ) − Fn ( zi )冟 bi = 冟F0 ( zi ) − Fn ( zi − 1 )冟 xi
zi
Fn(zi)
F0(zi)
ai = 兩F0(zi) – Fn(zi)兩
bi = 兩F0(zi) – Fn(zi – 1)兩
12,65 13,50 14,50 15,00 17,25 17,75 18,40 19,30 20,00 21,00
– 1,49 – 1,20 – 0,85 – 0,67 0,11 0,28 0,51 0,82 1,07 1,42
0,1000 0,2000 0,3000 0,4000 0,5000 0,6000 0,7000 0,8000 0,9000 1,0000
0,0681 0,1151 0,1977 0,2503 0,5438 0,6103 0,6950 0,7939 0,8577 0,9222
0,0319 0,0849 0,1023 0,1497 0,0438 0,0103 0,0050 0,0061 0,0423 0,0778
0,0681 0,0151 0,0023 0,0497 0,1438 0,1103 0,0950 0,0939 0,0577 0,0222
© Ediciones Pirámide
171
Ejercicios de inferencia estadística y muestreo De la tabla anterior, se tiene que: Dn′, exp = máx{ai , bi} = 0,1497 < 0,239 = Dα′ i
por lo que, al 10 % de significación, no se rechaza la hipótesis nula.
Contraste de normalidad de Shapiro-Wilks Planteamos la hipótesis de normalidad sin especificar los parámetros poblacionales: H0 : F( x ) es la función de distribución normal (la muestra procede de una población normal) H1: F( x ) no es la función de distribución normal con X la variable aleatoria que representa las cotizaciones de las acciones y F(x) su función de distribución, que es desconocida. El estadístico W de Shapiro-Wilks se obtendrá a partir de la fórmula:
冤∑ ai ( X(n − i +1) − X(i) )冥 k
W=
2
i =1
n
∑ ( Xi − X ) 2
i =1
con k=
n 10 = = 5 (pues n es par) 2 2
X (i), el estadístico ordenado de orden i ai, i = 1, ..., k, los coeficientes del test de Shapiro-Wilks, que se obtienen a partir de la tabla 16: a1 = 0,5739
; a2 = 0,3291
;
a3 = 0,2141 ;
a4 = 0,1224
;
a5 = 0,0399
Rechazamos la hipótesis de normalidad, H0, cuando: Wˆ < Wα 172
© Ediciones Pirámide
Contraste de hipótesis no paramétrico donde Wa se obtiene a partir de la tabla 17, de manera que: P[W < Wα / H0 ] = α = 0,10 ⇒ Wα = 0,869 Para calcular el valor experimental, Wˆ , ordenamos las observaciones de menor a mayor: X(1) = 12,65 ; X( 2 ) = 13,50 ; X( 3) = 14,50 ; X( 4 ) = 15,00 ; X( 5) = 17,25 X( 6 ) = 17,75 ; X( 7) = 18, 40 ; X(8) = 19,30 ; X( 9 ) = 20,00 ; X(10 ) = 21,00 Organizamos las operaciones en la siguiente tabla: ai
X(n – i + 1) – X(i)
ai(X(n – i + 1) – X(i))
0,5739 0,3291 0,2141 0,1224 0,0399
21,00 – 12,65 = 8,35 20,00 – 13,50 = 6,50 19,30 – 14,50 = 4,80 18,40 – 15,00 = 3,40 17,75 – 17,25 = 0,50
4,792065 2,139150 1,027680 0,416160 0,019950 8,395005
y calculamos el denominador de W:
冢∑ x 冣 n
n
D=
∑ ( xi − x ) 2 =
i =1
n
∑ xi2 −
i =1
2
i =1
n
i
= 2.942,1975 −
(169,35)2 = 74,25525 10
Así pues: [8,395005]2 Wˆ = = 0,949 74,25525 Como: Wˆ = 0,949 > Wα = 0,869 entonces, al 10 % de significación, no se rechaza la hipótesis de normalidad. © Ediciones Pirámide
173
Ejercicios de inferencia estadística y muestreo De una revista de investigación sobre el mercado turístico se han obtenido los datos correspondientes al número total de turistas que visitaron España durante el período 1980-1996: Ejercicio 3.14
Año
Número de turistas (miles)
1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996
28.900 29.450 25.405 30.125 33.361 31.608 32.950 33.104 33.912 32.342 34.085 34.553 39.897 36.724 38.430 39.324 41.295
¿Confirman estos datos la existencia de tendencia en la serie relativa al número de turistas que visitan España? Nivel de significación: 1%. Se trata de intentar detectar la existencia de no aleatoriedad como consecuencia de la presencia de una tendencia. Para ello, podemos utilizar el test de rachas unilateral a la izquierda aplicado a la sucesión dicotómica correspondiente a los signos de las diferencias Di = Xi – Me, donde Me es la mediana muestral. Las hipótesis del contraste pueden formularse como: Solución
H0 : La muestra es aleatoria H1: Los datos muestrales presentan tendencia con región crítica o de rechazo de H0 dada por la cola de la izquierda: k′
174
© Ediciones Pirámide
Contraste de hipótesis no paramétrico siendo k¢a el mayor entero, tal que: P( R kα′ ) α = 0,01 Para determinar este valor crítico y el valor experimental del estadístico de prueba (R = número total de rachas), transformamos los datos en dicotómicos, asignándoles el signo correspondiente al valor de las diferencias con respecto a la mediana de la muestra e ignorando aquellas observaciones cuya diferencia sea nula. Como en nuestro caso hay 17 observaciones, la mediana será la que ocupe el lugar noveno ((17 + 1)/2) en la muestra ordenada de menor a mayor: 25.405 32.950 36.724
; ; ;
28.900 33.104 38.430
; ; ;
29.450 33.361 39.324
; ; ;
30.125 33.912 39.897
; ; ;
31.608 34.085 41.295
; ;
32.342 34.553
Por tanto: Me = 33.361 y la sucesión dicotómica de los signos de las diferencias Di = Xi – Me = Xi – 33.361 es:
冟–
– – – 0 – – –冟+冟–冟+ + + + + + +冟
Como hay una observación cuya diferencia es cero, ignoramos la observación correspondiente y reducimos en una unidad el tamaño muestral, es decir, n = 16 Sea: n1 = «Número de signos +» = 8 n2 = «Número de signos −» = 8 r = «Número de rachas» = 4 Utilizando la tabla 20 con los valores de n1 = 8 = n2, obtenemos que: P( R 4) = 0,0089 0,01 = α P( R 5) = 0,0317 > 0,01 = α © Ediciones Pirámide
175
Ejercicios de inferencia estadística y muestreo por tanto, el valor crítico será: kα′ = 4 y rechazaremos la aleatoriedad de la muestra en favor de la existencia de tendencia cuando: Rˆ 4 Como en este caso concreto: Rˆ = r = 4 entonces rechazamos H0, al 1 % de significación, con lo cual los datos indican que existe tendencia en la serie del número de turistas que visitaron España entre 1980 y 1996.
Ejercicio 3.15
Una hoja de cálculo proporciona el siguiente valor para el número e: e = 2,71828182845905
Compruebe si estas 15 primeras cifras tienen la propiedad de ser una secuencia de cifras elegidas de manera aleatoria. Nivel de significación: 10 %.
Solución
Como se pretende ver si la sucesión de cifras es aleatoria o no, el contraste a realizar es: H0 : La muestra es aleatoria H1: La muestra no es aleatoria
que puede resolverse con el test de rachas de Wald-Wolfowitz utilizando como estadístico de prueba: R = «Número total de rachas en la muestra» 176
© Ediciones Pirámide
Contraste de hipótesis no paramétrico Para un nivel de significación a = 0,10, la región crítica bilateral vendrá determinada por aquellos valores k¢a/2 y k a/2 que serán, respectivamente, el mayor y el menor enteros, tales que: P( R kα′ / 2 ) α / 2 = 0,05 P( R kα / 2 ) α / 2 = 0,05 rechazando H0 cuando Rˆ k¢a/2 o cuando Rˆ k a/2. Al tener datos cuantitativos, las rachas se obtendrán asignando un signo + o – a las diferencias Di = Xi – Me, donde Me es la mediana de la muestra, y despreciando las diferencias iguales a cero con la correspondiente reducción del tamaño muestral. Calculamos, pues, la mediana muestral ordenando las observaciones de menor a mayor: 011222455788889 Entonces, como Me = 5, la sucesión de signos correspondientes para aplicar el test de rachas que se obtiene a partir de la sucesión original es la siguiente:
冟 – 冟 + 冟 – 冟 + 冟 – 冟 + 冟 – 冟 + 冟 – 冟 + 冟 – 0冟 + 冟 – 0冟 Como hemos obtenido dos diferencias iguales a cero, reducimos el tamaño muestral en dos unidades, con lo cual, n = 13, n1 = 6 (número de signos +) y n2 = 7 (número de signos –). Con estas cantidades buscamos los valores críticos en la tabla 20, donde encontramos: P( R 4) = 0,0425 0,05⎫ ⎬ ⇒ kα′ / 2 = 4 P( R 5) = 0,1212 > 0,05 ⎭ y, además, como: P( R 9) = 0,8788
y
P( R 10) = 0,9662
entonces: P( R 10) = 1 − P( R < 10) = 1 − P( R 9) = 1 − 0,8788 = 0,1212 > 0,05 ⎫ ⎬ ⇒ kα / 2 = 11 P( R 11) = 1 − P( R < 11) = 1 − P( R 10) = 1 − 0,9662 = 0,0338 0,05⎭ © Ediciones Pirámide
177
Ejercicios de inferencia estadística y muestreo y se obtiene la siguiente región crítica: R k
k′ /2 = 4
/2
= 11
Para calcular el valor experimental, contabilizamos el número de rachas en la muestra, resultando: Rˆ = 13 Como Rˆ = 13 > k a/2 = 11, entonces, con un 10 % de significación, se rechaza H0 y, por tanto, la aleatoriedad en el orden de las 15 primeras cifras del número e.
El día en que determinado centro comercial celebró su noveno aniversario, se realizó un sorteo de nueve automóviles entre los clientes que acudieron a realizar sus compras al supermercado de dicho centro. El sorteo se realizó ante notario, eligiendo al azar nueve números de registro correspondientes a los tickets de compras realizadas ese mismo día. El volumen del gasto (en euros) realizado en los tickets elegidos fue de: Ejercicio 3.16
149,99
;
95,38
203,42
;
105,00
;
154,20 ;
164,00
;
123,00 ;
;
85,58
82,00
Con un nivel de significación del 10 %, ¿indican los datos que la mitad de los clientes gastaron como mucho 150,00 euros en el supermercado de este centro comercial?
Sea X = «Gasto realizado por un cliente en el supermercado del centro comercial el día del noveno aniversario». La mediana poblacional de esta variable aleatoria será aquel valor Me, tal que: Solución
50%
50%
Gasto Me
178
© Ediciones Pirámide
Contraste de hipótesis no paramétrico Por tanto, se pretende contrastar si este valor poblacional es o no 150 euros. Es decir, la formulación de las hipótesis será: H0 : Me = 150 = m H1: Me ≠ 150 Para tomar la decisión podemos utilizar el contraste de signos de la mediana o el de rangos-signos de Wilcoxon. Contraste de signos de la mediana Suponemos que la variable aleatoria X es continua al menos en un entorno alrededor de su mediana poblacional, Me; es decir, que P(X = Me) = 0. Como el número de observaciones es igual a nueve, el estadístico de prueba a utilizar será: S + = «Número de signos + en la muestra» cuya distribución, si la hipótesis nula es cierta, es: S+
~ B(n, 1/ 2)
H0
Para obtener la sucesión de signos + y –, calculamos las desviaciones de las observaciones con respecto al valor mediano propuesto, m = 150,00, y asignamos el signo correspondiente, ignorando aquellas observaciones cuya desviación sea nula. Es decir: ⎧> 0 ⇒ Asignamos signo + ⎪ Di = Xi − m = Xi − 150,00 ⎨< 0 ⇒ Asignamos signo − ⎪= 0 ⇒ Ignoramos la observación y reducimos n ⎩ En este caso, la sucesión de signos quedará como sigue: – – + – – + – + – y, por tanto, como no hay valores iguales a cero: S+ © Ediciones Pirámide
~ B(n = 9, 1/ 2)
H0
179
Ejercicios de inferencia estadística y muestreo El valor experimental correspondiente será: Sˆ + = 3 Como se trata de un contraste bilateral, la región crítica tiene dos colas: /2
/2 k′ /2
k
/2
donde k¢a/2 y k a/2 son el mayor y el menor entero, respectivamente, tales que, para un nivel de significación a = 0,10: P( S + kα′ / 2 ) α / 2 = 0,05 P( S + kα / 2 ) α / 2 = 0,05 Utilizando la tabla 2 de la función de distribución para una B(9, 1/2), tenemos que: P( S + 1) = 0,0195 0,05 P( S + 2) = 0,0898 > 0,05 por tanto: kα′ /2 = 1 Como además: P( S + 6) = 0,9102 P( S + 7) = 0,9805 entonces: P( S + 7) = 1 − P( S + < 7) = 1 − P( S + 6) = 1 − 0,9102 = 0,0898 > 0,05 P( S + 8) = 1 − P( S + < 8) = 1 − P( S + 7) = 1 − 0,9805 = 0,0195 0,05 180
© Ediciones Pirámide
Contraste de hipótesis no paramétrico con lo cual: kα /2 = 8 Hay que observar que este último valor puede obtenerse también utilizando la simetría de una B(n, 1/2); por tanto: kα / 2 = n − kα′ / 2 = 9 − 1 = 8 Así, rechazaremos H0 si: Sˆ + kα′ / 2 = 1
o
Sˆ + kα / 2 = 8
Como en este caso: kα′ / 2 = 1 < Sˆ + = 3 < 8 = kα / 2 entonces no rechazamos H0, al 10 % de significación; por tanto, los datos no contradicen la afirmación de que la mitad de los clientes gastaron como mucho 150 euros.
Contraste de rangos-signos de Wilcoxon Suponemos que la distribución de la variable X es continua y simétrica con respecto a su mediana poblacional. Para aplicar el contraste de rangos-signos de Wilcoxon a las hipótesis: H0 : Me = 150,00 = m H1: Me ≠ 150,00 utilizamos el estadístico: T + = «Suma de rangos de las Di > 0» con Di = Xi – m = Xi – 150,00, haciendo las mismas asignaciones de signos + y – que en el contraste de signos de la mediana, pero calculando además las magnitudes de estas © Ediciones Pirámide
181
Ejercicios de inferencia estadística y muestreo diferencias, que serán utilizadas para asignar los rangos correspondientes. Así, obtendremos la siguiente tabla: xi
di = xi – 150,00
Signo
Rango de 兩 di 兩
149,99 95,38 154,20 123,00 85,58 203,42 105,00 164,00 82,00
– 0,01 – 54,62 4,20 – 27,00 – 64,42 53,42 – 45,00 14,00 – 68,00
– – + – – + – + –
1 7 2 4 8 6 5 3 9
Para calcular los rangos se han ordenado las diferencias en valor absoluto, 冟 di 冟, y se le ha asignado rango 1 a la menor de ellas y rango 9 a la mayor. Hay que observar que, en este caso, no existen valores de 冟 di 冟 repetidos ni iguales a cero. Con los datos de la tabla: Tˆ + = 2 + 6 + 3 = 11 Como el contraste es bilateral, la región crítica tendrá dos colas: /2 = 0,05
/2 = 0,05 k′ /2
k
/2
siendo a = 0,10 el nivel de significación y k¢a/2, k a/2 el mayor y menor entero, respectivamente, tales que: P(T + kα′ / 2 ) α / 2 = 0,05 P(T + kα / 2 ) α / 2 = 0,05 Para obtener estos valores críticos utilizamos la tabla 21 con n = 9, de forma que: P(T + kα′ / 2 ) 0,05 ⇒ kα′ / 2 = 8 P(T + kα / 2 ) 0,05 = 1 − 0,95 ⇒ kα / 2 = 37 182
© Ediciones Pirámide
Contraste de hipótesis no paramétrico Así pues, como: 8 = kα′ / 2 < Tˆ + = 11 < kα / 2 = 37 con una significación del 10 % no se puede rechazar H0 : Me = 150,00.
Un inversor en bolsa posee acciones en diferentes sectores del mercado continuo de valores. Por diferentes motivos, ha despedido a su asesor. Con el fin de tener una idea sobre las cotizaciones de sus acciones, el inversor seleccionó nueve sociedades al azar entre las que tenía participación y revisó sus cotizaciones de cierre el pasado viernes: Ejercicio 3.17
Sociedad
Cotización (€)
Telefónica BBVA BSCH Banesto Aceralia Dragados y Construcciones Endesa Repsol Carrefour
10,810 6,290 3,980 2,560 3,000 4,120 3,440 6,610 3,000
Utilizando un 10 % de significación, ¿indican estos valores que más de la mitad de las sociedades en las que participa este inversor presentan cotizaciones superiores a tres euros?
Representamos con X la cotización de cierre (en euros) de las acciones de las sociedades en las que tiene inversiones. Sea Me la mediana poblacional de la variable aleatoria X; entonces: Solución
50%
50%
Cotizaciones 3
Me Más del 50%
© Ediciones Pirámide
183
Ejercicios de inferencia estadística y muestreo Por tanto, las hipótesis que se quieren contrastar se plantean como: H0 : Me 3 H1: Me > 3 Es decir, se trata de un contraste unilaterial sobre la mediana poblacional, que puede resolverse utilizando el test de signos de la mediana o el de rangos-signos de Wilcoxon. Contraste de signos de la mediana Suponemos que los valores de las cotizaciones son continuos en un entorno alrededor de su mediana. El contraste de signos de la mediana se basa en el estadístico: S + = «Número de signos + en la muestra»
~ B(n, 1/ 2)
H0
donde los signos + o – vienen dados en función del signo de las diferencias Di: ⎧> 0 ⇒ Asignamos signo + ⎪ Di = Xi − m = Xi − 3 ⎨< 0 ⇒ Asignamos signo − ⎪= 0 ⇒ Ignoramos la observación y reducimos el tamaño muestral ⎩ Con los valores observados, se tiene la siguiente sucesión de signos: + + + – 0 + + + 0 Por tanto, el tamaño muestral será n = 7, y la distribución de S + bajo la hipótesis nula: S+
~ B(7, 1/ 2)
H0
con Sˆ + = 6 como valor experimental. La región crítica de este contraste unilateral tendrá la forma: 0
k
= 0,10 n=7
con k a el menor entero, tal que P(S + k a) a = 0,10. 184
© Ediciones Pirámide
Contraste de hipótesis no paramétrico Utilizando la tabla 2 para una distribución B(7, 1/2), el valor crítico se obtendrá teniendo en cuenta que: P( S + 4) = 0,7734 ⇒ P( S + 5) = 1 − P( S + < 5) = 1 − P( S + 4) = 0,2266 > 0,10 P( S + 5) = 0,9375 ⇒ P( S + 6) = 1 − P( S + < 6) = 1 − P( S + 5) = 0,0625 0,10 y así: ka = 6 Como el valor experimental, Sˆ + = 6, coincide con el valor crítico, k a = 6, entonces, al 10 % de significación, se rechaza la hipótesis nula H0 : Me 3, con lo cual los valores observados indican que más de la mitad de las sociedades en las que participa este inversor presentan cotizaciones superiores a tres euros. Contraste de rangos-signos de Wilcoxon Para poder aplicar este contraste supondremos que la variable X es continua y simétrica con respecto a su mediana. El test de rangos-signos de Wilcoxon utiliza como estadístico de prueba: T + = «Suma de rangos de las Di > 0» donde los valores de Di y los signos que se les asignan se definen de la misma forma que en el contraste de signos de la mediana. Para obtener los rangos, se ordenan de menor a mayor los valores absolutos de las diferencias, es decir, los 冟 di 冟, y se asignan los rangos o números de orden desde 1 hasta n. Si existen valores de 冟 di 冟 repetidos, el rango correspondiente será el promedio de los que se les asignarían si fueran diferentes. En nuestro caso:
© Ediciones Pirámide
xi
di = xi – 3
10,810 6,290 3,980 2,560 3,000 4,120 3,440 6,610 3,000
7,810 3,290 0,980 – 0,440 0,000 1,120 0,440 3,610 0,000
185
Ejercicios de inferencia estadística y muestreo Como hay dos diferencias nulas, entonces, el tamaño muestral se reduce en dos observaciones: n=9–2=7 Ordenamos 冟 di 冟 y les asignamos su rango: 冟 di 冟
Signo
Rango
0,440 0,440 0,980 1,120 3,290 3,610 7,810
– + + + + + +
1,5 1,5 3,0 4,0 5,0 6,0 7,0
Por tanto, el valor experimental es: Tˆ + = 1,5 + 3 + 4 + 5 + 6 + 7 = 26,5 La región crítica unilateral tiene la forma: k
= 0,10 T+
donde k a se busca en la tabla 21 de manera que sea el menor entero que verifique: P(T + kα ) α = 0,10 = 1 − 0,90 Así pues, con n = 7: k a = 23 y como: Tˆ + = 26,5 > kα = 23 entonces se rechaza H0 al 10 % de significación. 186
© Ediciones Pirámide
Contraste de hipótesis no paramétrico Una agencia inmobiliaria desea adquirir 12 inmuebles que van a ser sometidos a pública subasta en el plazo de un mes. Un perito que trabaja en esta agencia ha visitado los inmuebles y ha realizado las tasaciones que consideró oportunas, teniendo en cuenta las dimensiones, antigüedad, localización geográfica, etc. Posteriormente, la agencia recibe los valores de los inmuebles correspondientes a las tasaciones oficiales. Ambas tasaciones, en miles de euros, se recogen en la siguiente tabla: Ejercicio 3.18
Número del inmueble
Tasación oficial
Tasación privada
1 2 3 4 5 6 7 8 9 10 11 12
155 227 175 135 167 450 148 182 155 165 254 129
156 235 175 150 163 455 150 180 163 170 263 130
Contraste, al 10 % de significación, si hay diferencias entre los valores de tasación oficiales y los realizados por su propio perito.
Solución
Definimos las variables aleatorias X e Y como:
X = «Tasación oficial del inmueble». Y = «Tasación de un inmueble realizada por el perito de la agencia». Podemos considerar los datos correspondientes a los 12 inmuebles como una muestra apareada: (X1, Y1), ..., (X12, Y12) Las diferencias entre los valores de tasación oficiales y los realizados por el perito se definen como: Di = Xi – Yi , © Ediciones Pirámide
i = 1, ..., 12 187
Ejercicios de inferencia estadística y muestreo Para contrastar la existencia de diferencias entre las tasaciones, planteamos las hipótesis: H0 : MeD = 0 H1: MeD ≠ 0 La decisión de rechazar H0 puede tomarse utilizando el contraste de signos de la mediana, cuyo estadístico de prueba es: S + = «Número de signos + en la muestra» cuya distribución bajo la hipótesis nula es: S+
~ B(n, 1/ 2)
H0
Los signos + y – se obtienen de la siguiente forma: ⎧> 0 ⇒ Asignamos + ⎪ Di = Xi − Yi − 0 ⎨< 0 ⇒ Asignamos − ⎪= 0 ⇒ Ignoramos el par ( X , Y ) y reducimos el tamaño muestral i i ⎩ En este caso: Número del inmueble
d i = x i – yi
1 2 3 4 5 6 7 8 9 10 11 12
–1 –8 0 – 15 4 –5 –2 2 –8 –5 –9 –1
Como la tasación oficial del tercer inmueble coincide con la del perito de la agencia, entonces, reducimos el tamaño de la muestra: n = 12 – 1 = 11 188
© Ediciones Pirámide
Contraste de hipótesis no paramétrico y, por tanto: S+
~ B(11, 1/ 2)
H0
La región crítica del contraste bilateral es: /2
/2 k′ /2
k
/2
con k¢a/2 y k a/2 el mayor y menor entero, respectivamente, tales que: P( S + kα′ / 2 ) α / 2 = 0,05 P( S + kα / 2 ) α / 2 = 0,05 Utilizando la tabla 2 para una distribución B(11, 1/2), encontramos: P( S + 2) = 0,0327 0,05 = α / 2 P( S + 3) = 0,1133 > 0,05 por tanto: kα′ /2 = 2 y utilizando la simetría de la B(n, 1/2): kα / 2 = n − kα′ / 2 = 11 − 2 = 9 con lo cual rechazamos H0 si: Sˆ + kα′ / 2 = 2 o si: Sˆ + kα / 2 = 9 Como en nuestro caso: Sˆ + = 2 kα′ / 2 = 2 © Ediciones Pirámide
189
Ejercicios de inferencia estadística y muestreo entonces rechazamos H0, al 10 % de significación, es decir, los datos parecen señalar la existencia de diferencias entre los valores oficiales y las tasaciones realizadas por el perito de la agencia. Como n = 11 > 10, se podría haber utilizado la aproximación normal del estadístico: Z=
S + − E[ S + ] Var [ S + ]
=
2S + − n H0 n→∞
n
N (0, 1)
que tiene por valor experimental: zexp =
2 ⋅ 2 − 11 11
= − 2,11
La región crítica bilateral con esta aproximación es: N(0,1)
/2 = 0,05
–z
/2
/2 = 0,05
= – 1,645
z
/2
= 1,645
por lo que también rechazamos H0, ya que: zexp = − 2,11 < − zα / 2 = − 1,645
Para el diseño de un conjunto de estrategias de marketing, el director de un concesionario de automóviles está interesado en obtener información sobre las edades de los compradores de un determinado modelo de utilitario. Por este motivo, se decide registrar la edad de las personas que compran este tipo de coche. La secuencia obtenida fue la siguiente: Ejercicio 3.19
31 31 32 23 190
26 29 31 34
25 28 32 23
30 25 27 26
34 42 35
40 27 31
29 36 23
24 29 37
24 29 28
28 34 20
© Ediciones Pirámide
Contraste de hipótesis no paramétrico Utilizando un 5 % de significación: a) ¿Debe admitirse en esta serie de edades la aleatoriedad? b) ¿Señalan los datos que la mitad de las personas que compran este modelo de coche tienen al menos 30 años? c) Suponiendo normalidad en las edades de los compradores, ¿puede admitirse que su edad media supera los 35 años?
Solución
Sea la variable aleatoria X = «Edad de una persona que compra este modelo de coche».
a) Para comprobar si la sucesión de edades es aleatoria, realizamos el siguiente contraste: H0 : La muestra es aleatoria H1: La muestra no es aleatoria El estadístico de prueba del test de rachas de Wald-Wolfovitz es: R = «Número de rachas en la muestra» Como las observaciones son cuantitativas, construimos una sucesión dicotómica asignando a cada observación el signo de su desviación con respecto a la mediana muestral, me, es decir, el signo de: Di = Xi − me Como tenemos 34 datos (par), la mediana de esta muestra será el valor medio de las observaciones que ocupen los lugares 17 y 18 en la sucesión de edades ordenada de menor o mayor; una vez hecho esto, se obtendrá que el valor mediano es: me =
29 + 29 = 29 2
con lo cual, la sucesión de signos correspondientes a las diferencias Di obtenidas a partir de la serie original será: +冟– –冟+ + + 0冟– – –冟+冟0 – –冟+冟–冟+ 0 0 + + + +冟–冟+ +冟–冟+冟– – –冟+冟– – © Ediciones Pirámide
191
Ejercicios de inferencia estadística y muestreo Como hay cuatro observaciones iguales a la mediana, las ignoramos y reducimos el tamaño de la muestra. Por tanto, ahora tenemos: n = 34 − 4 = 30 n1 = «Número de signos +» = 15 > 10 n2 = «Número de signos −» = 15 > 10 y al ser n1, n2 > 10, podemos utilizar la aproximación normal: Z=
R − E[ R] Var [ R]
H0 n→∞
N (0, 1)
Utilizando este estadístico de prueba, podemos buscar los valores críticos de la región de rechazo en la tabla 7: N(0,1)
0,025
/2 = 0,025
– 1,96 = – z
z
/2
/2
= 1,96
Para calcular el valor experimental, observamos que: Rˆ = 16 E[ R] = Var [ R] =
2 n1n2 2 ⋅ 15 ⋅ 15 +1 = + 1 = 16 n 30 2 n1n2 (2 n1n2 − n) 2 ⋅ 15 ⋅ 15(2 ⋅ 15 ⋅ 15 − 30) = = 7,241 n 2 (n − 1) 30 2 (30 − 1)
y así: zexp = 192
Rˆ − E[ R] Var [ R]
=
16 − 16 7,241
=0 © Ediciones Pirámide
Contraste de hipótesis no paramétrico Como: − 1,96 = − zα / 2 < zexp = 0 < zα / 2 = 1,96 podemos decir que, al 5 % de significación, los datos de esta muestra no presentan evidencia suficiente para rechazar la hipótesis de aleatoriedad (H0), por lo que admitiremos la aleatoriedad de esta serie de edades. b) Si llamamos ahora Me a la mediana poblacional, se quiere saber si este valor coincide con 30: 50% Me = 30
Por tanto, suponemos que la variable aleatoria X es continua alrededor de la mediana y utilizaremos la información de la muestra aleatoria (apartado a) para contrastar: H0 : Me = 30 = m H1: Me ≠ 30 mediante el contraste de los signos de la mediana o el test de rangos-signos de Wilcoxon. Contraste de signos de la mediana Está basado en el estadístico: S + = «Número de signos + en la muestra» cuya distribución bajo H0 es: S+
~ B(n, 1/ 2)
H0
Para obtener los signos + y –, se calculan las diferencias de cada observación con respecto al valor propuesto m: ⎧> 0 ⇒ Asignamos signo + ⎪ Di = Xi − m = Xi − 30 ⎨< 0 ⇒ Asignamos signo − ⎪= 0 ⇒ Ignoramos X y reducimos el tamaño de muestra i ⎩ © Ediciones Pirámide
193
Ejercicios de inferencia estadística y muestreo Por tanto, nuestra sucesión de signos será: +––0++––––+–––+–+––++++–++–+–––+–– y el tamaño muestral definitivo: n = 34 – 1 = 33 > 10 Como n es suficientemente grande para utilizar la aproximación normal, el estadístico del contraste será: Z=
S + − E[ S + ] Var [ S + ]
=
S+ − n/2 n/ 4
=
2S + − n n
H0 n→∞
N (0, 1)
y la región de rechazo bilateral con a = 0,05 se obtiene buscando los valores críticos en la tabla 7: N(0,1)
/2 = 0,025
–z
/2
/2 = 0,025
= – 1,96
z
/2
= 1,96
Comparando el valor experimental: zexp =
2 Sˆ + − n n
=
2 ⋅ 14 − 33 33
= − 0,87
con los valores críticos, resulta que: − zα / 2 = − 1,96 < zexp = − 0,87 < 1,96 = zα / 2 por lo que, con un 5 % de significación, los datos muestrales no presentan evidencia suficiente para rechazar H0 : Me = 30. Por tanto, los datos no contradicen la hipótesis de que la mitad de las personas que compran este modelo de coche tienen al menos 30 años. 194
© Ediciones Pirámide
Contraste de hipótesis no paramétrico Contraste de rangos-signos de Wilcoxon Para aplicar este contraste, suponemos que la variable aleatoria X es continua y simétrica respecto a su mediana. El estadístico de prueba de este contraste es: T + = «Suma de los rangos de las Di > 0» donde: ⎧> 0 ⇒ Asignamos signo + ⎪ Di = Xi − m = Xi − 30 ⎨< 0 ⇒ Asignamos signo − ⎪= 0 ⇒ Ignoramos X y reducimos el tamaño muestral i ⎩ Como sólo hay una observación igual a 30, entonces el tamaño muestral será: n = 33 = 34 – 1 y como n > 15, podemos utilizar la aproximación normal y, en el lugar de T +, basar el contraste en el estadístico: Z=
T + − E[T + ] Var [T + ]
H0 n→∞
N (0, 1)
La región crítica correspondiente al contraste bilateral con nivel de significación a = 0,05 se presenta gráficamente como: N(0,1)
/2 = 0,025
– 1,96 = – z
/2 = 0,025
/2
z
/2
= 1,96
donde los valores críticos se obtienen a partir de la tabla 7. © Ediciones Pirámide
195
Ejercicios de inferencia estadística y muestreo Para calcular el valor experimental del estadístico, obtenemos E[T +], Var [T +] y Tˆ +: E[T + ] = Var [T + ] =
n(n + 1) 33 ⋅ 34 = = 280,5 4 4 n(n + 1)(2 n + 1) 33 ⋅ 34(2 ⋅ 33 + 1) = = 3.132,25 24 24
y para el valor de Tˆ + calculamos las diferencias Di = Xi – 30, ordenamos sus valores absolutos y les asignamos su rango. Si hay observaciones tales que los 冟 Di 冟 son iguales, se les asigna el rango medio de los que les corresponderían si fueran diferentes. Así, organizamos los cálculos en las siguientes tablas:
xi
di = xi – 30
xi
di = xi – 30
xi
di = xi – 30
31 26 25 30 34 40 29 24 24 28 31 29
1 –4 –5 0 4 10 –1 –6 –6 –2 1 –1
28 25 42 27 36 29 29 34 32 31 32 27
–2 –5 12 –3 6 –1 –1 4 2 1 2 –3
35 31 23 37 28 20 23 34 23 26
5 1 –7 7 –2 – 10 –7 4 –7 –4
Signo
冟 di 冟
Rango
Signo
冟 di 冟
Rango
Signo
冟 di 冟
Rango
+ – + – – – + + – – + +
1 1 1 1 1 1 1 1 2 2 2 2
4,5 4,5 4,5 4,5 4,5 4,5 4,5 4,5 11,0 11,0 11,0 11,0
– – – – + + + – – – + –
2 3 3 4 4 4 4 4 5 5 5 6
11,0 14,5 14,5 18,0 18,0 18,0 18,0 18,0 22,0 22,0 22,0 25,0
– + – + – – + – +
6 6 7 7 7 7 10 10 12
25,0 25,0 28,5 28,5 28,5 28,5 31,5 31,5 33,0
196
© Ediciones Pirámide
Contraste de hipótesis no paramétrico El rango de las 冟 di 冟 = 1 se ha obtenido de la siguiente forma: 1+ 2 + 3+…+ 8 = 4,5 8 es decir, asignándoles el rango medio de los rangos que les corresponderían si fueran diferentes. Del mismo modo, para 冟 di 冟 = 2, el rango asignado se calcula como: 9 + 10 + 11 + 12 + 13 = 11 5 y así sucesivamente. Con los datos de la segunda tabla, tenemos que: Tˆ + = 4,5 + 4,5 + 4,5 + 4,5 + 11 + 11 + 18 + 18 + 18 + 22 + 25 + 28,5 + 31,5 + 33 = = 234 y, por tanto: zexp =
T + − E[T + ] Var [T + ]
=
234 − 280,5 3.132,25
= − 0,831
verificándose que: − 1,96 = − zα / 2 < zexp = − 0,831 < zα / 2 = 1,96 y, en consecuencia, no pudiéndose rechazar la hipótesis nula H0 : Me = 30, que es la misma decisión a la que conduce el test de signos de la mediana. c)
Suponemos que la variable X se distribuye según una normal: X
~ N ( μ, σ )
con m y s desconocidos. Se pretende contrastar si la edad media supera los 35 años, es decir, si m > 35. Por tanto, se formulan las hipótesis como: H0 : μ 35 = μ 0 H1: μ > 35 © Ediciones Pirámide
197
Ejercicios de inferencia estadística y muestreo Como se admite normalidad y s es desconocida, el estadístico para realizar el contraste es: t=
X − μ0 S/ n
~ tn − 1 ≡ t34 − 1 ≡ t33
H0
con x=
1 n 1.003 xi = = 29,5 ∑ 34 n i =1
y
冢 ∑ xi 冣 n
s2 = =
1 n 1 ( xi − x ) 2 = ∑ n − 1 i =1 n −1
冤∑ xi2 − n
2
i =1
i =1
n
冥
=
冤
冥
1 (1.003)2 30.429 − = 33 34
840,5 = 25, 47 33
y, por tanto, el valor experimental queda: texp =
29,5 − 35 25, 47 / 35
= − 6, 45
Al ser el contraste unilateral, la región crítica de una cola se representa gráficamente como: t33
= 0,05
t
198
© Ediciones Pirámide
Contraste de hipótesis no paramétrico En la tabla 10 de la función de distribución t de Student no aparece el valor n = 33 grados de libertad, pero como t a es tal que: P(t33 > tα ) = α = 0,05 entonces, el valor de t a deberá ser mayor que 0, y como texp = – 6,45 < 0, se tiene que: texp = − 6, 45 < tα por lo que rechazamos la hipótesis nula al 5 % de significación y aceptamos H1: m > 35 años. En un determinado cine se está proyectando una película de dibujos animados. Para conocer la opinión de los espectadores, a la entrada del cine se entrega un cuestionario a cada uno de ellos. La persona encargada de repartir los cuestionarios debe anotar la edad de los espectadores que acuden a ver la película según su orden de llegada. Durante un día elegido al azar entre los del período de proyección de la película, se obtuvieron los siguientes datos, correspondientes a las edades de las personas que acudieron al cine en cada una de las sesiones: Ejercicio 3.20
Primera sesión (17:30): 11 10 13
20 10 9
16 12 10 9 18 15 7 11
25 15 13 9 8 11 12 11
10 9
11 9
34 11
27 11
14 14
10 17
13 18
12 16
17 14
16 26
16 31
14 32
17
19
32
13
20
Segunda sesión (20:15): 18 18
18 21
12 24
25 13
15 27
19 35
18 19
19 23
a) Si los espectadores menores de 15 años son considerados como público infantil, y el resto como adulto, ¿puede decirse que la sucesión de espectadores de la primera sesión es aleatoria con respecto a esta clasificación? Nivel de significación: 10 %. b) ¿Puede decirse, con un 10 % de significación, que más del 50 % del total de los espectadores superan los 15 años? c) Al 10 % de significación, ¿indican los datos de estas dos sesiones que la edad de los asistentes a la sesión de las 20:15 supera a la de los espectadores de la primera sesión? © Ediciones Pirámide
199
Ejercicios de inferencia estadística y muestreo a) La sucesión de espectadores según el orden de llegada a la primera sesión, clasificados según el tipo de público en infantil (I) y adulto (A), quedaría como sigue: Solución
I冟AA冟II冟AA冟IIII冟AA冟IIIIIII冟AA冟IIIIIIIII冟AAA冟IIII Las hipótesis que se pretenden contrastar son: H0 : La muestra es aleatoria H1: La muestra no es aleatoria Podemos utilizar el test de rachas de Wald-Wolfowitz, cuyo estadístico de prueba es: R = «Número total de rachas en la muestra» Al ser H1 simplemente la hipótesis de no aleatoriedad, la región crítica es bilateral y cada una de las colas está delimitada por los valores k¢a/2 y k a/2, que son el mayor y menor entero, respectivamente, tales que: P( R kα′ / 2 ) α / 2 = 0,05 P( R kα / 2 ) α / 2 = 0,05 siendo a = 0,10 el nivel de significación. Pero como en este caso: n = «Número total de observaciones» = 38 n1 = «Número de espectadores de 15 o más años ( A)» = 11 n2 = «Número de espectadores menores de 15 años ( I )» = 27 podemos utilizar la aproximación normal (pues, n1 = 11 > 10; n2 = 27 > 10) y emplear como estadístico de prueba: Z= 200
R − E[ R] Var [ R]
H0 n→∞
N (0, 1)
© Ediciones Pirámide
Contraste de hipótesis no paramétrico La región crítica viene dada en la siguiente gráfica: N(0,1)
/2 = 0,05
/2 = 0,05
–z
z
/2
/2
Buscando en la tabla 7, estos valores críticos son: zα / 2 = 1,645 − zα / 2 = − 1,645 El valor experimental del estadístico se obtiene teniendo en cuenta que: Rˆ = «Número de rachas en la sucesión I / A» = 11 E[ R] = Var [ R] =
2 n1n2 2 ⋅ 11 ⋅ 27 +1 = + 1 = 16,632 38 n 2n1n2 (2n1n2 − n) 2 ⋅ 11 ⋅ 27(2 ⋅ 11 ⋅ 27 − 38) = = 6,181 382 (38 − 1) n 2 (n − 1)
y, por tanto: zexp =
Rˆ − E[ R] Var [ R]
=
11 − 16,632 6,181
= − 2,265 < − zα / 2 = − 1,645
con lo cual, rechazamos H0, es decir, al 10 % de significación, los datos de esta muestra presentan evidencia suficiente para decir que la sucesión del público infantil/adulto en la primera sesión no es aleatoria. b) Definimos la variable aleatoria X como la edad de un espectador de esta película. Consideramos las observaciones procedentes de las dos sesiones como si constituyeran una muestra aleatoria de la variable X, que suponemos continua alrededor de su mediana (P(X = Me) = 0). © Ediciones Pirámide
201
Ejercicios de inferencia estadística y muestreo El valor de la mediana poblacional de X es aquella edad, Me, que es superada por el 50 % de los espectadores, es decir: P( X > Me) = 0,5 = P( X < Me) Si la mediana fuese 15, entonces el 50 % de los espectadores superarían los 15 años. Por tanto, si el valor de Me es mayor que 15, más del 50 % de los espectadores superarían dicha edad. Gráficamente: 50% Edad 15
Me Más del 50%
Así pues, las hipótesis que hay que contrastar pueden formularse como: H0 : Me 15 = m H1: Me > 15 = m Para resolver el contraste, podemos utilizar el contraste de signos de la mediana y el contraste de rangos-signos de Wilcoxon.
Contraste de signos de la mediana El estadístico de prueba se define como: S + = «Número de signos + que aparecen en la muestra» S+
~ B(n, 1/ 2)
H0
Los signos + o – son asignados a las observaciones en función del signo resultante de las diferencias con respecto a m: ⎧> 0 ⇒ Asignamos signo + ⎪ Di = Xi − m = Xi − 15 ⎨< 0 ⇒ Asignamos signo − ⎪= 0 ⇒ Ignoramos X y reducimos el tamaño muestral i ⎩ 202
© Ediciones Pirámide
Contraste de hipótesis no paramétrico En nuestro caso, la sucesión de signos será: – + + – – +0– – – – + + – – – – – – – +0– – – – – – – – – + + + – – – – + + – +0+ + + + + + – + + + – + + + + – + – + + + + + + con lo cual, el tamaño muestral se reduce en tres unidades: n = 64 Como este valor de n es superior a 10, podemos utilizar la aproximación normal y realizar el contraste basándonos en el estadístico:
Z=
+
+
S − E[ S ] Var [ S + ]
S+ − =
n 2
n 4
=
2S + − n n
H0 n→∞
N (0, 1)
La región crítica de este contraste unilateral viene determinada por: N(0,1)
= 0,10
z = 1,28
donde el valor crítico za ha sido buscado en la tabla 7 de una distribución normal estándar. Como: Sˆ + = 32 el valor experimental del estadístico de prueba es: zexp = © Ediciones Pirámide
2 Sˆ + − n n
=
2 ⋅ 32 − 64 64
=0 203
Ejercicios de inferencia estadística y muestreo y al ser: zexp = 0 < zα = 1,28 entonces, con un 10 % de significación, no rechazamos H0 : Me 15, por lo que no puede decirse que más del 50 % del total de los espectadores superan los 15 años. Contraste de rangos-signos de Wilcoxon Además de la continuidad de la variable aleatoria X, suponemos, para poder aplicar este contraste, que su distribución es simétrica con respecto a la mediana poblacional Me. El estadístico de prueba del test de rangos-signos de Wilcoxon viene dado por: T + = «Suma de los rangos de las Di > 0» donde, de nuevo: ⎧> 0 ⇒ Asignamos signo + ⎪ Di = Xi − m = Xi − 15 ⎨< 0 ⇒ Asignamos signo − ⎪= 0 ⇒ Ignoramos y reducimos n ⎩ para asignar los rangos, se ordenan de menor a mayor los valores 冟 di 冟 y se les asocia su número de orden. Si se tienen valores absolutos repetidos, entonces se les asignaría un rango igual al promedio de los rangos que les corresponderían si fueran diferentes. Los valores di obtenidos son: xi
di = xi – 15
xi
di = xi – 15
xi
di = xi – 15
xi
di = xi – 15
xi
di = xi – 15
11 20 16 12 10 25 15 13 9 10 11 34 27 14 10
–4 5 1 –3 –5 10 0 –2 –6 –5 –4 19 12 –1 –5
13 12 10 10 9 18 15 8 11 12 11 9 9 11 11
–2 –3 –5 –5 –6 3 0 –7 –4 –3 –4 –6 –6 –4 –4
14 17 18 16 13 9 7 11 18 18 12 25 15 17 19
–1 2 3 1 –2 –6 –8 –4 3 3 –3 10 0 2 4
18 19 16 16 14 17 19 32 13 20 18 21 24 13 27
3 4 1 1 –1 2 4 17 –2 5 3 6 9 –2 12
14 35 19 23 26 31 32
–1 20 4 8 11 16 17
204
© Ediciones Pirámide
Contraste de hipótesis no paramétrico Como hay tres diferencias nulas, el tamaño muestral quedará: n = 64 Ordenamos las diferencias absolutas 冟 di 冟 y les asignamos su rango: Signo
兩di兩
ri
Signo
兩di兩
ri
Signo
兩di兩
ri
Signo
兩di兩
ri
Signo
兩di兩
ri
+ – – + + + – – – – + – + + –
1 1 1 1 1 1 1 1 2 2 2 2 2 2 2
4,5 4,5 4,5 4,5 4,5 4,5 4,5 4,5 12,5 12,5 12,5 12,5 12,5 12,5 12,5
– – – + – + + + – + + – – – –
2 3 3 3 3 3 3 3 3 3 3 4 4 4 4
12,5 21,5 21,5 21,5 21,5 21,5 21,5 21,5 21,5 21,5 21,5 32,0 32,0 32,0 32,0
– – – + + + + + – – – – – + –
4 4 4 4 4 4 4 5 5 5 5 5 5 5 6
32,0 32,0 32,0 32,0 32,0 32,0 32,0 41,0 41,0 41,0 41,0 41,0 41,0 41,0 47,5
– – – – + – – + + + + + + + +
6 6 6 6 6 7 8 8 9 10 10 11 12 12 16
47,5 47,5 47,5 47,5 47,5 51,0 52,5 52,5 54,0 55,5 55,5 57,0 58,5 58,5 60,0
+ + + +
17 17 19 20
61,5 61,5 63,0 64,0
El rango correspondiente al valor 冟 di 冟 = 1 ha sido obtenido calculando el rango medio de los que les corresponderían si hubieran sido diferentes, es decir: 1+ 2 +…+ 8 = 4,5 8 Del mismo modo, para las 冟 di 冟 = 2, este rango se calcula como: 9 + 10 + … + 16 = 12,5 8 y así sucesivamente. El valor experimental de T + será: T + = «Suma de los rangos de las di > 0» = = 4,5 + 4,5 + 4,5 + 4,5 + 12,5 + 12,5 + 12,5 + 21,5 + 21,5 + 21,5 + 21,5 + + 21,5 + 21,5 + 32 + 32 + 32 + 32 + 41 + 41 + 47,5 + 52,5 + 54 + 55,5 + + 55,5 + 57 + 58,5 + 58,5 + 60 + 61,5 + 61,5 + 63 + 64 = 1.143,5 © Ediciones Pirámide
205
Ejercicios de inferencia estadística y muestreo y como n = 64 > 15, podemos utilizar la aproximación normal y considerar como estadístico de prueba: Z=
T + − E[T + ] Var [T + ]
H0 n→∞
N (0, 1)
donde: E[T + ] = Var [T + ] =
1 64(65) n(n + 1) = = 1.040 4 4 n(n + 1)(2 n + 1) 64 ⋅ 65(2 ⋅ 64 + 1) = = 22.360 24 24
y la región crítica, con un nivel de significación a = 0,10, será unilateral, obteniéndose el valor crítico en la tabla 7: N(0,1)
= 0,10
z = 1,28
Como el valor experimental es: zexp =
Tˆ + − E[T + ] Var [T + ]
=
1.143,5 − 1.040 22.360
= 0,692
que es inferior al valor crítico za , entonces no rechazamos H0 : Me 15 al 10 % de significación. c) Sean las variables aleatorias X1 y X2 correspondientes a la edad de un espectador de la primera y segunda sesión, respectivamente. Suponemos que se trata de variables aleatorias continuas y que los datos muestrales constituyen muestras aleatorias independientes. Representamos mediante F y G las respectivas funciones de distribución de X1 y X2. 206
© Ediciones Pirámide
Contraste de hipótesis no paramétrico Para contrastar si la edad de los espectadores de la segunda sesión supera a los de la primera, planteamos las siguientes hipótesis: H 0 : F ( z ) G( z ) H1: F( z ) > G( z ) donde H1 implicaría que la distribución de X2 estaría por encima de la de X1 y, por tanto, a la segunda sesión acudirían los espectadores de más edad. Esta situación se ilustra en el siguiente gráfico, referente a H1: X1 ~ f(x)
X2 ~ g(x)
F(z) G(z)
z F(z) > G(z)
Para realizar el contraste, podemos utilizar el test de la U de Wilcoxon-Mann-Whitney, el de la mediana o el de Kolmogorov-Smirnov para dos muestras.
Contraste de la U de Wilcoxon-Mann-Whitney Para aplicar este test se ordenan los datos muestrales de menor a mayor y se asigna a cada observación su correspondiente rango desde 1 hasta n = n1 + n2. En caso de empates en varias observaciones, se les asignará a cada una de ellas el rango promedio de los que les correspondería si hubieran sido diferentes. Una vez hecho esto, se utilizará como estadístico del contraste la expresión: U = U X1 = n1n2 +
n1 (n1 + 1) − WX1 2
siendo: WX1 =
∑ ri = Suma de los rangos correspondientes a la muestra de X1. x1i
© Ediciones Pirámide
207
Ejercicios de inferencia estadística y muestreo Como en este caso n1 = 38 > 10 y n2 = 29 > 10, la distribución del estadístico de prueba se aproxima a una normal:
U = U X1
H0 n1 , n2 > 10
N
冢 n 2n , 1 2
n1n2 (n1 + n2 + 1) 12
冣
o bien, podemos utilizar como estadístico de prueba: n1n2 2 n1n2 (n1 + n2 + 1) 12 U−
Z=
H0 n1 , n2 > 10
N (0, 1)
rechazando la hipótesis nula al 10 % de significación cuando: zexp zα donde: P( Z zα ) = α = 0,10 Utilizando la tabla 7, encontramos za , con lo cual, la representación gráfica de la región crítica es: N(0,1)
1–
= 0,90
= 0,10
z ≅ 1,28
208
© Ediciones Pirámide
Contraste de hipótesis no paramétrico Obtengamos el valor experimental del estadístico de prueba: Obs.
x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x2 x1 x1 x1 x2 x2
ri
7 8 9 9 9 9 9 10 10 10 10 10 11 11 11 11 11 11 11 12 12 12 12 13 13 13 13 13
1, 2, 5, 5, 5, 5, 5, 10,0 10,0 10,0 10,0 10,0 16,0 16,0 16,0 16,0 16,0 16,0 16,0 21,5 21,5 21,5 21,5 26,0 26,0 26,0 26,0 26,0
Obs.
x1 x1 x2 x2 x1 x1 x2 x1 x1 x2 x2 x1 x2 x2 x1 x1 x2 x2 x2 x2 x2 x2 x2 x2 x1 x2 x2 x2
ri
14 14 14 14 15 15 15 16 16 16 16 17 17 17 18 18 18 18 18 18 19 19 19 19 20 20 21 23
30,5 30,5 30,5 30,5 34,0 34,0 34,0 37,5 37,5 37,5 37,5 41,0 41,0 41,0 45,5 45,5 45,5 45,5 45,5 45,5 50,5 50,5 50,5 50,5 53,5 53,5 55,0 56,0
Obs.
x1 x1 x2 x2 x1 x2 x2 x2 x2 x1 x2
ri
24 25 25 26 27 27 31 32 32 34 35
57,0 58,5 58,5 60,0 61,5 61,5 63,0 64,5 64,5 66,0 67,0
WX1 = ∑ ri = 1 + 2 + 5 ⋅ 5 + 10 ⋅ 5 + 16 ⋅ 7 + 21,5 ⋅ 3 + 26 ⋅ 3 + 30,5 ⋅ 2 + 34 ⋅ 2 + x1i
+ 37,5 ⋅ 2 + 41 + 45,5 ⋅ 2 + 53,5 + 58,5 + 61,5 + 66 = 908 38(38 + 1) Uˆ = Uˆ X1 = 38 ⋅ 29 + − 908 = 935 2 38 ⋅ 29 2 = 4,8593 38 ⋅ 29(38 + 29 + 1) 12 935 −
zexp =
© Ediciones Pirámide
209
Ejercicios de inferencia estadística y muestreo Por tanto, como: zexp = 4,8593 > 1,28 = zα se rechaza H0 al 10 % de significación. Es decir, los datos presentan evidencia suficiente para rechazar la hipótesis de que las edades de los espectadores de la primera sesión son mayores o iguales que los de la segunda; por tanto, los asistentes a la segunda sesión tienen edades superiores a los de la primera.
Contraste de la mediana Para realizar este contraste, se obtiene en primer lugar la mediana muestral de la muestra combinada de n1 + n2 elementos, y se utiliza como estadístico del contraste: V = «Número de valores observados de X1 que son menores o iguales que la mediana de la muestra combinada de n1 + n2 elementos». Como n1 = 38 y n2 = 29, ambos superiores a 10, la distribución de V puede aproximarse mediante una normal: Z=
V − E[V ] Var [V ]
H0 n1 , n2 > 10
N (0, 1)
siendo: E[V ] = k Var [V ] = k
n1 n n1 n2 n − k ⋅ ⋅ n n n −1
con n = n1 + n2 = 38 + 29 = 67 k=
n − 1 66 = = 33 2 2
pues n es impar. 210
© Ediciones Pirámide
Contraste de hipótesis no paramétrico Puede comprobarse que la mediana de la muestra de las 67 observaciones es: me = 15 y el valor experimental del estadístico es: Vˆ = 29 E[V ] = 33 ⋅ Var [V ] = 33 ⋅ zexp =
38 = 18,7164 67 38 29 67 − 33 ⋅ ⋅ = 4,1733 67 67 67 − 1
29 − 18,7164 4,1733
= 5,0339
La región crítica del contraste será, al 10 % de significación: zexp zα con P( Z zα / H0 ) = α = 0,10 y buscando el valor crítico en la tabla de la distribución normal, tendremos: N(0,1)
0,90
= 0,10
z ≅ 1,28
y como: zexp = 5,0339 > 1,28 rechazamos H0 al 10 % de significación. © Ediciones Pirámide
211
Ejercicios de inferencia estadística y muestreo Contraste de Kolmogorov-Smirnov para dos muestras Se basa en un estadístico de prueba que utiliza las funciones de distribución empíricas de las muestras: Dn+1 , n2 = máx[ Fn1 ( x ) − Gn2 ( x )] con
Fn1 ( x ) =
N1 ( x ) n1
y
Gn2 ( x ) =
N2 ( x ) n2
Se rechazará H0, al 10 % de significación, si: Dn+1 , n2 , exp > Dn1 , n2 ; α siendo Dn1, n2; a el valor crítico, tal que: P( Dn+1 , n2 > Dn1 , n2 ; α / H0 ) = α = 0,10 Utilizando la tabla 18 con n1 = 38 y n2 = 29 con su aproximación para muestras de tamaño grande, tendremos que:
Dn1 , n2 ; α =
=
n1 + n2 ⋅ 1,0730 = n1n2 38 + 29 ⋅ 1,0730 = 0,2646 38 ⋅ 29
En la siguiente tabla aparecen los cálculos necesarios para obtener el valor experimental del estadístico del contraste. 212
© Ediciones Pirámide
Contraste de hipótesis no paramétrico x1i
n1i
7 8 9 10 11 12 13 14 15 16 17 18
1 1 5 5 7 3 3 2 2 2 1 2
20
1
25
1
27
1
34
1
n1 = 38
x2i
n2i
12 13 14 15 16 17 18 19 20 21 23 24 25 26 27 31 32
1 2 2 1 2 2 4 4 1 1 1 1 1 1 1 1 2
35
1
Fn1(x) = N1(x)/38
Gn2(x) = N2(x)/29
Fn1(x) – Gn2(x)
1/38 2/38 7/38 12/38 19/38 22/38 25/38 27/38 29/38 31/38 32/38 34/38 34/38 35/38 35/38 35/38 35/38 36/38 36/38 37/38 37/38 37/38 38/38 = 1 1
0 0 0 0 0 1/29 3/29 5/29 6/29 8/29 10/29 14/29 18/29 19/29 20/29 21/29 22/29 23/29 24/29 25/29 26/29 28/29 28/29 29/29 = 1
0,0263 0,0526 0,1842 0,3158 0,5000 0,5445 0,5544 0,5381 0,5563 0,5399 0,4973 0,4120 0,2740 0,2659 0,2314 0,1969 0,1624 0,1543 0,1198 0,1116 0,0771 0,0082 0,0345 0,0000
n2 = 29
Así: Dn+1 , n2 , exp = 0,5563 > 0,2646 y, por tanto, al 10 % de significación, se rechaza H0. En una compañía dedicada a la fabricación de productos de limpieza, el responsable de publicidad pretende incluir también a los varones como destinatarios de una campaña publicitaria para promocionar un nuevo tipo de lavavajillas, pues, según su opinión, la creciente incorporación de las mujeres al mercado laboral disminuye el tiempo que éstas dedican a las tareas del hogar y, en consecuencia, estas tareas comenzarían a ser compartidas por sus parejas. Para tratar de confirmar esta creencia, se comparan los resultados de dos encuestas realizadas en 1992 y 1996 en las que se preguntó a dos grupos diferentes de mujeres el número de horas semanales dediEjercicio 3.21
© Ediciones Pirámide
213
Ejercicios de inferencia estadística y muestreo cadas por cada una de ellas a los trabajos del hogar. Las respuestas obtenidas aparecen en la tabla siguiente: 1992
1996
22 17 26 13 16 25 18 21 19 14 20 23 15
16 20 15 19 13 12 17 10 13 17 11 26
¿Puede concluirse a partir de estos datos y con un 1 % de significación que, en 1996, las mujeres dedicaban menos tiempo a tareas del hogar que en 1992?
Solución
Sean X e Y las variables aleatorias:
X = «Tiempo semanal, en horas, que una mujer dedica a las tareas del hogar en 1992». Y = «Tiempo semanal, en horas, que una mujer dedica a las tareas del hogar en 1996». Si en 1996 las mujeres dedicaran menos tiempo a las tareas del hogar que en 1992, entonces la distribución X (1992) estaría a la derecha de Y (1996): fy
fx ⇒F Mey siendo F y G las respectivas funciones de distribución de X y de Y, y Mex y Mey las correspondientes medianas poblacionales. Para tomar la decisión, basándonos en la información muestral, podemos utilizar el contraste de Kolmogorov-Smirnov para dos muestras, el test de la mediana o el contraste de la U de Wilcoxon-Mann-Whitney. Contraste de la mediana Utiliza como estadístico de prueba: V = «Número de observaciones de X menores o iguales que la mediana de la muestra de n1 + n2 elementos». Como en este caso n1 = 13 > 10 y n2 = 12 > 10, la distribución de V puede aproximarse por una normal: V
H0 n1 , n2 > 10
N ( E[V ], Var [V ])
con E[V ] = k
n1 n
Var [V ] = k ⋅
n1 n2 n − k ⋅ ⋅ n n n −1
siendo: n = n1 + n2 = 13 + 12 = 25 k=
n − 1 25 − 1 = = 12 2 2
pues n es impar. © Ediciones Pirámide
215
Ejercicios de inferencia estadística y muestreo Así pues, podemos utilizar: Z=
V − E[V ] Var [V ]
→ N (0, 1)
como estadístico del contraste, rechazando H0 con un nivel de significación a = 0,01, cuando: zexp − zα con P( Z − zα ) = α = 0,01 Buscando en la tabla de una distribución N(0, 1), la región crítica se representará gráficamente como: N(0,1)
= 0,05
– z = – 2,33
Para calcular el valor experimental de V, necesitamos la mediana de la muestra combinada de n1 + n2 observaciones. La muestra ordenada de menor a mayor será: y
y
y
x
y
y
x
x
y
x
y
x
y
y
x
x
y
x
y
x
x
x
x
x
y
10 11 12 13 13 13 14 15 15 16 16 17 17 17 18 19 19 20 20 21 22 23 25 26 26
y, por tanto, la mediana será la observación que ocupe el lugar: n +1 = 13 2 es decir: me = 17 216
© Ediciones Pirámide
Contraste de hipótesis no paramétrico existiendo cinco observaciones de X menores o iguales que me = 17, con lo cual: Vˆ = 5 E[V ] = 12 ⋅ Var [V ] = 12 ⋅ zexp =
13 = 6,24 25 13 12 25 − 12 ⋅ ⋅ = 1,6224 25 25 25 − 1
5 − 6,24 1,6224
= − 0,9735
y como: zexp = − 0,9735 > − 2,33 entonces no se rechaza H0 al 1 % de significación, es decir, no puede concluirse, a partir de estos datos, que las mujeres estén trabajando en tareas del hogar menos tiempo en 1996 que en 1992. Contraste de la U de Wilcoxon-Mann-Whitney Utilizaremos como estadístico de prueba para realizar el contraste: U = U X = n1n2 +
n1 (n1 + 1) − WX 2
siendo: WX =
∑ ri = Suma de rangos de las observaciones de X xi
Como n1 = 13, n2 = 10, ambos superiores a 10, la distribución de U puede aproximarse por una normal: U
H0 n1 , n2 > 10
N ( E[V ], Var [U ])
con E[U ] = © Ediciones Pirámide
n1n2 13 ⋅ 12 = = 78 2 2 217
Ejercicios de inferencia estadística y muestreo Var [U ] =
n1n2 (n1 + n2 + 1) 13 ⋅ 12(13 + 12 + 1) = = 338 12 12
Por tanto, utilizaremos: Z=
U − E[U ] Var [U ]
H0 n1 , n2 > 10
N (0, 1)
como estadístico para realizar el contraste, rechazando la hipótesis nula si: zexp − zα = − 2,33 siendo a = 0,01 el nivel de significación. Para calcular el valor experimental de U ordenamos las observaciones muestrales de menor a mayor, asignándoles un rango desde 1 hasta 25. Si hay observaciones repetidas, se les asigna el rango medio de los que les corresponderían si fueran diferentes:
y y y x y y x x y x y x y y x x y x y x x x x x y
218
Obs.
ri
10 11 12 13 13 13 14 15 15 16 16 17 17 17 18 19 19 20 20 21 22 23 25 26 26
1,0 2,0 3,0 5,0 5,0 5,0 7,0 8,5 8,5 10,5 10,5 13,0 13,0 13,0 15,0 16,5 16,5 18,5 18,5 20,0 21,0 22,0 23,0 24,5 24,5
© Ediciones Pirámide
Contraste de hipótesis no paramétrico WX = 5 + 7 + 8,5 + 10,5 + 13 + 15 + 16,5 + 18,5 + 20 + 21 + 22 + 23 + 24,5 = 204,5 n (n + 1) 13 ⋅ 14 Uˆ = Uˆ X = n1n2 + 1 1 − WX = 13 ⋅ 12 + − 204,5 = 42,5 2 2 Entonces:
zexp =
42,5 − 78
= − 1,93 > − 2,33
338
y, por tanto, no se rechaza H0 al 1 % de significación.
Contraste de Kolmogorov-Smirnov para dos muestras Este test se basa en las funciones de distribución empíricas de las muestras de X e Y. El estadístico del contraste es, en este caso: Dn−1 , n2 = máx[Gn2 ( x ) − Fn1 ( x )] siendo: Fn1 ( x ) =
N1 ( x ) n1
;
Gn2 ( x ) =
N2 ( x ) n2
las funciones de distribución empíricas de X e Y, respectivamente. Se rechazará la hipótesis nula H0, al 1 % de significación, si: Dn−1 , n2 , exp > Dn1 , n2 ; α con P( Dn−1 , n2 > Dn1 , n2 ; α / H0 ) = α = 0,01 © Ediciones Pirámide
219
Ejercicios de inferencia estadística y muestreo Utilizando la tabla 18 con n1 = 13 y n2 = 12, tendríamos que: N1 = mín (n1 , n2 ) = 12 N2 = máx (n1 , n2 ) = 13 y buscando en las tablas adecuadas se obtendría el valor crítico. No obstante, como en las tablas presentadas no vienen estos valores N1 y N2 y ambos son superiores a 10, utilizaremos la aproximación para muestras grandes, y, así, el valor crítico será aproximadamente igual a:
Dn1 , n2 ; α ≈
xi
n xi
13 14 15 16 17 18 19 20 21 22 23 25 26
1 1 1 1 1 1 1 1 1 1 1 1 1 13
n1 + n2 ⋅ 1,5174 = n1n2
13 + 12 ⋅ 1,5174 = 0,6074 13 ⋅ 12
yi
ny i
Fn1(x)
Gn2(x)
[Gn2(x) – Fn1(x)]
10 11 12 13
1 1 1 2
15 16 17
1 1 2
19 20
1 1
26
1
0 = 0 = 0 = 1/13 = 2/13 = 3/13 = 4/13 = 5/13 = 6/13 = 7/13 = 8/13 = 9/13 = 10/13 =1 11/13 =1 12/13 =1 13/13 = 1
1/12 = 2/12 = 3/12 = 5/12 = 5/12 = 6/12 = 7/12 = 9/12 = 9/12 = 10/12 =1 11/12 =1 11/12 =1 11/12 =1 11/12 =1 11/12 =1 12/12 = 1
1/12 – 0/13 = 0,0833 2/12 – 0/13 = 0,1667 3/12 – 0/13 = 0,2500 5/12 – 1/13 = 0,3397 5/12 – 2/13 = 0,2628 6/12 – 3/13 = 0,2692 7/12 – 4/13 = 0,2756 9/12 – 5/13 = 0,3654 9/12 – 6/13 = 0,2885 10/12 – 7/13 = 0,2949 11/12 – 8/13 = 0,3013 11/12 – 9/13 = 0,2244 11/12 – 10/13 = 0,1474 11/12 – 11/13 = 0,0705 11/12 – 12/13 = – 0,0064 00/01 – 1/13 = 0,0000
12
Por tanto: Dn−1 , n2 , exp = 0,3654 < 0,6074 = Dn1 , n2 ; α y no se rechaza la hipótesis nula al 1 % de significación. 220
© Ediciones Pirámide
Contraste de hipótesis no paramétrico Un fabricante de juguetes desea conocer si existen diferencias en cuanto a la calidad de las tres marcas de pilas alcalinas más extendidas en el mercado con el fin de recomendarlas para su utilización en un nuevo juguete que se va a promocionar. Para comparar las tres marcas, toma muestras aleatorias de pilas de cada una de ellas y controla el tiempo que permanece funcionando el juguete en cuestión. Los resultados obtenidos fueron: Ejercicio 3.22
Marca de las pilas
Horas de duración
A
125
140
218
78
98
B
87
100
85
65
115
83
C
55
50
78
93
60
78
Utilizando un nivel de significación del 5 %, ¿puede decirse que existen diferencias significativas en las calidades de estas marcas de pilas alcalinas? En su caso, indique qué marcas presentan diferencias significativas.
Solución
Definimos las variables aleatorias:
Xi = «Tiempo de funcionamiento del juguete (en horas) con las pilas de la marca i». i = 1 (A), 2 (B), 3 (C). Para tratar de ver si hay diferencias significativas en las calidades de las pilas, realizaremos el contraste de Kruskal-Wallis, que detecta diferencias de ubicación entre más de dos distribuciones. Planteamos, pues, la hipótesis: H0 : F1 ( x ) = F2 ( x ) = F3 ( x ) H1: Al menos dos son diferentes siendo Fi la función de distribución de la variable Xi, i = 1, 2, 3. El estadístico del contraste es:
H= © Ediciones Pirámide
k Ri2 12 − 3(n + 1) ∑ n(n + 1) i = 1 ni
221
Ejercicios de inferencia estadística y muestreo siendo: k
n= Ri =
∑ ni = n1 + n2 + n3 = 5 + 6 + 6 = 17
i =1 ni
∑ rij j =1
rij = Rango de la observación j -ésima de la muestra i rechazándose la hipótesis nula cuando el valor experimental supere al valor crítico h a, es decir, cuando: Hˆ hα donde P( H hα / H0 ) = α Utilizando la tabla 24 con k = 3, y tamaños muestrales 6, 6 y 5, tendremos, para un nivel de significación del 5 %: h a = 5,765 Para calcular el valor experimental, ordenamos las observaciones de menor a mayor, asignándoles su correspondiente rango y sumando los rangos de las observaciones de cada muestra. En caso de empates, se procede de la forma habitual: Observaciones
C C C B C C A B B B C A B B A A A
50 55 60 65 78 78 78 83 85 87 93 98 100 115 125 140 218 Ri
222
rij
1 2 3 4 6 6 6 8 9 10 11 12 13 14 15 16 17
r1j
r2j
r3j
1 2 3 4 6 6 6 8 9 10 11 12 13 14 15 16 17 R1 = 66
R2 = 58
R3 = 29 © Ediciones Pirámide
Contraste de hipótesis no paramétrico Por tanto, el valor experimental:
Hˆ =
冤
冥
12 66 2 582 292 + + − 3(17 + 1) = 7,648 17(17 + 1) 5 6 6
y como: Hˆ = 7,648 > hα = 5,765 entonces, al 5 % de significación, se rechaza H0 y puede decirse que existen diferencias significativas en las calidades de estas tres marcas de pilas. Para obtener qué marcas presentan diferencias significativas realizaremos el test de comparaciones múltiples, o método de Dunn, según el cual la diferencia entre las poblaciones i y l es significativa al nivel a si:
冟Ri − Rl 冟 cil siendo:
cil = z p
冉
n(n + 1) 1 1 + 12 ni nl
冊
con P( Z z p ) = p =
α k ( k − 1)
Por tanto, como en este caso tenemos: R1 =
66 5
p=
0,05 = 0,0083 3(3 − 1)
;
R2 =
58 6
;
R3 =
29 6
P( Z z p ) = 0,0083 ⇒ z p = 2,395 © Ediciones Pirámide
223
Ejercicios de inferencia estadística y muestreo
冉 冊 冉 冊 冉 冊
c12 = 2,395
17(18) 1 1 + = 7,3234 12 5 6
c13 = 2,395
17(18) 1 1 + = 7,3234 12 5 6
c23 = 2,395
17(18) 1 1 + = 6,9826 12 6 6
冟R1 − R2 冟 = 冷 66 − 58 冷 = 3,5333 < 7,3234 = c12 5
6
⇒ Las marcas A y B no presentan diferencias significativas.
冟R1 − R3 冟 = 冷 66 − 29 冷 = 8,3667 > 7,3234 = c13 5
6
⇒ Las marcas A y C presentan diferencias significativas.
冟R2 − R3 冟 = 冷 58 − 29 冷 = 4,8333 < 6,9826 6
6
⇒ Las marcas B y C no presentan diferencias significativas. Una compañía dedicada a la venta de material musical y literario tiene abiertos tres establecimientos, en Madrid, Barcelona y Bilbao. Para tratar de analizar las ventas diarias, se eligieron al azar seis días de un determinado período, obteniéndose los siguientes volúmenes de ventas, en miles de euros: Ejercicio 3.23
224
Madrid
Barcelona
Bilbao
0,65 0,84 0,35 0,75 0,60 0,54
0,95 0,46 0,58 0,74 0,25 0,70
0,48 0,30 0,98 0,87 0,50 0,96
© Ediciones Pirámide
Contraste de hipótesis no paramétrico Utilizando un 5 % de significación, ¿señalan estos datos la existencia de diferencias significativas en cuanto a los volúmenes de ventas de dichos establecimientos?
Representamos con Xi la variable aleatoria correspondiente a las ventas diarias (en miles de euros) en el establecimiento i, i = 1 (Madrid), 2 (Barcelona), 3 (Bilbao). Sean F1, F2 y F3 las correspondientes funciones de distribución. Se trata de comprobar si estas funciones presentan diferencias significativas en cuanto a ubicación. Por tanto, aplicaremos el test de Kruskall-Wallis para contrastar: Solución
H0 : F1 ( x ) = F2 ( x ) = F3 ( x ) H1: Fi ( x ) ≠ Fj ( x ) para algún i ≠ j El estadístico del contraste será:
H=
k Ri2 12 − 3(n + 1) ∑ n(n + 1) i = 1 ni
con n = n1 + n2 + n3 = 6 + 6 + 6 = 18 Ri =
ni
∑ rij j =1
rij = Rango de la observación j -ésima de la muestra i Como ni = 6 (i = 1, 2, 3), todos superiores a cinco, la distribución de H puede aproximarse por una c2: H
H0 ni > 5
χ k2 − 1 ≡ χ 32− 1 ≡ χ 22
y, así, la región crítica representada gráficamente, al 5 % de significación, quedará como: © Ediciones Pirámide
225
Ejercicios de inferencia estadística y muestreo
χ22
0,95
χ21 – = 5,99
donde el valor crítico ha sido obtenido a partir de la tabla 9. Ordenamos las observaciones de menor a mayor y les asignamos sus rangos: Observaciones
Barcelona Bilbao Madrid Barcelona Bilbao Bilbao Madrid Barcelona Madrid Madrid Barcelona Barcelona Madrid Madrid Bilbao Barcelona Bilbao Bilbao
rij
0,25 0,30 0,35 0,46 0,48 0,50 0,54 0,58 0,60 0,65 0,70 0,74 0,75 0,84 0,87 0,95 0,96 0,98
Suma de rangos
r1j
r2j
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
9 10
R = 171
R1 = 56
r3j
1 2 3 4 5 6 7 8
11 12 13 14 15 16 17 18 R2 = 52
R3 = 63
Por tanto, el valor experimental H es: Hˆ = 226
冤
冥
12 56 2 52 2 632 + + − 3(18 + 1) = 0,3626 18(18 + 1) 6 6 6 © Ediciones Pirámide
Contraste de hipótesis no paramétrico y como: Hˆ = 0,3626 < 5,99 = χ12− α entonces, al 5 % de significación, los datos muestrales no presentan evidencia suficiente para concluir que existen diferencias significativas entre los volúmenes de ventas de esos tres establecimientos. Si no se utiliza la aproximación a una c2, se podría buscar el valor crítico en la tabla 24, y así: hα = 5,801 Hˆ = 0,3626 < 5,801 = hα llegándose a las mismas conclusiones anteriores.
Un nuevo equipo accede a la dirección de dos cadenas de fabricación y comercialización de electrodomésticos con una amplia red de puntos de venta en el territorio nacional. Dicha directiva desearía realizar una política de equiparación de las ventas si es que se aprecian diferencias significativas en las distribuciones de las ventas de ambas cadenas. Para realizar una primera aproximación al problema, se extraen al azar dos muestras de tiendas de cada una de las cadenas, obteniéndose los siguientes importes de ventas en miles de euros: Ejercicio 3.24
Cadena A
Cadena B
6,4 8,9 9, 2,7 4,5 10,0 9, 4,9 3, 7, 15,0
8, 5,9 10,0 15,0 17,5 9, 3, 3,2 6, 8, 16,0
a) Utilizando la información procedente de la función de distribución empírica, ¿tendrá que acometerse la política de igualación de ventas en ambas cadenas? © Ediciones Pirámide
227
Ejercicios de inferencia estadística y muestreo b) Si se decidiera considerar la dispersión como factor indicador de la distinta distribución de las ventas en las dos cadenas, ¿tomaría ahora las medidas integradas en dicha política homogeneizadora? c) Si admitimos que las dos muestras proceden de poblaciones normales, ¿podría afirmarse que se observa más dispersión en las ventas de la cadena A? Nota: Trabaje en todos los casos con un nivel de significación del 5 %.
Llamemos X e Y a las variables aleatorias que representan las ventas, en miles de euros, de las tiendas de las cadenas A y B, respectivamente. Sean F y G las correspondientes funciones de distribución. Solución
a) Para contrastar si F y G son iguales utilizando funciones de distribución empíricas, tendremos que realizar el contraste de Kolmogorov-Smirnov para dos muestras y aplicarlo a las hipótesis: H0 : F ( x ) = G( x ) H1: F( x ) ≠ G( x ) El estadístico del contraste será: Dn1 , n2 = máx 冟Fn1 ( x ) − Gn2 ( x )冟 donde: Fn1 ( x ) =
N1 ( x ) n1
Gn2 ( x ) =
N2 ( x ) n2
son las funciones de distribución empíricas de las muestras de X e Y, respectivamente. La hipótesis nula será rechazada al 5 % de significación si: Dn1 , n2 , exp > Dn1 , n2 ; α 228
© Ediciones Pirámide
Contraste de hipótesis no paramétrico siendo el valor crítico, tal que: P( Dn1 , n2 > Dn1 , n2 ; α / H0 ) = α = 0,05 y buscando en la tabla 19 con n1 = n2 = 11, tendremos: Dn1 , n2 ; α =
6 = 0,5455 11
Buscamos a continuación el valor experimental del estadístico del contraste: xi
nxi
2,7 3,0
1 1
4,5 4,9
yi
ny i
3,0 3,2
1 1
5,9 6,0
1 1
8,0
2
9,0 10,0 15,0 16,0 17,5
1 1 1 1 1
1 1
6,4 7,0
1 1
8,9 9,0 10,0 15,0
1 2 1 1
n1 = 11
Fn1(x)
Gn2(x)
1/11 = 2/11 = 2/11 = 2/11 = 3/11 = 4/11 = 4/11 = 4/11 = 5/11 = 6/11 = 6/11 = 7/11 = 9/11 = 10/11 =1 11/11 = 1 1 = 1 =
0 = 0 = 1/11 = 2/11 = 2/11 = 2/11 = 3/11 = 4/11 = 4/11 = 4/11 = 6/11 = 6/11 = 7/11 = 8/11 = 9/11 = 10/11 =1 11/11 = 1
冟 Fn (x) – Gn (x) 冟 1
2
冟 1/11 – 冟 2/11 – 冟 2/11 – 冟 2/11 – 冟 3/11 – 冟 4/11 – 冟 4/11 – 冟 4/11 – 冟 5/11 – 冟 6/11 – 冟 6/11 – 冟 7/11 – 冟 9/11 –
0 冟/00 = 1/11 0 冟/00 = 2/11 1/11 冟 = 1/11 2/11 冟 = 0/00 2/11 冟 = 1/11 2/11 冟 = 2/11 3/11 冟 = 1/11 4/11 冟 = 0/00 4/11 冟 = 1/11 4/11 冟 = 2/11 6/11 冟 = 0/00 6/11 冟 = 1/11 7/11 冟 = 2/11 冟 10/11 – 8/11 冟 = 2/11 冟 11/11 – 9/11 冟 = 2/11 /000冟 1 – 10/11 冟 = 1/11 /000冟 1 – 11/11 冟 = 0/00
n2 = 11
Dn1 , n2 , exp = máx 冟Fn1 ( x ) − Gn2 ( x )冟 =
2 = 0,1818 11
Por tanto, como: Dn1 , n2 , exp = 0,1818
10 y n2 = 11 > 10, podemos utilizar la aproximación normal: Z=
Sn − E[ Sn ] Var [ Sn ]
H0 n1 , n2 → ∞
N (0, 1)
con E[ Sn ] = Var [ Sn ] =
n1 (n + 1) 11(22 + 1) = = 126,5 2 2 n1n2 (n + 1) 11 ⋅ 11(22 + 1) = = 231,92 12 12
La región crítica, al 5 % de significación, será: N(0,1)
1–
/2 = 0,025
–z
230
/2
= – 1,96
= 0,95
/2 = 0,025
z
/2
= 1,96 © Ediciones Pirámide
Contraste de hipótesis no paramétrico Para obtener el valor experimental ordenamos las observaciones de forma conjunta en orden creciente y les asignamos los rangos ai: Observaciones
ai
zi
aizi
x x y y x x y y x x y y x x x y x y x y y y
1 4 5 8 9 12 13 16 17 20 21 22 19 18 15 14 11 10 7 6 3 2
1 1 0 0 1 1 0 0 1 1 0 0 1 1 1 0 1 0 1 0 0 0
1 4 — — 9 12 — — 17 20 — — 19 18 15 — 11 — 7 — — —
2,7 3,0 3,0 3,2 4,5 4,9 5,9 6,0 6,4 7,0 8,0 8,0 8,9 9,0 9,0 9,0 10,0 10,0 15,0 15,0 16,0 17,5
Sˆn = 1 + 4 + 9 + 12 + 17 + 20 + 19 + 18 + 15 + 11 + 7 = 133 zexp =
133 − 126,5 23,92
= 0,4268
y como: − zα / 2 = − 1,96 < 0, 4268 = zexp < zα / 2 = 1,96 entonces no se rechaza H0 al 5 % de significación. Por tanto, las distribuciones no presentan diferencias significativas en cuanto a dispersión; así pues, considerando como factor indicador de la distinta distribución de ventas la dispersión, no sería necesario tomar las medidas integradas en dicha política homogeneizadora. © Ediciones Pirámide
231
Ejercicios de inferencia estadística y muestreo c)
Si se supone que las distribuciones son normales:
~ N(μx , σ x ) Y ~ N(μy , σ y )
X
para ver si las ventas en la cadena A presentan más dispersión, planteamos las hipótesis: H0 : σ x2 σ y2 H1: σ x2 > σ y2 Este contraste se resolverá utilizando como estadístico de prueba: F=
Sx2 Sy2
~ Ᏺ n − 1, n − 1 ≡ Ᏺ 10,10
H0
x
y
pues mx y my son desconocidas. La región crítica representada gráficamente será: Ᏺ10,10
0,95
= 0,05
F1– = 2,98
rechazándose H0 si Fexp > F1 – a = 2,98. Calculamos las varianzas muestrales:
232
冤
nx
冢 冣冥 2
冤
sy2 =
1 (101,6)2 1.186,3 − = 24,7885 11 − 1 11
冤
i =1
∑ xi
i =1
=
冥
1 80, 4 2 716,72 − = 12,9069 11 − 1 11
1 nx − 1
∑ xi2 −
1 nx
nx
s x2 =
冥
© Ediciones Pirámide
Contraste de hipótesis no paramétrico y así: Fexp =
12,9069 = 0,5207 < F1 − α = 2,98 24,7885
por tanto, no se rechaza H0 al 5 % de significación, por lo que, al parecer, las ventas de la cadena A no presentan más dispersión. Durante los meses de mayo y junio, las entidades bancarias suelen disponer de personal que facilita la realización de la declaración de la renta a sus clientes. Ante la gran cantidad de clientes que solicitan este servicio, una sucursal bancaria decidió dar cita previa con el fin de evitar las largas esperas que se producían. A pesar de la medida, los clientes tenían que seguir esperando un tiempo medio de cinco minutos antes de ser atendidos. Una mañana elegida al azar se decidió contabilizar los tiempos de espera de cada uno de los clientes, que fueron los siguientes: Ejercicio 3.25
3 4,5 5 3 0 5,5 2 6,5 8 ¿Podría decirse que el tiempo de espera se distribuye según una ley exponencial? Nivel de significación: 1 %. Denotemos con X la variable aleatoria que representa el tiempo de espera de uno de estos clientes. Se desea contrastar, sobre la base de la información muestral, si X se distribuye según una exponencial de parámetro a. Si esto fuera así, como los clientes esperan un tiempo medio de cinco minutos, se tendría: Solución
5 = E[ X ] = a=
1 a
1 = 0,2 5
Por tanto, las hipótesis a contrastar serán:
© Ediciones Pirámide
H0 : X
~ Exp 冢 1 冣
H1: X
~/ Exp 冢 1 冣
5
5
233
Ejercicios de inferencia estadística y muestreo o equivalentemente: H0 : F( x ) = F0 ( x ) H1: F( x ) ≠ F0 ( x ) siendo F(x) la verdadera función de distribución de la variable X y F0 (x) la función de distribución de una Exp (1/5), es decir: ⎧1 − e − ax F0 ( x ) = ⎨ ⎩0
si x > 0 ⎫ ⎧1 − e − x / 5 si x > 0 ⎬=⎨ si x 0 ⎭ ⎩0 si x 0
Para realizar este contraste, podemos utilizar el test de Kolmogorov-Smirnov para una muestra, cuyo estadístico de prueba es, en el caso bilateral: Dn =
máx
−∞ Dα / H0 ) = α = 0,01 234
© Ediciones Pirámide
Contraste de hipótesis no paramétrico Utilizando la tabla 14 para un test bilateral y con n = 9, se tiene: Dα = 0,513 Por tanto, rechazaremos H0 si: Dn, exp > 0,513 Para calcular el valor experimental del estadístico, construimos la siguiente tabla, en la que las observaciones muestrales han sido ordenadas de menor a mayor: xi
ni
Fn(xi) = N(xi)/n
F0(xi)
ai = 冟 Fn(xi) – F0(xi) 冟
bi = 冟 Fn(xi) – F0(xi – 1) 冟
0,0 2,0 3,0 4,5 5,0 5,5 6,5 8,0
1 1 2 1 1 1 1 1
1/9 2/9 4/9 5/9 6/9 7/9 8/9 9/9 = 1
0,0000 0,3297 0,4512 0,5934 0,6321 0,6671 0,7275 0,7981
0,1111 0,1075 0,0067 0,0379 0,0345 0,1106 0,1614 0,2019
0,0000 0,2186 0,2290 0,1490 0,0766 0,0005 0,0503 0,0908
n=9
Así: Dn, exp = máx{ai , bi} = 0,2290 y como: Dn, exp = 0,2290 0,513 la información muestral no presenta evidencia suficiente, al 1 % de significación, para rechazar la hipótesis nula H0, que indicaba que el tiempo de espera de los clientes seguía una distribución exponencial con parámetro a = 1/5. En una facultad se decidió formar un solo grupo para impartir una asignatura que es común a las licenciaturas de Economía y de Dirección y Administración de Empresas. En un examen tipo test de 100 preguntas, se encontró que la calificación media de los estudiantes de una y otra licenciatura era la misma. Sin emEjercicio 3.26
© Ediciones Pirámide
235
Ejercicios de inferencia estadística y muestreo bargo, el profesor desea conocer también el grado de homogeneidad de las calificaciones obtenidas por los alumnos de dichas licenciaturas. Para ello, toma dos muestras aleatorias simples de 11 y 12 exámenes, respectivamente, pertenecientes a alumnos de cada una de las licenciaturas. Las puntuaciones fueron las siguientes: Dirección y Administración de Empresas
Economía
56 85 23 64 75 92 45 38 67 40 73 13 52
60 58 50 32 69 83 36 48 55 88 70 20
Utilizando un 10 % de significación, ¿señalan estos datos la existencia de diferencias significativas en cuanto a la dispersión de las calificaciones entre estas licenciaturas?
Sean las variables X e Y las que representan la puntuación de los alumnos de Economía y Dirección y Administración de Empresas, respectivamente, en el test realizado. Suponemos que estas variables son continuas con la misma distribución, salvo, quizá, en el parámetro de dispersión. Por tanto, se trata de contrastar: Solución
H0 : F ( x ) = G( x )
(tienen el mismo parámetro de dispersión)
H1: F( x ) ≠ G( x )
(tienen distinto parámetro de dispersión)
siendo F y G las funciones de distribución de X e Y, respectivamente. Para realizar este contraste utilizaremos el test de Siegel-Tukey, cuyo estadístico es: n
Sn = 236
∑ ai Zi
i =1
© Ediciones Pirámide
Contraste de hipótesis no paramétrico siendo: ⎧1 ⎪ ⎪ Zi = ⎨ ⎪0 ⎪⎩
si la observación i-ésima en la muestra combinada y ordenada es una X si la observación i-ésima en la muestra combinada y ordenada es una Y
y ai los coeficientes obtenidos al asignar los rangos a la muestra combinada y ordenada de menor a mayor de la siguiente forma: a la primera observación se le asigna rango 1; a la última, rango 2; a la penúltima, rango 3; a la segunda y tercera, rangos 4 y 5, y así sucesivamente. Como en este caso el número total de observaciones, nx + ny = 13 + 12 = 25, es un número impar, se ignorará la observación central. Además, al ser nx = 13 > 10 y ny = 12 > 10, la distribución de Sn se puede aproximar a la normal. Por tanto, para realizar el contraste podemos utilizar el estadístico: Z=
Sn − E[ Sn ] σ [ Sn ]
H0 n1 , n2 → ∞
N (0, 1)
con E[ Sn ] = Var [ Sn ] =
nx (n + 1) 13(25 + 1) = = 169 2 2 nx ny (n + 1) 12
=
13 ⋅ 12(25 + 1) 12
= 338
Con este test, la región crítica aproximada es: N(0,1)
1–
/2 = 0,05
–z © Ediciones Pirámide
/2
= – 1,645
= 0,90
/2 = 0,05
z
/2
= 1,645
237
Ejercicios de inferencia estadística y muestreo Para calcular zexp ordenamos las observaciones muestrales de forma conjunta y de menor a mayor para asignarles los rangos ai:
x y x y y x x x y y x y x y y x x y y x x y x y x
a
ai
zi
a i zi
13 20 23 32 36 38 40 45 48 50 52 55 56 58 60 64 67 69 70 73 75 83 85 88 92
1 4 5 8 9 12 13 16 17 20 21 24 — 23 22 19 18 15 14 11 10 7 6 3 2
1 0 1 0 0 1 1 1 0 0 1 0 1 0 0 1 1 0 0 1 1 0 1 0 1
1 — 5 — — 12 13 16 — — 21 — — — — 19 18 — — 11 10 — 6 — 2
Por tanto: Sˆn =
n
∑ ai zi = 1 + 5 + 12 + 13 + 16 + 21 + 19 + 18 + 11 + 10 + 6 + 2 = 134
i =1
zexp =
134 − 169 338
= − 1,9037
y como: zexp = − 1,9037 < − 1,645 = − zα / 2 entonces se rechaza la hipótesis nula H0 al 10 % de significación, pudiendo afirmarse, con un 10 % de significación, que existen diferencias significativas en cuanto a la dispersión de las calificaciones entre dichas licenciaturas. 238
© Ediciones Pirámide
Contraste de hipótesis no paramétrico El Ministerio de Trabajo desea conocer si las cuantías de las sanciones que recaen sobre las empresas por incumplimiento de normas de seguridad son similares en tres comunidades autónomas consideradas. En cada comunidad se eligen al azar cinco expedientes sancionadores, que presentan los siguientes importes, expresados en miles de euros: Ejercicio 3.27
Comunidad A
Comunidad B
Comunidad C
1,225 1,624 4,626 1,411 3,151
1,128 4,622 3,121 1,823 1,141
6,225 9,524 4,625 5,521 15,629
Con una significación del 10 %: a) ¿Se podría admitir que los importes de las sanciones son similares en las tres comunidades? b) En caso de resultar distintos, ¿entre qué comunidades se observan diferencias significativas respecto a la cuantía de las sanciones? a) Definimos las variables Xi, i = 1, 2, 3 como aquellas que representan el importe de las sanciones en la comunidad i. Planteamos un contraste de Kruskal-Wallis dada la suposición de no normalidad, puesto que no disponemos de información sobre las distribuciones poblacionales de las variables Xi. Las hipótesis serán: Solución
H0 : F1 ( x ) = F2 ( x ) = F3 ( x ) H1: ∃ (i, j ), i ≠ j / Fi ( x ) ≠ Fj ( x ) donde Fi representa la función de distribución de la variable aleatoria Xi (i = 1, 2, 3). El estadístico del contraste de Kruskal-Wallis es: H=
k Ri2 12V 12 = ∑ − 3(n + 1) n(n + 1) n(n + 1) i = 1 ni
siendo: Ri = © Ediciones Pirámide
ni
∑ rij j =1
239
Ejercicios de inferencia estadística y muestreo y se rechaza H0 si: Hˆ hα donde h a es tal que: P( H hα / H0 ) = α = 0,10 Utilizando la tabla 23, se obtiene que: hα = 4,56 y, por tanto, se rechazará H0 si: Hˆ 4,56 Para calcular el valor experimental, asignamos los rangos, en orden creciente, a cada uno de los importes:
240
Comunidad
Importe
rij
r1j
r2j
r3j
B B A A A B B A B C A C C C C
1,128 1,141 1,225 1,411 1,624 1,823 3,121 3,151 4,622 4,625 4,626 5,521 6,225 9,524 15,629
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
— — 3 4 5 — — 8 — — 11 — — — —
1 2 — — — 6 7 — 9 — — — — — —
— — — — — — — — — 10 — 12 13 14 15
Suma de rangos
—
R = 120
R1 = 31
R2 = 25
R3 = 64
© Ediciones Pirámide
Contraste de hipótesis no paramétrico Así, el valor experimental del estadístico será: Hˆ =
冢
冣
12 312 252 64 2 + + − 3(15 + 1) = 8,82 15(15 + 1) 5 5 5
como: Hˆ = 8,82 > hα = 4,56 entonces se rechaza la hipótesis nula y, por tanto, con un 10 % de significación, podemos concluir que se aprecian diferencias significativas en los importes de las sanciones entre cada comunidad. b) Para localizar entre qué comunidades se aprecian diferencias significativas, utilizaremos el método de Dunn, para lo cual calcularemos: cil = z p
冉
n(n + 1) 1 1 + 12 ni nl
冊
,
i, l = 1, 2, 3
con p=
α 0,10 = = 0,0167 k ( k − 1) 3(3 − 1)
y zp, tal que, siendo Z ~ N(0, 1): P( Z z p ) = p = 0,0167 Utilizando la tabla 7: N(0,1)
0,9833
p = 0,0167
zp = 2,13 © Ediciones Pirámide
241
Ejercicios de inferencia estadística y muestreo Así, como n1 = n2 = n3 = 5 cil = 2,13
冉 冊
15 ⋅ 16 1 1 + = 6,0245 12 5 5
,
∀ i, l
y diremos que las diferencias entre los importes de la comunidad i y la comunidad l son significativas si:
冟Ri − Rl 冟 cil Por tanto:
冟R1 − R2 冟 = 冷 31 − 25 冷 = 6 = 1,2 < 6,0245 5
5
5
No hay diferencias entre los importes de las sanciones en las comunidades A y B.
冟R1 − R3 冟 = 冷 31 − 64 冷 = 33 = 6,6 > 6,0245 5
5
5
Se aprecian diferencias significativas entre los importes sancionadores de A y C.
冟R2 − R3 冟 = 冷 25 − 64 冷 = 39 = 7,8 > 6,0245 5
5
5
Hay diferencias significativas entre los importes de las comunidades B y C.
Ante las numerosas incidencias detectadas, la Organización de Consumidores y Usuarios pretende investigar la duración de los tiempos de entrega de la empresa Televenta, S. A., perteneciente a un conocido grupo comercial. Para ello, decide realizar la compra de una bicicleta, que se oferta en la semana de promoción, desde 10 puntos geográficos diferentes. En cada compra, el tiempo de compromiso de entrega fue de 15 días como máximo. Los tiempos reales de entrega (número de días) fueron los siguientes: Ejercicio 3.28
45 242
7 23
15
30
16
28
40
50
32 © Ediciones Pirámide
Contraste de hipótesis no paramétrico Utilizando un 10 % de significación: a) ¿Indican estos datos que el 50 % de las ventas se entregan durante el tiempo de compromiso? b) Para comparar con el servicio de venta telefónica de otra empresa de la competencia, se realizaron seis compras similares en esta última, en la que el período de compromiso de entrega resultó ser el mismo. Los tiempos reales de entrega en este caso fueron: 10 15
20
17
30
22
En vista de toda la información, y con el mismo nivel de significación del apartado anterior, ¿puede decirse que los tiempos reales de entrega son similares en estas dos empresas? Utilice las correspondientes funciones de distribución empíricas.
Solución
a) Definimos la variable aleatoria X como:
X = «Tiempo de entrega de la bicicleta comprada a Televenta, S. A.» El 50 % de las ventas se entregarían durante el período de compromiso si el tiempo de entrega fuese inferior o igual a 15 días: 50% 15 días
Por tanto, se pretende contrastar si el valor de la mediana poblacional es igual a 15 días: H0 : Me = 15 días = m H1: Me ≠ 15 días Para realizar este contraste podemos utilizar el contraste de signos de la mediana o el de rangos-signos de Wilcoxon. Contraste de signos de la mediana Suponemos que X es una variable aleatoria continua, al menos en un entorno de su mediana poblacional, y, por tanto, P(X = Me) = 0. Puesto que el número de observaciones es reducido, el estadístico de prueba para este contraste será: S + = «Número de signos + en la muestra». © Ediciones Pirámide
243
Ejercicios de inferencia estadística y muestreo cuya distribución, si la hipótesis nula es cierta, es: S+
~ B(n, 1/ 2)
H0
La sucesión de signos se calcula midiendo las desviaciones de las observaciones con respecto al valor mediano propuesto en las hipótesis: ⎧> 0 ⇒ Asignamos signo + ⎪ Di = Xi − m = Xi − 15 ⎨< 0 ⇒ Asignamos signo − ⎪= 0 ⇒ Ignoramos la observación y reducimos n ⎩ En nuestro caso, la sucesión de signos queda: + – + 0 + + + + + + Puesto que hay una diferencia nula, entonces el tamaño muestral se reduce en una unidad y, así: S+
~ B(n = 9, 1/ 2)
H0
El valor experimental correspondiente al número de signos positivos es Sˆ + = 8. La región crítica del contraste es bilateral: /2
/2 k′ /2
k
/2
siendo k¢a/2 y k a/2 el mayor y menor entero, respectivamente, tales que, para un nivel de significación del 10 % (a = 0,10), verifican: P( S + kα′ / 2 ) α / 2 = 0,05 P( S + kα / 2 ) α / 2 = 0,05 Utilizando la tabla correspondiente a la función de distribución de una binomial con n = 9 y p = 1/2, tenemos que: P( X 0) = P( X = 0) = 0,0020 α / 2 = 0,05 P( X 1) = 0,0195 0,05 P( X 2) = 0,0898 > 0,05 244
© Ediciones Pirámide
Contraste de hipótesis no paramétrico Por tanto, k¢a/2 = 1; utilizando la simetría de una B(n, 1/2) obtenemos también el otro valor crítico: kα / 2 = n − kα′ / 2 = 9 − 1 = 8 La región crítica o de rechazo queda entonces de la siguiente forma:
k′ /2 = 1
k
/2
=8
Puesto que Sˆ + = 8 k a/2, entonces se rechaza la hipótesis nula al 10 % de significación, indicando los datos que el 50 % de las ventas no se entregan en el período de compromiso.
Contraste de rangos-signos de Wilcoxon De nuevo suponemos que X es continua y simétrica con respecto a su mediana poblacional. El estadístico de prueba para el contraste planteado anteriormente es ahora: T + = «Suma de los rangos de las Di > 0» estando las Di definidas de la misma manera que en el contraste de signos de la mediana realizado antes. Ahora las magnitudes de las Di se utilizarán para asignar los rangos correspondientes: xi
di = xi – 15
Signo (di)
Rango (冟 di 冟)
45 7 23 15 30 16 28 40 50 32
30 –8 8 0 15 1 13 25 35 17
+ – +
8,0 2,5 2,5
+ + + + + +
5,0 1,0 4,0 7,0 9,0 6,0
Para calcular los rangos, se ordenan los valores 冟 di 冟 y se asignan sus números de orden de menor a mayor. Como hay dos valores 冟 di 冟 repetidos (correspondientes a las © Ediciones Pirámide
245
Ejercicios de inferencia estadística y muestreo observaciones 7 y 23), se les asigna a cada una el rango medio de los rangos que les corresponderían si fueran diferentes. Así: Tˆ + = «Suma de rangos de las Di > 0» = = 8 + 2,5 + 5 + 1 + 4 + 7 + 9 + 6 = = 42,5 La región crítica también es bilateral en este caso: /2 = 0,05
/2 = 0,05 k′ /2
k
/2
siendo k¢a/2 y k a/2 el mayor y menor entero, respectivamente, que verifican: P(T + kα′ / 2 ) α / 2 = 0,05 P(T + kα / 2 ) α / 2 = 0,05 Utilizando la tabla 21 con n = 9: P(T + kα′ / 2 ) 0,05 ⇒ kα′ / 2 = 8 P(T + kα / 2 ) 0,05 = 1 − 0,95 ⇒ kα / 2 = 37
k′ /2 = 8
k
/2
= 37
Como T + = 42,5 k a/2, entonces la decisión a tomar, utilizando un 10 % de significación, vuelve a rechazar la hipótesis nula H0 : Me = 15 días. b) Definimos ahora la variable aleatoria Y, que corresponde al tiempo de entrega en la empresa de la competencia. Suponemos que X e Y son variables aleatorias continuas y que los datos muestrales han sido recogidos de manera aleatoria y forman dos muestras independientes. 246
© Ediciones Pirámide
Contraste de hipótesis no paramétrico Sean F y G las correspondientes funciones de distribución de X e Y. Para contrastar si los tiempos de entrega son similares, planteamos las siguientes hipótesis: H 0 : F ( z ) = G( x ) H1: F( z ) ≠ G( x ) Puesto que indica la utilización de las funciones de distribución empíricas, debemos realizar el test de Kolmogorov-Smirnov para dos muestras, cuyo estadístico de prueba es: Dn1 , n2 = máx 冟Fn1 ( x ) − Gn2 ( x )冟 siendo: Fn1 ( x ) =
N1 ( x ) n1
y
Gn2 ( x ) =
N2 ( x ) n2
y Ni (x) el número de observaciones de la variable i que son menores o iguales que x. La región crítica de este contraste es: = 0,10 Dn1, n2,
P( Dn1 , n2 > Dn1 , n2 ; α / H0 ) = α = 0,10 Utilizando la tabla 18 con n1 = 10, n2 = 6, N1 = mín (n1, n2) = 6 y N2 = máx (n1, n2) = 10, tendremos el valor crítico: Dn1 , n2 ; α =
17 = 0,567 30
Para calcular el valor experimental del estadístico de prueba organizamos los cálculos en la siguiente tabla: © Ediciones Pirámide
247
Ejercicios de inferencia estadística y muestreo xi
yi
Fn1(x) = N1(x)/10
Gn2(x) = N2(x)/6
冟 Fn (x) – Gn (x) 冟
1/10 = 0,10 1/10 = 0,10 2/10 = 0,20 3/10 = 0,30 3/10 = 0,30 3/10 = 0,30 3/10 = 0,30 4/10 = 0,40 5/10 = 0,50 6/10 = 0,60 7/10 = 0,70 8/10 = 0,80 9/10 = 0,90 10/10 = 1,00
0 1/6 = 0,167 2/6 = 0,333 2/6 = 0,333 3/6 = 0,500 4/6 = 0,667 5/6 = 0,883 5/6 = 0,883 5/6 = 0,883 6/6 = 1,000 6/10 = 1,000 6/10 = 1,000 6/10 = 1,000 6/10 = 1,000
0,100 0,067 0,133 0,033 0,200 0,367 0,583 0,483 0,383 0,400 0,300 0,200 0,100 0,000
7 15 16
10 15 17 20 22
23 28 30 32 40 45 50
30
1
2
De esta tabla, se tiene que: Dˆ n1 , n2 = máx 冟Fn1 ( x ) − Gn2 ( x )冟 = 0,533 x
y como es menor que el valor crítico: 17 Dˆ n1 , n2 = 0,533 < = 0,567 30 entonces, con un nivel de significación del 10 %, no se tiene evidencia para rechazar H0. No puede rechazarse la hipótesis correspondiente a tiempos de entrega similares.
248
© Ediciones Pirámide
4
Análisis de la varianza
Análisis de la varianza
Un diario de tirada nacional publica en su suplemento dominical un estudio sobre el perfil y la situación económica de los afiliados de los tres partidos más importantes del espectro político actual. Para su elaboración, se entrevistó a cinco militantes de cada uno de los partidos, seleccionados aleatoriamente. Entre otras cuestiones de interés, los entrevistados facilitaron la cifra correspondiente a la renta media mensual de la familia a la que pertenecen, que resultó ser, en euros: Ejercicio 4.1
Partido A
Partido B
Partido C
1.260 1.790 2.480 2.350 2.460
1.570 1.340 1.450 5.670 3.270
2.340 1.110 2.450 1.230 2.310
En el apartado de conclusiones se recogía la siguiente información: «Existen grandes diferencias de renta entre los afiliados a partidos de uno y otro signo...». Suponiendo normalidad y homocedasticidad de los datos, y con un 5 % de significación, ¿sería estadísticamente correcta esta afirmación? Representamos como Xi la variable aleatoria que recoge la renta media mensual, en euros, de la familia de un militante en el partido político i (i = 1 (A), 2 (B), 3 (C)): Solución
Xi ~ N(mi, s) pues son normales y homocedásticas. Además, por la propia definición de cada Xi, podría decirse que estas variables son independientes. © Ediciones Pirámide
249
Ejercicios de inferencia estadística y muestreo En este ejercicio se pretende contrastar las hipótesis: H0 : μ1 = μ2 = μ3 H1: μi ≠ μ j
para algún i ≠ j
para lo que pueden utilizarse los métodos del análisis de la varianza, pues las variables verifican los supuestos previos exigidos. El estadístico de prueba para realizar el contraste es: F=
CME CM D
~ Ᏺ k − 1, n − k ≡ Ᏺ 3 − 1,15 − 3 ≡ Ᏺ 2,12
H0
pues k = 3 y n = 15. La región crítica puede representarse gráficamente1 como:
1
Ᏺ2,12
= 0,05
0,95
F2, 12; 1– = 3,89
donde el valor crítico se ha obtenido a partir de la tabla 11. Pasamos a calcular el valor del estadístico experimental. 1 Aunque en las tablas estadísticas se representa la forma genérica más habitual de la función de densidad de una distribución Ᏺ de Snedecor:
Ᏺn1, n2
en cada uno de los ejercicios se ha representado su forma correspondiente a los grados de libertad concretos.
250
© Ediciones Pirámide
Análisis de la varianza x1j
x2j
x3j
x21j
x22j
x23j
01.260 01.790 02.480 02.350 03.460
01.570 01.340 01.450 05.670 03.270
2.340 1.110 2.450 1.230 2.310
01.587.600 03.204.100 06.150.400 05.522.500 11.971.600
02.464.900 01.795.600 02.102.500 32.148.900 10.692.900
05.475.600 01.232.100 06.002.500 01.512.900 05.336.100
11.340
13.300
9.440
28.436.200
49.204.800
19.559.200
k
T=
ni
∑ ∑ xij = 11.340 + 13.300 + 9.440 = 34.080
i =1 j =1 k
ni
∑ ∑ xij2 = 28.436.200 + 49.204.800 + 19.559.200 = 97.200.200
i =1 j =1
k
SCT =
i =1 j =1 k
SCD =
ni
∑ ∑ xij2 − ni
Ti 2 34.080 2 = 97.200.200 − = 19.770.440 n 15
冤
k
i =1 j =1
冥
11.340 2 13.300 2 9.440 2 Ti 2 = 97.200.200 − + + = 18.280.360 5 5 5 i = 1 ni
∑ ∑ xij2 − ∑
SCE = SCT − SCD = 19.770.440 − 18.280.360 = 1.490.080 Tabla ANOVA para una clasificación simple Fuente de variación
Dentro de los partidos (error aleatorio)
Entre partidos
Sumas de cuadrados
SCD = 18.280.360
Grados de libertad
n – k = 15 – 3 = 12
Cuadrados medios
CM D =
SCD = n−k
= 1.523.363,33
SCE = 1.490.080
k–1=3–1=2
CME =
SCE = k −1
Fexp
CME = CM D = 0, 4891
= 745.040
Total
SCT = 19.770.404
n – 1 = 15 – 1 = 14
Como: Fexp = 0, 4891 < 3,89 = F2, 12;1 − α © Ediciones Pirámide
251
Ejercicios de inferencia estadística y muestreo entonces no se rechaza la hipótesis nula H0: m1 = m2 = m3, por lo que, al 5 % de significación, la afirmación realizada por el diario no sería estadísticamente correcta, pues los datos muestrales no presentan evidencia suficiente para rechazar la hipótesis de igualdad de medias. En un restaurante se ha realizado un proceso de selección para contratar a un camarero profesional altamente cualificado. De entre todos los candidatos presentados, cuatro de ellos fueron seleccionados para realizar las pruebas finales. Una de estas pruebas consistía en desempeñar el puesto de trabajo durante cierto número de horas de un día determinado. El dueño del restaurante considera que podría utilizar las cantidades entregadas como propinas para evaluar el grado de satisfacción de los clientes y la calidad del servicio prestado por cada camarero. Los resultados correspondientes a esta prueba se recogen en la tabla siguiente, donde los datos expresan el porcentaje de propina entregado sobre el importe total de la factura de distintos clientes. Ejercicio 4.2
Señor Ruiz
Señor Pérez
Señor González
Señor Ortega
08,0 07,5 10,9 10,0 12,0 06,5 10,0
10,0 09,5 11,4 10,3 12,0
08,5 05,0 15,0 11,1 10,5 07,0 11,0
13,0 10,5 09,5 12,0 16,0 08,0
Suponiendo que los porcentajes de propinas sobre el importe total de la factura pueden considerarse normalmente distribuidos, y utilizando un nivel de significación del 10 %: a) ¿Puede aceptarse la hipótesis de homocedasticidad de las distribuciones correspondientes al porcentaje de propina entregado a cada uno de los camareros? b) ¿Puede decirse que los cuatro candidatos están igualmente cualificados para este tipo de trabajo?
Solución
Sean las variables aleatorias:
Xi = «Porcentaje de propina sobre el importe total de una factura recibido por el candidato i». con i = 1, 2, 3, 4, correspondientes a los señores Ruiz, Pérez, González y Ortega, respectivamente. Estas variables tienen distribuciones normales: Xi ~ N(mi, si) y, además, pueden considerarse independientes. 252
© Ediciones Pirámide
Análisis de la varianza a) Para comprobar si las variables pueden considerarse homocedásticas, realizamos el test de Bartlett de homogeneidad de varianzas: H0 : σ 12 = σ 22 = σ 32 = σ 42 H1: σ i2 ≠ σ 2j
para algún i ≠ j
El estadístico de prueba para contrastar estas hipótesis viene dado por: k
B=
(n − k ) ln CM D − ∑ (ni − 1) ln Si2 i =1
1 1+ 3( k − 1)
冢
k
1 1 ∑ n −1 − n − k i =1 i
冣
~ χ k2 − 1 ≡ χ 42 − 1 ≡ χ 32
H0
y rechazaremos H0, con un nivel de significación a = 0,10, si: Bexp > χ k2 − 1;1 − α = χ 32;1 − α donde este valor crítico verifica que: P[ χ 32 > χ 32, 1 − α ] = α = 0,10 Por tanto, utilizando la tabla 9, se tiene:
χ 32, 1 − α = 6,25 y, gráficamente, la región crítica queda representada por: χ23
1–
= 0,90 = 0,10
χ23, 1 – = 6,25 © Ediciones Pirámide
253
Ejercicios de inferencia estadística y muestreo Para calcular el valor experimental de B, debemos encontrar en primer lugar las varianzas muestrales y el valor del cuadrado medio dentro de los grupos. Como: s2 =
1 n 1 ( xi − x ) 2 = ∑ n − 1 i =1 n −1
冤∑ xi2 − n 冢∑ xi 冣 冥 n
n
1
i =1
2
i =1
entonces:
冤
冥
冤
冥
冤
冥
s12 =
(64,9)2 1 = 3,9324 625,31 − 7 −1 7
s22 =
(53,2)2 1 570,3 − = 1,063 5 −1 5
s32 =
(68,1)2 1 725,71 − = 10,5324 7 −1 7
s42 =
(69)2 1 833,5 − =8 6 −1 6
冤
SCD n−k
CM D =
k
SCD =
冥
ni
k
Ti 2 i = 1 ni
∑ ∑ xij2 − ∑
i =1 j =1
Por tanto, construimos la siguiente tabla:
254
x1j
x2j
x3j
x4j
x21j
x22j
x23j
x24j
08,0 07,5 10,9 10,0 12,0 06,5 10,0
10,0 09,5 11,4 10,3 12,0
08,5 05,0 15,0 11,1 10,5 07,0 11,0
13,0 10,5 09,5 12,0 16,0 08,0
064,00 056,25 118,81 100,00 144,00 042,25 100,00
100,00 090,25 129,96 106,09 144,00
072,25 025,00 225,00 123,21 110,25 049,00 121,00
169,00 110,25 090,25 144,00 256,00 064,00
64,9
53,2
68,1
69,0
625,31
570,30
725,71
833,50
© Ediciones Pirámide
Análisis de la varianza y así: k
ni
∑ ∑ xij2 = 625,31 + 570,3 + 725,71 + 833,5 = 2.754,82
i =1 j =1
SCD = 2.754,82 − CM D =
冤
冥
64,9 2 53,2 2 68,12 69 2 + + + = 131,0406 7 5 7 6
SCD 131,0406 = = 6,24 n−k 25 − 4
con k
n=
∑ ni = 7 + 5 + 7 + 6 = 25
i =1
k=4 Sustituyendo estos valores en la expresión del estadístico de Bartlett, tenemos: Bexp =
=
(25 − 4) ln (6,24) − [6 ⋅ ln 3,9324 + 4 ⋅ ln 1,063 + 6 ⋅ ln 10,5324 + 5 ⋅ ln 8]
冤
1 1 1 1 1 1 1+ + + + − 3( 4 − 1) 6 4 6 5 25 − 4
冥
=
5, 4668 = 5,0539 1,0817
Como: Bexp = 5,0539 < 6,25 = χ 32, 1 − α entonces, al 10 % de significación, no se rechaza H0, la hipótesis de homogeneidad de varianzas, por lo que parece aceptable la hipótesis de homocedasticidad de las variables. b) Los cuatro candidatos estarán igualmente cualificados si la calidad del servicio prestado y el grado de satisfacción de los clientes es el mismo para todos; como se ha decidido medir estas cualidades a través de las propinas recibidas, los candidatos estarán © Ediciones Pirámide
255
Ejercicios de inferencia estadística y muestreo igualmente cualificados si los porcentajes medios de propinas son iguales para todos ellos. Por tanto, debemos contrastar las hipótesis: H0 : μ1 = μ2 = μ3 = μ 4 H1: ∃ (i, j ), i ≠ j /μi ≠ μ j y puesto que las variables aleatorias Xi son normales, homocedásticas e independientes, utilizaremos las técnicas del ANOVA. Así pues, el estadístico de prueba para realizar el contraste será: F=
CME CM D
~ Ᏺ k − 1, n − k ≡ Ᏺ 4 − 1, 25 − 4 ≡ Ᏺ 3, 21
H0
pues k = 4 y n = 25. La región crítica del contraste se puede representar gráficamente como:
Ᏺ3, 21
1–
= 0,90 = 0,10
F3, 21; 1 – = 2,36
donde el valor crítico ha sido obtenido a partir de la tabla 11, de manera que verifique: P[Ᏺ 3, 21 > F3, 21;1 − α ] = 0,10 Para obtener el valor experimental calculamos en primer lugar las sumas de cuadrados y construimos la tabla ANOVA. Algunos de los cálculos necesarios ya han sido realizados en el apartado anterior: 256
© Ediciones Pirámide
Análisis de la varianza k
T=
∑ Ti = 64,9 + 53,2 + 68,1 + 69 = 255,2
i =1 k
SCT =
i =1 j =1 k
SCD =
ni
∑ ∑ xij2 − ni
T2 (255,2)2 = 2.754,82 − = 149,7384 n 25 k
Ti = 131,0406 i = 1 ni
∑ ∑ xij2 − ∑
i =1 j =1
SCE = SCT − SCD = 18,6978 Tabla ANOVA para una clasificación simple Fuente de variación
Entre grupos
Sumas de cuadrados
SCE = 18,6978
Grados de libertad
k–1=3
Cuadrados medios
CME =
SCE = k −1
= 6,2326
Dentro de grupos
SCD = 131,0406
n – k = 21
CM D =
SCD = n−k
Fexp
CME = CM D = 0,9988
= 6,2400
Total
SCT = 149,7384
n – 1 = 24
Como: Fexp = 0,9988 < F3, 21;1 − α = 2,36 entonces, al 10 % de significación, no se rechaza H0, es decir, los datos muestrales, al 10 % de significación, no presentan evidencia suficiente para decir que existen diferencias significativas entre las cualificaciones de los cuatro candidatos a camareros. El Instituto Nacional de Estadística de un determinado país desea comprar una potente estación de servicio para el tratamiento de sus datos. Tres distribuidores de ordenadores independientes, Infomat, S. A., Servired, S. A., y Compumat, S. A., presentaron sus ofertas al instituto, que fueron muy similares en cuanto a precios, garantía, servicios posventa y resto de especificaciones. Para decidir a qué distribuidor comprar la estación de servicio, el instituto solicitó a cada uno de ellos que Ejercicio 4.3
© Ediciones Pirámide
257
Ejercicios de inferencia estadística y muestreo ejecutara cierto programa con cinco conjuntos similares de datos. Los tiempos de ejecución, en minutos, aparecen en la siguiente tabla: Distribuidor
Conjunto de datos
Infomat, S. A.
Servired, S. A.
Compumat, S. A.
1 2 3 4 5
67 50 55 72 67
52 56 43 66 68
40 52 44 47 35
Suponiendo que los tiempos de ejecución de este programa pueden considerarse normalmente distribuidos, y utilizando un nivel de significación del 1 %, ¿pueden apreciarse diferencias significativas en los ordenadores de estos tres distribuidores?
Solución
Definimos las variables:
Xi = «Tiempo de ejecución del programa en el ordenador del distribuidor i». siendo i = 1, 2, 3 correspondientes a los distribuidores Infomat, S. A., Servired, S. A., y Compumat, S. A., respectivamente. Se supone que estas variables están normalmente distribuidas, por tanto: Xi
~ N ( μi , σ i ),
i = 1, 2, 3
y, además, son independientes. Los ordenadores de los tres distribuidores pueden considerarse iguales si los tiempos medios de ejecución del programa son similares. Así, tendremos que contrastar la hipótesis m1 = m2 = m3. Para poder realizar un análisis de la varianza, veamos, en primer lugar, si puede admitirse la hipótesis de homocedasticidad; es decir, comprobamos si las variables aleatorias Xi presentan homogeneidad de varianzas. Para ello, aplicamos el test de Bartlett para contrastar las hipótesis. H0 : σ 12 = σ 22 = σ 32 H1: σ i2 ≠ σ 2j 258
para algún i ≠ j © Ediciones Pirámide
Análisis de la varianza El estadístico de prueba proporcionado por el test de Bartlett es: k
B=
(n − k ) ln CM D − ∑ (ni − 1) ln Si2 i =1
1+
1 3( k − 1)
冢∑ n 1− 1 − n −1 k 冣 k
i =1
i
cuya distribución bajo H0 es: B
~ χ k2 − 1 ≡ χ 32− 1 ≡ χ 22
H0
La región crítica, con un 1 % de significación, viene determinada por los valores del estadístico, tales que: P[ B > χ 22;1 − α ] = α = 0,01 ⇒ χ 22;1 − α = 9,21 donde el valor crítico ha sido buscado en la tabla 9. Gráficamente:
χ22
= 0,01
0,99
χ22,1– = 9,21
Con lo cual, rechazaremos la homogeneidad de varianzas si: Bexp > 9,21 © Ediciones Pirámide
259
Ejercicios de inferencia estadística y muestreo Calculemos ahora el valor experimental del estadístico. Para calcular las varianzas muestrales, utilizamos que: s2 =
1 n 1 ( xi − x ) 2 = ∑ n − 1 i =1 n −1
冤
n
∑ xi2 −
i =1
1 n
冢∑ x 冣 冥 n
2
i =1
i
Así:
冤
冥
冤
冥
冤
冥
s12 =
1 (311)2 19.678 − = 85,7 4 5
s22 =
1 (285)2 = 106 16.669 − 4 5
s32 =
1 (218)2 9.674 − = 42,3 4 5 k
SCD = CM D =
ni
冤
k
冥
3112 2852 2182 Ti 2 = 46.030 − + + = 936 5 5 5 i = 1 ni
∑ ∑ xij2 − ∑
i =1 j =1
SCD 936 = = 78 n−k 12
Sustituyendo en la expresión de B, se tiene: Bexp =
(15 − 3) ln 78 − [ 4 ⋅ ln 85,7 + 4 ⋅ ln 106 + 4 ⋅ ln 42,3] 1+
冢
1 1 1 1 1 + + − 3(3 − 1) 4 4 4 15 − 3
冣
=
0,8442 = 0,7598 1111 ,
y como: Bexp = 0,7598 < 9,21 = χ 22;1 − α entonces no se rechaza la hipótesis nula de homogeneidad de varianzas y podemos admitir la hipótesis de homocedasticidad, de modo que las variables Xi verifican: Xi Xi Xi 260
~ N ( μi , σ i ),
i = 1, 2, 3 independientes homocedásticas (σ 12 = σ 22 = σ 32 = σ 2 ) © Ediciones Pirámide
Análisis de la varianza Por tanto, realizamos un ANOVA para contrastar las hipótesis: H0 : μ1 = μ2 = μ3 H1: ∃ (i, j ), i ≠ j, tal que μi ≠ μ j El estadístico del contraste viene dado por: CME CM D
F=
~ Ᏺ k − 1, n − k ≡ Ᏺ 3 − 1,15 − 3 ≡ Ᏺ 2,12
H0
Para calcular el valor experimental de este estadístico, necesitamos las sumas de cuadrados. Realizamos los cálculos correspondientes en la siguiente tabla: x1j
x2j
x3j
x21j
x22j
x23j
067 050 055 072 067
052 056 043 066 068
040 052 044 047 035
04.489 02.500 03.025 05.184 04.489
02.704 03.136 01.849 04.356 04.624
1.600 2.704 1.936 2.209 1.225
311
285
218
19.687
16.669
9.674
Por tanto: k
T=
ni
∑ ∑ xij = 311 + 285 + 218 = 814
i =1 j =1 k
ni
∑ ∑ xij2 = 19.687 + 16.669 + 9.674 = 46.030
i =1 j =1
k
SCT =
ni
∑ ∑ xij2 −
i =1 j =1
T2 814 2 = 46.030 − = 1.856,9333 n 15
k
SCE =
Ti 2 T 2 3112 2852 2182 814 2 − = 920,9333 − = + + n 5 15 5 5 i = 1 ni
∑
SCD = SCT − SCE = 936 © Ediciones Pirámide
261
Ejercicios de inferencia estadística y muestreo Construimos la tabla ANOVA: Fuente de variación
Sumas de cuadrados
Grados de libertad
Entre distribuidores
SCE = 920,9333
Dentro de distribuidores
SCD = 936
Cuadrados medios
CME =
k–1=3–1=2
SCE = k −1
= 460, 4667 CM D =
n – k = 15 – 3 = 12
SCD = n−k
Fexp
CME = CM D = 5,9034
= 78
Total
SG = 1.856,9333
n – 1 = 15 – 1 = 14
La región crítica para a = 0,01 viene expresada gráficamente como:
Ᏺ2,12
0,99
= 0,01
F2, 12; 1– = 6,93
Como: Fexp = 5,9034 < F2, 12;1 − α = 6,93 entonces, al 1 % de significación, no se rechaza H0, por lo que no se aprecian diferencias significativas en los ordenadores de estos tres distribuidores. En cierta región se pretende realizar un estudio comparativo sobre el precio del litro de gasolina sin plomo en las gasolineras situadas en áreas comerciales, residenciales y zonas industriales. Para realizar el estudio se ha elegido al azar un determinado número de gasolineras en cada una de estas zonas y se ha Ejercicio 4.4
262
© Ediciones Pirámide
Análisis de la varianza anotado el precio medio semanal, en euros, del litro de gasolina sin plomo. Los datos recogidos aparecen en la siguiente tabla: Zona comercial
Zona residencial
Zona industrial
1,097 1,122 1,105 1,119 1,089 1,102 1,095
1,158 1,145 1,161 1,153
1,138 1,176 1,159 1,093 1,124 1,089
Admitiendo como ciertas las hipótesis de independencia, normalidad y homocedasticidad en las variables estudiadas, ¿señalan los datos diferencias significativas en el precio de la gasolina sin plomo en las distintas zonas? Nivel de significación: 2,5 %.
Representamos el precio medio semanal del litro de gasolina sin plomo en una gasolinera de la zona i mediante la variable aleatoria Xi, con i = 1 (zona comercial), 2 (zona residencial) y 3 (zona industrial). Estas variables se distribuyen normalmente: Solución
~ N ( μ1, σ 1 ) X2 ~ N ( μ 2 , σ 2 ) X3 ~ N ( μ3 , σ 3 ) X1
son independientes y, además, homocedásticas, por lo que:
σ 12 = σ 22 = σ 32 = σ 2 con s una cantidad constante. Si no hubiera diferencia entre los precios de la gasolina sin plomo en estas tres zonas, las medias de las tres variables aleatorias deberían ser iguales:
μ1 = μ2 = μ3 © Ediciones Pirámide
263
Ejercicios de inferencia estadística y muestreo Por tanto, debemos contrastar las hipótesis: H0 : μ1 = μ2 = μ3 H1: ∃ (i, j ), i ≠ j /μi ≠ μ j y como las variables Xi, i = 1, 2, 3 son normales, independientes y homocedásticas, aplicaremos el análisis de la varianza. El estadístico de prueba para realizar el contraste es: F=
CME CM D
~ Ᏺ k − 1, n − k ≡ Ᏺ 3 − 1,17 − 3 ≡ Ᏺ 2,14
H0
ya que tenemos k = 3 variables y n = n1 + n2 + n3 = 7 + 4 + 6 = 17 datos. La región crítica, gráficamente, quedará como:
Ᏺ2,14
0,975
= 0,025
F2, 14; 1– = 4,86
donde el valor crítico F2,14; 1 – a ha sido obtenido a partir de la tabla 11, de tal forma que verifique: P[Ᏺ 2, 14 F2, 14;1 − α ] = 1 − α = 0,975 Para obtener el valor experimental, calculamos en primer lugar las sumas de cuadrados: k
SCT = 264
ni
k
ni
∑ ∑ ( xij − x )2 = ∑ ∑ xij2 −
i =1 j =1
i =1 j =1
T2 n © Ediciones Pirámide
Análisis de la varianza k
SCD =
∑ ∑ ( xij − xi )2 =
i =1 j =1 k
SCE =
ni
ni
k
ni
k
Ti 2 i = 1 ni
∑ ∑ xij2 − ∑
i =1 j =1 k
Ti 2 T 2 − = SCT − SCD n i = 1 ni
∑ ∑ ( xi − x ) 2 = ∑
i =1 j =1
Realizamos las operaciones en la siguiente tabla: Zona comercial
Zona residencial
Zona industrial
x1j
x21j
x2j
x22j
x3j
x23j
1,097 1,122 1,105 1,119 1,089 1,102 1,095
1,203409 1,258884 1,221025 1,252161 1,185921 1,214404 1,199025
1,158 1,145 1,161 1,153
1,340964 1,311025 1,347921 1,329409
1,138 1,176 1,159 1,093 1,124 1,089
1,295044 1,382976 1,343281 1,194649 1,263376 1,185921
7,729
8,534829
4,617
5,329319
6,779
7,665247
Así, tenemos que: T1 = 7,729
;
T2 = 4,617
;
T3 = 6,779
k
T=
∑ Ti = 19,125
i =1 k
ni
∑ ∑ xij2 = 8,534829 + 5,329319 + 7,665247 = 21,529395
i =1 j =1
SCT = 21,529395 −
19,1252 = 0,01377 17
SCD = 21,529395 −
冤
冥
7,729 2 4,6172 6,779 2 + + = 0,00716244 7 4 6
SCE = SCT − SCD = 0,00660756 y con estos valores construimos la tabla ANOVA: © Ediciones Pirámide
265
Ejercicios de inferencia estadística y muestreo Tabla ANOVA para una clasificación simple Fuente de variación
Sumas de cuadrados
Grados de libertad
Dentro de los grupos
SCD = 0,00716244
n – k = 17 – 3 = 14
Entre grupos
Cuadrados medios
CM D =
SCD = n−k
= 0,00051160
SCE = 0,00660756
k–1=3–1=2
CME =
SCE = k −1
Fexp
CME = CM D = 6, 4577
= 0,003303780
Total
SCT = 0,013770
n – 1 = 17 – 1 = 16
Como Fexp = 6, 4577 > 4,86 = F2, 14;1 − α entonces, al 2,5 % de significación, los datos muestrales presentan evidencia suficiente para rechazar la hipótesis nula de igualdad de medias. Por tanto, al 2,5 % de significación, los datos señalan diferencias significativas en los precios de la gasolina sin plomo en las diferentes zonas. Teniendo en cuenta los resultados del ejercicio anterior, y con el mismo nivel de significación, indique entre qué zonas se presentan diferencias significativas en cuanto al precio de la gasolina sin plomo. Ejercicio 4.5
Como en el ejercicio anterior se ha rechazado la hipótesis nula al realizar el análisis de la varianza, los datos señalan diferencias significativas en los precios de la gasolina entre las distintas zonas. Para ver qué zonas presentan diferencias debemos realizar los siguientes contrastes: Solución
a)
H0 : μ1 = μ2 H1: μ1 ≠ μ2
b)
H0 : μ1 = μ3 H1: μ1 ≠ μ3
c)
H0 : μ 2 = μ 3 H1: μ2 ≠ μ3
266
© Ediciones Pirámide
Análisis de la varianza mediante el método de comparaciones múltiples de Scheffé. Los estadísticos de prueba a utilizar serán: F=
( Xi − X j )2
冢
SCD 1 1 + ( k − 1) n − k ni n j
冣
~ Ᏺ k − 1, n − k ≡ Ᏺ 2,14
H0
donde i = 1, 2, 3; j = 1, 2, 3, según se trate de los contrastes a), b) y c). La región crítica es la misma para los contrastes a), b) y c), y como la distribución del estadístico es idéntica a la del análisis de varianza, entonces la región crítica será la misma del ejercicio anterior para los tres contrastes:
Ᏺ2,14
= 0,025
0,975
F2, 14; 1 – = 4,86
Calculamos los valores experimentales:
冢
冣
7,729 4,617 2 − 7 4 (a) Fexp = = 6,2460 0,00716244 1 1 (3 − 1) + 17 − 3 7 4
冢
冢
冣
冣
7,729 6,779 2 − 7 6 (b) Fexp = = 2,0839 0,00716244 1 1 (3 − 1) + 17 − 3 7 6
冢
冢
冣
冣
4,617 6,779 2 − 4 6 (c) = 1,3984 Fexp = 0,00716244 1 1 (3 − 1) + 17 − 3 4 6
冢
© Ediciones Pirámide
冣
267
Ejercicios de inferencia estadística y muestreo Por tanto, como: (a) = 6,2460 > 4,86 = F2, 14;1 − α Fexp
entonces, rechazamos H0 en el contraste a), es decir, el precio de la gasolina de las zonas comerciales y residenciales presenta diferencias significativas: (b) Fexp = 2,0839 < 4,86 = F2, 14;1 − α
luego no se rechaza H0 en el contraste b), es decir, el precio de la gasolina no presenta diferencias significativas entre las zonas comerciales e industriales: (c) Fexp = 1,3984 < 4,86 = F2, 14;1 − α
No se rechaza H0 en el contraste c) y, por tanto, el precio de la gasolina no presenta diferencias significativas entre las zonas residenciales e industriales. El departamento de marketing de una empresa desea estudiar la repercusión de sus campañas publicitarias en las cifras de ventas de uno de sus productos. Se realizaron tres campañas diferentes, cada una en una provincia de la misma comunidad autónoma. Las tres campañas tenían diferentes características en cuanto al medio de comunicación utilizado. La campaña A se centraba en la prensa escrita, la B en las emisoras de radio y la C en anuncios en vallas publicitarias. Durante los tres primeros meses, las cifras de ventas (en cientos de unidades) en cinco tiendas, seleccionadas al azar y de manera independiente en cada provincia, fueron las siguientes: Ejercicio 4.6
Campañas publicitarias A (prensa)
B (radio)
C (vallas)
30 20 35 42 60
85 73 92 86 75
40 28 39 41 50
a) Comprobar, con un nivel de significación del 10 %, si las cifras de ventas difieren según el tipo de campaña aplicado. 268
© Ediciones Pirámide
Análisis de la varianza b) Suponiendo normalidad, independencia y homocedasticidad de las diferentes distribuciones de las cifras de ventas en cada provincia, ¿podemos ahora admitir, con un 1 % de significación, que el tipo de campaña utilizado repercute en las ventas del artículo? c) ¿Se puede afirmar que las ventas de las tiendas situadas en la provincia en la que se ha aplicado la campaña A son diferentes a las de las tiendas situadas en la provincia en la que se ha aplicado la campaña C? ¿Podría mantener la misma conclusión al 5 % de significación?
Solución
Definimos las variables aleatorias:
Xi = «Cifra de ventas (en cientos de unidades) en una tienda de la provincia donde se ha realizado la campaña publicitaria i». i = 1 (A: prensa escrita), 2 (B: emisoras de radio), 3 (C: vallas publicitarias). a) Denotamos por Fi la función de distribución correspondiente a la variable aleatoria Xi. Si las cifras de ventas no difieren según el tipo de campaña utilizado, las funciones de distribución serían idénticas. Por tanto, podemos plantear el contraste: H0 : F1 ( x ) = F2 ( x ) = F3 ( x ) H1: ∃ (i, j )/ Fi ( x ) ≠ Fj ( x )
;
i≠j
que puede resolverse mediante el test de Kruskall-Wallis suponiendo que las variables aleatorias son continuas y las muestras han sido obtenidas independientemente unas de otras. El estadístico de prueba de este contraste es:
H=
k 12 Ri2 ∑ − 3(n + 1) n(n + 1) i = 1 ni
con n = n1 + n2 + n3 = 5 + 5 + 5 = 15 Ri = © Ediciones Pirámide
ni
∑ rij = Suma de rangos de la muestra i,
i = 1, 2, 3
j =1
269
Ejercicios de inferencia estadística y muestreo La hipótesis nula se rechazará, al nivel de significación a = 0,10, si: Hˆ hα = h0,10 donde este valor crítico es tal que: P( H hα ) = α = 0,10 Utilizando la tabla 23 para k = 3 y con n1 = n2 = n3 = 5, tenemos que: P( H 4,56) = 0,10 Por tanto, h a = 4,56. Para obtener el valor experimental, Hˆ , del estadístico de Kruskall-Wallis, ordenamos las observaciones muestrales de menor a mayor asignando a cada una su rango correspondiente; si hubiera observaciones repetidas, entonces se les asignaría el rango medio de los que les corresponderían si fuesen diferentes: Provincia
Observaciones
Rango
r1j
A C A A C C C A C A B B B B B
20 28 30 35 39 40 41 42 50 60 73 75 85 86 92
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15
01
R = 120
R1 = 26
r2j
r3j
2 03 04 5 6 7 08 9 10 11 12 13 14 15 R2 = 65
R3 = 29
Entonces: Hˆ = 270
冤
冥
12 26 2 652 29 2 + + − 3(15 + 1) = 9, 42 15(15 + 1) 5 5 5 © Ediciones Pirámide
Análisis de la varianza y como: Hˆ = 9,24 > 4,56 = h0,10 rechazamos la hipótesis nula al 10 % de significación, es decir, los datos muestrales presentan evidencia suficiente, al 10 % de significación, para decir que las cifras de ventas difieren según el tipo de campaña aplicada. b) Si se supone normalidad, independencia y homocedasticidad en las variables Xi, podemos utilizar las técnicas del análisis de varianza (ANOVA) para comparar las tres distribuciones de cifras de ventas: Xi Xi
~ N ( μi , σ i )
Xi
independientes homocedásticas (σ 12 = σ 22 = σ 32 = σ 2 )
En esta situación, si las campañas publicitarias no influyeran en las ventas, se tendría que las tres distribuciones serían idénticas, es decir, m1 = m2 = m3. Por tanto, planteamos las hipótesis: H0 : μ1 = μ2 = μ3 H1: ∃ (i, j ), i ≠ j /μi ≠ μ j El estadístico de prueba utilizado en un ANOVA es: F=
CME CM D
~ Ᏺ k − 1, n − k ≡ Ᏺ 3 − 1,15 − 3 ≡ Ᏺ 2,12
H0
con k=3 n = n1 + n2 + n3 = 15 Rechazaremos la hipótesis nula de igualdad de medias al 1 % de significación (a = 0,01) si: Fexp > F2, 12, 1 − α © Ediciones Pirámide
271
Ejercicios de inferencia estadística y muestreo donde el valor crítico es tal que: P[ F2, 12 F2, 12;1 − α ] = 1 − α = 1 − 0,01 = 0,99 Utilizando la tabla 11: F2, 12;1 − α = 6,93 Gráficamente:
Ᏺ2,12
= 0,01
0,99
F2, 12; 1– = 6,93
A continuación, realizamos las operaciones necesarias para construir la tabla ANOVA y calcular el valor experimental del estadístico del contraste: x1j
x2j
x3j
x21j
x22j
x23j
030 020 035 042 060
085 073 092 086 075
040 028 039 041 050
0.900 0.400 1.225 1.764 3.600
07.225 05.329 08.464 07.396 05.625
1.600 0.784 1.521 1.681 2.500
187
411
198
7.889
34.039
8.086
;
T3 = 198
k
T1 = 187 k
;
T2 = 411
;
T=
∑ Ti = 796
i =1
ni
∑ ∑ xij2 = 7.889 + 34.039 + 8.086 = 50.014
i =1 j =1
272
© Ediciones Pirámide
Análisis de la varianza k
SCT =
i =1 j =1 k
SCD =
ni
∑ ∑ xij2 − ni
T2 796 2 = 50.014 − = 7.772,9333 n 15
冤
k
i =1 j =1
冥
Ti 2 1872 4112 1982 = 50.014 − + + = 1.395,2 5 5 5 i = 1 ni
∑ ∑ xij2 − ∑ k
SCE =
Ti 2 T 2 ∑ − n = SCT − SCD = 7.772,9333 − 1.395,2 = 6.377,7333 i = 1 ni Tabla ANOVA para una clasificación simple
Fuente de variación
Sumas de cuadrados
Dentro de las provincias (dentro de las campañas)
SCD = 1.395,2
Entre provincias (entre campañas)
SCE = 6.377,7333
Total
SCT = 7.772,9333
Grados de libertad
n – k = 15 – 3 = 12
Cuadrados medios
CM D =
SCD = n−k
= 116,2667
k–1=3–1=2
CME =
SCE = k −1
Fexp
CME = CM D = 27, 4272
= 3.188,8667
n – 1 = 15 – 1 = 14
Como: Fexp = 27, 4272 > F2, 12, 1 − α = 6,93 entonces, al 1 % de significación, rechazamos la hipótesis nula, H0 : m1 = m2 = m3, y podemos decir que el tipo de campaña publicitaria repercute en las ventas del artículo. c) Para determinar si las ventas de las tiendas situadas en la provincia en la que se ha aplicado la campaña A son diferentes a las de las de C, podemos aplicar el método de comparaciones múltiples de Scheffé: a)
H0 : μ1 = μ2 H1: μ1 ≠ μ2
b)
H0 : μ1 = μ3 H1: μ1 ≠ μ3
c)
H0 : μ 2 = μ 3 H1: μ2 ≠ μ3
© Ediciones Pirámide
273
Ejercicios de inferencia estadística y muestreo El estadístico del contraste es: F=
( Xi − X j )2
冢
SCD 1 1 + ( k − 1) n − k ni n j
冣
~ Ᏺ k − 1, n − k ≡ Ᏺ 2,12
H0
tomando i, j los valores 1, 2, 3 según el contraste a), b) o c) que estemos realizando. La región crítica común para estos tres contrastes será la misma que la utilizada para realizar el análisis de la varianza al 1 % de significación
Ᏺ2,12
= 0,01
0,99
F2, 12; 1– = 6,93
El valor experimental correspondiente al contraste b) que compara las campañas A y C se calcula como: 187 198 − 冢 5 5 冣 = = 0,0520 1.395,2 1 1 (3 − 1) + 15 − 3 冢 5 5 冣 2
(b) Fexp
con lo cual, como: (b) = 0,0520 < F2, 12, 1 − α = 6,93 Fexp
entonces no se rechaza H (b) 0 , es decir, los datos muestrales no presentan evidencia suficiente, al 1 % de significación, para decir que las ventas donde se ha realizado la campaña A sean diferentes a las ventas donde se ha aplicado la campaña C. 274
© Ediciones Pirámide
Análisis de la varianza Con un 5 % de significación, la región crítica sería:
Ᏺ2,12
= 0,05
0,95
F2, 12; 1– = 3,89
y de nuevo: (b) Fexp = 0,0520 < 3,89 = F2, 12, 1 − α
por lo que tampoco se rechaza H (b) 0 con un nivel de significación del 5 % y, por tanto, se mantiene la misma conclusión que al utilizar un 1 % de significación. De una fundación de una entidad financiera dependen tres escuelas de negocios, ubicadas en tres ciudades diferentes, que imparten distintas especialidades en cada ciudad. Una comisión designada por la entidad financiera realiza el seguimiento de los titulados por los mencionados centros. Para evaluar la influencia del tipo de escuela elegido sobre el salario que perciben los titulados, se seleccionan al azar tres muestras independientes de titulados por cada una de las escuelas, que facilitan la siguiente información sobre sus salarios semanales en euros: Ejercicio 4.7
Escuela 1
Escuela 2
Escuela 3
256 628 253 256
266 256 258 320 450
269 256 620 452 286 256
Suponiendo normalidad, ¿se puede admitir la influencia del tipo de escuela elegido en los salarios de los titulados a un 5 % de significación? © Ediciones Pirámide
275
Ejercicios de inferencia estadística y muestreo Solución
Definimos las variables aleatorias:
Xi = «Sueldo semanal de un titulado de la escuela i (en euros)», i = 1, 2, 3, que son independientes y normales: Xi
~ N ( μi , σ i )
Si, además, fueran homocedásticas (s12 = s22 = s32 = s2), bastaría contrastar las hipótesis: H0 : μ1 = μ2 = μ3
( no hay influencia )
H1: μi ≠ μ j para algún i ≠ j
(sí hay influencia )
utilizando las técnicas del análisis de la varianza para una clasificación simple. Por tanto, veamos primero si es admisible la hipótesis de homocedasticidad, es decir, contrastemos las hipótesis: H0 : σ 12 = σ 22 = σ 32 H1: σ i2 ≠ σ 2j para algún i ≠ j mediante el test de Bartlett, que tiene por estadístico de prueba: k
B=
(n − k ) ln CM D − ∑ (ni − 1) ln Si2 i =1
1 1+ 3( k − 1)
冢
k
1 1 ∑ n −1 − n − k i =1 i
冣
~ χ k2 − 1 ≡ χ 32− 1 ≡ χ 22
H0
rechazando la hipótesis nula de igualdad de varianzas con una significación del 5 % cuando: Bexp > χ k2 − 1;1 − α ≡ χ 22;1 − α siendo c22; 1 – a el valor crítico, que verifica: P[ χ 22 > χ 22, 1 − α ] = α = 0,05 276
© Ediciones Pirámide
Análisis de la varianza Utilizando la tabla 9, este valor crítico será:
χ 22, 1 − α = 5,99 Gráficamente:
χ22
= 0,05
0,95
χ22, 1– = 5,99
A continuación, realizamos las operaciones necesarias encaminadas a calcular el valor experimental de B: si2 =
1 ni 1 ( xij − xi )2 = ∑ ni − 1 j = 1 ni − 1
冤 ∑ xij2 − n 冢 ∑ xij 冣 冥 ni
1
ni
j =1
i
j =1
2
siendo n1 = 4, n2 = 5 y n3 = 6. Sustituyendo en la expresión correspondiente a B: Bexp =
(15 − 3) ln (20.249,0208) − [3 ⋅ ln 34.784,25 + 4 ⋅ ln 6.814 + 5 ⋅ ln 22.275,9]
冢
1 1 1 1 1 1+ + + − 3(3 − 1) 3 4 5 15 − 3
冣
= 2,0206
Por tanto: Bexp = 2,0206 < 5,99 = χ 22, 1 − α Entonces, al 5 % de significación, no hay motivos para rechazar H0 : s21 = s22 = s23, por lo que admitiremos la hipótesis de homocedasticidad de las variables Xi, i = 1, 2, 3. © Ediciones Pirámide
277
Ejercicios de inferencia estadística y muestreo Así pues, realizamos el contraste: H0 : μ1 = μ2 = μ3 H1: μi ≠ μ j para algún i ≠ j a través del análisis de la varianza (ANOVA). El estadístico del contraste es: F=
CME CM D
~ Ᏺ k − 1, n − k ≡ Ᏺ 3 − 1,15 − 3 ≡ Ᏺ 2,12
H0
y la región crítica o de rechazo de H0 se representa gráficamente como:
Ᏺ2,12
= 0,05
0,95
F2, 12; 1– = 3,89
278
x1j
x2j
x3j
x21j
x22j
x23j
256 628 253 256
266 256 258 320 450
269 256 620 452 286 256
065.536 394.384 064.009 065.536
070.756 065.536 066.564 102.400 202.500
072.361 065.536 384.400 204.304 081.796 065.536
T1 = 1.393
T2 = 1.550
T3 = 2.139
589.465
507.756
873.933
冤
冥
冤
冥
s12 =
1 1.3932 589.465 − = 34.784,25 4 −1 4
s22 =
1 1.550 2 507.756 − = 6.814 5 −1 5 © Ediciones Pirámide
Análisis de la varianza
s32 = k
冤
冥
1 2.139 2 873.933 − = 22.275,9 6 −1 6
ni
∑ ∑ xij2 = 589.465 + 507.756 + 873.933 = 1.971.154
i =1 j =1
k
SCD =
CM D =
ni
冤
k
冥
Ti 2 1.3932 1.550 2 2.139 2 = 1.971.154 − + + = 242.988,25 4 5 6 i = 1 ni
∑ ∑ xij2 − ∑
i =1 j =1
SCD 242.988,25 = = 20.249,0208 n − k ( 4 + 5 + 6) − 3
Calculamos las sumas de cuadrados y construimos la tabla ANOVA: k
T=
ni
i =1 j =1 k
SCT =
k
∑ ∑ xij = ∑ Ti = 1.393 + 1.550 + 2.139 = 5.082 ni
∑ ∑ xij2 −
i =1 j =1
i =1
T2 5.082 2 = 1.971.154 − = 249.372,4 n 15
SCD = 242.988,25 SCE = SCT − SCD = 6.384,15 Tabla ANOVA para una clasificación simple Fuente de variación
Entre escuelas
Sumas de cuadrados
SCE = 6.384,15
Grados de libertad
k–1=3–1=2
Cuadrados medios
CME =
SCE = k −1
= 3.192,075
Dentro de escuelas (error aleatorio)
SCD = 242.988,25
n – k = 15 – 3 = 12
CM D =
SCD = n−k
Fexp
CME = CM D = 0,1576
= 20.249,0208
Total
© Ediciones Pirámide
SCT = 249.372,4
n – 1 = 15 – 1 = 14
279
Ejercicios de inferencia estadística y muestreo Al ser: Fexp = 0,1576 < 3,89 = F2, 12;1 − α no se rechaza H0 al 5 % de significación, es decir, no se presentan evidencias suficientes para afirmar que el tipo de escuela elegido influye en los sueldos de los titulados. Un grupo de empresas pretende llevar a cabo una política de reducción del absentismo laboral mediante la toma de diferentes decisiones sobre gratificaciones al personal. En la recogida de los datos, previa al diseño definitivo de las medidas, se obtienen las siguientes cifras de ausencias anuales de varios empleados al azar seleccionados en tres empresas del grupo: Ejercicio 4.8
Empresa A
Empresa B
Empresa C
1 2 3 5 1 3 5
6 5 8 9 7 3 5
1 2 1 5 4 3 2
a) ¿Se puede admitir la normalidad de los datos de partida con un 5 % de significación? b) Teniendo en cuenta los resultados del apartado anterior, ¿podría admitirse, con un 5 % de significación, que el número de ausencias por empleado presenta diferencias significativas según la empresa considerada? c) ¿Entre qué empresas se producen las diferencias más significativas?
Solución
Definimos las variables aleatorias:
Xi = «Número de ausencias anuales de un empleado de la empresa i», i = 1 (A), 2 (B), 3 (C). a) Se pretende contrastar si las variables X1, X2 y X3 siguen distribuciones normales. Sean F1, F2 y F3 las funciones de distribución de estas variables. Por tanto, los contrastes a realizar serán: H0 : Fi ( x ) es la función de distribución de una variable normal H1: Fi ( x ) no es la función de distribución de una variable normal 280
© Ediciones Pirámide
Análisis de la varianza Utilizaremos el test de normalidad de Lilliefors para cada una de estas funciones de distribución. El estadístico del contraste, construido sobre los valores tipificados, será: Dn′i = máx 冟Fni ( z ) − F0( z )冟 z
donde F0 es la función de distribución correspondiente a una normal estándar y Fni la función de distribución empírica de las observaciones muestrales tipificadas de la variable Xi (i = 1, 2, 3). Como en este caso n1 = n2 = n3 = 7, la región crítica, al 5 % de significación, será la misma para los tres contrastes que debemos realizar, rechazando H0 en el contraste i-ésimo si: Dn′i , exp > Dα′ siendo D¢a el valor crítico, tal que: P( Dn′i , exp > Dα′ / H0 ) = 0,05 Utilizando la tabla 15 con a = 0,05 y n = 7, este valor será: Dα′ = 0,300 Calculemos ahora los valores experimentales para cada contraste que hay que realizar. Empresa A H0 : F1 ( x ) es la función de distribución de una variable normal H1: F1 ( x ) no es la función de distribución de una variable normal La media y varianza muestrales de la muestra de empleados de la empresa A son: n1
x1 =
1 n1
s12 =
1 n1 − 1
s1 = © Ediciones Pirámide
∑ x1 j = j =1
20 7
冤 ∑ x12j − n 冢 ∑ x1 j 冣 冥 = 7 − 1 冤74 − n1
j =1
1
1
n1
j =1
2
1
冥
20 2 = 2,8095 7
2,8095 = 1,6762 281
Ejercicios de inferencia estadística y muestreo Los valores tipificados de las observaciones muestrales:
z1 j =
x1 j − x1 s1
20 7 = 1,6762 x1 j −
j = 1,..., 7
,
el valor de Fn1 y F0 en cada uno de ellos, así como las diferencias en valor absoluto: a1 j = 冟F0( z1 j ) − Fn( z1 j )冟 b1 j = 冟F0( z1 j ) − Fn( z1 j − 1 )冟 aparecen en la siguiente tabla:
x1j
n1j
z1j
N(z1j) Fn1(z1j) = —–— n1
F0(z1j) = P(Z z1j)
a1j
b1j
1 2 3 5
2 1 2 2
– 1,11 – 0,51 0,09 1,28
2/7 = 1 3/7 = 1 5/7 = 1 7/7 = 1
0,1335 0,3050 0,5359 0,8997
0,1522 0,1236 0,1784 0,1003
0,1335 0,0193 0,1073 0,1854
n1 = 7
Por tanto: Dn′1 , exp = máx{a1 j , b1 j } = 0,1854 < 0,300 = Dα′ j
y, entonces, no se rechaza la hipótesis nula de normalidad de la muestra de la empresa A. De modo análogo, para las empresas B y C tendremos los siguientes resultados.
Empresa B H0 : F2 ( x ) es la función de distribución de una variable normal H1: F2 ( x ) no es la función de distribución de una variable normal 282
© Ediciones Pirámide
Análisis de la varianza n2
x2 =
1 n2
s22 =
1 n2 − 1
s2 =
∑ x2 j = j =1
43 7
冤 ∑ x22 j − n 冢 ∑ x2 j 冣 冥 = 7 − 1 冤289 − n2
n2
1
j =1
2
2
1
j =1
冥
432 = 4,1429 7
4,1429 = 2,0354
x2j
n2j
z2j
N(z2j) Fn2(z2j) = —–— n2
F0(z2j) = P(Z z2j)
a2j
b2j
3 5 6 7 8 9
1 2 1 1 1 1
–1,54 –0,56 –0,07 0,42 0,91 1,40
1/7 = 1 3/7 = 1 4/7 = 1 5/7 = 1 6/7 = 1 7/7 = 1
0,0618 0,2877 0,4721 0,6628 0,8186 0,9192
0,0811 0,1409 0,0993 0,0515 0,0385 0,0808
0,0618 0,1448 0,0435 0,0914 0,1043 0,0621
n2 = 7
Siendo: Dn′2 , exp = máx{a2 j , b2 j } = 0,1448 < 0,300 = Dα′ j
por lo que, de nuevo, no se rechaza la hipótesis nula de normalidad de la muestra de la empresa B. Empresa C H0 : F3 ( x ) es la función de distribución de una variable normal H1: F3 ( x ) no es la función de distribución de una variable normal n3
x3 =
1 n3
s32 =
1 n3 − 1
s3 = © Ediciones Pirámide
∑ x3 j = j =1
冤
n3
18 7
∑ x32j − j =1
1 n3
冢
n3
∑ x3 j j =1
冣冥 2
=
冤
冥
1 182 60 − = 2,2857 7 −1 7
2,2857 = 1,5119 283
Ejercicios de inferencia estadística y muestreo
x3j
n3j
z3j
N(z3j) Fn3(z3j) = —–— n3
F0(z3j) = P(Z z3j)
a3j
b3j
1 2 3 4 5
2 2 1 1 1
–1,04 –0,38 0,28 0,94 1,61
2/7 = 1 4/7 = 1 5/7 = 1 6/7 = 1 7/7 = 1
0,1492 0,3520 0,6103 0,8264 0,9463
0,1365 0,2194 0,1040 0,0307 0,0537
0,1492 0,0663 0,0389 0,1121 0,0892
n3 = 7
Como: Dn′3 , exp = máx{a3 j , b3 j } = 0,2194 < 0,300 = Dα′ j
por lo que tampoco se rechaza la normalidad de los datos que empleamos de la empresa C. Entonces, sí admitiremos la normalidad de las variables X1, X2 y X3. b) Si las variables Xi fuesen homocedásticas, se trataría de variables normales, independientes y con la misma varianza: Xi
~ N ( μi , σ )
Por tanto, para ver si existen diferencias significativas en el número de ausencias por empleado según las empresas consideradas, contrastaríamos las hipótesis: H0 : μ1 = μ2 = μ3
( no hay diferencias significativas)
H1: μi ≠ μ j para algún i ≠ j
(sí hay diferencias significativas)
mediante un análisis de la varianza. Veamos, en primer lugar, si es aceptable suponer la homogeneidad de varianzas de las variables Xi, i = 1, 2, 3; para ello, utilizaremos el test de Bartlett de homocedasticidad al contrastar las hipótesis: H0 : σ 12 = σ 22 = σ 32 = σ 2 H1: σ i2 ≠ σ 2j para algún i ≠ j 284
© Ediciones Pirámide
Análisis de la varianza El estadístico del contraste y su distribución seguida bajo H0 es: k
B=
(n − k ) ln CM D − ∑ (ni − 1) ln Si2 i =1
1+
1 3( k − 1)
冤∑ n 1− 1 − n −1 k 冥 k
i =1
~ χ k2 − 1 ≡ χ 32− 1 ≡ χ 22
H0
i
La representación gráfica de la región crítica o de rechazo de H0 será:
χ22
= 0,05
0,95
χ22; 1– = 5,99
con el valor crítico obtenido en la tabla 9, de forma que: P[ χ 22 χ 22;1 − α ] = 1 − α = 1 − 0,05 = 0,95 Calculemos el valor experimental del estadístico de prueba:
© Ediciones Pirámide
x1j
x2j
x3j
x21j
x22j
x23j
1 2 3 5 1 3 5
6 5 8 9 7 3 5
1 2 1 5 4 3 2
1 4 9 25 1 9 25
36 25 64 81 49 9 25
1 4 1 25 16 9 4
20
43
18
74
289
60
285
Ejercicios de inferencia estadística y muestreo
冤
冥
冤
冥
s12 =
1 20 2 74 − = 2,8095 7 −1 7
s22 =
1 432 289 − = 4,1429 7 −1 7
s32 =
1 182 60 − = 2,2857 7 −1 7
冤
k
SCD = CM D = Bexp =
ni
冥
冤
k
i =1 j =1
冥
Ti 2 20 2 432 182 = ( 74 + 289 + 60) − + + = 55, 4286 7 7 7 i = 1 ni
∑ ∑ xij2 − ∑
SCD 55, 4286 = = 3,0794 21 − 3 n−k (21 − 3) ln 3,0794 − 6 ⋅ ln 2,8095 − 6 ⋅ ln 4,129 − 6 ⋅ ln 2,2857
冤
1 1 1 1 1 1+ + + − 3(3 − 1) 6 6 6 21 − 3
冥
= 0,5202
y puesto que: Bexp = 0,5202 < 5,99 = χ 22;1 − α entonces no se rechaza la homogeneidad de varianzas al 5 % de significación y supondremos que las variables Xi son homocedásticas. Contrastemos a continuación si el número de ausencias por empleado presenta diferencias significativas según la empresa considerada, es decir, realizaremos el contraste: H0 : μ1 = μ2 = μ3 H1: μi ≠ μ j para algún i ≠ j utilizando las técnicas del ANOVA para una clasificación simple, puesto que admitimos que las variables Xi son normales, homocedásticas (Xi ~ N(mi, s), i = 1, 2, 3) e independientes. El estadístico del contraste, su distribución bajo H0 y la región crítica son: F= 286
CME CM D
~ Ᏺ k − 1, n − k ≡ Ᏺ 3 − 1, 21 − 3 ≡ Ᏺ 2,18
H0
© Ediciones Pirámide
Análisis de la varianza
Ᏺ2,18
= 0,05
0,95
F2, 18; 1– = 3,55
De la tabla ANOVA para una clasificación simple obtendremos el valor experimental de F:
Fuente de variación
Sumas de cuadrados
Grados de libertad
Cuadrados medios
Entre grupos
SCE = 55,1428
k–1=2
CME = 27,5714
Intra grupos
SCD = 55,4286
n – k = 18
CMD = 3,0794
Total
SCT = 110,5714
n – 1 = 20
Fexp
8,9535
Se observa que: Fexp = 8,9535 > 3,55 = F2, 18;1 − α por tanto, al 5 % de significación, se rechaza la hipótesis nula de igualdad de medias, es decir, los datos muestrales indican que existen diferencias significativas en el número de ausencias por empleado según la empresa considerada. c) Para tratar de averiguar en qué empresas se producen estas diferencias, realizaremos el test de Scheffé de comparaciones múltiples. Mediante este test se puede contrastar las hipótesis: H0 : μ i = μ j H1: μi ≠ μ j © Ediciones Pirámide
287
Ejercicios de inferencia estadística y muestreo utilizando como estadístico de prueba: F=
( Xi − X j )2
冢
SCD 1 1 + ( k − 1) n − k ni n j
冣
~ Ᏺ k − 1, n − k ≡ Ᏺ 2,18
H0
;
i = 1, 2, 3; j = 1, 2, 3
y como región crítica común:
Ᏺ2,18
= 0,05
0,95
F2, 18; 1 – = 3,55
Por tanto: III. H0 : m1 = m2
I Fexp =
;
H1: m1 π m2
冢
20 43 − 7 7
冣
2
冢
1 1 (3 − 1)3,0794 + 7 7
冣
= 6,1352 > 3,55 = F2, 18;1 − α
entonces, se rechaza H0 : m1 = m2, y diremos que se aprecian diferencias significativas, al 5 %, entre las empresas A y B en cuanto al número de ausencias por empleado. III. H0 : m1 = m3 ; H1: m1 π m3
II Fexp =
冢
冣 = 0,0464 < 3,55 = F 1 1 (3 − 1)3,0794 冢 + 冣 7 7 20 18 − 7 7
2
2 , 18;1 − α
entonces, no se rechaza H0 : m1 = m3, y no se aprecian diferencias significativas entre las empresas A y C. 288
© Ediciones Pirámide
Análisis de la varianza III. H0 : m2 = m3
;
III Fexp =
H1: m2 π m3
冢
冣 = 7,2486 > 3,55 = F 1 1 (3 − 1)3,0794 冢 + 冣 7 7 43 18 − 7 7
2
2 , 18;1 − α
rechazándose H0 : m2 = m3 y apreciándose diferencias significativas entre las empresas B y C (al 5 % de significación). Una subdelegación del Ministerio de Educación y Ciencia está interesada en estudiar la cantidad mensual pagada por los padres de alumnos de Enseñanza Primaria en los colegios privados pertenecientes al territorio de su competencia que no reciben ningún tipo de ayuda ministerial. Para realizar el estudio, se clasificaron los colegios privados de este territorio en bloques según su localización geográfica y según el número de alumnos por aula que afirmaban tener. En cada una de las combinaciones obtenidas se seleccionó una muestra aleatoria de tres colegios y se recogió la información correspondiente a la cantidad diaria que el colegio recibía por cada alumno de Enseñanza Primaria. Los datos obtenidos, en euros, fueron los siguientes: Ejercicio 4.9
Número de alumnos por aula
Zona norte
Zona centro
Zona sur
Menos de 25
32,00 45,50 28,95
25,4 37,2 23,0
50,0 20,9 27,0
25 o más
21,60 25,00 19,00
26,5 17,2 22,0
15,0 24,0 18,0
A la vista de estos datos, y suponiendo que se verifican las hipótesis de normalidad, independencia y homocedasticidad, ¿podría decirse que los colegios privados pertenecientes a esta subdelegación presentan diferencias significativas en las cantidades cobradas a los alumnos de Enseñanza Primaria? Nivel de significación: 5 %. Se trata de estudiar la cantidad mensual que los colegios reciben por cada alumno de enseñanza primaria considerando los factores A, número de alumnos por aula, y B, zona en la que está situado el colegio. Definimos las variables aleatorias: Solución
© Ediciones Pirámide
289
Ejercicios de inferencia estadística y muestreo Xij = «Cantidad diaria que un colegio del bloque i, j recibe por un alumno de Enseñanza Primaria», siendo i = 1 (menos de 25 alumnos por aula), 2 (25 o más alumnos por aula); j = 1 (zona norte), 2 (zona centro), 3 (zona sur). Estas variables son normales, homocedásticas: Xij
~ N ( μij , σ )
,
i = 1, 2; j = 1, 2, 3
y, además, independientes. Si estos colegios no presentaran diferencias significativas en cuanto a la variable estudiada, las distribuciones de Xij serían idénticas y, por tanto, las medias mij serían iguales. Entonces, para tratar de ver si existen tales diferencias, planteamos el siguiente contraste: H0 : μ11 = μ12 = … = μ23 H1: μij ≠ μ hk para algún (i, j ) ≠ (h, k ) que resolveremos mediante un análisis de la varianza para una clasificación doble, es decir, considerando el modelo: Xijk = μ + α i + β j + (αβ )ij + ε ijk i = 1,..., r = 2
;
j = 1,..., s = 3
;
k = 1,..., n = 3
con Xijk: ai : bj : (ab) ij:
observación k-ésima en el bloque (i, j). efecto del i-ésimo nivel del factor A. efecto del j-ésimo nivel del factor B. efecto de interacción del i-ésimo nivel del factor A y el j-ésimo nivel del factor B. eijk: k-ésimo error aleatorio en los tratamientos (i, j).
Rechazaremos la hipótesis H0 anterior cuando se rechace alguna de las hipótesis nulas de los siguientes contrastes:
290
Efecto del factor A
Efecto del factor B
Efecto interacción A, B
H0′ : α1 = α 2 = 0 H1′: ∃ i, α i ≠ 0
H0′′: β1 = β 2 = β3 = 0 H1′′: ∃ j, β j ≠ 0
H0′′′: (αβ )11 = … = (αβ )23 = 0 H1′′′: ∃ (i, j ), (αβ )ij ≠ 0 © Ediciones Pirámide
Análisis de la varianza Los estadísticos de prueba, las distribuciones que éstos siguen bajo la hipótesis nula, y las correspondientes regiones críticas obtenidas utilizando la tabla 11 son, respectivamente: F′ =
CM A CME
F ′′ =
CM B CME
F ′′′ =
CM AB CME
Ᏺ1,12
~ Ᏺ r − 1, rs( n − 1) ≡ Ᏺ 1,12
H0
~ Ᏺ s − 1, rs( n − 1) ≡ Ᏺ 2,12
H0
~ Ᏺ ( r − 1)( s − 1), rs( n − 1) ≡ Ᏺ 2,12
H0
Ᏺ2,12
= 0,05
0,95
Ᏺ2,12
= 0,05
0,95
F′1, 12;1 – = 4,75
= 0,05
0,95
F′′ 2,12; 1– = 3,89
F′′′ 2, 12; 1– = 3,89
Realizamos a continuación las operaciones para construir la tabla ANOVA para una clasificación doble:
Menos de 25 alumnos i=1
Zona norte j=1
Zona centro j=2
Zona sur j=3
32,00 45,50 28,95 T11 = 106,45 ∞ x211k = 3.932,3525
25,4 37,2 23,0 T12 = 85,6 ∞ x212k = 2.558
50,0 20,9 27,0 T13 = 97,9 ∞ x213k = 3.665,81
T1. = 289,95
21,6 25,0 19,0 T21 = 65,6 ∞ x221k = 1.452,56
26,5 17,2 22,0 T22 = 65,7 ∞ x222k = 1.482,09
15 24 18 T23 = 57 ∞ x223k = 1.125
T2. = 188,3
T.1 = 172,05
T.2 = 151,3
T.3 = 154,9
T.. = 478,25
k
25 alumnos o más i=2
k
T. j
k
k
Ti.
k
k
∞∞∞ x2ijk = i
j
k
= 14.215,8125
© Ediciones Pirámide
291
Ejercicios de inferencia estadística y muestreo SCT =
∑ ∑ ∑ xijk2 − i
j
k
T..2 ( 478,25)2 = 14.215,8125 − = 1.508,9757 rsn 2 ⋅3⋅3
SCA =
1 T..2 1 ( 478,25)2 2 2 2 T − = [( 289 , 95 ) + ( 188 , 3 ) ] − = 574,0401 ∑ i. rsn 3 ⋅ 3 ns i 2 ⋅3⋅3
SCB =
1 nr
SCE =
T2
.. ∑ T. 2j − rsn
1 ( 478,25)2 [(172 172,05)2 + (151,3)2 + (154,9)2 ] − = 40,9803 3⋅2 2 ⋅3⋅3
=
j
1
∑ ∑ ∑ xijk2 − n ∑ ∑ Tij2 = i
j
k
i
j
1 = 14.215,8125 − [106, 452 + 85,6 2 + 97,9 2 + 65,6 2 + 65,72 + 572 ] = 845,0717 3 SCAB = SCT − SCA − SCB − SCE = = 1.508,9757 − 574,0401 − 40,9803 − 845,0717 = 48,8836 Tabla ANOVA para una clasificación doble Fuente de variación
Factor A
Factor B
Sumas de cuadrados
Grados de libertad
SCA = 574,0401
r–1=2–1=1
SCB = 40,9803
s–1=3–1=2
(r – 1)(s – 1) = =1·2=2
Factor AB (interacción)
SCAB = 48,8836
Error aleatorio
SCE = 845,0717
rs(n – 1) = = 2 · 3(3 – 1) = 12
SCT = 1.508,9757
rsn – 1 = = 2 · 3 · 3 – 1 = 17
Total
292
Cuadrados medios
Fexp
SCA = r −1 = 574,0401
Fexp ′ =
SCB = s −1 = 20, 49015
Fexp ′′ =
SCAB = (r − 1)( s − 1) = 24, 4418
Fexp ′′′ =
CM A =
CM B =
CM AB =
CM A = CME
= 8,1514 CM B = CME
= 0,2910 CM AB = CME
= 0,3471
SCE = rs(n − 1) = 70, 4226
CME =
© Ediciones Pirámide
Análisis de la varianza Como: Fexp ′ = 8,1514 > 4,75 = F1′, 12;1 − α Rechazamos H¢0, por lo que, al 5 % de significación, podemos decir que el factor A (número de alumnos por aula) influye en el precio de los colegios, es decir, existen diferencias en este precio debidas al número de alumnos por aula que cada colegio admite: Fexp ′′ = 0,2910 < 3,89 = F2′′, 12;1 − α No rechazamos H0≤, es decir, no hay diferencias significativas en los precios de los colegios debidas a la zona donde están situados (factor B): Fexp ′′′ = 0,3471 < 3,89 = F2′′′ , 12 ;1 − α No rechazamos H¢¢¢, 0 por lo que los datos no indican una interacción entre los factores A y B al 5 % de significación. Por todo lo anterior, y al rechazarse H¢0, debemos rechazar también la hipótesis H0 : m11 = … = m23, por lo que se puede afirmar que hay diferencias significativas entre los precios de los colegios y que éstas son debidas al factor A. El programa de proyecciones de la Filmoteca Nacional para el mes de marzo consta de tres ciclos de películas dedicados a los directores A, B y C, respectivamente. La programación diaria ha sido dividida en tres sesiones; en la primera sesión, se proyectarán las películas de A, en la segunda, las de B, y en la tercera, las de C. La tabla siguiente presenta los ingresos, en euros, correspondientes a sesiones de días elegidos al azar clasificados en función de la película proyectada y del tipo de día de proyección según éste sea laborable o festivo: Ejercicio 4.10
Director de la película
© Ediciones Pirámide
Días laborables
Días festivos
Director A
180 230
400 450
Director B
280 290
630 515
Director C
350 400
608 580
293
Ejercicios de inferencia estadística y muestreo Utilizando un nivel de significación del 1 %, y suponiendo que los ingresos por sesión pueden considerarse independientes, normales y homocedásticos, ¿confirman los datos la existencia de diferencias significativas entre dichas sesiones? En este ejercicio tenemos dos factores, el director de la película (A), y el tipo de día de la proyección (B), que podrían afectar a los ingresos de las sesiones de proyección. Sea: Solución
Xij = «Ingresos obtenidos por la proyección de una película con las características i, j». con i = 1 (A), 2 (B), 3 (C); j = 1 (día laborable), 2 (día festivo): Xij
~ N ( μij , σ )
pues se pueden considerar normales, homocedásticas y, además, independientes. Se trata de contrastar las siguientes hipótesis: H0 : μ11 = … = μ23 H1: μij ≠ μ hk para algún (i, j ) ≠ (h, k ) Del mismo modo que en el ejercicio anterior, la hipótesis nula será rechazada si se rechaza alguna de las hipótesis nulas en los contrastes que evalúan los efectos de los factores y su posible interacción. Efecto del factor A
Efecto del factor B
Efecto interacción A, B
H0′ : α1 = α 2 = α 3 = 0 H1′: ∃ i, α i ≠ 0
H0′′: β1 = β 2 = 0 H1′′: ∃ j, β j ≠ 0
H0′′′: (αβ )11 = … = (αβ )32 = 0 H1′′′: ∃ (i, j ), (αβ )ij ≠ 0
cuyos estadísticos de prueba y regiones críticas son, respectivamente: F′ =
CM A CME
F ′′ =
CM B CME
F ′′′ =
CM AB CME
~ Ᏺ r − 1, rs( n − 1) ≡ Ᏺ 2, 6
H0′
~ Ᏺ s − 1, rs( n − 1) ≡ Ᏺ 1, 6
H0′′
~ Ᏺ ( r − 1)( s − 1), rs( n − 1) ≡ Ᏺ 2, 6
H0′′′
pues r = 3, s = 2 y n = 2. 294
© Ediciones Pirámide
Análisis de la varianza
Ᏺ2,6
Ᏺ1,6
= 0,01
0,99
Ᏺ2,6
= 0,01
0,99
F′2, 6;1 – = 10,92
= 0,01
0,99
F′′ 1,6;1– = 13,75
F′′′ 2, 6; 1– = 10,92
Para obtener los valores experimentales de estos estadísticos tendremos que realizar todas las operaciones encaminadas a construir la tabla ANOVA para una clasificación doble: Ingresos
Días laborables
Días festivos
Ti.
Director A
180 230 T11 = 410 ∞ x211k = 85.300
400 450 T12 = 850 ∞ x212k = 362.500
T1. = 1.260
280 290 T21 = 570 ∞ x221k = 162.500
630 515 T22 = 1.145 ∞ x222k = 662.125
T2. = 1.715
350 400 T31 = 750 ∞ x231k = 282.500
608 580 T32 = 1.188 ∞ x232k = 706.064
T3. = 1.938
T.1 = 1.730
T.2 = 3.183
T.. = 4.913 ∞∞∞ x2ijk = 2.260.989
k
Director B
k
k
Director C
k
T. j
k
k
i
SCT =
T2
.. ∑ ∑ ∑ xijk2 − rsn i
j
k
= 2.260.989 −
j
k
( 4.913)2 = 249.524,92 3⋅2 ⋅2
SCA =
1 T2 1 ( 4.913)2 Ti.2 − .. = [1.260 2 + 1.7152 + 1.9382 ] − = 59.703,17 ∑ ns i rsn 2 ⋅ 2 3⋅2 ⋅2
SCB =
1 nr
© Ediciones Pirámide
T2
.. ∑ T. 2j − rsn j
=
1 ( 4.913)2 [1.730 2 + 3.1832 ] − = 175.934,08 2⋅3 3⋅2 ⋅2 295
Ejercicios de inferencia estadística y muestreo SCE =
1
∑ ∑ ∑ xijk2 − n ∑ ∑ Tij2 = i
j
k
i
= 2.260.989 −
j
1 [ 410 2 + 850 2 + 570 2 + 1.1452 + 750 2 + 1.1882 ] = 10.804,5 2
SCAB = SCT − SCA − SCB − SCE = = 249.524,92 − 59.703,17 − 175.934,08 − 10.804,5 = 3.083,17 Tabla ANOVA para una clasificación doble Fuente de variación
Factor A
Factor B
Suma de cuadrados
Grados de libertad
SCA = 59.703,17
r–1=3–1=2
SCB = 175.934,08
s–1=2–1=1
(r – 1)(s – 1) = =2·1=2
Factor AB (interacción)
SCAB = 3.083,17
Error aleatorio
SCE = 10.804,5
rs(n – 1) = = 3 · 2(2 – 1) = 6
SCT = 249.524,92
rsn – 1 = = 3 · 2 · 2 – 1 = 11
Total
Cuadrados medios
F
SCA = r −1 = 29.851,585
Fexp ′ =
SCB = s −1 = 175.934,08
Fexp ′′ =
CM A =
CM B =
SCAB = (r − 1)( s − 1) = 1.541,585
CM AB =
CM A = CME
= 16,58 CM B = CME
= 97,70 Fexp ′′′ =
CM AB = CME
= 0,856
SCE = rs(n − 1) = 1.800,75
CME =
Comparamos los valores experimentales con los valores críticos: Fexp ′ = 16,58 > 10,92 = F2′, 6;1 − α Se rechaza H¢0, por lo que, al 1 % de significación y con estos datos muestrales, se aprecian diferencias significativas debidas al factor A (director de la película): Fexp ′′ = 97,70 > 13,75 = F1′′, 6;1 − α 296
© Ediciones Pirámide
Análisis de la varianza Se rechaza H≤0, existiendo también diferencias significativas, al 1 % de significación, debidas al factor B (tipo de día): Fexp ′′′ = 0,856 < 10,92 = F2′′′ , 6;1 − α No se rechaza H0¢¢¢ y, por tanto, no hay diferencias significativas debidas a la interacción de los dos factores. Entonces, se rechaza la hipótesis nula H0 : m11 = … = m32 de igualdad de medias, por lo que los datos, al 1 % de significación, evidencian la existencia de diferencias significativas entre dichas sesiones.
A una prueba de selección de personal de una firma de auditoría sólo pueden concurrir licenciados en económicas y empresariales y en derecho. De cinco exámenes seleccionados al azar en cada uno de los grupos de hombres y mujeres con estas licenciaturas, se obtuvieron las siguientes puntuaciones: Ejercicio 4.11
Mujeres licenciadas en económicas o empresariales
Mujeres licenciadas en derecho
Hombres licenciados en económicas o empresariales
Hombres licenciados en derecho
300 269 298 256 290
200 265 228 200 265
256 258 267 125 265
128 259 210 120 200
Suponiendo normalidad y homocedasticidad de las puntuaciones, y con un 5 % de significación: a) ¿Podría admitirse que los factores sexo y licenciatura cursada influyen significativamente sobre las puntuaciones? b) ¿Es significativo un efecto interacción sexo-licenciatura sobre las puntuaciones?
Llamemos A al factor sexo, que presenta dos niveles o tratamientos, mujer/hombre (r = 2), y B al factor licenciatura cursada, que también presenta dos niveles (s = 2), económicas y empresariales/derecho. Se desea comprobar si estos dos factores influyen en la puntuación obtenida en la prueba. Definimos las variables aleatorias: Solución
© Ediciones Pirámide
297
Ejercicios de inferencia estadística y muestreo Xij = «Puntuación obtenida por una persona de sexo i con licenciatura j». i = 1 (mujer), 2 (hombre). j = 1 (económicas y empresariales), 2 (derecho). Estas variables son normales, homocedásticas y también independientes: Xij
~ N ( μij , σ )
Si no hubiera influencia de los factores sobre las puntuaciones, las distribuciones de Xij serían idénticas y, por tanto, sus medias coincidirían para todos los valores i, j. Así pues, planteamos las hipótesis: H0 : μ11 = μ12 = μ21 = μ 22 H1: μij ≠ μ hk para algún (i, j ) ≠ (h, k ) que pueden ser contrastadas mediante un análisis de la varianza para una clasificación doble. La hipótesis nula H0 no será rechazada si ninguna de las hipótesis nulas siguientes es rechazada: Efecto del factor A
Efecto del factor B
Efecto interacción A, B
H0′ : α1 = α 2 = 0 H1′: ∃ i, α i ≠ 0
H0′′: β1 = β 2 = 0 H1′′: ∃ j, β j ≠ 0
H0′′′: (αβ )11 = … = (αβ )22 = 0 H1′′′: ∃ (i, j ), (αβ )ij ≠ 0
Los estadísticos de prueba, las distribuciones seguidas bajo las hipótesis nulas y las regiones críticas son, teniendo en cuenta que r = 2, s = 2, n = 5:
298
F′ =
CM A CME
F ′′ =
CM B CME
F ′′′ =
CM AB CME
~ Ᏺ r − 1, rs( n − 1) ≡ Ᏺ 1,16
H0′
~ Ᏺ s − 1, rs( n − 1) ≡ Ᏺ 1,16
H0′′
~ Ᏺ ( r − 1)( s − 1), rs( n − 1) ≡ Ᏺ 1,16
H0′′′
© Ediciones Pirámide
Análisis de la varianza
Ᏺ1,16
Ᏺ1,16
= 0,05
0,95
Ᏺ1,16
= 0,05
0,95
F′1,16; 1 – = 4,49
= 0,05
0,95
F′′1, 16; 1– = 4,49
F′′′ 1, 16;1– = 4,49
Calculamos a continuación los valores experimentales de los estadísticos de prueba: Licenciados en económicas o empresariales
Licenciados en derecho
Ti.
T11 = 1.413 ∞ x211k = 400.801
T12 = 1.158 ∞ x212k = 272.434
T1. = 2.571
T21 = 1.171 ∞ x221k = 289.239
T22 = 917 ∞ x222k = 181.965
T2. = 2.088
T.1 = 2.584
T.2 = 2.075
T.. = 4.659 ∞∞∞ x2ijk = 1.144.439
Mujeres
k
Hombres
k
T. j
k
k
i
j
k
Mediante las fórmulas de los ejercicios anteriores, calculamos las sumas de cuadrados, teniendo en cuenta que r = 2, s = 2 y n = 5: SCT = 1.114.439 −
( 4.659)2 = 59.124,95 2⋅2⋅5
SCA =
( 4.659)2 1 [2.5712 + 2.0882 ] − = 11.664, 45 5⋅2 2⋅2⋅5
SCB =
( 4.659)2 1 [2.584 2 + 2.0752 ] − = 12.954,05 5⋅2 2⋅2⋅5
1 SCE = 1.114.439 − [1.4132 + 1.1582 + 1.1712 + 9172 ] = 34.506, 4 5 SCAB = 59.124,95 − 11.664, 45 − 12.954,05 − 34.506, 4 = 0,05 © Ediciones Pirámide
299
Ejercicios de inferencia estadística y muestreo Fuente de variación
Sumas de cuadrados
Grados de libertad
Factor A
SCA = 11.664,45
r–1=2–1=1
CM A =
Factor B
SCB = 12.954,05
s–1=2–1=1
CM B =
SCAB = 0,05
(r – 1)(s – 1) = =1·1=1
Error aleatorio
SCE = 34.506,4
rs(n – 1) = = 2 · 2(5 – 1) = 16
Total
SCT = 59.124,95
rsn – 1 = = 2 · 2 · 5 – 1 = 19
Factor AB (interacción)
Cuadrados medios
F
SCA = r −1 = 11.664, 45
Fexp ′ = 5, 4085
SCB = s −1 = 12.954,05
Fexp ′′ = 6,0066
CM AB =
SCAB = (r − 1)( s − 1) = 0,05
Fexp ′′′ = 2,3 ⋅ 10 −5
SCE = rs(n − 1) = 2.156,65
CME =
a) Como: Fexp ′ = 5, 4085 > 4, 49 = F1′, 16;1 − α entonces rechazamos H¢0 : a1 = a2 = 0, por lo que, al 5 % de significación, podemos decir que las puntuaciones obtenidas se ven afectadas por el factor A (sexo). Como: Fexp ′′ = 6,0066 > 4, 49 = F1′′, 16;1 − α entonces se rechaza la hipótesis H0≤: b1 = b2 = 0, pudiendo admitirse que también el tipo de licenciatura influye en la puntuación obtenida al 5 % de significación. Por tanto, H0 : m11 = m12 = m21 = m22 es rechazada con un 5 % de significación, y puede afirmarse, con los datos muestrales, que el factor sexo y el factor licenciatura influyen significativamente sobre las puntuaciones. b) El efecto interacción sexo-licenciatura se estudia contrastando: H0′′′: (αβ )11 = … = (αβ )22 = 0 H1′′′: (αβ )ij ≠ (αβ )hk para algún (i, j ) ≠ (h, k ) 300
© Ediciones Pirámide
Análisis de la varianza Como se ha obtenido: Fexp ′′′ = 2,3 ⋅ 10 − 5 < 4, 49 = F1′′′ , 16;1 − α entonces, al 5 % de significación, los datos muestrales no indican que debamos rechazar H0. Por tanto, no es significativo el efecto interacción de los dos factores sobre las puntuaciones.
Durante tres semanas, se contabilizó en cuatro empresas el número de ejecutivos que habían utilizado el correo electrónico. Los resultados de la encuesta se recogen en la siguiente tabla:
Ejercicio 4.12
Empresa
III III III IV
Observaciones
114 171 147 151
120 166 134 179
Total
150 143 121 150
384 480 402 480 1.746
Suponiendo que se verifican las hipótesis de normalidad, independencia y homogeneidad de varianzas, determine, al 10 % de significación, si el número medio de ejecutivos que utilizan correo electrónico presenta diferencias significativas entre las cuatro empresas.
Solución
Debemos contrastar las hipótesis: H0 : μ I = μ II = μ III = μ IV H1: Al menos dos son diferentes
El estadístico de prueba viene dado por la siguiente expresión, y su distribución bajo H0 es: F= © Ediciones Pirámide
SCE /( k − 1) SCD /(n − k )
H0
Ᏺ k − 1, n − k ≡ Ᏺ 4 − 1, 12 − 4 ≡ Ᏺ 3, 8 301
Ejercicios de inferencia estadística y muestreo La región crítica para a = 0,10 viene dada por:
Ᏺ3, 8
0,90 = 0,10
2,92
Para calcular el valor experimental del estadístico de prueba, calculamos primero las sumas de cuadrados y construimos la tabla ANOVA: k
SCE =
Ti 2 T 2 384 2 480 2 402 2 480 2 1.746 2 − = + + + − = n 3 3 3 3 12 i = 1 ni
∑
= 256.620 − 254.043 = 2.577 k
SCT =
ni
∑ ∑ xij2 −
i =1 j =1
(1.746)2 T2 = (114)2 + … + (150)2 − = 4.647 n 12
SCD = SCT − SCE = 4.647 − 2.577 = 2.070 Fuente de variación
Suma de cuadrados
Grados de libertad
Cuadrados medios
Entre empresas
SCE = 2.577
4–1=3
859,00
Dentro de empresas
SCD = 2.070
12 – 4 = 8
258,75
Total
SCT = 4.647
12 – 1 = 11
Fexp
3,32
Como: Fexp = 3,32 > F3, 8; 0,90 = 2,92 302
© Ediciones Pirámide
Análisis de la varianza entonces, al 10 % de significación, y con los datos de la muestra, tenemos evidencia suficiente para rechazar H0. Por tanto, podemos afirmar que existen diferencias significativas en el número medio de usuarios del correo electrónico entre las cuatro empresas.
El departamento de personal de un supermercado desea comparar la eficacia de sus tres cajeros, que trabajan por turnos. Para ello, observa, durante cierto número de horas, el número de clientes atendidos por cada uno de los cajeros: Ejercicio 4.13
Total
Cajero 1
Cajero 2
Cajero 3
15 17 15 14 18 14
12 15 22 14 17 19
20 22 27 25 19
93
99
113
a) Suponiendo normalidad, independencia y homogeneidad de varianzas, contraste, al 5 % de significación, si los tres cajeros son igualmente eficientes. b) ¿Qué cajeros presentan diferencias significativas al 5 % de significación? c) ¿Presentan los datos evidencia suficiente para indicar que la hipótesis de homogeneidad de varianzas es falsa? Nivel de significación: 5 %.
a) Sea Xi la variable aleatoria que representa el número de clientes atendidos por el cajero i en una hora. Se desea contrastar las hipótesis:
Solución
H0 : μ1 = μ2 = μ3 H1: ∃ i, j con i ≠ j, tal que μi ≠ μ j Para ello, aplicaremos el análisis de varianza, que utiliza como estadístico de prueba: F= © Ediciones Pirámide
SCE /( k − 1) SCD /(n − k )
H0
Ᏺ k − 1, n − k ≡ Ᏺ 2, 14 303
Ejercicios de inferencia estadística y muestreo La región crítica con a = 0,05 queda representada como:
Ᏺ2,14
0,05
0,95 3,74
Tenemos que calcular el valor experimental, para lo que necesitamos las sumas de cuadrados y la tabla ANOVA: T = T1 + T2 + T3 = 93 + 99 + 113 = 305 SCE =
k =3
∑
i =1 k
SCT =
Ti 2 T 2 932 99 2 1132 3052 − = + + − = 156,741 6 6 5 17 ni n ni
∑ ∑ Xij2 −
i =1 j =1
T2 3052 = 152 + 172 + … + 252 + 19 2 − = 280,94 n 17
SCD = SCT − SCE = 280,94 − 156,741 741 = 124,199 Fuente de variación
Suma de cuadrados
Grados de libertad
Cuadrados medios
Entre cajeros
SCE = 156,741
3–1=2
78,37
Dentro de cajeros
SCD = 124,199
17 – 3 = 14
8,87
SCT = 280,94
17 – 1 = 16
Fexp
8,84
Total
Como: Fexp = 8,84 > 3,74 = F2, 14; 0,95 entonces rechazamos H0 ; es decir, al 5 % de significación, y con los datos observados, los cajeros no parecen ser igualmente eficaces. 304
© Ediciones Pirámide
Análisis de la varianza b) Para ver qué cajeros presentan diferencias significativas en cuanto a productividades medias, tendremos que realizar los siguientes contrastes: a)
⎧ H0 : μ1 − μ2 = 0 ⎨ ⎩ H1: μ1 − μ2 ≠ 0
b)
⎧ H0 : μ1 − μ3 = 0 ⎨ ⎩ H1: μ1 − μ3 ≠ 0
c)
⎧ H0 : μ 2 − μ 3 = 0 ⎨ ⎩ H1: μ2 − μ3 ≠ 0
y utilizaremos el método de Scheffé de comparaciones múltiples. Los estadísticos de prueba a utilizar serán: F=
( Xi − X j )2
冢
SCD 1 1 + ( k − 1) n − k ni n j
冣
H0
Ᏺ k − 1, n − k ≡ Ᏺ 2, 14
donde i = 1, 2, 3; j = 1, 2, 3 según se trate del contraste a), b) o c). Como la distribución de los estadísticos de prueba es la misma para todos los casos y, además, coincide con la del análisis de varianza, entonces la región crítica será la obtenida anteriormente. Calculamos los valores experimentales, teniendo en cuenta que: x1 = 15,5 (a) Fexp =
(b) Fexp =
(c) Fexp =
© Ediciones Pirámide
;
x2 = 16,5
x3 = 22,6
;
(15,5 − 16,5)2
冢
124,199 1 1 2⋅ + 14 6 6
冣
(15,5 − 22,6)2
冢
124,199 1 1 2⋅ + 14 6 5
冣
(16,5 − 22,6)2
冢
124,199 1 1 + 2⋅ 14 6 5
冣
= 0,17
= 7,75
= 5,72
305
Ejercicios de inferencia estadística y muestreo Situando estos valores en la región crítica:
Ᏺ2,14
0,05
0,95 F(a) exp
(b) 3,74 F(c) exp Fexp
Con lo cual, al 5 % de significación, presentan diferencias significativas los cajeros 1 y 3, y también los cajeros 2 y 3. Sin embargo, estos datos no indican evidencia suficiente para decir que las productividades medias de los cajeros 1 y 2 sean distintas. c)
Debemos realizar un contraste de homocedasticidad: H0 : σ 12 = σ 22 = σ 32 H1: σ i2 ≠ σ 2j para algún i ≠ j
y para ello utilizaremos el estadístico del test de Bartlett, utilizado anteriormente. Gráficamente, la región crítica se representa como:
χ2k – 1 ≡ χ22
0,95
= 0,05 χ22; 0,95 = 5,99
306
© Ediciones Pirámide
Análisis de la varianza Para calcular el valor experimental necesitamos las varianzas muestrales para cada grupo de observaciones: s12 = 2,7
;
s22 = 13,1
;
s32 = 11,3
Por tanto, como tenemos en el apartado a) que n = 17, k = 3, n1 = n2 = 6, n3 = 5 y CMD = 8,87: Bexp =
(17 − 3) ln 8,87 − [5 ⋅ ln 2,7 + 5 ln 13,1 + 4 ln 11,3]
冢
1 1 1 1 1 1+ + + − 3(3 − 1) 5 5 4 14
冣
= 2,76
Como: Bexp = 2,76 < 5,99 = χ 22; 0,95 entonces, al 5 % de significación, los datos muestrales no presentan evidencia suficiente para rechazar H0 y, por tanto, no indican que la hipótesis de homogeneidad de varianzas sea falsa. En unos cursos de posgrado se decidió aplicar tres métodos de enseñanza para explicar la asignatura de estadística. Las puntuaciones de los alumnos se clasificaron según la licenciatura que habían realizado y el método de enseñanza recibido, obteniéndose los siguientes resultados: Ejercicio 4.14
Método de enseñanza Clases magistrales teóricas B1
Teoría y trabajo práctico individual B2
Ejercicios y discusión en clase B3
Ingeniería A1
61 70
80 86
77 82
456
Economía A2
59 65
79 89
76 71
439
Biología A3
56 52
78 67
68 75
396
Empresariales A4
54 59
66 72
63 66
380
Otras A5
45 40
72 69
66 65
357
561
758
709
2.028
Licenciatura
Total
© Ediciones Pirámide
Total
307
Ejercicios de inferencia estadística y muestreo Suponiendo que se verifican las hipótesis de normalidad, independencia y homocedasticidad, compruebe si los datos presentan evidencia suficiente para afirmar que las puntuaciones medias son distintas en los grupos obtenidos al realizar la clasificación. Nivel de significación: 5 %.
Solución
Las hipótesis que se pretenden contrastar son: H0 : μ11 = … = μ53 H1: μij ≠ μ hk para algún (i, j ) ≠ (h, k )
es decir, se trata de comprobar la influencia del factor «licenciatura» (A), del factor «método de enseñanza» (B) y de la interacción entre ambos (AB). Para ello, los estadísticos de prueba a utilizar con la distribución seguida (siendo r = 5, s = 3, n = 2) son: F′ =
CM A CME
H 0′
F ′′ =
CM B CME
H 0′′
F ′′′ =
CM AB CME
Fr − 1, rs( n − 1) ≡ F4, 15 Fs − 1, rs ( n − 1) ≡ F2, 15
H 0′′′
F( r − 1)( s − 1), rs ( n − 1) ≡ F8, 15
y las regiones críticas para contrastar las distintas influencias son, al 5 % de significación: Factor A Ᏺ4, 15
0,95 0,05
F′4, 15; 0,95 = 3,06
308
© Ediciones Pirámide
Análisis de la varianza H0′ : α1 = … = α 5 = 0 H1′: ∃ i, α i ≠ 0 Factor B
Ᏺ2,15
0,05
0,95
F′′ 2,15; 0,95 = 3,68
H0′′: β1 = … = β3 = 0 H1′′: ∃ j, β j ≠ 0 Interacción (AB)
Ᏺ8, 15
0,95 0,05
F′′′ 8, 15; 0,95 = 2,64
H0′′′: (αβ )11 = … = (αβ )53 = 0 H1′′′: ∃ (i, j ), (αβ )ij ≠ 0 © Ediciones Pirámide
309
Ejercicios de inferencia estadística y muestreo Para calcular los valores experimentales construimos la tabla ANOVA, obteniendo previamente las sumas de cuadrados:
2 SCT = ∑ ∑ ∑ xijn −
T..2 2.0282 = 140.830 − = 3.737,2 rsn 30
2 SCE = ∑ ∑ ∑ xijk −
1 1 Tij2 = 140.830 − (1312 + 166 2 + 159 2 + 124 2 + 1682 + ∑ ∑ n i j 2
i
i
j
j
k
k
+ 1472 + 1082 + 1452 + 1432 + 1132 + 1382 + 129 2 + 852 + 1412 + 1312 ) = 297 SCA =
1 1 2.0282 T2 = 1.127,53 Ti.2 − .. = ( 456 2 + 439 2 + 396 2 + 380 2 + 3572 ) − ∑ 30 ns i rsn 6
SCB =
1 1 2.0282 T2 = 2.103,8 T. 2j − .. = (5612 + 7582 + 709 2 ) − ∑ 30 rn j rsn 10
SCAB = SCT − SCA − SCB − SCE = 3.737,2 − 1.127,53 − 2.103,8 − 297 = 208,87 Tabla ANOVA para una clasificación doble Suma de cuadrados
Grados de libertad
Factor A
1.127,53
r–1=4
281,88250
F¢exp = 14,24
Factor B
2.103,80
s–1=2
1.051,90000
Fexp ≤ = 53,13 F¢¢¢ exp = 1,32
Fuente de variación
Cuadrados medios
Factor AB (interacción)
208,87
(r – 1)(s – 1) = 8
26,10875
Error
297,00
rs(n – 1) = 15
19,80000
Total
3.737,20
F
rsn – 1 = 29
Como: Fexp ′ = 14,24 > 3,06 = F4′, 15; 0,95 ⇒ Rechazamos H0′ Fexp ′′ = 53,13 > 3,68 = F2′′, 15; 0,95 ⇒ Rechazamos H0′′ Fexp ′′′ = 1,32 < 2,64 = F8′′′ , 15; 0 , 95 ⇒ Aceptamos H0′′′ 310
© Ediciones Pirámide
Análisis de la varianza Entonces rechazamos H0 : m11 = L = m53, con lo cual podemos decir que existen diferencias entre las puntuaciones medias de los grupos, aunque no hay interacción entre los dos factores.
Un centro de investigación está realizando un estudio para observar el efecto de varios tipos de fertilizante en distintas variedades de manzanas. Para cada combinación se seleccionó una muestra aleatoria de tres árboles y se contabilizaron los kilogramos de manzanas recogidos: Ejercicio 4.15
Tipo de manzano
Fertilizante Total F1
F2
F3
M1
74 78 84
75 78 83
72 80 88
712
M2
79 75 69
80 90 84
85 77 76
715
M3
92 87 85
77 78 76
87 83 83
744
Total
723
721
731
2.175
Suponiendo que se verifican las hipótesis de normalidad, independencia y homocedasticidad, compruebe si existen diferencias significativas en las producciones medias. Nivel de significación: 10 %.
Solución
Sea Xij la variable aleatoria que representa la producción de manzanas (en kilogramos) recogidas de un árbol de tipo Mi al que se ha aplicado
fertilizante Fj: Xij → N ( μij , σ ),
i = 1, 2, 3,; j = 1, 2, 3
y, además, son independientes. © Ediciones Pirámide
311
Ejercicios de inferencia estadística y muestreo Deseamos comprobar la influencia en la producción del factor A (variedad de manzano), del factor B (tipo de fertilizante) y de su interacción, AB, si es que existe. Por tanto, hay que contrastar las hipótesis: H0 : μ11 = … = μ33 H1: μij ≠ μ hk para algún (i, j ) ≠ (h, k ) o equivalentemente: Efecto del factor A H0′ : α1 = α 2 = α 3 = 0 H1′: ∃ i, α i ≠ 0 Efecto del factor B H0′′: β1 = β 2 = β3 = 0 H1′′: ∃ j, β j ≠ 0 Efecto interacción (AB) H0′′′: (αβ )11 = … = (αβ )33 = 0 H1′′′: ∃ (i, j ), (αβ )ij ≠ 0 Como r = 3, s = 3 y n = 3, los estadísticos de prueba a utilizar para estos contrastes tienen las siguientes distribuciones:
312
F′ =
CM A CME
H 0′
F ′′ =
CM B CME
H 0′′
F ′′′ =
CM AB CME
Ᏺ r − 1, rs ( n − 1) ≡ Ᏺ 2, 18 Ᏺ s − 1, rs ( n − 1) ≡ Ᏺ 2, 18
H 0′′′
Ᏺ ( r − 1)( s − 1), rs ( n − 1) ≡ Ᏺ 4, 18 © Ediciones Pirámide
Análisis de la varianza y las regiones críticas, al 10 % de significación, son, respectivamente:
Ᏺ2,18
Ᏺ4,18
Ᏺ2,18
0,90 0,1
0,90
0,1
0,1
F′′ 2,18; 0,90 = 2,62
F′′′ 4, 18;0,90 = 2,29
0,90
F′2, 18;0,90 = 2,62
Necesitamos construir la tabla ANOVA para calcular los valores experimentales: 2 SCT = ∑ ∑ ∑ xijk − i
j
k
T..2 2.1752 = 176.049 − = 840,67 rsn 27
SCA =
1 T2 1 2.1752 Ti.2 − .. = (712 2 + 7152 + 7482 ) − = 88,67 ∑ ns i rsn 9 27
SCB =
2.1752 1 T2 1 T. 2j − .. = (7232 + 7212 + 7312 ) − = 6,22 ∑ rn j rsn 9 27
2 SCE = ∑ ∑ ∑ xijk − i
j
k
1 1 Tij2 = 176.049 − (236 2 + 236 2 + 240 2 + 2232 + ∑ ∑ 3 n i j
+ 254 + 2382 + 264 2 + 2312 + 2532 ) = 400 2
SCAB = SCT − SCA − SCB − SCE = 345,78 Tabla ANOVA para una clasificación doble Suma de cuadrados
Grados de libertad
Cuadrados medios
F
Factor A
88,67
r–1=2
44,335
F¢exp = 1,995
Factor B
6,22
s–1=2
3,110
F≤exp = 0,140 F¢¢¢ exp = 3,890
Fuente de variación
Factor AB (interacción)
345,78
(r – 1)(s – 1) = 4
86,445
Error aleatorio
400,00
rs(n – 1) = 18
22,222
Total
840,67
rsn – 1 = 26
© Ediciones Pirámide
313
Ejercicios de inferencia estadística y muestreo Como: Fexp ′ = 1,995 < 2,62 = F2′, 18; 0,90 ⇒ Aceptamos H0′ Fexp ′′ = 0,140 < 2,62 = F2′′, 18; 0,90 ⇒ Aceptamos H0′′ Fexp ′′′ = 3,89 > 2,29 = F4′′′, 18; 0,90 ⇒ Rechazamos H0′′′ Entonces, rechazamos H0 : m11 = L = m33; por tanto, existen diferencias significativas entre las producciones medias.
314
© Ediciones Pirámide
5
Muestreo en poblaciones finitas
Muestreo en poblaciones finitas
Los representantes de un determinado partido político desean obtener información de forma rápida y fiable sobre el número total de concejales que obtuvieron, en las pasadas elecciones, en los 300 municipios más pequeños de una región española. Para conseguir esta información, se decidió realizar un muestreo aleatorio simple de estos municipios, obteniéndose la siguiente distribución muestral: Ejercicio 5.1
Número de concejales obtenidos por municipio
Número de municipios
0 1 2 3 4 5 6 7 8 9
2 7 5 7 8 10 5 3 2 1
Con un 99 % de confianza: a) Obtenga la información requerida con estos datos muestrales indicando el error de muestreo cometido. b) Si se hubiera querido un error de muestreo inferior a 150 concejales, ¿cuántos municipios habrían sido necesarios seleccionar? a) Sea X la variable aleatoria que corresponde al número de concejales de este partido político en un municipio. Como se quiere conocer información sobre los 300 municipios más pequeños de la región (X1, ..., X300), a través de un muesSolución
© Ediciones Pirámide
315
Ejercicios de inferencia estadística y muestreo treo aleatorio simple, se ha seleccionado una muestra de n municipios, obteniéndose el número de concejales en cada uno de ellos, x1, ..., xn. El estimador puntual para el total poblacional es: Tˆ = N x siendo x– la media muestral y N el tamaño poblacional. El error de muestreo de este estimador se puede estimar mediante la fórmula: eT = zα / 2 N ( N − n)
S n
donde S es la desviación típica muestral, n el tamaño de muestra y za/2 el valor tal que, en una distribución N(0, 1), deja a su derecha una probabilidad de a/2, siendo 1 – a el nivel de confianza. En este caso: 1 − α = 0,99 ⇒ α / 2 = 0,005 P( Z zα / 2 ) = 1 − α / 2 = 0,995 ⇒ zα / 2 = 2,575 Obtenemos ahora el valor de la media y varianza muestrales:
N = 300
316
;
xi2 ni
xi
ni
xi n i
0 1 2 3 4 5 6 7 8 9
2 7 5 7 8 10 5 3 2 1
0 7 10 21 32 50 30 21 16 9
0 7 20 63 128 250 180 147 128 81
n = 50
196
1.004
n = 50
x=
1 k 196 xi ni = = 3,92 ∑ n i =1 50
s2 =
1 = n −1
冤∑ xi2ni − k
i =1
( ∑ xi ) 2 1 196 2 = 1.004 − = 4,8098 49 50 n
冥
冤
冥
© Ediciones Pirámide
Muestreo en poblaciones finitas y, por tanto, con un 99 % de confianza, la estimación del número de concejales obtenidos en los 300 municipios más pequeños de esa región durante la pasadas elecciones es de: Tˆ = N x = 300 ⋅ 3,92 = 1.176 concejales con un error de muestreo de: eT = zα / 2 N ( N − n)
s n
= 2,575 ⋅ 300(300 − 50)
4,8098 50
= 218,7189
b) Para estimar el total de concejales con un error de muestreo inferior a 150, el número de municipios que habría sido necesario seleccionar se calculará como1: n=
N 2 zα2 / 2 S 2 eT2 + Nzα2 / 2 S 2
n=
300 2 ⋅ 2,5752 ⋅ 4,8098 = 89,51 ≈ 90 municipios 150 2 + 300 ⋅ 2,5752 ⋅ 4,8098
Una compañía suministradora de material de oficina tiene que cobrar recibos pendientes correspondientes a 10.000 clientes. Para estimar la cantidad total que se le adeuda, selecciona una muestra aleatoria de 36 clientes, los cuales debían una cantidad media de 7.500 euros, con una desviación típica de 3.000 euros. a) Establezca un intervalo de confianza al 95 % de la cantidad total que se adeuda a esta compañía. b) ¿Cuántos clientes se debería haber seleccionado para estimar la cantidad anterior con un error de muestreo inferior a 2.500.000 euros? Ejercicio 5.2
Solución
a) Definimos la variable aleatoria X como la cantidad adeudada por un cliente. La cantidad total adeudada por los 10.000 clientes es: 10.000
T=
∑
i =1
Xi
1 En este capítulo, las aproximaciones en el cálculo de tamaños muestrales se realizan por exceso para garantizar un error de muestreo inferior o igual al fijado.
© Ediciones Pirámide
317
Ejercicios de inferencia estadística y muestreo que se estimará mediante: N n Tˆ = N x = ∑ xi n i =1 con un error de muestreo estimado por: eT = zα / 2 N ( N − n)
S n
donde za/2 es tal que, para un nivel de confianza 1 – a = 0,95: P( Z zα / 2 ) = α / 2 = 0,025 ⇒ zα / 2 = 1,96 Como en este caso: x = 7.500 s = 3.000 resulta que el intervalo de confianza para el total poblacional será:
冤
IT = [ N x − eT ; N x + eT ] = 10.000 ⋅ 7.500 − 1,96 10.000(10.000 − 36) 10.000 ⋅ 7.500 + 1,96 10.000(10.000 − 36)
3.000 36
3.000 36
;
冥=
= [65.217.655,90; 84.782.344,10] b) Para conseguir una estimación de la cantidad total que se le adeuda, con un error inferior a eT = 2.500.000, se debería haber elegido una muestra de tamaño superior a: n= 318
N 2 zα2 / 2 s 2 10.000 2 ⋅ 1,96 2 ⋅ 3.000 2 = = 524,19 ≈ 525 clientes eT2 + Nzα2 / 2 s 2 (2.500.000)2 + 10.000 ⋅ 1,96 2 ⋅ 3.000 2 © Ediciones Pirámide
Muestreo en poblaciones finitas En un parque acuático se desea estimar la cantidad gastada por persona adulta en las instalaciones del parque (sin contar el precio de la entrada al recinto). Para ello, de entre las 500 entradas de adultos vendidas un día determinado, se seleccionó una muestra aleatoria simple de 100, y a la salida del parque se les preguntó la cantidad que habían gastado. De las respuestas dadas, se obtuvo la siguiente información: Ejercicio 5.3
100
∑ xi = 2.500 euros
i =1
100
;
∑ xi2 = 64.975 (euros)2
i =1
a) Obtenga el intervalo de confianza al 95 % para la cantidad media gastada por adulto en el recinto del parque. b) ¿A cuántas personas adultas se debería haber entrevistado para que, con la misma confianza, el error de la estimación anterior no superase los 75 céntimos de euro? c) Si se hubiera deseado estimar la proporción de personas adultas insatisfechas con los servicios prestados en el parque, con un error del 10 % y una confianza del 95 %, ¿cuántas de ellas deberían haber sido preguntadas?
Mediante X, representamos la variable aleatoria correspondiente a la cantidad gastada por una persona adulta en las instalaciones del parque acuático. Para estimar la cantidad media gastada por una persona adulta se ha seleccionado una muestra aleatoria simple de tamaño n = 100 extraída de una población con tamaño N = 500: Solución
a) El intervalo de confianza para la media poblacional es:
冤
N−n S ; x + zα / 2 N n
Iμ = x − zα / 2
N−n S N n
冥
siendo za/2 el cuantil 1 – a/2 de una distribución N(0, 1), es decir: P( Z zα / 2 ) = 1 − α / 2 Para una confianza del 95 %: 1 − α = 0,95 ⇒ α / 2 = 0,025 ⇒ P( Z zα / 2 ) = 0,975 zα / 2 = 1,96 © Ediciones Pirámide
319
Ejercicios de inferencia estadística y muestreo Calculamos la media y la varianza muestral: x=
1 n 2.500 xi = = 25 euros ∑ n i =1 100
s2 =
1 = n −1
s=
s2 =
冤
n
∑ xi2 −
i =1
1 n
冢∑ x 冣 冥 = 991 冤64.975 − 1001 (2.500) 冥 = 25 n
i =1
2
2
i
25 = 5 euros
y así, el intervalo de confianza para el gasto medio por persona adulta es, en euros:
冤
500 − 100 500
Iμ = 25 − 1,96
5 100
; 25 + 1,96
500 − 100 500
5 100
冥=
= [24,123; 25,877] b) Para un error en la estimación de la media de 75 céntimos de euro, el tamaño muestral necesario será de: n=
zα2 / 2 ⋅ N ⋅ S 2 eμ2 N + zα2 / 2 S 2
y sustituyendo la información muestral: n=
1,96 2 ⋅ 500 ⋅ 25 = 127,2761 ≈ 128 0,752 ⋅ 500 + 1,96 2 ⋅ 25
Por tanto, para que el error no supere los 75 céntimos de euro, debería haberse entrevistado al menos a 128 personas. Otra forma de obtener este valor sería calculando, en primer lugar, el tamaño muestral que correspondería a una población infinita y, luego, realizar la corrección por finitud si ésta fuera necesaria, es decir, si la fracción de muestreo obtenida con este tamaño superase el 1 %: n∞ = f = 320
zα2 / 2 s 2 1,96 2 ⋅ 25 = = 170,7378 ≈ 171 0,752 eμ2 n∞ 171 = = 0,342 > 0,01 N 500 © Ediciones Pirámide
Muestreo en poblaciones finitas con lo cual, debemos realizar la corrección por finitud: n=
n∞ 171 = = 127, 4218 ≈ 128 n∞ 1 + 0,342 1+ N
c) Si se desea estimar una proporción al 95 % de confianza y con un error de muestreo: eP 0,10 el tamaño muestral necesario puede obtenerse a partir de la fórmula2: n=
zα2 / 2 Npq eP2 ( N − 1) + zα2 / 2 pq
y como no se tiene información sobre el valor de p, se utilizará aquel que proporciona la máxima variabilidad, p = 0,5 = q: pq 1/4
0
0,5
1
p
2 Algunos autores prefieren utilizar el estimador de varianza Vâr[Pˆ ] en lugar de Var[Pˆ ] a la hora de calcular el error de muestreo; así:
eP = zα / 2 Vaˆ r [ Pˆ ] = zα / 2
N−n N
pq n −1
y, despejando de esta fórmula, quedaría: n=
N (eP2 + zα2 / 2 pq ) NeP2 + zα2 / 2 pq
y así: n=
500(0,10 2 + 1,96 2 ⋅ 0,5 ⋅ 0,5) = 81,4039 ≈ 82 500 ⋅ 0,10 2 + 1,96 2 ⋅ 0,5 ⋅ 0,5
presentándose un desfase de una unidad. © Ediciones Pirámide
321
Ejercicios de inferencia estadística y muestreo Por tanto, bastaría haber preguntado a: n=
1,96 2 ⋅ 500 ⋅ 0,5 ⋅ 0,5 = 80,7005 ≈ 81 personas 0,10 2 ⋅ 499 + 1,96 2 ⋅ 0,5 ⋅ 0,5
Del mismo modo que en el apartado anterior, también aquí podría haberse obtenido el tamaño muestral correspondiente a una población infinita, n • , y realizar, en caso necesario, la corrección por finitud: n∞ = f =
zα2 / 2 pq 1,96 2 ⋅ 0, 5 ⋅ 0, 5 = = 96,04 ≈ 97 0,10 2 eP2 97 n∞ = = 0,194 > 0,01 N 500
Entonces, con la corrección por finitud tendremos: n=
n∞ 97 = = 81,24 ≈ 82 personas n∞ 1 + 0,194 1+ N
El servicio informático de cierta universidad se está planteando la renovación o no del contrato de utilización de un determinado paquete estadístico. Antes de tomar esta decisión se necesitaría conocer la opinión de los profesores universitarios. Para obtener esta información, se pretende tomar una muestra aleatoria simple entre los 1.250 profesores y enviarles un cuestionario a través del cual manifiesten si son favorables a la renovación del contrato, teniendo en cuenta el coste que supondrá a la universidad y las condiciones del mismo. Ejercicio 5.4
a) ¿Cuál deberá ser el tamaño muestral apropiado para obtener una estimación sobre la proporción de profesores favorables a la renovación del contrato con un error de muestreo inferior al 12 % y una confianza del 90 %? b) De la encuesta realizada el año anterior se sabe que la proporción de profesores favorables a la renovación estará entre el 75 % y el 85 %. ¿Cuál debería ser en este caso el tamaño muestral necesario si se decide utilizar esta información? c) Si, finalmente, se decidió enviar los cuestionarios a 100 profesores, de los cuales tan sólo 35 no se manifestaron favorables a la renovación del contrato, estime la proporción de profesores favorables a la renovación del contrato indicando su error de muestreo. Nivel de confianza: 90 %. 322
© Ediciones Pirámide
Muestreo en poblaciones finitas a) Como se desea estimar una proporción poblacional realizando un muestreo aleatorio simple en una población de N = 1.250 profesores, con una confianza del 90 % y con un error de muestreo fijado en ep = 0,15, el tamaño muestral necesario se puede obtener mediante la fórmula3: Solución
n=
zα2 / 2 Npq eP2 ( N − 1) + zα2 / 2 pq
siendo za/2 el cuantil 1 – a/2 de una N (0, 1): 1 − α = 0,90 ⇒ α = 0,10 P( Z zα / 2 ) = 1 −
α 0,10 = 1− = 0,95 2 2
zα / 2 = 1,645 y, si no se tiene información sobre p, se tomará el valor p = 1/2, pues proporciona la máxima variabilidad: pq = p(1 – p)
0 3
1/2
1
p
También se puede utilizar, según se ha explicado en el problema 5.3, la fórmula: n=
N (eP2 + zα2 / 2 pq ) NeP2 + zα2 / 2 pq
y así: n=
© Ediciones Pirámide
1.250(0,12 2 + 1,6452 ⋅ 0,5 ⋅ 0,5) = 45,5493 ≈ 46 1.250 ⋅ 0,12 2 + 1,96 2 ⋅ 0,5 ⋅ 0,5
323
Ejercicios de inferencia estadística y muestreo Por tanto: n=
1,6452 ⋅ 1.250 ⋅ 0,5 ⋅ 0,5 = 45,2968 ≈ 46 0,12 2 ⋅ 1.249 + 1,6452 ⋅ 0,5 ⋅ 0,5
y sería necesario seleccionar a 46 profesores para enviarles los cuestionarios. También podríamos haber obtenido esta cantidad calculando en primer lugar el tamaño muestral que correspondería a una población infinita, n • , y, si la fracción de muestreo no es suficientemente pequeña, realizando la corrección por finitud: n∞ =
zα2 / 2 pq 1,6452 ⋅ 0,5 ⋅ 0,5 = = 46,9796 ≈ 47 0,12 2 eP2
Como: f =
n∞ 47 = = 0,0376 > 0,01 N 1.250
entonces será necesario realizar la corrección por finitud: n=
n∞ 47 = = 45,2968 ≈ 46 n∞ 1 + 0,0376 1+ N
b) Si se estima que la proporción oscilará entre el 75 % y el 85 %, entonces, en la fórmula para obtener el tamaño muestral: n=
zα2 / 2 Npq eP2 ( N − 1) + zα2 / 2 pq
se utilizará el valor p = 0,75, pues es el que proporciona mayor variabilidad entre los posibles: pq = p(1 – p) 0,25 0,1875 0,1275
0,5
324
0,75 0,85 © Ediciones Pirámide
Muestreo en poblaciones finitas Así pues, como: n=
1,6452 ⋅ 1.250 ⋅ 0,75 ⋅ 0,25 = 34,2954 ≈ 35 0,12 2 ⋅ 1.249 + 1,6452 ⋅ 0,75 ⋅ 0,25
sería necesario enviar el cuestionario a una muestra aleatoria simple de 35 profesores4. Del mismo modo que en el apartado anterior, podríamos haber calculado: n∞ = f =
zα2 / 2 pq 1,6452 ⋅ 0,75 ⋅ 0,25 = = 35,2347 ≈ 36 0,12 2 eP2 36 n∞ = = 0,0288 > 0,01 N 1.250
y realizar la corrección por finitud: n=
c)
n∞ 36 = = 34,9922 ≈ 35 n∞ 1,0288 1+ N
El estimador puntual de la proporción poblacional es la proporción muestral: 1 n Pˆ = p = ∑ ai n i =1
siendo: ⎧1 si el profesor i -ésimo es favorable a la renovación ai = ⎨ ⎩0 en caso contrario Como de los 100 cuestionarios hay 35 que no se manifestaron favorables, entonces: n = 100 100
∑ ai = 100 − 35 = 65
i =1 4
Sustituyendo en la otra fórmula, quedaría: n=
© Ediciones Pirámide
N (eP2 + zα2 / 2 pq ) 1.250(0,12 2 + 1,6452 ⋅ 0,75 ⋅ 0,25) = = 35,2413 ≈ 36 1.250 ⋅ 0,12 2 + 1,6452 ⋅ 0,75 ⋅ 0,25 NeP2 + zα2 / 2 pq
325
Ejercicios de inferencia estadística y muestreo y la estimación puntual es: 65 Pˆ = p = = 0,65 100 con un error de muestreo5 eP = zα / 2
N−n N −1
pq 1.250 − 100 = 1,645 n 1.249
0,65 ⋅ 0,35 = 0,0753 100
Una compañía dedicada al envasado, fabricación y venta de productos lácteos pretende analizar el consumo anual de leche en una ciudad que cuenta con 110.000 habitantes. Para realizar el estudio, decide llevar a cabo una clasificación por edades de la población en tres estratos. Tomando muestras aleatorias simples en cada uno de ellos, se obtuvieron los siguientes datos: Ejercicio 5.5
Estratos
Tamaños poblacionales
Tamaños muestrales
Media muestral del consumo anual de leche (litros)
Varianza muestral (litros)2
Menores de 25 años Entre 25 y 50 años Más de 50 años
48.000 38.000 24.000
1.460 1.160 1.730
102,7 71,4 73,2
15.876 48.841 23.409
Utilizando un 95 % de confianza: a) Estime la cantidad total de leche consumida al año entre los menores de 25 años, indicando el error de muestreo cometido. b) Calcule el tamaño muestral necesario para estimar el consumo medio de leche al año entre los mayores de 50 años con un error de muestreo de cinco litros. c) Estime, mediante un intervalo de confianza, el consumo anual de leche por habitante. d) Para realizar un estudio similar, se va a permitir triplicar el tamaño de la muestra. Reparta la nueva muestra entre los tres estratos según los diferentes criterios, indicando qué reparto es el más eficiente. 5
O bien: eP = zα / 2 Vaˆ r [ Pˆ ] = zα / 2
326
N−n N
pq 1.250 − 100 = 1,645 n −1 1.250
0,65 ⋅ 0,35 = 0,0756 100 − 1 © Ediciones Pirámide
Muestreo en poblaciones finitas e)
Si se quiere estimar la proporción de personas entre 25 y 50 años que estarían dispuestas a comprar un producto lácteo de reciente aparición, ¿cuál sería el tamaño muestral necesario para que la estimación tuviera un error de muestreo inferior al 5 %? ¿Y si existe un estudio piloto que sugiere que dicha proporción será al menos del 60 %?
Sea X la cantidad de leche consumida anualmente por una persona. Para recoger información sobre esta variable, se ha realizado un muestreo aleatorio estratificado, utilizando como variable estratificadora la edad de la población. Solución
a) Deseamos estimar un total poblacional dentro del primer estrato, por tanto, su estimador es el correspondiente a un muestreo aleatorio simple: Tˆ1 = N1 x1 = 48.000 ⋅ 102,7 = 4.929.600 litros con un error de muestreo estimado en: eT1 = zα / 2 N1 ( N1 − n1 )
s1 n1
= 1,96 48.000( 48.000 − 1.460)
15.876 1.460
=
= 305.480,8545 litros pues, con una confianza de 1 – a = 0,95: P( Z zα / 2 ) = 1 − α / 2 = 0,975 ⇒ zα / 2 = 1,96 b) Para estimar el consumo medio de leche en el tercer estrato, con un error de muestreo fijado en e m3 = 5 litros, será necesario un tamaño muestral igual a: n3 =
zα2 / 2 N3 s32 1,96 2 ⋅ 24.000 ⋅ 23.409 = 2 = 3.128,25 ≈ 3.129 personas 2 2 2 5 ⋅ 24.000 + 1,96 2 ⋅ 23.409 eμ3 N3 + zα / 2 s3
c) Para estimar el consumo medio anual por habitante en esta ciudad, utilizaremos el estimador de la media global en el muestreo estratificado y, por tanto, el intervalo de confianza será: Iμ = [ μˆ ST − eμ ; μˆ ST + eμ ] © Ediciones Pirámide
327
Ejercicios de inferencia estadística y muestreo siendo
μˆ ST =
L
∑ Wh xh =
h =1
1 N
L
∑ Nh xh
h =1
L
eμ = zα / 2
∑ Wh2 (1 − fh )
h =1
Sh2 nh
Así pues:
μˆ ST =
1 ( 48.000 ⋅ 102,7 + 38.000 ⋅ 71,4 + 24.000 ⋅ 73,2) = 85,451 litros 110.000
eμ = 1,96 +
冢
1.460 15.876 38.000 1.160 48.841 48.000 ⋅ 冢1 − ⋅ +冢 ⋅ 冢1 − ⋅ + 冤冢110 冣 冣 冣 冣 48.000 1.460 110.000 38.000 1.160 .000 2
冣冢
2
冣
24.000 2 1.730 23.409 ⋅ 1− ⋅ 110.000 24.000 1.730
冥
1/ 2
= 5,35 litros
y, por tanto: Iμ = [85, 451 − 5,35 ; 85, 451 + 5,35] = [80,101 ; 90,801] d) El tamaño muestral actual es: 1.460 1.160 1.730 4.350 Si se triplica esta cantidad, el nuevo tamaño muestral sería de: n 3 · 4.350 13.050 personas Para repartir entre los distintos estratos, utilizaremos la expresión: nh wh n wh · 13.050
;
h 1, 2, 3
con wh dados según los distintos criterios de afijación. 328
© Ediciones Pirámide
Muestreo en poblaciones finitas Afijación uniforme wh =
1 1 = L 3
n1 = n2 = n3 =
,
h = 1, 2, 3
1 13.050 n= = 4.350 L 3
es decir, en cada estrato se tomaría una muestra aleatoria simple de 4.350 personas. Afijación proporcional Nh N
wh =
h = 1, 2, 3
,
n1 =
N1 48.000 n= 13.050 = 5.694,5455 ≈ 5.695 N 110.000
n2 =
N2 38.000 n= 13.050 = 4.508,1818 ≈ 4.508 N 110.000
n3 =
N3 24.000 n= 13.050 = 2.847,2727 ≈ 2.847 N 110.000
Afijación óptima de mínima varianza con coste fijo wh =
Nh Sh L
∑ Ni Si
,
h = 1, 2, 3
i =1 L
∑ Ni si = 48.000
15.876 + 38.000 48.841 + 24.000 23.409 = 18.118.000
i =1
n1 =
48.000 ⋅ 15.876 ⋅ 13.050 = 4.356,2424 ≈ 4.356 18.118.000
n2 =
38.000 ⋅ 48.841 ⋅ 13.050 = 6.048,8961 ≈ 6.049 18.118.000
n3 =
24.000 ⋅ 23.409 ⋅ 13.050 = 2.644,8615 ≈ 2.645 18.118.000
y este último es el reparto más eficiente entre los estratos, pues minimiza la varianza del estimador. © Ediciones Pirámide
329
Ejercicios de inferencia estadística y muestreo e) Al estimar una proporción mediante un muestreo aleatorio simple (pues se trata del interior del segundo estrato), el tamaño muestral necesario para conseguir un error inferior a eP2 = 0,05 será una cantidad superior o igual a la obtenida aplicando la fórmula6: n=
zα2 / 2 N2 p2 q2 eP22 ( N2 − 1) + zα2 / 2 p2 q2
Si no se tiene información sobre p2 o q2, tomamos p2 = q2 = 0,5, pues es la situación de máxima variabilidad: pq = p(1 – p) 0,25
0
0,5
1
p
Así: n=
1,96 2 ⋅ 38.000 ⋅ 0,5 ⋅ 0,5 = 380,3251 ≈ 381 personas 0,052 ⋅ (37.999) + 1,96 2 ⋅ 0,5 ⋅ 0,5
Si de la encuesta piloto se conoce que p2 0,6, entonces: pq = p(1 – p) 0,25 0,24
0 6
0,5 0,6
1
p
Si se utiliza la fórmula: n=
N (eP22 + zα2 / 2 p2 q2 ) NeP22 + zα2 / 2 p2 q2
se obtendría n = 381,3052 ≈ 382.
330
© Ediciones Pirámide
Muestreo en poblaciones finitas tomaremos p2 = 0,6 y q2 = 1 – 0,6 = 0,4 y tendremos que el tamaño muestral necesario será superior o igual a7: n=
1,96 2 ⋅ 38.000 ⋅ 0,6 ⋅ 0, 4 = 365,2583 ≈ 366 personas 0,052 ⋅ 37.999 + 1,96 2 ⋅ 0,6 ⋅ 0, 4
Una organización sindical está interesada en conocer la situación laboral de los 10.000 trabajadores que en el año 1997 pertenecían a cierto grupo industrial. Para realizar el informe, los trabajadores fueron clasificados en tres grupos de edad, seleccionándose una muestra aleatoria simple en cada uno de ellos. Algunos de los resultados obtenidos aparecen en la siguiente tabla: Ejercicio 5.6
Grupos de edad
Número total de trabajadores
Número de trabajadores seleccionados
Media muestral
Desviación típica muestral
Número de contratos inferiores a dos años
18-35 36-50 51-65
2.900 4.700 2.400
666 754 580
1.205 1.630 1.950
380 350 400
375 150 90
Salario mensual (euros)
Con una confianza del 99 %: a) Obtenga, mediante el correspondiente intervalo de confianza, la estimación de la cantidad total mensual repartida por este grupo industrial entre los salarios de los empleados más jóvenes. b) Calcule una estimación del salario mensual medio de los 10.000 trabajadores, así como su error de muestreo. c) Indique si el reparto muestral anterior en los distintos grupos de edad ha sido el más eficiente posible para estimar el salario mensual medio; en caso contrario, indique cuál sería éste. d) Estime la proporción de trabajadores de este grupo industrial cuyo contrato tiene una duración inferior a los dos años, indicando el error de muestreo cometido. e) Si se deseara estimar la proporción de trabajadores con más de 50 años que padecieron enfermedades por no cumplirse las normas de seguridad e higiene en sus puestos de trabajo, ¿cuántos trabajadores sería necesario seleccionar para que el error de muestreo no superase el 6 %? 7
Utilizando la fórmula de la nota anterior obtendríamos n = 366,24 ≈ 367.
© Ediciones Pirámide
331
Ejercicios de inferencia estadística y muestreo Definimos la variable X = «Salario mensual de un trabajador». El valor del salario mensual del i-ésimo trabajador seleccionado en el grupo h será representado por xih. Solución
a) Para estimar la cantidad total mensual repartida entre los trabajadores más jóvenes mediante un intervalo de confianza, utilizaremos la expresión correspondiente al muestreo aleatorio simple aplicada al primer estrato:
冤
IT1 = N1 X1 − zα / 2 N1 ( N1 − n1 )
S1 n1
; N1 X1 + zα / 2 N1 ( N1 − n1 )
S1 n1
冥
donde, para una confianza del 99 %, el valor za/2 es tal que: P( Z zα / 2 ) = 1 − α / 2 = 1 − 0,005 = 0,995 ⇒ zα / 2 = 2,575 Por tanto:
冤
IT1 = 2.900 ⋅ 1.205 − 2,575 2.900(2.900 − 666) 2.900 ⋅ 1.205 + 2,575 2.900(2.900 − 666)
380 666 380 666
;
冥=
= [3.397.991,78; 3.591.008,21] b) En este caso, al tratarse del salario medio global, deberemos aplicar el estimador del muestreo aleatorio estratificado:
μˆ ST =
L
∑ Wh xh
h =1
siendo Wh la ponderación del estrato h y x–h su media muestral: W1 =
N1 2.900 = = 0,29 N 10.000
W2 =
N2 4.700 = = 0, 47 N 10.000
W3 =
N3 2.400 = = 0,24 N 10.000
μˆ ST = 0,29 ⋅ 1.205 + 0, 47 ⋅ 1.630 + 0,24 ⋅ 1.950 = 1.583,55 euros 332
© Ediciones Pirámide
Muestreo en poblaciones finitas cuyo error de muestreo viene dado por: L
eμ = zα / 2
S2
∑ Wh2 (1 − fh ) nh
h =1
h
Sustituyendo en esta fórmula:
冉
eμ = 2,575 0,29 2 1 −
冊
冉
冊
冉
冊
666 380 2 754 350 2 580 400 2 + 0, 472 1 − + 0,24 2 1 − = 2.900 666 4.700 754 2.400 580
= 19,31 euros c) El reparto muestral más eficiente será el que se obtenga por medio del criterio de afijación óptima de mínima varianza. Veamos si los tamaños muestrales que tenemos en cada estrato coinciden con los que proporcionará este criterio: nh = wh n =
Nh Sh L
∑ Ni Si
⋅n
i =1
con n = 666 + 754 + 580 = 2.000 L
∑ Nh Sh = 2.900 ⋅ 380 + 4.700 ⋅ 350 + 2.400 ⋅ 400 = 3.707.000
i =1
n1 =
2.900 ⋅ 380 ⋅ 2.000 = 594,5508 ≈ 595 3.707.000
n2 =
4.700 ⋅ 350 ⋅ 2.000 = 887,5101 ≈ 887 3.707.000
n3 =
2.400 ⋅ 400 ⋅ 2.000 = 517,9390 ≈ 518 3.707.000
Por tanto, el reparto muestral del enunciado no es el más eficiente. © Ediciones Pirámide
333
Ejercicios de inferencia estadística y muestreo d) Debemos obtener la estimación de la proporción poblacional en un muestreo aleatorio estratificado:
PˆST = pST =
L
∑ Wh ph
h =1
Las proporciones muestrales en cada uno de los estratos son:
p1 =
375 = 0,5631 666
p2 =
150 = 0,1989 754
p3 =
90 = 0,1552 580
Por tanto, la estimación requerida es: PˆST = pST = 0,29 ⋅ 0,5631 + 0,47 ⋅ 0,1989 + 0,24 ⋅ 0,1552 = 0,2940 con un error de muestreo de8: L
eP = zα / 2
∑ Wh2
h =1
= 2,575 0,29 2
Nh − nh ph qh ⋅ = Nh − 1 nh
2.900 − 666 0,5631 ⋅ 0, 4369 4.700 − 754 0,1989 ⋅ 0,8011 2.400 − 580 0,1552 ⋅ 0,8448 ⋅ + 0, 472 ⋅ + 0,24 2 ⋅ = 2.899 666 4.699 754 2.399 580
= 0,022 8
Otros autores consideran: L
eP = zα / 2 Vaˆ r [ p] = zα / 2
∑ Wh2
h =1
Nh − nh ph qh ⋅ Nh nh − 1
con la que se obtiene un resultado similar.
334
© Ediciones Pirámide
Muestreo en poblaciones finitas e) Si se desea estimar una proporción en el tercer estrato con un error de muestreo del 6 %, necesitamos un tamaño muestral dado por la fórmula9:
n3 =
zα2 / 2 N3 p3q3 2,5752 ⋅ 2.400 ⋅ 0,5 ⋅ 0,5 = = 386, 4730 ≈ 387 eP23 ( N3 − 1) + zα2 / 2 p3q3 0,06 2 (2.399) + 2,5752 ⋅ 0,5 ⋅ 0,5
donde se ha utilizado como valor de p3 = 0,5, puesto que no se tiene información anterior sobre la proporción de trabajadores de más de 50 años que padecieron enfermedades por motivos laborales. Por tanto, para estimar esta proporción con un error de muestreo no superior al 6 % habrá que seleccionar al menos 387 trabajadores entre el grupo de los mayores de 50 años. Otra forma de llegar al mismo resultado es obteniendo primero el tamaño muestral que correspondería a una población infinita:
n∞ 3 =
zα2 / 2 p3q3 2,5752 ⋅ 0,5 ⋅ 0,5 = = 460, 46 ≈ 461 0,06 2 eP23
y como la fracción de muestreo supera el 1 %:
f3 =
461 n∞ 3 = = 0,1921 > 0,01 2.400 N3
habrá que realizar la corrección por finitud:
n3 =
9
n∞ 3 461 = = 386,7125 ≈ 387 n∞ 3 11921 , 1+ N3
O bien con la expresión:
n3 =
N3 (eP23 + zα2 / 2 p3q3 ) N3eP23 + zα2 / 2 p3q3
se obtendría n3 = 387,1769 ≈ 388. © Ediciones Pirámide
335
Ejercicios de inferencia estadística y muestreo La Consejería de Agricultura de una comunidad autónoma está realizando un estudio sobre el terreno agrícola. Para recoger la información necesaria se consideraron tres zonas según su localización geográfica, y en cada una de ellas, de forma independiente, se seleccionó, mediante un muestreo aleatorio simple, cierto número de fincas. Parte de la información recogida se resume en la siguiente tabla: Ejercicio 5.7
Zonas
Número total de fincas
Número de fincas seleccionadas
Superficie media muestral (Ha.)
Desviación típica muestral (Ha.)
Número de fincas barbecho
A B C
3.200 5.600 1.200
380 800 200
28 15 45
3,5 6,7 8,0
124 250 17
Utilizando un 99 % de confianza: a) Obtenga la superficie total del terreno agrícola en cada una de las zonas, estimando en cada caso su error de muestreo. b) ¿Qué tamaños muestrales habrían sido necesarios para realizar las estimaciones anteriores con unos errores de muestreo estimados inferiores a 1.000 hectáreas? c) Estime la superficie media de las fincas de la comunidad autónoma mediante el correspondiente intervalo de confianza. d) ¿Cuál sería el reparto más eficiente de la muestra anterior en las tres zonas para realizar la estimación de la superficie media? e) ¿Qué tamaño muestral y qué reparto por zona se debería haber realizado para estimar, del modo más eficiente posible, la superficie total del terreno agrícola de la comunidad autónoma con un error de muestreo no superior a 1.000 hectáreas? f) Calcule el porcentaje global de fincas en barbecho indicando su error de muestreo. Sea X = «Superficie de una finca de esta comunidad autónoma». Las fincas de esta comunidad han sido divididas en tres zonas o estratos, y en cada una de ellas se ha realizado un muestreo aleatorio simple de forma independiente entre ellas. Por tanto, los estimadores dentro de cada zona podrán obtenerse a través de las fórmulas de muestreo aleatorio simple, y los globales a partir de las del muestreo estratificado. Solución
a) Para cada zona estimaremos la superficie total y su error de muestreo utilizando las fórmulas: Tˆh = Nh xh eTh = zα / 2 Nh ( Nh − nh ) 336
Sh nh
,
h = 1, 2, 3 © Ediciones Pirámide
Muestreo en poblaciones finitas Como el nivel de confianza es del 99 %, entonces: P( Z zα / 2 ) =
α 0,01 = = 0,005 ⇒ zα / 2 = 2,575 2 2
Zona A Tˆ1 = N1 x1 = 3.200 ⋅ 28 = 89.600 hectáreas eT1 = 2,575 3.200(3.200 − 380)
3,5 380
= 1.388,8426 hectáreas
Zona B Tˆ2 = N2 x2 = 5.600 ⋅ 15 = 84.000 hectáreas eT2 = 2,575 5.600(5.600 − 800)
6,7 800
= 3.162, 4355 hectáreas
Zona C Tˆ3 = N3 x3 = 1.200 ⋅ 45 = 54.000 hectáreas eT3 = 2,575 1.200(1.200 − 200)
8 200
= 1.595,6691 hectáreas
b) Si se pretende estimar la superficie total con la información de una muestra aleatoria simple con un error determinado, el tamaño que se necesitará es: nh =
Nh2 zα2 / 2 Sh2 eT2h + Nh zα2 / 2 Sh2
,
h = 1, 2, 3
Así pues, para las correspondientes zonas, tendremos: Zona A n1 = © Ediciones Pirámide
3.200 2 ⋅ 2,5752 ⋅ 3,52 = 660,1572 ≈ 661 1.000 2 + 3.200 ⋅ 2,5752 ⋅ 3,52 337
Ejercicios de inferencia estadística y muestreo Zona B n2 =
5.600 2 ⋅ 2,5752 ⋅ 6,72 = 3.500,1310 ≈ 3.501 1.000 2 + 5.600 ⋅ 2,5752 ⋅ 6,72
Zona C n3 =
1.200 2 ⋅ 2,5752 ⋅ 82 = 404,8936 ≈ 405 1.000 2 + 1.200 ⋅ 2,5752 ⋅ 82
c) Para estimar la superficie media global de las fincas de la región, tendremos en cuenta que se trata de un muestreo estratificado y, por tanto:
μˆ ST = x =
L
∑ Wh xh
h =1
L
eμ ST = zα / 2
S2
∑ Wh2 (1 − fh ) nh
h =1
h
siendo: xh = media muestral del estrato h. Wh = fh =
Nh = ponderación del estrato h. N nh = fracción de muestreo en el estrato h. Nh
Por tanto, sustituyendo la información que aparece en la tabla, tendremos: L
N=
∑ Nh = 3.200 + 5.600 + 1.200 = 10.000
h =1
338
W1 =
N1 3.200 = = 0,32 N 10.000
;
f1 =
n1 380 = = 0,1188 N1 3.200
W2 =
N2 5.600 = = 0,56 N 10.000
;
f2 =
n2 800 = = 0,1429 N2 5.600
W3 =
N3 1.200 = = 0,12 N 10.000
;
f3 =
n3 200 = = 0,1667 N3 1.200 © Ediciones Pirámide
Muestreo en poblaciones finitas Así:
μˆ ST = x = 0,32 ⋅ 28 + 0,56 ⋅ 15 + 0,12 ⋅ 45 = 22,76 hectáreas eμ ST = 2,575 0,32 2(1 − 0,1188) ⋅
3,52 6,72 82 + 0,56 2(1 − 0,1429) ⋅ + 0,12 2(1 − 0,1667) ⋅ = 380 800 200
= 0,3805 hectáreas y el intervalo de confianza al 99 % será: Iμ ST = [ μˆ ST − eμ ST ; μˆ ST + eμ ST ] = [22,76 − 0,3805; 22,76 + 0,3805] = [22,3795; 23,1405] d) El reparto más eficiente es el que se realiza a través del criterio de afijación óptima de mínima varianza, en el que el tamaño muestral del estrato h será: nh = wh n =
Nh Sh L
∑ Ni Si
⋅n
,
h = 1,..., L
i =1
Por tanto, como: L
∑ Ni Si = 3.200 ⋅ 3,5 + 5.600 ⋅ 6,7 + 1.200 ⋅ 8 = 58.320
i =1
los tamaños muestrales que corresponderían a cada estrato, teniendo en cuenta que el tamaño muestral global ha de ser: n 380 800 200 1.380 serán:
© Ediciones Pirámide
n1 =
3.200 ⋅ 3,5 ⋅ 1.380 = 265,0205 ≈ 265 58.320
n2 =
5.600 ⋅ 6,7 ⋅ 1.380 = 887,8189 ≈ 888 58.320
n3 =
1.200 ⋅ 8 ⋅ 1.380 = 227,1605 ≈ 227 58.320 339
Ejercicios de inferencia estadística y muestreo e) El tamaño muestral necesario para estimar el total con un error de muestreo no superior a 1.000 hectáreas, realizando un muestreo aleatorio estratificado, se obtiene como: L
Nh2 Sh2 ∑ h = 1 wh
n=
L eT2 + ∑ Nh Sh2 zα2 / 2 h = 1
donde las cantidades wh serán las correspondientes al criterio de afijación óptima de mínima varianza para que el reparto de la muestra por zonas sea el más eficiente posible: wh =
Nh Sh
,
L
∑ Nh Sh
h = 1,..., L
i =1
w1 =
3.200 ⋅ 3,5 = 0,1920 58.320
w2 =
5.600 ⋅ 6,7 = 0,6433 58.320
w3 =
1.200 ⋅ 8 = 0,1646 58.320
Entonces: 3.200 2 ⋅ 3,52 5.600 2 ⋅ 6,72 1.200 2 ⋅ 82 + + 0,1920 0,6433 0,1646 n= = 6.564,1970 ≈ 6.565 2 1.000 2 2 2 + [3.200 ⋅ 3,5 + 5.600 ⋅ 6,7 + 1.200 ⋅ 8 ] 2,5752 y los tamaños muestrales en cada zona se calcularán mediante la expresión: nh = wh ⋅ n
,
h = 1,..., L
n1 = 0,1920 ⋅ 6.565 = 1.260, 48 ≈ 1.261 n2 = 0,6433 ⋅ 6.565 = 4.223,26 ≈ 4.223 n3 = 0,1646 ⋅ 6.565 = 1.080,599 ≈ 1.081 340
© Ediciones Pirámide
Muestreo en poblaciones finitas f)
Para h = 1, 2, 3, definimos: ⎧1 si la finca i del estrato h se destina a barbecho aih = ⎨ ⎩0 en caso contrario
,
i = 1,..., Nh
Para estimar la proporción poblacional de fincas dedicadas al barbecho: L
P=
Nh Nh ∑ ∑ aih h =1 N i =1 L
N ∑ Nh Ph = h =1
utilizaremos el estimador del muestreo estratificado, cuya fórmula es: L
pST =
∑ Wh ph
h =1
siendo ph el estimador de la proporción en el estrato h. El error de muestreo de este estimador se puede aproximar mediante10 : L
∑ Wh2
eP = zα / 2 Var [ pST ] = zα / 2
h =1
Nh − nh ph qh ⋅ Nh − 1 nh
Así pues, como:
10
p1 =
1 n1 124 ∑ ai1 = 380 = 0,3263 n1 i = 1
p2 =
1 n2
p3 =
1 n3
n2
250
∑ ai 2 = 800
= 0,3125
i =1 n3
17
∑ ai3 = 200 = 0,085
i =1
Otros autores consideran: L
eP = zα / 2 Vaˆ r [ pST ] = zα / 2
© Ediciones Pirámide
∑ Wh2
h =1
Nh − nh ph qh ⋅ −1 Nh n
341
Ejercicios de inferencia estadística y muestreo la estimación de la proporción de fincas en barbecho es: pST = 0,32 ⋅
124 250 17 + 0,56 ⋅ + 0,12 ⋅ = 0,2896 380 800 200
con un error de muestreo de: eP = = 2,575 0,32 2
3.200 − 380 0,3263 ⋅ 0,6737 5.600 − 800 0,3125 ⋅ 0,6875 1.200 − 200 0,085 ⋅ 0,915 ⋅ + 0,56 2 ⋅ + 0,12 2 ⋅ = 3.200 − 1 380 5.600 − 1 800 1.200 − 1 200
= 0,0293
Es decir, un 28,96 % de las fincas de la región están en barbecho, siendo el error de muestreo11 de esta estimación de ± 2,93 %.
Una agencia inmobiliaria desea conocer la proporción de apartamentos de la playa de Costanova, que cuenta con un total de 10.000, cuyos dueños estarían dispuestos a alquilarlos al menos un mes al año. Para realizar el estudio, se selecciona en cada una de las tres urbanizaciones existentes una muestra aleatoria de apartamentos en número proporcional al total de apartamentos de la urbanización. La información recogida indica que, en la urbanización Soleares se seleccionaron 1.050 apartamentos, de los cuales habría 800 dispuestos a ser alquilados; en Vistabella se eligieron 900 apartamentos, estando disponibles para el alquiler 600 de ellos, y de los 1.700 seleccionados en Aguaclara, los dueños de 1.300 estarían dispuestos a alquilarlos al menos un mes al año. Estime, al 90 % de confianza, la proporción de apartamentos que estarían dispuestos a ser alquilados al menos una vez al año y el error de muestreo cometido. Ejercicio 5.8
Solución
Definimos:
⎧1 si el dueño del apartamento i de la urbanización h estaría dispuesto a alquilarlo aih = ⎨ ⎩0 en caso contrario 11 Puede comprobarse que utilizando la fórmula de la nota 10 se obtiene, aproximadamente, el mismo valor para el error de muestreo.
342
© Ediciones Pirámide
Muestreo en poblaciones finitas Se trata de estimar la proporción poblacional: L
P=
∑ Wh Ph
h =1
con Wh = Nh /N y Ph la proporción poblacional en el estrato h: Ph =
1 Nh
Nh
∑ aih
i =1
Para ello, utilizaremos el estimador puntual del muestreo aleatorio estratificado: PˆST = pST =
L
∑ Wh ph
h =1
cuyo error de muestreo se estima por12: L
eP = zα / 2 Var [ pST ] = zα / 2
∑ Wh2
h =1
Nh − nh ph qh ⋅ Nh − 1 nh
con ph las proporciones muestrales en los diferentes estratos:
12
p1 =
800 = 0,7619 1.050
p2 =
600 = 0,6667 900
p3 =
1.300 = 0,7647 1.700
Algunos autores prefieren, como ya se comentó en la nota 8: L
eP = zα / 2 Vaˆ r [ pST ] = zα / 2
© Ediciones Pirámide
∑ Wh2
h =1
Nh − nh ph qh ⋅ Nh nh − 1
343
Ejercicios de inferencia estadística y muestreo Como el tamaño muestral en cada urbanización es proporcional al número de apartamentos de la misma, entonces: n1 =
N1 N n ⋅ n ⇒ W1 = 1 = 1 N N n
n2 =
N2 N n ⋅ n ⇒ W2 = 2 = 2 N N n
n3 =
N3 N n ⋅ n ⇒ W3 = 3 = 3 N N n
donde: n = n1 + n2 + n3 = 1.050 + 900 + 1.700 = 3.650 N = 10.000 Por tanto: W1 =
N1 n1 1.050 1.050 = = ⇒ N1 = ⋅ 10.000 = 2.877 N n 3.650 3.650
W2 =
N2 n2 900 900 = = ⇒ N2 = ⋅ 10.000 = 2.466 N n 3.650 3.650
W3 =
1.700 N3 n3 1.700 = = ⇒ N3 = ⋅ 10.000 = 4.658 N n 3.650 3.650
y así: 1.050 800 900 600 1.700 1.300 ⋅ + ⋅ + ⋅ = 0,7397 PˆST = pST = 3.650 1.050 3.650 900 3.650 1.700 Por tanto, el 73,97 % de los apartamentos estarían disponibles para ser alquilados al menos un mes al año, con un error de muestreo estimado en13: 13
344
Utilizando la fórmula de la nota anterior se obtiene aproximadamente el mismo resultado. © Ediciones Pirámide
Muestreo en poblaciones finitas
eP = 1,645
冤冢
冣
1.050 2 2.877 − 1.050 0,7619 ⋅ 0,2381 ⋅ ⋅ + 3.650 2.876 1.050
+
2.466 − 900 0,6667 ⋅ 0,3333 ⋅ ⋅ + 冢 3900 .650 冣 2.465 900
+
4.658 − 1.700 0,7647 ⋅ 0,2353 ⋅ ⋅ 冢13..700 冣 冥 650 4.657 1.700
2
1/ 2
2
= 0,00947
La Concejalía de Asuntos Sociales de un municipio pretende realizar un estudio sobre el consumo de drogas entre los jóvenes de Enseñanza Secundaria Obligatoria (ESO). De los 15 centros de ESO con que cuenta el municipio, se decidió seleccionar una muestra aleatoria simple de cinco, y en ellos se realizó una encuesta anónima a todos los estudiantes. Algunos datos de la encuesta se presentan a continuación: Ejercicio 5.9
Centro de ESO
Número de alumnos
Gasto semanal medio en tabaco (euros)
Número de alumnos que han probado drogas alguna vez (excluidos tabaco y alcohol)
A B C D E
2.000 1.531 1.897 2.535 1.400
12,00 9,0 8,50 13,15 11,00
480 225 238 300 128
a) Obtenga, con una confianza del 90 %, una estimación para el gasto semanal medio en tabaco entre los estudiantes de Enseñanza Secundaria Obligatoria del municipio, mediante el correspondiente intervalo de confianza. b) Estime, con la misma confianza anterior, el número total de alumnos de ESO que han consumido drogas alguna vez (excluyendo tabaco y alcohol) indicando el error de muestreo cometido. a) Sea X la variable aleatoria que representa el gasto semanal en tabaco de un alumno de ESO en este municipio. Para obtener información sobre esta variable, se ha realizado un muestreo por conglomerados eligiendo, mediante muestreo aleatorio simple, cinco centros de ESO (m = 5) entre los 15 (M = 15) con que cuenta el municipio, y en cada uno de ellos se ha encuestado a todos los alumnos. Denotaremos por xij el valor de la variable referida al alumno j-ésimo del i-ésimo centro seleccionado, con i = 1, ..., 5, j = 1, ..., Ni, siendo Ni el número total de alumnos en el centro de ESO i. Solución
© Ediciones Pirámide
345
Ejercicios de inferencia estadística y muestreo Para estimar el gasto medio semanal en tabaco, utilizaremos el intervalo de confianza: I μ = [ X c − e μ ; X c + eμ ] – siendo Xc y e m el estimador puntual y el error de muestreo correspondiente al muestreo por conglomerados: 1 m Ni 1 m 1 m xij = ∑ ti = ∑ Ni Xi ∑ ∑ n i =1 j =1 n i =1 n i =1
μˆ c = Xc = m
n=
∑ Ni
i =1
eμ = zα / 2 Vaˆ r [ Xc ] = zα / 2 St2 =
m n2
冉
冊
M−m 2 St M
1 m 2 ∑ Ni ( Xi − Xc )2 m − 1 i =1
Por tanto: n = 2.000 + 1.531 + 1.897 + 2.535 + 1.400 = 9.363 Xc =
1 [2.000 ⋅ 12 + 1.531 ⋅ 9 + 1.897 ⋅ 8,50 + 2.535 ⋅ 13,50 + 1.400 ⋅ 11] = 11,06 euros 9.363 Ni
– Xi
– – Xi – Xc
2.000 1.531 1.897 2.535 1.400
12,00 9,0 8,50 13,50 11,00
0,94 –2,06 –2,56 2,44 –0,06
9.363
St2 =
1 [2.000 2 (0,94)2 + 1.5312 ( − 2,06)2 + 1.8972 ( − 2,56)2 + 2.5352 (2,44)2 + 5 −1
+ 1.400 2 ( − 0,06)2 ] = 18.832.826,5 346
© Ediciones Pirámide
Muestreo en poblaciones finitas Con una confianza del 90 % (1 – a = 0,90), tendremos que: za/2 = 1,645 y, por tanto: eμ = 1,645
5 15 − 5 ⋅ ⋅ 18.832.826,5 = 1,39 euros 2 9.363 15
y el intervalo de confianza pedido es: Iμ = [11,06 − 1,39; 11,06 + 1,39] = [9,67; 12, 45] b) Definimos Y como aquella variable que toma el valor 1 si un alumno de ESO ha consumido drogas algunas vez (excluyendo tabaco y alcohol) y el valor 0 en caso contrario. Para estimar el total de alumnos que han consumido drogas alguna vez, mediante un muestreo por conglomerados, utilizaremos como estimador: M m Tˆc = Mt = ∑ ti m i =1 siendo ti el total del conglomerado i, es decir: ti =
Ni
∑ yij j =1
y el error de muestreo cometido se estima como:
冉
冊
M − m St2 eT = zα / 2 Vaˆ r (Tˆc ) = zα / 2 M 2 ⋅ M m donde: St2 = © Ediciones Pirámide
1 m 1 ( ti − t ) 2 = ∑ m − 1 i =1 m −1
冤∑ ti2 − m 冢∑ ti 冣 冥 m
i =1
1
m
2
i =1
347
Ejercicios de inferencia estadística y muestreo Por tanto, sustituyendo la información disponible en estas fórmulas y haciendo los cálculos necesarios, se tiene: ti
ti2
480 225 238 300 128
230.400 50.625 56.644 90.000 16.384
1.371
444.053
15 ⋅ 1.371 = 4.113 alumnos Tˆc = 5 st2 =
冤
冥
1 1 444.053 − (1.371)2 = 17.031,2 5 −1 5
eT = 1,645 152 ⋅
15 − 5 17.031,2 ⋅ = 1.175,8425 15 5
En una ciudad se pretende realizar un estudio sobre el equipamiento informático de los institutos públicos. Para realizar este estudio, se seleccionan, mediante un muestreo aleatorio simple, cuatro de los 10 distritos urbanos, y en cada uno de ellos se envían cuestionarios a todos los institutos. La información obtenida es la siguiente: Ejercicio 5.10
Distrito
Número de institutos
Número total de ordenadores
Número de institutos en los que los alumnos tienen acceso a Internet
III III III IV
15 10 13 20
666 525 585 1.160
12 6 9 19
Con un nivel de confianza del 95 %, estime el número medio de ordenadores por instituto y la proporción de institutos en los que los alumnos tienen acceso a Internet, e indique sus correspondientes errores de muestreo. 348
© Ediciones Pirámide
Muestreo en poblaciones finitas a) Llamamos X a la variable que representa el número de ordenadores de un instituto, y xij es el valor de esta variable correspondiente al instituto j del distrito i. Como se ha realizado un muestreo aleatorio por conglomerados, seleccionando m = 4 distritos entre los M = 10 de la ciudad, para estimar el número medio de ordenadores por instituto utilizaremos el estimador: Solución
μˆ c = Xc =
1 m ∑ ti n i =1
m
n=
∑ Ni = 15 + 10 + 13 + 20 = 58
i =1
cuyo error de muestreo será: eμ = zα / 2 Vaˆ r [ Xc ] = zα / 2 St2 =
m M−m 2 ⋅ ⋅ St n2 M
1 m 2 ∑ Ni ( Xi − Xc )2 m − 1 i =1
Por tanto:
μˆ c = Xc =
1 (666 + 525 + 585 + 1.160) = 50,62 58
Ni
ti
– Xi = ti /Ni
– – Xi – Xc
15 10 13 20
666 525 585 1.160
44,4 52,5 45,0 58,0
–6,22 1,88 –5,62 7,38
2.936
st2 =
1 [152 ( − 6,22)2 + 10 2 (1,88)2 + 132 ( − 5,62)2 + 20 2 (7,38)2 ] = 12.060,6179 4 −1
Para una confianza del 95 %, tenemos que: P( Z zα / 2 ) = 1 − α / 2 = 0,025 ⇒ zα / 2 = 1,96 eμ = 1,96 © Ediciones Pirámide
4 10 − 4 ⋅ ⋅ 12.060,6179 = 5,7493 582 10 349
Ejercicios de inferencia estadística y muestreo Así pues, la estimación del número medio de ordenadores por instituto es de 50,62 con un error de muestreo de ± 5,7493. b) Sea ahora la variable aleatoria Y la que toma el valor 1 si en un instituto los alumnos tienen acceso a Internet, y 0 en otro caso. Se trata de estimar la proporción poblacional mediante la información proporcionada por una muestra obtenida mediante un muestreo aleatorio por conglomerados. Entonces, el estimador puntual y el error de muestreo cometido serán: 1 m Pˆc = ∑ Ni Pi n i =1 eP = zα / 2
m n2
冉
冊
M−m 2 S pˆ M
siendo: m
n=
∑ Ni
i =1
S p2ˆ =
1 m 2 Ni ( Pi − Pˆc )2 ∑ m − 1 i =1
Por tanto: Ni
Ni
∑ yij
pˆi
Pi – Pˆc
12 6 9 19
0,80 0,60 0,69 0,95
0,01 – 0,19 – 0,10 0,16
j =1
15 10 13 20 n = 58
1 Pˆc = [15 ⋅ 0,8 + 10 ⋅ 0,6 + 13 ⋅ 0,69 + 20 ⋅ 0,95] = 0,79 58 s 2pˆ =
1 [152 (0,01)2 + 10 2 ( − 0,19)2 + 132 ( − 0,1)2 + 20 2 (0,16)2 ] = 5,1875 4 −1
eP = 1,96 350
4 10 − 4 ⋅ ⋅ 5,1875 = 0,1192 582 10 © Ediciones Pirámide
Muestreo en poblaciones finitas Es decir, aproximadamente en el 79 % de los institutos, los alumnos tienen acceso a Internet con un error de muestreo estimado de ± 11,92 %. En una urbanización, el administrador general dispone de un listado ordenado de las viviendas que consta de 15 bloques con 10 viviendas cada uno. Además de la identificación de las viviendas, en el listado aparece su gasto anual en agua caliente. Con el fin de estimar el gasto anual en agua caliente de la comunidad, se seleccionó una vivienda al azar en el primer bloque, resultando elegida la segunda del listado. Una vez hecho esto, se decidió investigar, además de ésta, las viviendas que ocupan los lugares 12, 22, etc. El gasto total de las 15 viviendas así elegidas fue de 18.000 litros, y la suma de los cuadrados de estos gastos alcanzó los 263,12 (miles de litros). Estime, indicando el error de muestreo cometido, el gasto total anual de agua caliente de los vecinos de esta comunidad. Nivel de confianza: 95 %. Ejercicio 5.11
Representamos con X la variable aleatoria que recoge el gasto anual en agua caliente de una vivienda. La urbanización consta de un total de 10 · 15 = 150 viviendas y la muestra extraída ha sido de 15 (una por bloque); éstas han sido seleccionadas mediante un muestreo sistemático en el que el intervalo de muestreo utilizado fue: Solución
k=
N 150 = = 10 n 15
Por tanto, el estimador del gasto total anual y el error de muestreo aproximado14 cometido serán: 15
Tˆ = k ∑ xi i =1
eT = zα / 2
N 2 (1 − f ) 2 S n
siendo: S2 =
1 n 1 ( xi − x ) 2 = ∑ n − 1 i =1 n −1
冤∑ xi2 − n 冢∑ xi 冣 冥 n
1
i =1
n
2
i =1
P( Z zα / 2 ) = 1 − α / 2 siendo Z una normal estándar. 14
En el muestreo sistemático no existe un estimador insesgado para Var [Tˆ ].
© Ediciones Pirámide
351
Ejercicios de inferencia estadística y muestreo Con un 95 % de confianza, se tiene: P( Z zα / 2 ) = 1 −
0,05 = 0,975 2
y, por tanto, utilizando la tabla 7: zα / 2 = 1,96 La información muestral de las 15 viviendas seleccionadas se puede resumir en: 15
∑ xi = 18 miles de litros
i =1 15
∑ xi2 = 263,1 (miles de litros)2
i =1
Así pues: 15
Tˆ = k ∑ xi = 10 ⋅ 18 = 180 miles de litros i =1
s2 =
冤
冥
1 1 263,1 − (18)2 = 17,25 (miles de litros)2 14 15
冉
eT = 1,96 150 1 −
冊
15 17,25 = 24, 42 miles de litros 150 15
Es decir, el gasto anual en agua caliente de la comunidad se estima en 180 miles de litros con un error aproximado de ± 24,42 miles de litros (nivel de confianza: 95 %).
La publicación de las calificaciones de estadística ha sido realizada en 10 páginas con 30 alumnos en cada una de ellas, estando éstos ordenados alfabéticamente. El representante de los alumnos desea conocer cuál ha sido la nota media obtenida, pero no quiere copiar las calificaciones de los 300 alumnos. Por ello, decidió seleccionar un alumno al azar entre los que figuraban en la primera hoja, Ejercicio 5.12
352
© Ediciones Pirámide
Muestreo en poblaciones finitas y recoger su calificación y la de los alumnos que, en el resto de las hojas, ocupaban la misma posición que éste. Si de las calificaciones recogidas se ha obtenido que: 10
10
∑ xi = 65
∑ xi2 = 532,75
;
i =1
i =1
obtenga la calificación media de la asignatura y su error de muestreo aproximado. Nivel de confianza: 95 %.
Sea X = «Calificación obtenida por un alumno». Para obtener información sobre la calificación media de los 300 alumnos (media poblacional) el representante estudiantil ha realizado un muestreo sistemático seleccionando 10 calificaciones con intervalo de muestreo: Solución
k=
N 300 = = 30 n 10
pues elige un alumno de cada hoja (n = 10). Para estimar la media poblacional utilizaremos la media muestral:
μˆ = x =
1 n ∑ xi n i =1
Para calcular el error aproximado15 de la estimación, utilizaremos la expresión:
eμ = zα / 2 (1 − f )
S2 n
siendo S2 la varianza muestral. Por tanto, sustituyendo en estas fórmulas la información disponible, tenemos:
μˆ = 15
65 = 6,5 10
Recordemos que en el muestreo sistemático no existe un estimador insesgado para Var [x–].
© Ediciones Pirámide
353
Ejercicios de inferencia estadística y muestreo
s2 =
冤
冥
冉
10 12,25 ⋅ = 2,13 300 10
1 652 532,75 − = 12,25 10 − 1 10
eμ = 1,96
1−
冊
donde za/2 = 1,96 ha sido obtenido a partir de la tabla 7, teniendo en cuenta que: P( Z zα / 2 ) = 1 − α / 2 = 1 − 0,025 = 0,975
Los alumnos matriculados en un centro de enseñanza son 1.200. Se ha realizado una encuesta a 10 de ellos seleccionándolos al azar mediante muestreo aleatorio simple. En una de las preguntas de la encuesta se solicitaba información sobre el gasto aproximado diario de estos alumnos (en euros). Las respuestas fueron: Ejercicio 5.13
14 30
17 8
10
23
6
19
15
12
Con una confianza del 95 %: a) ¿Entre qué valores se situaría el gasto medio de los alumnos de ese centro de enseñanza? b) ¿Qué porcentaje de alumnos gastan como mucho 15 euros diarios? ¿Cuál es el error de muestreo cometido? c) Si se considera la información anterior como el resultado de una muestra piloto y se desea realizar un nuevo estudio más amplio para estimar el gasto medio anterior con un error de muestreo de ± 2 euros, ¿cuántos alumnos seleccionaría usted para la muestra?, ¿y cuántos seleccionaría si quiere estimar, con un error máximo del 10 %, la proporción de los que van al cine más de una vez a la semana?
a) Puesto que se trata de un muestreo aleatorio simple con N = 1.200, n = 10 y se pretende estimar el gasto medio, utilizaremos el intervalo de confianza para la media poblacional: Solución
冤
Iμ = x − zα / 2 354
N−n S ; x + zα / 2 N n
N−n S N n
冥 © Ediciones Pirámide
Muestreo en poblaciones finitas siendo za/2 el cuantil 1 – a/2 en una distribución normal estándar: P( Z zα / 2 ) = 1 − α / 2 Para una confianza del 95 %, se tiene 1 – a = 0,95, y así: P( Z zα / 2 ) = 0,975 ⇒ zα / 2 = 1,96 Con la información muestral calculamos la media y la varianza muestrales: X =
1 n 154 xi = = 15, 4 euros ∑ n i =1 10
S2 =
1 n −1
冤∑ xi2 − n 冢∑ xi 冣 冥 = 9 冤2.844 − n
i =1
1
n
2
1
i =1
冥
154 2 = 52, 49 (euros)2 10
S = + 52, 49 = 7,24 euros Sustituyendo en el intervalo anterior para evaluar el gasto medio diario de los alumnos de este centro, tenemos:
冤
Iμ = 15, 4 − 1,96
冥
1.200 − 10 7,24 1.200 − 10 7,24 ; 15, 4 + 1,96 = 1.200 1.200 10 10
= [15, 4 − 4, 47; 15, 4 + 4, 47] = [10,93; 19,87] Definimos: ⎧1 si el alumno i -ésimo gasta como mucho 15 euros diarios ai = ⎨ ⎩0 en caso contrario Para estimar una proporción poblacional utilizamos el estimador proporción muestral: 1 n Pˆ = p = ∑ ai n i =1 © Ediciones Pirámide
355
Ejercicios de inferencia estadística y muestreo b) Puesto que de los 10 encuestados hay seis que gastan una cantidad inferior o igual a 15 euros, entonces S ai = 6 y: p=
6 = 0,6 ⇒ 60 % 10
Para evaluar el error de muestreo cometido: e p = zα / 2
N−n N −1
pq 1.200 − 10 = 1,96 n 1.199
0,6 ⋅ 0, 4 = 10
= 0,3025 ⇒ 30,25 % c) El tamaño muestral necesario para estimar el gasto medio con un error de muestreo de ± 2 euros se obtiene mediante la expresión: n=
zα2 / 2 ⋅ N ⋅ S 2 eμ2 N + zα2 / 2 S 2
Con la información de la muestra piloto anterior, S2 = 52,49, y el valor del error de muestreo e m = 2 euros, tenemos: n=
1,96 2 ⋅ 1.200 ⋅ 52, 49 = 48,37 ≈ 49 alumnos 2 2 ⋅ 1.200 + 1,96 2 ⋅ 52, 49
Respecto a la segunda cuestión planteada, para estimar una proporción poblacional teniendo un error de muestreo fijado previamente, tendremos que utilizar la expresión: n=
zα2 / 2 Npq e 2p ( N − 1) + zα2 / 2 pq
y si, como es el caso, no se dispone de ninguna información sobre la proporción, p, de los que van al cine más de una vez a la semana, se utilizará aquel valor de p que proporciona la máxima variabilidad: p = 0,5 = q. Por tanto16: 16
Alternativamente, según se indica en el ejercicio 5.3, se podría utilizar la expresión: n=
N (eP2 + zα2 / 2 pq ) 1.200(0,10 2 + 1,96 2 ⋅ 0,5 ⋅ 0,5 = = 89,84 ≈ 90 NeP2 + zα2 / 2 pq 1.200 ⋅ 0,10 2 + 1,96 2 ⋅ 0,5 ⋅ 0,5
presentándose un desfase de una unidad muestral.
356
© Ediciones Pirámide
Muestreo en poblaciones finitas n=
1,96 2 ⋅ 1.200 ⋅ 0,5 ⋅ 0,5 = 88,99 ≈ 89 alumnos 0,10 2 (1.199) + 1,96 2 ⋅ 0,5 ⋅ 0,5
Para que el error en la estimación sea como máximo del 10 % habría que entrevistar al menos a 89 alumnos de este centro.
Una compañía de seguros ha analizado aleatoriamente 200 de sus 10.000 expedientes para estudiar las cuantías y características de las indemnizaciones que paga por los accidentes de tráfico cubiertos por sus pólizas. De la información obtenida se deduce que: Ejercicio 5.14
200
∑ xi = 30,25 miles de euros
i =1
200
;
∑ xi2 = 112,3 (miles de euros)2
i =1
donde la variable representa las indemnizaciones anuales pagadas en el expediente correspondiente. Con una confianza del 95 %: a) Estime la cuantía total anual pagada por la compañía mediante el correspondiente intervalo de confianza. b) Si se hubiera deseado estimar la proporción de expedientes que han dado menos de dos partes de siniestro en el año, ¿qué tamaño muestral tendría que utilizarse para conseguir la estimación con un error de muestreo inferior al 12 %?
Llamamos X a la variable aleatoria que representa la cantidad pagada por la aseguradora anualmente y que consta en el expediente del asegurado (la variable viene expresada en miles de euros). Solución
a) La cantidad total pagada por la compañía será: 10.000
T=
∑
i =1
Xi
que se estimará mediante el intervalo de confianza: IT = [Tˆ − eT ; Tˆ + eT ] © Ediciones Pirámide
357
Ejercicios de inferencia estadística y muestreo siendo: N n Tˆ = N x = ∑ xi n i =1 eT = zα / 2 N ( N − n)
S n
y za/2 es el percentil 1 – a/2 de una N(0, 1). Para un nivel de confianza 1 – a = 0,95: P( Z zα / 2 ) = 1 − α / 2 = 0,975 ⇒ zα / 2 = 1,96 Particularizando con los datos del enunciado: 200
∑ xi = 30,25
i =1
10.000 ⇒ Tˆ = ⋅ 30,25 = 1.512,5 200
calculamos la varianza muestral:
s2 =
1 n −1
冤∑ xi2 − n
i =1
( ∑ xi ) 2 1 30,252 = 112,3 − = 0,5413 n 199 200
冥
冤
冥
Entonces:
eT = 1,96 10.000(10.000 − 200)
0,5413 200
= 1.009, 42
Así, el intervalo de confianza quedará como: IT = [Tˆ − eT ; Tˆ + eT ] = [1.512,5 − 1.009, 42; 1.512,5 + 1.009, 42] = = [503,08; 2.521,92] expresado en miles de euros. 358
© Ediciones Pirámide
Muestreo en poblaciones finitas b) Para obtener el tamaño muestral necesario para estimar una proporción con un error de muestreo fijado (ep = 0,12) podemos utilizar la expresión: np =
zα2 / 2 Npq e 2p ( N − 1) + zα2 / 2 pq
Puesto que no se indica ninguna información previa sobre la verdadera proporción de expedientes que han tenido menos de dos partes de siniestro en el año, debemos tomar la situación de mayor variabilidad (p = q = 0,5). Así, obtendremos: np =
1,96 2 ⋅ 10.000 ⋅ 0,5 ⋅ 0,5 = 66,26 ≈ 67 expedientes 0,12 2 ⋅ 9.999 + 1,96 2 ⋅ 0,5 ⋅ 0,5
La Asociación de Defensa del Ciudadano pretende elaborar un informe de evaluación de las características de las multas de tráfico impuestas en una determinada región. Ante la imposibilidad de revisar todos los expedientes, se decidió dividir la región en tres zonas y seleccionar una muestra aleatoria simple de expedientes sancionadores en cada una de ellas. Algunos de los resultados recogidos se resumen en la siguiente tabla: Ejercicio 5.15
Zona
Número total de expedientes sancionadores
Número de expedientes sancionadores seleccionados
Media muestral
Desviación típica muestral
Número de expedientes con defecto de forma*
A B C
5.200 1.800 3.000
520 180 300
75 150 90
10 25 15
130 20 50
Importe de la sanción
* Entre los investigados.
Con una confianza del 95 %: a) ¿Cuántas multas habría que haber seleccionado en la zona A si se quisiera estimar el porcentaje de ellas que han sido recurridas por los sancionados admitiendo un error de muestreo del 2 %?, ¿y si se tuvieran motivos para pensar que este porcentaje oscila entre el 55 % y el 65 %? b) Estime la proporción de multas que presentan defecto de forma en la zona C indicando el error de muestreo cometido. c) Estime, mediante el correspondiente intervalo de confianza, el importe medio de las sanciones en esta región. © Ediciones Pirámide
359
Ejercicios de inferencia estadística y muestreo d) ¿Cuál hubiera sido el reparto muestral más eficiente entre las distintas zonas para evaluar el importe medio de las sanciones?
Los expedientes sancionadores de esta región pueden considerarse divididos en tres zonas o estratos (A, B y C). En cada una de ellas, los expedientes han sido seleccionados mediante un muestreo aleatorio simple de forma independiente en cada zona. Por tanto, los estimadores dentro de cada zona podrán obtenerse a través de las fórmulas del muestreo aleatorio simple y los globales a partir de las del muestreo estratificado. Solución
a) Para determinar cuántas multas se tendrían que haber seleccionado en la zona A para estimar el porcentaje de las recurridas, admitiendo un error de muestreo del 2 %, utilizaremos la expresión: nA =
zα2 / 2 N A pA q A e 2pA ( N A − 1) + zα2 / 2 pA q A
Puesto que el nivel del confianza es del 95 %, el valor za/2, tal que: P( Z zα / 2 ) = 1 − α / 2 = 1 −
0,05 = 0,975 2
es za/2 = 1,96. Al no disponerse de ninguna información sobre la proporción de multas recurridas en la zona A, tomaremos los valores pA = 0,5 = qA. Por tanto: nA =
1,96 2 ⋅ 5.200 ⋅ 0,5 ⋅ 0,5 = 1.642,79 ≈ 1.643 multas (0,02)2 ⋅ 5.199 + 1,96 2 ⋅ 0,5 ⋅ 0,5
Si puede suponerse que el porcentaje anterior oscila entre el 55 % y el 65 %, entonces el valor de pA que maximiza pAqA es: pA = 0,55 y, por tanto: qA = 0,45 360
© Ediciones Pirámide
Muestreo en poblaciones finitas Con esta información, el tamaño muestral quedaría algo más reducido: nA =
1,96 2 ⋅ 5.200 ⋅ 0,55 ⋅ 0, 45 = 1.631,52 ≈ 1.632 multas (0,02)2 ⋅ 5.199 + 1,96 2 ⋅ 0,55 ⋅ 0, 45
b) El estimador para la proporción de multas con defecto de forma en la zona C es la proporción muestral: 50 = 0,17 PˆC = 300 Su error de muestreo se estima con: NC − nC NC − 1
e pC = zα / 2
pC qC 3.000 − 300 = 1,96 nC 2.999
0,17 ⋅ 0,83 = 300
= 0,0403 Luego el error de muestreo para estimar la proporción de multas con defecto de forma en la zona C será del 4,03 %. c) Sea X la variable que representa el importe de una sanción. El intervalo de confianza para la media poblacional, m, de esta variable es: Iμ ST = [ μˆ ST − eμ ST ; μˆ ST + eμ ST ] siendo:
μˆ ST =
L
L
Nh 5.200 1.800 3.000 xh = ⋅ 75 + ⋅ 150 + ⋅ 90 = 10.000 10.000 10.000 h =1 N
∑ Wh xh = ∑
h =1
= 0,52 ⋅ 75 + 0,18 ⋅ 150 + 0,30 ⋅ 90 = 93 euros eμ ST = zα / 2 Vaˆ r [ μˆ ST ] Vaˆ r [ μˆ ST ] = © Ediciones Pirámide
L
S2
∑ Wh2 (1 − fh ) nh
h =1
h
361
Ejercicios de inferencia estadística y muestreo Las ponderaciones de los respectivos estratos son: W1 =
5.200 = 0,52 10.000
W2 =
;
1.800 = 0,18 10.000
;
W3 =
3.000 = 0,3 10.000
Las fracciones de muestreo correspondientes son: fh = f1 =
520 = 0,1 5.200
;
f2 =
nh Nh
180 = 0,1 1.800
;
f3 =
300 = 0,1 3.000
Así: Vaˆ r [ μˆ ST ] = 0,52 2 (1 − 0,1) ⋅
10 2 252 152 + 0,182 (1 − 0,1) ⋅ + 0,32 (1 − 0,1) ⋅ = 520 180 300
= 0,2088 y el error de muestreo será: eμ ST = 1,96 0,2088 = 0,8956 euros Por tanto, el intervalo de confianza para el importe medio de las sanciones será: Iμ ST = [93 − 0,8956; 93 + 0,8956] = [92,1044; 93,8956] d) El reparto muestral más eficiente es el que se consigue mediante el criterio de afijación óptima de mínima varianza: nh = wh n;
h = 1,..., L = 3
donde n = n1 + n2 + n3 = 1.000 wh =
Nh Sh L
∑ Ni Si
i =1
362
© Ediciones Pirámide
Muestreo en poblaciones finitas Puesto que: Nh
Sh
Nh S h
wh
5.200 1.800 3.000
10 25 15
52.000 45.000 45.000
0,366 0,317 0,317
142.000
entonces tendremos: nh = wh n = wh ⋅ 1.000 n1 = 0,366 ⋅ 1.000 = 366 expedientes sancionadores n2 = 0,317 ⋅ 1.000 = 317 expedientes sancionadores n3 = 0,317 ⋅ 1.000 = 317 expedientes sancionadores
© Ediciones Pirámide
363
6
Teoría de la decisión
Teoría de la decisión
La afluencia de turistas a un país durante el verano depende del clima de estabilidad social y política de los meses precedentes a esta estación. Una empresa ubicada en el país debe decidir el volumen de producción de un determinado producto típico con caducidad anual, para poder ir planificando su actividad. En tres escenarios sociopolíticos distintos, se estiman los beneficios medios que tendría la empresa si produjeran 10.000, 20.000 o 30.000 unidades, que son las opciones que se plantea el departamento de producción. Ejercicio 6.1
Escenarios sociopolíticos
Producción (número de unidades)
Estabilidad
Conflictividad baja
Conflictividad alta
10.000 20.000 30.000
10 25 40
10 5 –5
2 – 10 – 20
Nota: Los beneficios/pérdidas se expresan en millones de euros. Según las opiniones de un grupo de expertos, se estiman las probabilidades de que se presenten cada uno de los escenarios mencionados, obteniéndose los siguientes resultados: — Probabilidad de que se presente «Estabilidad»: 0,6. — Probabilidad de que se presente «Baja conflictividad»: 0,3. — Probabilidad de que se presente «Alta conflictividad»: 0,1. a) ¿Qué decisión debe adoptar la empresa? b) ¿Cuánto estaría dispuesta a pagar la empresa por la elaboración de un informe especializado sobre la futura situación sociopolítica del país? © Ediciones Pirámide
365
Ejercicios de inferencia estadística y muestreo a) En situaciones de decisiones bajo riesgo, como en este caso, donde se conocen o pueden estimarse las probabilidades asociadas a cada uno de los diferentes estados de la naturaleza, se determina el Valor Monetario Esperado (VME) para cada alternativa y se elige aquella que haga máximo este valor. Por tanto, a partir de la definición de VME: Solución
m
VME( ai ) =
∑ rij ⋅ P(θ j ) j =1
y llamando: a1: a2: a3: q1: q2: q3:
«Producir 10.000 unidades». «Producir 20.000 unidades». «Producir 30.000 unidades». «Estabilidad». «Baja conflictividad». «Alta conflictividad».
tenemos: P(θ1 ) = 0,6 P(θ 2 ) = 0,3 P(θ 3 ) = 0,1 y así: 3
VME( a1 ) =
∑ r1 j ⋅ P(θ j ) = 10 ⋅ 0,6 + 10 ⋅ 0,3 + 2 ⋅ 0,1 = 9,2 millones de euros j =1 3
VME( a2 ) =
∑ r2 j ⋅ P(θ j ) = 25 ⋅ 0,6 + 5 ⋅ 0,3 − 10 ⋅ 0,1 = 15,5 millones de euros
VME( a3 ) =
∑ r3 j ⋅ P(θ j ) = 40 ⋅ 0,6 − 5 ⋅ 0,3 − 20 ⋅ 0,1 = 20,5 millones de euros
j =1 3
j =1
Como: VME( a*) = máx VME( ai ) = 20,5 = VME( a3 ) i
366
© Ediciones Pirámide
Teoría de la decisión entonces: a* = a3 y la empresa debería producir 30.000 unidades del producto. b) Como máximo, la empresa estaría dispuesta a pagar por el informe el valor de la información que le permitiría estar segura de elegir la alternativa correcta, es decir, el Valor Esperado de la Información Perfecta (VEIP), que se obtiene de la siguiente forma: VEIP = ( Valor monetario esperado con información perfecta) − − ( Máximo valor monetario esperado) El valor monetario esperado con información perfecta (VMEIP) será: 3
VMEIP =
∑ V *(θ j ) ⋅ P(θ j ) j =1
donde V*(qj) = máx rij = Resultado óptimo bajo el estado qj. En este caso: i
V *(θ1 ) = máx ri1 = máx{10, 25, 40} = 40 i
V *(θ 2 ) = 10 V *(θ 3 ) = 2 con lo cual: VMEIP = 40 ⋅ 0,6 + 10 ⋅ 0,3 + 2 ⋅ 0,1 = 27,2 millones de euros Como el valor monetario esperado máximo era el de a3, 20,5 millones de euros, se tiene que: VEIP = VMEIP − VME( a*) = 27,2 − 20,5 = 6,7 millones de euros siendo ésta la cantidad que estaría dispuesta a pagar, como máximo, la empresa por el informe sobre la futura situación del país. © Ediciones Pirámide
367
Ejercicios de inferencia estadística y muestreo A las mismas conclusiones sobre los apartados a) y b) se podría haber llegado utilizando el criterio de la Pérdida de Oportunidad Esperada (POE), que también se aplica en situaciones bajo riesgo. Para aplicar este criterio, calculamos las pérdidas relativas asociadas a cada alternativa y estado de la naturaleza: R( ai , θ j ) = Rij = V *(θ j ) − rij Con estos valores obtenemos la matriz de pérdidas de oportunidad o matriz Regret: R(ai, qj)
q1
q2
q3
a1 a2 a3
30 15 0
0 5 15
0 12 22
P(qj)
0,6
0,3
0,1
donde: R( a1 , θ1 ) = V *(θ1 ) − r11 = 40 − 10 = 30 R( a2 , θ1 ) = V *(θ1 ) − r21 = 40 − 25 = 15 R( a3 , θ1 ) = V *(θ1 ) − r31 = 40 − 40 = 0 y así sucesivamente. A partir de esta tabla calculamos las pérdidas de oportunidad esperadas asociadas a cada alternativa: m
POE( ai ) =
∑ R(ai , θ j ) ⋅ P(θ j ) j =1 3
POE( a1 ) =
∑ R(a1, θ j ) ⋅ P(θ j ) = 30 ⋅ 0,6 + 0 ⋅ 0,3 + 0 ⋅ 0,1 = 18 millones de euros j =1
POE( a2 ) = 15 ⋅ 0,6 + 5 ⋅ 0,3 + 12 ⋅ 0,1 = 11,7 millones de euros POE( a3 ) = 0 ⋅ 0,6 + 15 ⋅ 0,3 + 22 ⋅ 0,1 = 6,7 millones de euros 368
© Ediciones Pirámide
Teoría de la decisión y se elige como alternativa óptima, a*, aquella, tal que: POE( a*) = mín POE( ai ) = 6,7 = POE( a3 ) i
es decir: a* = a3 = «Producir 30.000 unidades» La cantidad máxima que la empresa estaría dispuesta a pagar por el informe será de nuevo el valor esperado de la información perfecta, que ahora se puede obtener como: VEIP = POE( a*) = 6,7 millones de euros
Resuelva el apartado a) del problema anterior mediante un árbol de decisión.
Ejercicio 6.2
Solución
Trasladamos la información del problema al siguiente árbol de decisión:
es
A
d ida
Confli
ctivida
n 0u
I
d alta (
0,1)
.00
10
u
od
Pr
cir
R1 = 10 ,6) idad (0 Estabil Conflictividad baja (0,3) R2 = 10
Producir 20.000 unidades B Pr od uc ir 3 0.0 00 un ida de s C
R4 = 25 ,6) idad (0 Estabil Conflictividad baja (0,3) R5 = 5 Confli
ctivida
d alta (
0,1)
R6 = –10
R7 = 40 ,6) idad (0 Estabil Conflictividad baja (0,3) R8 = –5 Confli
ctivida
© Ediciones Pirámide
R3 = 2
d alta (
0,1)
R9 = –20
369
Ejercicios de inferencia estadística y muestreo En el único punto de decisión (I) del árbol, debemos elegir la alternativa que dé lugar al beneficio esperado máximo; por esta razón habrá que calcular el valor esperado de los nodos de acontecimientos A, B y C: E[ A] = VME( A) = 10 ⋅ 0,6 + 10 ⋅ 0,3 + 2 ⋅ 0,1 = 9,2 E[ B] = VME( B) = 25 ⋅ 0,6 + 5 ⋅ 0,3 − 10 ⋅ 0,1 = 15,5 E[C ] = VME(C ) = 40 ⋅ 0,6 − 5 ⋅ 0,3 − 20 ⋅ 0,1 = 20,5 El valor monetario asociado al punto de decisión I es el máximo de los valores monetarios esperados en las tres ramas o alternativas: VME( I ) = máx{9,2; 15,5; 20,5} = 20,5 millones de euros que corresponde a la alternativa a3, «producir 30.000 unidades». Esta alternativa coincide con la del problema anterior que se había obtenido por el criterio del máximo valor monetario esperado.
La compañía petrolífera BRD se está planteando la elección del tipo de plataforma que va a instalar en una zona costera. Por los primeros sondeos realizados, se conoce la existencia de crudo en el área seleccionada, pero se ignora la cantidad del mismo. Los expertos del servicio de prospecciones estiman unas probabilidades a priori sobre la dimensión de la bolsa de petróleo y, junto con el servicio de proyectos y planificación, elabora la siguiente tabla, en la que se incluyen los beneficios que se obtendrían con cada tipo de plataforma, bajo los posibles estados de la naturaleza. Ejercicio 6.3
Dimensión del yacimiento Tipo de plataforma
Plataforma tipo A Plataforma tipo B Probabilidades a priori
Reducido
Medio
Grande
1.200 millones de $ – 100 millones de $
1.700 millones de $ 1.000 millones de $
3.900 millones de $ 5.000 millones de $
0,4
0,2
0,4
La compañía puede pedir un informe a ALPROSP, una de las mejores empresas de prospecciones de Estados Unidos, cuyo coste es de 200 millones de dólares. Con el fin de comprobar el grado de fiabilidad de esta empresa, BRD analiza una muestra de 100 informes de predicción realizados por ALPROSP, de la que se extraen los siguientes datos: 370
© Ediciones Pirámide
Teoría de la decisión Resultado final Predicción
Reducido Medio Grande
Reducido
Medio
Grande
15 2 0
10 25 10
1 9 28
Se pide que: a) Analice si BRD debe pedir el informe e indique, en cualquier caso, la secuencia de decisiones que debe seguir. b) Determine la cantidad máxima que BRD estaría dispuesta a pagar por el informe.
a) Se trata de un problema de decisión bajo riesgo con decisiones secuenciales, por tanto, construiremos un árbol de decisión. En primer lugar, la compañía BRD deberá elegir entre las siguientes alternativas: Solución
— Solicitar el informe a ALPROSP. — No solicitar el informe a ALPROSP. Es decir: rme
info
ar licit
So
I No
soli
cita
r inf
orm
e
Posteriormente, según la información que suministre el informe, en caso de que fuera solicitado, habrá que decidir el tipo de plataforma a instalar: A o B. Definimos los siguientes sucesos, que representan los estados de la naturaleza: R = «El M = «El G = «El PR = «El PM = «El PG = «El
yacimiento es de dimensiones reducidas». yacimiento es de dimensiones medias». yacimiento es de gran dimensión». informe predice yacimiento reducido». informe predice yacimiento medio». informe predice yacimiento grande».
© Ediciones Pirámide
371
Ejercicios de inferencia estadística y muestreo Conocemos las siguientes probabilidades a priori: P( R) = 0, 4 P( M ) = 0,2 P(G) = 0, 4 Nos serán útiles las probabilidades de aciertos y fallos de ALPROSP al emitir este tipo de informes. Éstas son las siguientes:
P( PR / R) =
15 17
P( PR / M ) =
10 25 ; P( PM/ M ) = ; 45 45
P( PG / M ) =
10 45
P( PR / G) =
1 38
P( PG / G) =
28 38
;
;
P( PM/ R) =
P( PM/ G) =
2 17
9 38
; P( PG / R) =
;
0 =0 17
Además, por medio del teorema de la probabilidad total y del teorema de Bayes, podemos obtener las probabilidades a posteriori, que servirán para calcular los valores esperados de cada nodo de decisión del árbol que se construirá. Así, obtenemos las siguientes probabilidades a partir del teorema de la probabilidad total: P( PR) = P( PR / R) ⋅ P( R) + P( PR / M ) ⋅ P( M ) + P( PR / G) ⋅ P(G) = =
15 10 1 ⋅ 0, 4 + ⋅ 0,2 + ⋅ 0, 4 = 0, 408 45 38 17
P( PM ) = P( PM/ R) ⋅ P( R) + P( PM/ M ) ⋅ P( M ) + P( PM/ G) ⋅ P(G) = =
9 2 25 ⋅ 0,2 + ⋅ 0, 4 = 0,253 ⋅ 0, 4 + 45 38 17
P( PG) = P( PG / R) ⋅ P( R) + P( PG / M ) ⋅ P( M ) + P( PG / G) ⋅ P(G) = = 0 ⋅ 0, 4 + 372
10 28 ⋅ 0,2 + ⋅ 0, 4 = 0,339 45 38 © Ediciones Pirámide
Teoría de la decisión o bien: P( PG) = 1 − P( PR) − P( PM ) = 0,339 y, mediante el teorema de Bayes, calculamos las probabilidades a posteriori: 15 ⋅ 0, 4 P( PR / R) ⋅ P( R) 17 = = 0,865 P( R / PR) = P( PR) 0, 408 10 ⋅ 0,2 P( PR / M ) ⋅ P( M ) 45 = = 0,109 P( M/ PR) = P( PR) 0, 408 P(G/ PR) = 1 − 0,865 − 0,109 = 0,026 2 ⋅ 0, 4 P( PM/ R) ⋅ P( R) 17 = P( R / PM ) = = 0,186 P( PM ) 0,253 25 ⋅ 0,2 P( PM/ M ) ⋅ P( M ) 45 P( M/ PM ) = = = 0, 439 P( PM ) 0,253 P(G/ PM ) = 1 − 0,186 − 0, 439 = 0,375 P( R / PG ) =
P( PG / R) ⋅ P( R) 0 ⋅ 0, 4 = =0 P( PG ) 0,339
10 ⋅ 0,2 P( PG / M ) ⋅ P( M ) 45 P( M / PG ) = = = 0,131 P( PG) 0,339 P(G/ PG) = 1 − 0 − 0,131 = 0,869 La representación gráfica del árbol de decisión, incluyendo las probabilidades calculadas, queda como sigue: © Ediciones Pirámide
373
A 1.324,7
II o
cid
u red
1.324,7
Plata
form
aB
to ien 8 m i 40 c ya = 0, n ) ó i R icc P(P red
152,5
P
Predicción yacimiento medio P(PM) = 0,253 Pre 2.673,1376 dic ció n P( yaci m PG ) = ient 0,3 o gr an 39 de
So
lic
ita
ri
nf
or
m
e
A′
aA
form
Plata
C 2.432
III 2.432
Plata
form
aB
D 2.295,4
aA
form
Plata
I
B
No
Plata
so
form
aB
026
R5 = 1.000
P(G/PR) = 0,
026
R8 = 1.700
P(G/PR) = 0,
375
lic ita ri nf or m
R11 = 1.000
P(G/PR) = 0,
375
R14 = 1.700
P(G/PR) = 0,
869
© Ediciones Pirámide
V 2.380
R17 = 1.000
P(G/PR) = 0,
aB
H 2.160
869
P(G) = 0,4
R18 = 5.000 R19 = 1.200
P(M) = 0,2
P(G) = 0,4
P(R) = 0,4
Plataform
R15 = 3.900
R16 = –100 P(R/PR) = 0 P(M/PR) = 0,131
G 2.380
R12 = 5.000
R13 = 1.200 P(R/PR) = 0 P(M/PR) = 0,131
e
aA
R9 = 3.900
186 R10 = –100 P(R/PR) = 0, P(M/PR) = 0,439
P(R) = 0,4 Plataform
R6 = 5.000
186 R7 = 1.200 P(R/PR) = 0, P(M/PR) = 0,439
F 4.476
R3 = 3.900
865 R4 = –100 P(R/PR) = 0, P(M/PR) = 0,109
E 3.611,8
IV 4.476
R2 = 1.700
P(G/PR) = 0,
R20 = 1.700 R21 = 3.900 R22 = –100
P(M) = 0,2
R23 = 1.000 R24 = 5.000
Ejercicios de inferencia estadística y muestreo
374 aA
form
Plata
865 R1 = 1.200 P(R/PR) = 0, P(M/PR) = 0,109
Teoría de la decisión Con las probabilidades calculadas obtenemos los valores monetarios esperados en cada uno de los nodos, cantidades que también se incorporan al árbol de decisión: VME( A) = 1.200 ⋅ 0,865 + 1.700 ⋅ 0,109 + 3.900 ⋅ 0,026 = 1.324,7 VME( B) = − 100 ⋅ 0,865 + 1.000 ⋅ 0,109 + 5.000 ⋅ 0,026 = 152,5 VME(C ) = 1.200 ⋅ 0,186 + 1.700 ⋅ 0, 439 + 3.900 ⋅ 0,375 = 2.432 VME( D) = − 100 ⋅ 0,186 + 1.000 ⋅ 0,, 439 + 5.000 ⋅ 0,375 = 2.295, 4 VME( E ) = 1.200 ⋅ 0 + 1.700 ⋅ 0,131 + 3.900 ⋅ 0,869 = 3.611,8 VME( F ) = − 100 ⋅ 0 + 1.000 ⋅ 0,131 + 5.000 ⋅ 0,869 = 4.476 VME(G) = 1.200 ⋅ 0, 4 + 1.700 ⋅ 0,2 + 3.900 ⋅ 0, 4 = 2.380 VME( H ) = − 100 ⋅ 0, 4 + 1.000 ⋅ 0,2 + 5.000 ⋅ 0, 4 = 2.160 A continuación, resolvemos en cada punto de decisión, comenzando por los más alejados en el tiempo: VME( II ) = máx{VME( A), VME( B)} = 1.324,7 VME( III ) = máx{VME(C ), VME( D)} = 2.432 VME( IV ) = máx{VME ( E ), VME ( F )} = 4.476 VME (V ) = máx{VME (G ), VME ( H )} = 2.380 Antes de poder tomar la decisión en I, necesitamos obtener: VME( A′ ) = 1.324,7 ⋅ 0, 408 + 2.432 ⋅ 0,253 + 4.476 ⋅ 0,339 = 2.673,1376 Si a este valor le restamos el coste del informe, tendremos que: VME( A′ ) − Coste informe = 2.673,1376 − 200 = 2.473,1376 que es una cantidad superior al VME(V): VME( A′ ) − Coste informe = 2.473,1376 > 2.380 = VME(V ) © Ediciones Pirámide
375
Ejercicios de inferencia estadística y muestreo Por tanto, la secuencia de decisiones que se debe seguir será: 1. Encargar el informe a ALPROSP. 2. Si el informe predice «yacimiento de dimensiones reducidas», se debería optar por el tipo de plataforma A, pues: VME(II) = 1.324,7 = VME(A) Si el informe predice «yacimiento de dimensión media», de nuevo se debería optar por la plataforma A. Si el informe predice «yacimiento de dimensión grande», se debe elegir el tipo de plataforma B. b) La cantidad máxima que la compañía BRD estaría dispuesta a pagar por el informe será el valor esperado de la información muestral: VEIM = ( Valor esperado de la decisión óptima con información muestral, sin tener en cuenta el coste de la información muestral) − − ( Valor esperado de la decisión óptima sin información muestral) = = 2.673,1376 − 2.380 = 293,1376 millones de dólares
Ejercicio 6.4
Una empresa puede adquirir materias primas necesarias para su proceso de producción en cantidad suficiente para un mes o dos meses de acti-
vidad. Según la evolución del mercado internacional de esta materia prima, en el próximo mes, su precio puede aumentar en un 10 % con probabilidad 0,4, o puede disminuir en un 10 % con probabilidad 0,6. Las materias primas necesarias para un mes tienen actualmente un coste de 356 miles de euros. La empresa puede consultar con un equipo de predicción de una universidad, que facilita información sobre la evolución del mercado, con acierto en el 90 % de los casos. Este equipo cobra cada consulta a un precio que negocia con el cliente. a) ¿En qué caso será conveniente solicitar el informe? b) ¿Qué decisiones debe tomar la empresa en cuanto a la solicitud o no del informe y a la adquisición de materias primas a corto plazo? Para analizar la conveniencia de solicitar el informe, debemos obtener el valor monetario esperado, que en este caso será un coste, de esta alternativa frente a la contraria y, a continuación, comparar los costes esperados. Para sistematizar el proceso construimos un árbol de decisión secuencial, en el que tendremos como primeras alternativas: Solución
376
© Ediciones Pirámide
Teoría de la decisión
ar
sult
Con
I No
con
sult
ar
En caso de que se decidiera no consultar al equipo de predicción, la empresa se plantearía si adquirir las materias primas para un mes o para dos. Si el equipo de predicción es consultado, la empresa volvería a plantearse la misma cuestión, pero teniendo en cuenta los resultados del informe en este equipo, que pueden predecir una subida del precio de las materias primas o una bajada. La secuencia de decisiones queda reflejada en el gráfico siguiente: El precio sube un 10% Comprar para un mes
A 737,4184
Co ns
ult
ar
D
II
Predice subida de precios ,42 =0 ) PS P(
Com
prar
712
) P(S/PS
para
7
= 0,85
P(B/P
S) = 0,1
El precio baja un 10%
43
dos meses
Comprar para un mes
B 681,3128
III 681,3128
Com
prar
para
I
R2 = 676,4
R3 = 712
El precio sube un 10%
Predice bajada 694,2014 de precios P( PB )= 0,5 8
R1 = 747,6
69 ) = 0,0 P(S/PB P(B/P B) = 0 ,931
El precio baja un 10%
dos meses
R4 = 747,6
R5 = 676,4
R6 = 712
694,2014
No co ult ns ar 704,88
Com
prar
P(S) = 0,4
R7 = 747,6
C 704,88
IV
© Ediciones Pirámide
be un 10 %
El precio su
Comprar para un mes
para
dos meses
El precio ba
ja un 10 %
P(B) = 0,6
R8 = 676,4
R9 = 712
377
Ejercicios de inferencia estadística y muestreo Si se decide comprar para un mes y el precio sube un 10 %, el coste total, al final del segundo mes, habrá sido de: 356 + 356 · 1,10 = 747,6 miles de euros Por el contrario, si el precio bajara, este coste sería de: 356 + 356 · 0,90 = 676,4 miles de euros En el caso en que se decidiera comprar para los dos meses, el coste sería: 356 · 2 = 712 miles de euros Por la evolución del mercado internacional de esta materia prima, se sabe que, en el próximo mes: P( S ) = 0, 4 P( B) = 0,6 donde S y B son los sucesos o estados de la naturaleza que corresponden, respectivamente, a la subida o bajada del precio de la materia prima un 10 %. Como el equipo al que se quiere consultar acierta en el 90 % de los casos, definiendo los sucesos: PS: El equipo predice subida de precios. PB = PS: El equipo predice bajada de precios. se tendrá que: P( PS /S ) = 0,90 ⇒ P( PB / S ) = 0,10 P( PB / B) = 0,90 ⇒ P( PS / B) = 0,10 A partir de los datos anteriores, y utilizando el teorema de la probabilidad total, obtenemos las probabilidades correspondientes a cada una de las predicciones: P( PS ) = P( PS /S ) ⋅ P( S ) + P( PS / B) ⋅ P( B) = 0,90 ⋅ 0, 4 + 0,10 ⋅ 0,6 = 0, 42 P( PB) = P( PB /S ) ⋅ P( S ) + P( PB / B) ⋅ P( B) = 0,10 ⋅ 0, 4 + 0,90 ⋅ 0,6 = 0,58 378
© Ediciones Pirámide
Teoría de la decisión Aplicando ahora el teorema de Bayes, podemos calcular las probabilidades a posteriori:
P( S / PS ) =
P( PS /S ) ⋅ P( S ) 0,90 ⋅ 0, 4 = = 0,857 0, 42 P( PS )
P( B / PS ) = 1 − 0,857 = 0,143 P( S / PB) =
P( PB /S ) ⋅ P( S ) 0,10 ⋅ 0,4 = = 0,069 P( PB) 0,58
P( B / PB) =
P( PB / B) ⋅ P( B) 0,90 ⋅ 0,6 = = 0,931 P( PB) 0,58
o bien: P( B / PB) = 1 − P( S / PB) = 1 − 0,069 = 0,931 Para determinar la secuencia de alternativas a elegir, debemos conocer el valor monetario de cada opción representada en los distintos nodos: VME( A) = 747,6 ⋅ 0,857 + 676, 4 ⋅ 0,143 = 737,4184 VME( B) = 747,6 ⋅ 0,069 + 676, 4 ⋅ 0,931 = 681,3128 VME(C ) = 747,6 ⋅ 0,4 + 676,4 ⋅ 0,6 = 704,88 y, como los resultados son costes, en los nodos de decisión habrá que obtener el mínimo valor de sus ramas: VME( II ) = mín{VME( A), 712} = 712 VME( III ) = mín{VME( B), 712} = VME( B) = 681,3128 VME( IV ) = mín{VME (C ), 712} = VME (C ) = 704,88 VME( D) = VME ( II ) ⋅ 0, 42 + VME ( III ) ⋅ 0,58 = 712 ⋅ 0, 42 + 681,3128 ⋅ 0,58 = 694,2014 VME( I ) = mín{VME( D), VME ( IV )} = VME( D) = 694,2014 © Ediciones Pirámide
379
Ejercicios de inferencia estadística y muestreo a) Según los resultados obtenidos, en el árbol de decisión tenemos, finalmente: VME = 694,2014 r
lta nsu
Co
I
No
con
sult
ar
VME = 704,88
luego se solicitará el informe al equipo de predicción si se consigue negociar un precio que sea, como máximo, de: 704,88 – 694,2014 = 10,6786 miles de euros cantidad que corresponde a lo que la empresa se podría ahorrar con respecto al resultado que obtendría sin consultar al laboratorio. Esta cantidad de 10,6786 miles de euros coincide con el concepto de VEIM, pero aplicado para un caso en el que los resultados son costes: VEIM = (Valor esperado de la decisión óptima con información sin tener en cuenta el coste de la información) – – (Valor esperado de la decisión óptima sin información adicional) que ahora se convertirá en un coste: CEIM = (Coste esperado de la decisión óptima sin información del equipo de predicción) – (Coste esperado de la decisión óptima con información) b) La secuencia de decisiones a tomar será la siguiente: 1.
2.
Si el precio de la consulta supera los 10,6786 miles de euros, la empresa no debería consultar al equipo de predicción y directamente debería adquirir sus materias primas para un mes. Si el precio de la consulta no supera los 10,6786 miles de euros, la empresa debería realizar dicha consulta y decidir en función de los resultados: — Si se predice subida de precios, entonces se deberían adquirir materias primas para dos meses. — Si se predice bajada de precios, entonces se deberían adquirir materias primas para un mes solamente.
380
© Ediciones Pirámide
Teoría de la decisión Una empresa española consigue la adjudicación de las obras de construcción de un aeropuerto en una ciudad centroafricana, pues presentó la oferta más ventajosa por un importe de 500 millones de euros. El plazo de ejecución de la obra es de ocho meses. La forma de realización de la obras, que la empresa debe decidir, depende de las condiciones meteorológicas que se presenten en este período. Si hay menos de un 10 % de días laborables lluviosos, la empresa puede terminar la obra en el plazo fijado, contratando a 5.000 trabajadores y con un parque de 10 máquinas. Si los días lluviosos representan entre un 10 % y un 20 % de los días laborables, la empresa debería contratar 7.500 trabajadores y un parque de 15 máquinas para terminar la obra a tiempo. Si los días lluviosos suponen más de un 20 % de los laborables, la empresa debería disponer de 10.000 empleados y un parque de 25 máquinas para ajustarse al plazo fijado. Para estimar la probabilidad de cada una de estas situaciones, la empresa dispone de la siguiente información, facilitada por un centro meteorológico sobre la pluviosidad de la zona en este período: Ejercicio 6.5
Porcentaje de días lluviosos en el período considerado
Número de períodos en los últimos 20 años
Menos de un 10 % Entre un 10 % y un 20 % Más de un 20 %
14 4 2
Los gastos a los que tendrá que hacer frente la empresa son los siguientes: — Salario bruto mensual medio por empleado: 1.500 euros. — Alquiler mensual medio por máquina: 160.000 euros. — Coste de materiales: 75.800.000 euros. En caso de no terminar la obra en el plazo fijado, la empresa deberá paralizar la ejecución, pagar una indemnización de 25 millones de euros, y sólo se le reembolsará el coste de los materiales. Según un acuerdo fijado entre las partes, independientemente de la finalización de la obra, el tiempo mínimo que la empresa debe contratar a los trabajadores y alquilar la maquinaria es de ocho meses. a) ¿De qué forma debe plantear la empresa la construcción del aeropuerto? b) ¿Le interesaría a esta empresa un estudio más riguroso sobre las condiciones meteorológicas en la zona cuyo coste fuera de un millón y medio de euros? © Ediciones Pirámide
381
Ejercicios de inferencia estadística y muestreo c)
¿Qué decisión se habría adoptado bajo un criterio optimista si no se hubiera conocido ninguna información sobre la probabilidad de los estados de la naturaleza que se pueden presentar? ¿Y bajo el criterio pesimista o de Wald?
a) Para elegir la forma de realización de la obra, debemos utilizar las herramientas de la teoría de decisión bajo riesgo, pues con la información facilitada por el centro meteorológico la probabilidad de cada uno de los estados de la naturaleza puede estimarse como: Solución
P(θ1 ) =
14 = 0,7 20
P(θ 2 ) =
4 = 0,2 20
P(θ 3 ) =
2 = 0,1 20
donde q1, q2 y q3 son los estados de la naturaleza correspondientes, respectivamente, a que haya menos de un 10 % de días lluviosos, entre un 10 % y un 20 % y más de un 20 %. Para utilizar los criterios de decisión bajo riesgo, debemos obtener, en primer lugar, la matriz de resultados correspondientes a cada combinación de alternativas y estados de la naturaleza: ( a1 , θ1 ) ⇒ r11 s a1: «Contratar 5.000 trabajadores y un parque de 10 máquinas». q1: «Menos de un 10 % de días lluviosos». Ingresos: 500 millones de euros Gastos: Salarios: Máquinas: Materiales:
5.000 · 1.500 · 8 = 10 · 160.000 · 8 =
60.000.000 euros 12.800.000 euros 75.800.000 euros 148.600.000 euros
r11 = 500 – 148,6 = 351,4 millones de euros 382
© Ediciones Pirámide
Teoría de la decisión q2: «Entre un 10 % y un 20 % de días lluviosos». Ingresos: 75,8 millones de euros Gastos: Salarios: Máquinas: Materiales: Indemnización:
60.000.000 euros 12.800.000 euros 75.800.000 euros 25.000.000 euros 173.600.000 euros
r12 = 75,8 – 173,6 = – 97,8 millones de euros q3: «Más de un 20 % de días lluviosos». En este caso, con los 5.000 trabajadores y las 10 máquinas, tampoco se acaba la obra en el plazo fijado si hay más de un 20 % de días lluviosos; por tanto, nos encontramos en la situación anterior, y así, r13 = – 97,8 millones de euros. s a 2: «Contratar 7.500 trabajadores y un parque de 15 máquinas». q1: Ingresos: 500 millones de euros Gastos: Salarios: Máquinas: Materiales:
7.500 · 1.500 · 8 = 15 · 160.000 · 8 =
90.000.000 euros 19.200.000 euros 75.800.000 euros 185.000.000 euros
r 21 = 500 – 185 = 315 millones de euros q2 : Con 7.500 trabajadores y 15 máquinas la obra se terminará en el plazo fijado, aunque los días lluviosos oscilen entre el 10 % y el 20 %; por tanto, r 22 = r 21 = 315 millones de euros. © Ediciones Pirámide
383
Ejercicios de inferencia estadística y muestreo q3 : Ingresos: 75,8 millones de euros Gastos: Salarios: Máquinas: Materiales: Indemnización:
90.000.000 euros 19.200.000 euros 75.800.000 euros 25.000.000 euros 210.000.000 euros
r 23 = 75,8 – 210 = – 134,2 millones de euros s a 3: «Contratar 10.000 trabajadores y un parque de 25 máquinas». En este caso, las obras finalizarían en el plazo fijado con cualquier estado de la naturaleza (q1, q2, q3) que se presente; por tanto, r 31 = r 32 = r 33. Ingresos: 500 millones de euros Gastos: Salarios: Máquinas: Materiales:
10.000 · 1.500 · 8 = 120.000.000 euros 25 · 160.000 · 8 = 32.000.000 euros 75.800.000 euros 227.800.000 euros
r 31 = r 32 = r 33 = 500 – 227,8 = 272,2 millones de euros Así, la tabla de resultados, en millones de euros, quedaría como: Estados de la naturaleza q1 Menos de 10 % días lluviosos
q2 Entre 10 % y 20 % días lluviosos
q3 Más de 20 % días lluviosos
a1: 5.000 trabajadores 10 máquinas
351,4
– 97,8
– 97,8
a2: 7.500 trabajadores 15 máquinas
315,0
3150
– 134,2
a3: 10.000 trabajadores 25 máquinas
272,2
272,2
272,2
0,7
0,2
0,1
Alternativas
Probabilidades
384
© Ediciones Pirámide
Teoría de la decisión Según el criterio del valor monetario esperado, para cada alternativa calculamos: m
VME( ai ) =
∑ rij ⋅ P(θ j ) j =1
y elegimos como óptima, a*, aquella alternativa, tal que: VME( a*) = máx VME( ai ) i
3
VME( a1 ) =
∑ r1 j ⋅ P(θ j ) = 351,4 ⋅ 0,7 + ( − 97,8) ⋅ 0,2 + ( − 97,8) ⋅ 0,1 = 216,64 j =1 3
VME( a2 ) =
∑ r2 j ⋅ P(θ j ) = 351 ⋅ 0,7 + 315 ⋅ 0,2 − 134,2 ⋅ 0,1 = 270,08
VME( a3 ) =
∑ r3 j ⋅ P(θ j ) = 272,2 ⋅ 0,7 − 272,2 ⋅ 0,2 − 272,2 ⋅ 0,1 = 272,2
j =1 3
j =1
Como el máximo valor monetario esperado corresponde a: VME( a3 ) = 272,2 entonces a* = a3, es decir, la alternativa elegida por la empresa debería ser comenzar la obra con 10.000 trabajadores y un parque de 25 máquinas. A la misma conclusión se llegaría utilizando el criterio de la pérdida de oportunidad esperada. Para ello, obtenemos la tabla Regret de pérdidas de oportunidad: R( ai , θ j ) = V *(θ j ) − rij siendo: V *(θ j ) = máx rij i
En este caso: V *(θ1 ) = máx ri1 = máx{351, 4; 315; 272,2} = 351,4 i
V *(θ 2 ) = 315 V *(θ 3 ) = 272,2 © Ediciones Pirámide
385
Ejercicios de inferencia estadística y muestreo y así, la matriz Regret, en millones de euros, será: R(ai, qj)
q1
q2
q3
a1 a2 a3
0, 36,4 79,2
412,8 0 42,8
370,0 406,4 0
P(qj)
0,7
0,2
0,1
donde: R( a1 , θ1 ) = V *(θ1 ) − r11 = 351, 4 − 351, 4 = 0 R( a2 , θ1 ) = V *(θ1 ) − r21 = 351, 4 − 315 = 36, 4 R( a3 , θ1 ) = V *(θ1 ) − r31 = 351, 4 − 272,2 = 79,2 y así sucesivamente. Ahora calculamos la pérdida de oportunidad esperada asociada a cada una de las alternativas: m
POE( ai ) =
∑ R(ai , θ j ) ⋅ P(θ j ) j =1
POE( a1 ) = 0 ⋅ 0,7 + 412,8 ⋅ 0,2 + 370 ⋅ 0,1 = 119,56 POE( a2 ) = 36, 4 ⋅ 0,7 + 0 ⋅ 0,2 + 406, 4 ⋅ 0,1 = 66,12 POE( a3 ) = 79,2 ⋅ 0,7 + 42,8 ⋅ 0,2 + 0 ⋅ 0,1 = 64 Como: POE( a*) = mín POE( ai ) = 64 = POE( a3 ) i
entonces la alternativa óptima será: a* = a3 386
© Ediciones Pirámide
Teoría de la decisión b) Para ver si le interesaría el estudio, obtenemos el valor esperado de la información perfecta: VEIP = VMEIP = máx VME( a1 ) = VMEIP − VME( a*) i
donde: m
VMEIP =
∑ V *(θ j ) ⋅ p(θ j ) = 351,4 ⋅ 0,7 + 315 ⋅ 0,2 + 272,2 ⋅ 0,1 = 336,2 j =1
y, por tanto: VEIP = 336,2 − VME( a3 ) = 336,2 − 272,2 = 64 Es decir, la empresa estaría dispuesta a pagar hasta 64 millones de euros; por tanto, si el estudio cuesta 1,5 millones, sí le interesaría realizarlo. c) Si no se conoce información sobre las probabilidades de los estados de la naturaleza, se tratará de un problema de decisión bajo incertidumbre. Si pretendemos utilizar un criterio optimista, éste será el criterio maximax. A cada alternativa se le asocia: k ( ai ) = máx rij j
y se elige como óptima, a*, tal que: k ( a*) = máx k ( ai ) = máx máx rij i
i
j
Alternativas
k(ai) = máx rij
a1 a2 a3
351,4 315,0 272,2
j
Se elegiría entonces a1: «Contratar 5.000 trabajadores y 10 máquinas». © Ediciones Pirámide
387
Ejercicios de inferencia estadística y muestreo Si adoptamos el criterio pesimista maximin, o de Wald, entonces calculamos para cada alternativa el valor: k ( ai ) = mín rij j
es decir, el peor de los resultados posibles para ai, y la alternativa óptima, a*, verificará: k ( a*) = máx k ( ai ) = máx mín rij i
i
j
Alternativas
k(ai) = mín rij
a1 a2 a3
– 97,8 – 134,2 272,2
j
con lo cual se elegiría a3: «Contratar 10.000 trabajadores y alquilar 25 máquinas». La casa discográfica a la que pertenece un famoso cantante ha decidido realizar una gira mundial para promocionar su nuevo disco. En una de las ciudades en las que se tiene previsto realizar un concierto, existe la posibilidad de alquilar la plaza de toros de la localidad, que cuenta con una capacidad de 5.000 personas, o el auditorio municipal, que es un local cerrado con capacidad para 3.000 personas. El empresario encargado de realizar las gestiones ha conseguido negociar el alquiler de la plaza de toros en 75.000 euros y el del auditorio en 50.000 euros; en ambos casos, el precio de cada entrada sería de 45 euros. Debido a la fama mundial del cantante, la venta de la totalidad de las entradas para el concierto está prácticamente asegurada en cualquiera de los dos emplazamientos, pero se debe tener en cuenta que, si el concierto se realizara en la plaza de toros y lloviera, éste habría de ser suspendido; en este caso se devolvería la mitad del precio de la entrada a cada uno de los espectadores y se les entregaría como obsequio un disco firmado por el propio cantante, cuyo coste para la compañía es de 12 euros. Ejercicio 6.6
a) Indique el lugar aconsejado para celebrar el concierto según los distintos criterios de decisión. b) Si la probabilidad de lluvia se puede estimar en un 30 %, ¿qué decisión debería tomar el empresario? c) ¿Qué probabilidad debería asociarse al estado de la naturaleza «lluvia» para que el empresario se mostrara indiferente ante los dos posibles lugares de celebración del concierto? 388
© Ediciones Pirámide
Teoría de la decisión Construimos en primer lugar la tabla o matriz de resultados o consecuencias para este problema de decisión. Las alternativas que se plantean son:
Solución
a1 = «Alquilar la plaza de toros». a2 = «Alquilar el auditorio municipal». y los estados de la naturaleza considerados son: q1 = «El día del concierto llueve». q2 = «El día del concierto no llueve». Si se decide alquilar el auditorio municipal para la celebración del concierto (a2), entonces los resultados no dependerán de si llueve o no, porque se trata de un local cerrado. Los beneficios en este caso se calculan teniendo en cuenta que: Gastos: Ingresos por venta de entradas: Beneficios:
Alquiler del auditorio = 50.000 euros 45 · 3.000 = 135.000 euros 135.000 – 50.000 = 85.000 euros
Si se alquila la plaza de toros y no llueve, entonces: Alquiler de la plaza de toros = 75.000 euros Gastos: 45 · 5.000 = 225.000 euros Ingresos por venta de entradas: 225.000 – 75.000 = 150.000 euros Beneficios: Si se alquila la plaza de toros y llueve, tenemos: Ingresos por venta de entradas: Gastos: Alquiler de la plaza de toros Devolución mitad de la entrada: Discos-obsequio firmados:
45 · 5.000 = 225.000 euros = 75.000 euros 22,50 · 5.000 = 112.500 euros 12 · 5.000 = 60.000 euros
Total gastos:
247.500 euros
Beneficios = 225.000 – 247.500 = – 22.500 euros © Ediciones Pirámide
389
Ejercicios de inferencia estadística y muestreo Por tanto, la matriz de resultados o consecuencias quedará como: q1: llueve
q2: no llueve
– 2,25 8,5
15,0 8,5
a1: alquilar la plaza de toros a2: alquilar el auditorio
donde los resultados representan beneficios en decenas de miles de euros. a) En este caso, no se indican las probabilidades asociadas a los estados de la naturaleza, por tanto, se tratará de un problema de decisión bajo incertidumbre.
Criterio maximax (optimista) Asociamos a cada alternativa ai la cantidad: k ( ai ) = máx rij j
y se elige como óptima aquella alternativa a*, tal que: k ( a*) = máx k ( ai ) = máx máx rij i
i
j
Por tanto: ai
k ( ai ) = máx rij
a1 a2
k(a1) = máx {– 2,25; 15} = 15 k(a2) = máx {8,5; 8,5} = 8,5
j
k ( a*) = máx k ( ai ) = 15 = k ( a1 ) i
y entonces la alternativa óptima según este criterio será a* = a1 = «Alquilar la plaza de toros». 390
© Ediciones Pirámide
Teoría de la decisión Criterio maximin o de Wald (pesimista) Para cada alternativa ai, se calcula: k ( ai ) = mín rij j
y la alternativa óptima, a*, será aquella que verifique: k ( a*) = máx k ( ai ) = máx mín rij i
i
j
Así, en este caso: ai
k ( ai ) = mín rij
a1 a2
k(a1) = mín {– 2,25; 15} = – 2,25 k(a2) = 8,5
j
y, por tanto, la alternativa óptima del criterio de Wald es: a* = a2 = «Alquilar el auditorio» Criterio de Hurwicz Representamos con a (0 a 1) el coeficiente de pesimismo del decisor y asociamos a cada alternativa la combinación convexa: k ( ai , α ) = α mín rij + (1 − α ) máx rij j
j
pues los resultados rij son, en este caso, beneficios. La alternativa óptima, a*, para un valor de a fijo sería tal que: k ( a*, α ) = máx k ( ai , α ) i
Como en este caso a no está fijado, realizaremos la representación gráfica de las rectas k(ai, a) buscando los segmentos de dominancia: ai
mín rij
máx rij
a1 a2
– 2,25 8,5
15,0 8,5
© Ediciones Pirámide
j
j
k(ai, a) = a mín rij + (1 – a) máx rij j
j
k(a1, a) = – 2,25a + 15(1 – a) k(a2, a) = 8,5
391
Ejercicios de inferencia estadística y muestreo El punto de corte de estas rectas es: k ( a1 , α ) = k ( a2 , α ) − 2,25 + 15(1 − α ) = 8,5 − 17,25α = − 6,5
α=
65 = 0,3768 172,5
y su representación gráfica: k(ai, ) 15
10 8,5 k(a1, ) k(a2, )
5
0
α
0,3768
– 2,25
1
Por tanto, según el grado de pesimismo del decisor (criterio de Hurwicz), la ordenación de las alternativas por preferencia será: Si 0 a 0,3768 ⇒ a* = a1 Ɑ a2 se elegiría, por tanto, celebrar el concierto en la plaza de toros. Si a = 0,3768
a* = a1 ~ a2
las dos opciones serían indiferentes. Si 0,3768 < a 1
a* = a2 Ɑ a1
el concierto se celebraría en el auditorio municipal. 392
© Ediciones Pirámide
Teoría de la decisión Criterio de Laplace o de equiprobabilidad Se supone que todos los estados de la naturaleza son equiprobables, es decir: P(θ j ) =
1 m
,
j = 1, 2,..., m
y se asocia a cada alternativa su valor monetario esperado, eligiéndose como óptima la que presente el máximo. Por tanto, en este caso, como m = 2, las probabilidades son: P(θ1 ) = P(θ 2 ) =
1 2
y 2
1
VME( a1 ) =
∑ r1 j ⋅ P(θ j ) = 2 ( − 2,25 + 15) = 6,375
VME( a2 ) =
∑ r2 j ⋅ P(θ j ) = 2 (8,5 + 8,5) = 8,5
j =1 2
1
j =1
como: VME( a2 ) > VME( a1 ) entonces a* = a2 = «Celebrar el concierto en el auditorio». Criterio de Savage Calculamos la matriz de pérdidas de oportunidad relativas o matriz Regret: Rij = R( ai , θ j ) = V *(θ j ) − V ( ai , θ j ) = V *(θ j ) − rij con V *(θ j ) = máx rij = Máximo resultado asociado a θ j i
© Ediciones Pirámide
393
Ejercicios de inferencia estadística y muestreo Así: V *(θ1 ) = máx{− 2,25; 8,5} = 8,5 V *(θ 2 ) = máx{15; 8,5} = 15 Rij
q1
q2
a1 a2
8,5 – (– 2,25) = 10,75 8,5 – 8,5 = 0
15 – 15 = 00 15 – 8,5 = 6,5
y se asocia a cada alternativa, ai, la cantidad: k ( ai ) = máx Rij i
eligiéndose a* mediante un criterio pesimista (minimax) para la matriz de pérdidas anterior: k ( a*) = mín k ( ai ) = mín máx Rij i
i
j
ai
k ( ai ) = máx Rij
a1 a2
10,75 6,5
i
k ( a*) = mín k ( ai ) = 6,25 = k ( a2 ) i
Entonces: a* = a2 = «Celebrar el concierto en el auditorio» b) Como en este caso se tiene que: P(θ1 ) = 0,30 P(θ 2 ) = 1 − 0,30 = 0,70 394
© Ediciones Pirámide
Teoría de la decisión se trata de un problema de decisión bajo riesgo que puede ser resuelto mediante el criterio del Valor Monetario Esperado (VME) o el criterio de la Pérdida de Oportunidad Esperada (POE). Criterio del valor monetario esperado
a1: alquilar la plaza de toros a2: alquilar el auditorio Probabilidades
q1: llueve
q2: no llueve
– 2,25 8,5
15,0 8,5
0,30
0,70
Calculamos los valores monetarios esperados asociados a cada alternativa: 2
VME( a1 ) =
∑ r1 j ⋅ P(θ j ) = − 2,25 ⋅ 0,30 + 15 ⋅ 0,70 = 9,825
VME( a2 ) =
∑ r2 j ⋅ P(θ j ) = 8,5 ⋅ 0,30 + 8,5 ⋅ 0,70 = 8,5
j =1 2
j =1
VME( a*) = máx VME( ai ) = 9,825 = VME( a1 ) i
con lo cual la alternativa óptima será a1, es decir, celebrar el concierto en la plaza de toros. Criterio de la pérdida de oportunidad esperada La matriz de pérdidas relativas ya ha sido calculada para aplicar el criterio de Savage en el apartado anterior. Ésta quedaba como:
© Ediciones Pirámide
R(ai, qj)
q1
q2
a1 a2
10,75 0,0
0,0 6,5
P(qj)
0,3
0,7 395
Ejercicios de inferencia estadística y muestreo Ahora asociamos a cada alternativa su pérdida de oportunidad esperada: 2
POE( a1 ) =
∑ R(a1, θ j ) ⋅ P(θ j ) = 10,75 ⋅ 0,3 + 0 ⋅ 0,7 = 3,225 j =1 2
POE( a2 ) =
∑ R(a2 , θ j ) ⋅ P(θ j ) = 0 ⋅ 0,3 + 6,5 ⋅ 0,7 = 4,55 j =1
POE( a*) = mín POE( ai ) = 3,225 = POE( a1 ) i
Por tanto: a* = a1 que, como vemos, coincide con la alternativa óptima encontrada según el criterio del valor monetario esperado, pues estos dos son equivalentes. c)
Sea p la probabilidad asociada al estado de la naturaleza lluvia: P(θ1 ) = p P(θ 2 ) = 1 − p
Entonces, la matriz de resultados será: q1
q2
a1 a2
– 2,25 8,5
15,0 8,5
P(qj)
p
1–p
Para que a1 y a2 fueran indiferentes al empresario tendría que ocurrir que sus valores monetarios esperados fueran iguales: VME( a1 ) = VME( a2 ) 396
© Ediciones Pirámide
Teoría de la decisión es decir, que: − 2,25 p + 15(1 − p) = 8,5 p + 8,5(1 − p) − 17,25 p = 8,5 − 15 = − 6,5 p=
6,5 650 26 = = 17,25 1.725 69
Ante la próxima construcción de una urbanización en un pueblo de la sierra de Madrid, una empresa se plantea la instalación de diversos establecimientos hosteleros; así, se contemplan en principio tres alternativas: Ejercicio 6.7
a) Construir un restaurante de lujo. b) Construir un hotel con servicio de restaurante abierto al público. c) Construir un complejo integrado por un restaurante, una discoteca, una piscina y otras instalaciones deportivas. El proyecto de urbanización consta de tres fases de 200 chalets que se acometerán según la respuesta de los potenciales clientes. Los técnicos de la empresa estiman los beneficios medios o pérdidas medias anuales asociados a cada alternativa según se acometan una, dos o las tres fases de la urbanización. Estos resultados, expresados en millones de euros, aparecen en la siguiente tabla: Estados de la naturaleza Alternativas
Restaurante de lujo Hotel-restaurante Complejo
Construcción de la primera fase
Construcción de la segunda fase
Construcción de la tercera fase
12 30 – 10
35 25 8
56 38 120
Obtenga la decisión óptima que debe adoptar la empresa según los diferentes criterios de decisión.
Se trata de un problema de decisión bajo incertidumbre, pues desconocemos las probabilidades asociadas a cada estado de la naturaleza; por tanto, utilizaremos los siguientes criterios aplicables a este contexto de incertidumbre: Solución
© Ediciones Pirámide
397
Ejercicios de inferencia estadística y muestreo Criterio maximax (criterio optimista) Elegimos como alternativa óptima la que proporcione el máximo de los resultados posibles. Así, para cada ai definimos: k ( ai ) = máx rij j
y la alternativa óptima, a*, será aquella tal que: k ( a*) = máx k ( ai ) = máx máx rij i
i
j
Por tanto, si a1, a2 y a3 representan, respectivamente, a las alternativas «construir un restaurante de lujo», «construir un hotel-restaurante» y «construir un complejo hotelero», se tiene que:
Alternativas
Beneficios máximos k ( ai ) = máx rij j
a1 a2 a3
k(a1) = máx {12, 35, 56} = 56 k(a2) = 38 k(a3) = 120
Luego como: k ( a*) = máx k ( ai ) = máx máx rij = 120 = k ( a3 ) i
i
j
a* = a3 y se elegiría como óptima la alternativa a3, que nos podría proporcionar los mayores beneficios: 120 millones de euros anuales. Así pues, desde el punto de vista del criterio maximax, la empresa construiría un complejo integrado por restaurante, discoteca e instalaciones deportivas. 398
© Ediciones Pirámide
Teoría de la decisión Criterio maximin o de Wald (criterio pesimista) Según este criterio, la empresa debería elegir la alternativa que le proporcione la mejor situación posible entre las peores que pudieran presentarse; es decir, a cada alternativa ai se le asocia la cantidad: k ( ai ) = mín rij j
y la alternativa óptima, a*, será aquella, tal que: k ( a*) = máx k ( ai ) = máx mín rij i
j
i
Así: Beneficios mínimos k ( ai ) = mín rij
Alternativas
j
a1 a2 a3
k(a1) = mín {12, 35, 56} = 12 k(a2) = 25 k(a3) = – 10
y, por tanto; k ( a*) = máx k ( ai ) = máx mín rij = 25 = k ( a2 ) i
i
j
a* = a2 Con lo cual, según el criterio maximin, la empresa debería elegir la alternativa a2, es decir, construir un hotel con servicio de restaurante. Criterio de Hurwicz Este criterio pondera los resultados extremos de tal manera que los coeficientes de ponderación reflejen el nivel de optimismo o pesimismo del decisor. Si con a representamos el coeficiente de pesimismo relativo (0 a 1), para cada alternativa calcularemos la combinación convexa: k ( ai , α ) = α mín rij + (1 − α ) máx rij j
© Ediciones Pirámide
j
399
Ejercicios de inferencia estadística y muestreo y la alternativa óptima, a*, para un a fijado, sería aquella, tal que: k ( a*, α ) = máx k ( ai , α ) i
ai
mín rij
máx rij
a1 a2 a3
12 25 – 10
56 38 120
j
j
k(ai, a) = a mín rij + (1 – a) máx rij j
j
k(a1, a) = 12a + (1 – a)56 k(a2, a) = 25a + (1 – a)38 k(a3, a) = – 10a + (1 – a)120
Como el valor de a no está fijado, representamos gráficamente las rectas k(ai, a) para poder indicar la alternativa óptima según las diferentes posibilidades para a. Calculamos, en primer lugar, los puntos de corte de cada una de las combinaciones: k ( a1 , α ) = k ( a2 , α ) 12α + (1 − α )56 = 25α + (1 − α )38 − 31α = − 18
α =
18 = 0,581 31
k ( a1 , α ) = k ( a3 , α ) 12α + (1 − α )56 = − 10α + (1 − α )120 86α = 64
α =
64 = 0,744 86
k ( a2 , α ) = k ( a3 , α ) 25α + (1 − α )38 = − 10α + (1 − α )120 117α = 82
α =
82 = 0,701 117
La representación gráfica de estas tres rectas para valores de a comprendidos entre 0 y 1 es: 400
© Ediciones Pirámide
Teoría de la decisión k(ai, ) 120 100 80 60 40 k(a2, )
20
k(a1, ) 1
0
0,581 0,701 0,744
α
k(a3, )
– 20
Por tanto, las alternativas que se elegirán según los valores de a, serán: Si 0 a < 0,701
a* = a3
Si 0 a < 0,581
a* = a3 Ɑ a1 Ɑ a2
Si a = 0,581
a* = a3 Ɑ a1 ~ a2
Si 0,581 < a < 0,701 Si a = 0,701
a* = a3 ~ a2 Ɑ a1
Si 0,701 < a 1
a* = a2
Si 0,701 < a < 0,744 Si a = 0,744
a* = a3 Ɑ a2 Ɑ a1
a* = a2 Ɑ a3 Ɑ a1
a* = a2 Ɑ a1 ~ a3
Si 0,744 < a 1
a* = a2 Ɑ a1 Ɑ a3
Resumiendo, la decisión óptima de la empresa según el criterio de Hurwicz, será: Si 0 a < 0,701 Si a = 0,701
la empresa se mostrará indiferente entre a2 y a3.
Si 0,701 < a 1 © Ediciones Pirámide
la empresa preferirá a3. la empresa elegirá a2. 401
Ejercicios de inferencia estadística y muestreo Criterio de Laplace o de equiprobabilidad Calculamos el Valor Monetario Esperado (VME) para cada alternativa suponiendo que todos los estados de la naturaleza son igualmente probables y, por tanto: P(θ j ) =
1 3
∀ j = 1, 2, 3
,
Así: 3
1
VME( a1 ) =
∑ r1 j ⋅ P(θ j ) = 3 (12 + 35 + 56) = 34,333
VME( a2 ) =
∑ r2 j ⋅ P(θ j ) = 3 (30 + 25 + 38) = 31
j =1 3
1
j =1 3
VME( a3 ) =
1
∑ r3 j ⋅ P(θ j ) = 3 (− 10 + 8 + 120) = 39,333 j =1
Ordenando los correspondientes VME, tendremos que: VME( a3 ) > VME( a1 ) > VME( a2 ) entonces: a3 Ɑ a1 Ɑ a2 Luego la alternativa óptima será a*, tal que: VME( a*) = máx VME( ai ) = 39,333 = VME( a3 ) i
a* = a3 Por tanto, la empresa elegiría construir el complejo hotelero. Criterio de Savage Este criterio se aplica a la matriz Regret o de pérdidas relativas: Rij = R( ai , θ j ) = V *(θ j ) − V ( ai , θ j ) = máx rij − rij i
402
© Ediciones Pirámide
Teoría de la decisión En este caso: V *(θ1 ) = máx ri1 = máx{12, 30, − 10} = 30 i
V *(θ 2 ) = máx ri 2 = 35 i
V *(θ 3 ) = máx ri 3 = 120 i
y, por tanto: Rij
q1
q2
q3
a1 a2 a3
18 0 40
0 10 27
64 82 0
donde: R11 = V *(θ1 ) − r11 = 30 − 12 = 18 R21 = V *(θ1 ) − r21 = 30 − 30 = 0 R31 = V *(θ1 ) − r31 = 30 − ( − 10) = 40 … Para obtener la alternativa óptima, a*, aplicamos el criterio pesimista (minimax) a esta matriz de pérdidas de oportunidad, es decir: k ( ai ) = máx Rij j
y a*, tal que: k ( a*) = mín k ( ai ) = mín máx Rij i
© Ediciones Pirámide
i
j
ai
k ( ai ) = máx Rij
a1 a2 a3
k(a1) = 64 k(a2) = 82 k(a3) = 40
j
403
Ejercicios de inferencia estadística y muestreo y la decisión óptima será a* = 40, ya que: mín k ( ai ) = 40 = k ( a3 ) i
Un asesor financiero debe aconsejar a una empresa cliente sobre la compra de un paquete formado por diferentes tipos de acciones. La inversión se realizará por un plazo de un año, en el que el mercado puede presentar cuatro situaciones diferentes. El asesor calcula los posibles rendimientos de las cuatro mejores alternativas de inversión que se le presentan según cada una de las situaciones posibles del mercado, obteniendo los siguientes resultados, expresados en miles de euros: Ejercicio 6.8
Estados de la naturaleza Alternativas
a1 a2 a3 a4
q1
q2
q3
q4
10 –5 –5 – 10
– 30 5 – 20 –5
15 10 20 50
40 30 40 70
¿Qué alternativa debe recomendar a la empresa según el grado de pesimismo ante la evolución del mercado financiero?
Para resolver este ejercicio de decisión bajo incertidumbre, utilizaremos el criterio de Hurwicz, que permite obtener la decisión óptima según el grado de pesimismo (a) del decisor. Para cada una de las alternativas, obtenemos la combinación convexa de resultados extremos, equivalente a un beneficio medio ponderado: Solución
k ( ai , α ) = α mín rij + (1 − α ) máx rij i
404
ai
mín rij
máx rij
a1 a2 a3 a4
– 30 –5 – 20 – 10
40 30 40 70
i
i
i
k(ai, a)
k(a1, a) = – 30a + 40(1 – a) k(a2, a) = – 5a + 30(1 – a) k(a3, a) = – 20a + 40(1 – a) k(a4, a) = – 10a + 70(1 – a)
© Ediciones Pirámide
Teoría de la decisión Mediante la representación gráfica de las rectas k(ai, a) en función de a, podremos apreciar, en cada caso, qué decisión será la óptima. Para ello, calculamos, en primer lugar, los puntos de corte: k ( a1 , α ) = k ( a2 , α ) − 30α + 40(1 − α ) = − 5α + 30(1 − α )
α =
10 = 0,29 35
k ( a1 , α ) = k ( a3 , α ) − 30α + 40(1 − α ) = − 20α + 40(1 − α )
α =0 k ( a1 , α ) = k ( a4 , α ) − 30α + 40(1 − α ) = − 10α + 70(1 − α )
α =
30 = 3 ∉ [0, 1] 10
k ( a2 , α ) = k ( a3 , α ) − 5α + 30(1 − α ) = − 20α + 40(1 − α )
α =
10 = 0, 4 25
k ( a2 , α ) = k ( a4 , α ) − 5α + 30(1 − α ) = − 10α + 70(1 − α )
α =
40 8 = = 0,89 45 9
k ( a3 , α ) = k(( a4 , α ) − 20α + 40(1 − α ) = − 10α + 70(1 − α )
α = © Ediciones Pirámide
30 = 1,5 ∉ [0, 1] 20 405
Ejercicios de inferencia estadística y muestreo
70 60 50 k(a1, )
40
k(a2, )
30
k(a3, ) k(a4, )
20 10 0 0,29
0,4
0,89
1
α
– 10 – 20 – 30
Por tanto: 8 = 0,89 , el asesor recomendará comprar el paquete de acciones corres9 pondiente a la cuarta alternativa (a4). Si 0 α
Dn1 , n2 ; α ) = α N2 = máx (n1 , n2 )
Es válido para contrastes unilaterales y bilaterales.
498
© Ediciones Pirámide
Tablas estadísticas TABLA 18 (continuación) Dn1 , n2 = máx 兩Fn1 ( x ) − Gn2 ( x )兩 x
N1 = mín (n1 , n2 )
,
;
P( Dn1 , n2 > Dn1 , n2 ; α ) = α N2 = máx (n1 , n2 )
Fuente: «Distribution table for the deviation between two samples cumulatives», Ann. Math. Statist., 23: 435-441 (1952).
© Ediciones Pirámide
499
Tablas estadísticas TABLA 19 Valores críticos del test de Kolmogorov-Smirnov para dos muestras del mismo tamaño, n1 = n2 = n Esta tabla contiene los valores críticos Dn, n; a del test de Kolmogorov-Smirnov: Dn, n = máx 兩Fn ( x ) − Gn ( x )兩 x
;
P( Dn, n > Dn, n; α ) = α
Fuente: «Small sample distribution for multisample statistics of the Smirnov type», Ann. Math. Statist., 31: 710-720 (1960).
500
© Ediciones Pirámide
© Ediciones Pirámide
TABLA 20 Distribución de probabilidades para el test de rachas de aleatoriedad Esta tabla contiene la función de distribución del número total de rachas R; P(R r) en una muestra de tamaño n = n1 + n2, para el test de rachas de aleatoriedad de Wald-Wolfowitz:
Tablas estadísticas
501
TABLA 20 (continuación)
Tablas estadísticas
502
© Ediciones Pirámide
Tablas estadísticas
TABLA 21 Valores críticos para el test de rangos-signos de Wilcoxon Esta tabla contiene los valores críticos k a del estadístico de rangos-signos de Wilcoxon: T+ =
n
∑ Zi ⋅ r(兩Di 兩)
i =1
para los diferentes valores de n y a.
1 El valor de a no tiene por qué coincidir con el nivel de significación. Fuente: Kraft, C. H., y Van Eeden, A. Nonparametric Introduction to Statistics, Macmillan Publishing, 1968.
© Ediciones Pirámide
503
Tablas estadísticas TABLA 22 Función de distribución del estadístico U de Mann-Whitney Esta tabla contiene las probabilidades: P(U U0 ) = α
504
para
n1 n2
y
n2 = 3,..., 10
© Ediciones Pirámide
Tablas estadísticas TABLA 22 (continuación)
© Ediciones Pirámide
505
Tablas estadísticas TABLA 22 (continuación)
506
© Ediciones Pirámide
Tablas estadísticas TABLA 22 (continuación)
© Ediciones Pirámide
507
Tablas estadísticas TABLA 22 (continuación)
Fuente: Mann, H., y Whitney, D. R.: «On a test of whether one of two random variables is stochastically larger than the other», Annals of Mathematical Statistics, Vol. 18, 1947.
508
© Ediciones Pirámide
Tablas estadísticas TABLA 23 Valores críticos para el test de Kruskal-Wallis2 para k = 3 Esta tabla contiene los valores críticos h a, tales que: P( H hα ) = α de manera que si el estadístico H que se calcula a partir de las observaciones muestrales es mayor que h a, se rechaza la hipótesis nula H0 al nivel de significación a.
2 Esta tabla fue elaborada inicialmente por Kruskal y Walllis en 1952 en su trabajo «Use of ranks in one-criterion variance analysis», JASA, vol. 47, p. 614, y un año más tarde hicieron algunas correcciones, JASA, vol. 48, p. 910; correcciones que ya aparecen recogidas aquí.
© Ediciones Pirámide
509
Tablas estadísticas TABLA 23 (continuación)
510
© Ediciones Pirámide
Tablas estadísticas TABLA 24 Valores críticos para el test de Kruskal-Wallis3 para diferentes valores de k Esta tabla contiene los valores críticos h a, tales que: P( H hα ) = α para distintos tamaños muestrales y niveles de significación 0,05 y 0,01.
3
Esta tabla es análoga a la anterior, pero introduce valores de k = 4 y k = 5.
© Ediciones Pirámide
511
Bibliografía
Bibliografía Aranda, J., y Gómez, J.: Fundamentos de estadística para la economía y administración de empresas, DM-PPU, 1992. Aranda, J., Gómez, J., Faura, U., y Molera, L.: Problemas de estadística para economía y administración de empresas, DM-PPU, 1994. Arnaiz, G.: Introducción a la estadística teórica, Lex Nova, 1986. Baró, J.: Cálculo de probabilidades: aplicaciones económico-empresariales, Parramón, 1985. Baró, J.: Estadística descriptiva, Parramón, 1985. Baró, J.: Estadística descriptiva. Aplicaciones económico-empresariales, Parramón, 1985. Baró, J.: Inferencia estadística: aplicaciones económico-empresariales, Parramón, 1993. Cacoullos, T.: Exercises in Probability, Springer-Verlag, 1989. Calot, G.: Exercises de Calcul des Probabilités, Dunod, 1976. Calot, G.: Curso de estadística descriptiva, Paraninfo, 1982. Canavos, G. C.: Probabilidad y estadística: aplicaciones y métodos, McGraw-Hill, 1992. Casa Aruta, E.: 200 problemas de estadística descriptiva, Vicens Vives, 1990. Casas, J. M.: Inferencia estadística, 2.a ed., CERA, 1997. Casas, J. M.: Estadística I. Probabilidad y distribuciones, CERA, 2000. Casas, J. M.: Fórmulas y tablas estadísticas, CERA, 2004. Casas, J. M., y Santos, J.: Estadística empresarial, CERA, 1999. Casas, J. M., y Santos, J.: Introducción a la estadística para economía, 2.a ed., CERA, 2002. Casas, J. M., y Santos, J.: Introducción a la estadística para la administración y dirección de empresas, 2.a ed., CERA, 2002. Casas, J. M., Callealta, J., Núñez, J., Toledo, I., y Ureña, C.: Curso básico de estadística descriptiva, Instituto Nacional de Administración Pública, 1986. Cuadras, C. M.: Problemas de probabilidades y estadística, vols. I y II, PPU, 1991. Degroot, M. H.: Probabilidad y estadística, Addison-Wesley, 1988. © Ediciones Pirámide
513
Bibliografía Feller, W.: Introducción a la teoría de probabilidades y sus aplicaciones, vols. I y II, Limusa, 1973 y 1978. Fernández-Abascal, H. y otros: Cálculo de probabilidades y estadística, Ariel, 1994. Fernández, H., Guijarro, M., Rojo, J. L., y Sanz, J. A.: Cálculo de probabilidades y estadística, Ariel, 1994. García Barbancho, A.: Ejercicios de estadística descriptiva para economistas, Ariel, 1975. Gnedenko, B. V.: The Theory of Probability, Mir, 1978. INE: Índice de precios de consumo, Base, 1992. Metodología. Kazmier-Díaz, M.: Estadística aplicada en administración y economía, McGraw-Hill, 1992. López de la Manzanara, J.: Problemas de estadística, Pirámide, 1982. López Ortega, J.: Problemas de estadística para ciencias económicas y empresariales: cálculo de probabilidades, Tébar, 1994. Martín Pliego, F. J.: Introducción a la estadística económica y empresarial, AC, 1994. Martín Pliego, F. J., y Ruiz-Maya, L.: Estadística I. Probabilidad, AC, 1995. Mendenhall, W.: Estadística matemática con aplicaciones, Editorial Iberoamérica, 1993. Montero, J., Pardo, L., Morales, D., y Quesada, V.: Ejercicios y problemas de cálculo de probabilidades, Díaz de Santos, 1988. Montiel, A. M., Rius, F., y Barón, F. J.: Elementos básicos de estadística económica y empresarial, Prentice-Hall, 1997. Mood, A., y Graybill, F.: Introducción a la teoría de la estadística, Aguilar, 1978. Muñoz Vázquez, A. y otros: Problemas de estadística descriptiva, 1992. Murgui, J. S., Aybar, C. y otros: Estadística para economía y administración de empresas: aplicaciones y ejercicios, Puchades, 1992. Newbold, P.: Estadística para los negocios y la economía, 4.a ed., Prentice-Hall, 1996. Peña, D.: Estadística. Modelos y métodos, vol. I, Alianza Universidad, 1991. Quesada, V., Isidoro, A., y López, L. J.: Curso y ejercicios de estadística, Alhambra, 1983. Rohatgi, V.: An Introduction to Probability Theory and Mathematical Statistics, John Wiley, 1977. Ruiz-Maya, L.: Problemas de estadística, AC, 1989. Sierra, M.: Ejercicios resueltos de estadística, CEURA, 1987. Toledo, I., y Arnaiz, G.: Problemas de estadística, Lex Nova, 1989. Tussel, F., y Garín, A.: Problemas de probabilidad e inferencia estadística, Tébar Flores, 1991. Uriel, E., y Muñiz, M.: Estadística económica y empresarial, AC, 1988.
514
© Ediciones Pirámide
Índice por materias A Análisis de la varianza para una clasificación doble, 4.9; 4.10; 4.11; 4.14; 4.15. Análisis de la varianza para una clasificación simple, 4.1; 4.2; 4.3; 4.4; 4.6; 4.7; 4.8; 4.12; 4.13. Árboles de decisión, 6.2; 6.3; 6.4.
C Características de las variables aleatorias: momentos, función generatriz de momentos, cuantiles y otras medidas, 1.1; 1.2; 1.3; 1.21. Consistencia, 1.1; 1.2; 1.3; 1.6. Contraste de aleatoriedad, 3.13; 3.14; 3.15; 3.19; 3.20. Contraste de bondad de ajuste, 3.1; 3.2; 3.3; 3.4; 3.5; 3.6; 3.7; 3.8; 3.13; 3.25. Contraste de Kolmogorov-Smirnov para dos muestras, 3.20; 3.21; 3.24; 3.28. © Ediciones Pirámide
Contraste de Kolmogorov-Smirnov para una muestra, 3.7; 3.25. Contraste de Kruskal-Wallis, 3.6; 3.22; 3.23; 3.27. Contraste de la mediana, 3.20; 3.21. Contraste de la U de Wilcoxon-Mann-Whitney, 3.20; 3.21. Contraste de normalidad de Lilliefors, 3.6; 3.13. Contraste de normalidad de Shapiro-Wilks, 3.6; 3.13. Contraste de rachas de Wald-Wolfowitz, 3.13; 3.14; 3.15; 3.19; 3.20. Contraste de rangos-signos de Wilcoxon, 3.16; 3.17; 3.19; 3.20; 3.28. Contraste de Siegel-Tukey, 3.24; 3.26. Contraste de signos de la mediana, 3.16; 3.17; 3.18; 3.19; 3.28. Contraste c2 de Pearson, 3.1; 3.2; 3.3; 3.4; 3.5. Contrastes de comparación de poblaciones, 2.9; 2.10; 2.11; 2.12; 2.13; 2.14; 2.15; 2.16; 2.17; 3.6; 3.20; 3.21; 3.22; 3.23; 3.24; 3.26; 3.27. Contrastes de homogeneidad, 3.11; 3.12.
515
Índice por materias Contrastes de independencia, 3.8; 3.9; 3.10. Contrastes de localización, 3.16; 3.17; 3.18; 3.19; 3.20. Contrastes en poblaciones normales, 2.4; 2.5; 2.6; 2.7; 2.9; 2.10; 2.11; 2.12; 2.13; 2.14; 2.15; 3.19. Contrastes para la media en poblaciones normales, 2.4; 2.5; 2.6; 2.7; 2.10; 2.14; 3.19. Contrastes para la varianza en poblaciones normales, 2.6; 2.7. Contrastes sobre medias de dos poblaciones normales, 2.9; 2.10; 2.11; 2.12; 2.13; 2.14; 2.15; 2.19; 2.20. Contrastes sobre proporciones, 2.8; 2.16; 2.17; 2.18. Contrastes sobre varianzas de dos poblaciones normales, 2.14; 2.15. Criterio de Hurwicz, 6.6; 6.7; 6.8; 6.9; 6.10; 6.13; 6.15. Criterio de la pérdida de oportunidad esperada, 6.1; 6.5; 6.6; 6.9; 6.11; 6.12. Criterio de Laplace, 6.6; 6.7; 6.9; 6.14. Criterio de Savage, 6.6; 6.7; 6.9; 6.15. Criterio del valor monetario esperado, 6.1; 6.5; 6.6; 6.9; 6.11; 6.12. Criterio maximax, 6.5; 6.6; 6.7; 6.9. Criterio maximin o de Wald, 6.5; 6.6; 6.7; 6.9.
D Decisión bajo incertidumbre, 6.5; 6.6; 6.7; 6.8; 6.9; 6.10; 6.13; 6.14; 6.15. Decisión bajo riesgo, 6.1; 6.2; 6.3; 6.4; 6.5; 6.6; 6.11; 6.12. Decisiones secuenciales, 6.2; 6.3; 6.4. Determinación del tamaño muestral, 1.13; 1.14; 1.15; 1.16; 1.17; 1.18; 1.22; 2.2; 2.4; 2.5; 2.17. Distribuciones en el muestreo, 1.7; 1.17; 1.23; 1.24; 1.25.
516
E Eficiencia de un estimador, 1.4; 1.5. Estimación por intervalos de confianza, 1.10; 1.11; 1.12; 1.13; 1.14; 1.15; 1.17; 1.18; 1.20; 2.4; 2.10; 2.11. Estimación puntual, 1.1; 1.4; 1.5; 1.6; 1.7; 1.8; 1.9; 1.10; 1.12. F Función de potencia y tipos de errores, 2.1; 2.2. I Insesgadez de un estimador, 1.1; 1.4. M Método de Dunn de comparaciones múltiples, 3.22; 3.27. Método de los momentos, 1.5; 1.7; 1.21. Método de máxima verosimilitud, 1.5; 1.6; 1.7; 1.8; 1.21. Método de Scheffé de comparaciones múltiples, 4.5; 4.6; 4.8; 4.13. Métodos de construcción de estimadores, 1.5; 1.6; 1.7; 1.8; 1.21. Muestreo aleatorio simple, 5.1; 5.2; 5.3; 5.4; 5.6; 5.7; 5.13; 5.14; 5.15. Muestreo estratificado, 5.5; 5.6; 5.7; 5.8; 5.15. Muestreo estratificado, tipos de afijación y determinación del tamaño muestral, 5.5; 5.6; 5.7; 5.15. Muestreo por conglomerados, 5.9; 5.10. Muestreo sistemático, 5.11; 5.12. P Propiedades de los estimadores, 1.1; 1.2; 1.3; 1.4; 1.5; 1.6. © Ediciones Pirámide
Índice por materias R
Test de Bartlett de homocedasticidad, 4.2; 4.3; 4.7; 4.8; 4.13.
Región crítica y región de aceptación, 2.1; 2.2; 2.3. V T Tablas de contingencia, 3.8; 3.9; 3.10; 3.11; 3.12.
© Ediciones Pirámide
Valor esperado de la información muestral, 6.3; 6.4. Valor esperado de la información perfecta, 6.1; 6.5; 6.12.
517
TÍTULOS RELACIONADOS Análisis cuantitativo de la actividad turística, J. Alegre Martín, M. Cladera Munar, C. N. Juaneda Sampol. Análisis de datos económicos II. Métodos inferenciales, R. Pérez Suárez y A. J. López Méndez. Análisis y adopción de decisiones, M. López Cachero. Cien ejercicios de econometría, J. B. Pena Trapero, J. A. Estavillo Dorado, M.ª E. Galindo Frutos, M.ª J. Leceta Rey y M.ª del M. Zamora Sanz. Curso básico de matemáticas para la economía y dirección de empresas I, M. López Cachero y A. Vegas Pérez. Curso básico de matemáticas para la economía y dirección de empresas II, M. López Cachero y A. Vegas Pérez. Curso de matemática financiera, M.ª J. Vázquez Cueto. Decisiones empresariales con criterios múltiples. Ayudas prácticas para la dirección, A. Leal Millán, M. Sánchez-Apellániz García, J. L. Roldán Salgueiro y A. E. Vázquez Sánchez. Econometría. M.ª M. Díaz Fernández y M.ª del M. Llorente Marrón. Ejercicios de econometría I y II. A. Aznar Grasa, A. García Ferrer y A. Martín Arroyo. Ejercicios de estadística descriptiva y probabilidad para economía y administración de empresas. J. M. Casas Sánchez, C. García Pérez, L. F. Rivera Galicia y A. I. Zamora Sanz. Ejercicios de inferencia estadística y muestreo para economía y administración de empresas. J. M. Casas Sánchez, C. García Pérez, L. F. Rivera Galicia y A. I. Zamora Sanz. Estadística. Problemas resueltos, M.ª J. Peralta Astudillo, A. Rúa Vieytes, R. Redondo Palomo y C. del Campo Campos. Estadística aplicada a la historia y a las ciencias sociales. S. Coll Martínez y M. Guijarro Garvi. Estadística aplicada para ordenadores personales. A. Pulido San Román y J. Santos Peñas. Fundamentos y métodos de estadística. M. López Cachero. Grafos neuronales para la economía y la gestión de empresas. A. Kaufmann y J. Gil Aluja. Informática aplicada al turismo. A. Guevara Plaza (coord.). Introducción a la econometría. F. J. Trívez Bielsa. Introducción a las matemáticas financieras. S. Cruz Rambaud y M.ª del C. Valls Martínez. Introducción a las matemáticas financieras. Problemas resueltos, M.ª del C. Valls Martínez y S. Cruz Rambaud. Invertir en la incertidumbre. J. Gil Aluja. Manual de álgebra lineal para la economía y la empresa. F. M.ª Guerrero Casas y M.ª J. Vázquez Cueto (coords.). Manual de cálculo diferencial e integral para la economía y la empresa. F. M.ª Guerrero Casas y M.ª J. Vázquez Cueto (coords.). Matemática de los seguros de vida. R. Moreno Ruiz, O. Gómez Pérez-Cacho y E. Trigo Martínez. Matemáticas aplicadas a la economía y a la empresa. 434 ejercicios resueltos y comentados, R. E. Caballero Fernández, A. C. González Pareja, S. Calderón Montero, M.ª L. Rey Borrego, T. P. Galache Laza y F. Ruiz de la Rúa. Métodos de valoración de empresas. V. Caballer Mellado. Métodos operativos de gestión empresarial. M. Martín Dávila. Microeconometría y decisión. B. Cabrer Borrás, A. Sancho Pérez y G. Serrano Domingo. Modelos econométricos. A. Pulido San Román y J. Pérez García. Predicción y simulación aplicada a la economía y gestión de empresas. A. Pulido San Román y A. M.ª López García. Problemas de estadística. J. López de la Manzanara Barbero. Problemas de matemáticas financieras. E. Camacho Peñalosa, D. Gómez Domínguez, M. A. Hinojosa Ramos, V. Rubiales Caballero y M.ª J. Vázquez Cueto. Técnicas de programación y control de proyectos. C. Romero López.
Si lo desea, en nuestra página web puede consultar el catálogo completo o descargarlo:
www.edicionespiramide.es