Ejercicios de inferencia estadística y muestreo para economía y administración de empresas
 9788436835496, 8436835492

Citation preview

Ejercicios de inferencia estadística y muestreo para economía y administración de empresas

JOSÉ MIGUEL CASAS SÁNCHEZ

CARMELO GARCÍA PÉREZ

CATEDRÁTICO DE ESTADÍSTICA ECONÓMICA Y EMPRESARIAL DE LA UNIVERSIDAD DE ALCALÁ

PROFESOR DE ESTADÍSTICA ECONÓMICA Y EMPRESARIAL DE LA UNIVERSIDAD DE ALCALÁ

LUIS FELIPE RIVERA GALICIA

ANA ISABEL ZAMORA SANZ

PROFESOR DE ESTADÍSTICA ECONÓMICA Y EMPRESARIAL DE LA UNIVERSIDAD DE ALCALÁ

PROFESORA DE ESTADÍSTICA ECONÓMICA Y EMPRESARIAL DE LA UNIVERSIDAD DE ALCALÁ

Ejercicios de inferencia estadística y muestreo para economía y administración de empresas

EDICIONES PIRÁMIDE

COLECCIÓN «ECONOMÍA Y EMPRESA» Director:

Miguel Santesmases Mestre Catedrático de la Universidad de Alcalá

Edición en versión digital

Está prohibida la reproducción total o parcial de este libro electrónico, su transmisión, su descarga, su descompilación, su tratamiento informático, su almacenamiento o introducción en cualquier sistema de repositorio y recuperación, en cualquier forma o por cualquier medio, ya sea electrónico, mecánico, conocido o por inventar, sin el permiso expreso escrito de los titulares del copyright.

© José Miguel Casas Sánchez, Carmelo García Pérez, Luis Felipe Rivera Galicia y Ana Isabel Zamora Sanz, 2016 © Primera edición electrónica publicada por Ediciones Pirámide (Grupo Anaya, S. A.), 2016 Para cualquier información pueden dirigirse a [email protected] Juan Ignacio Luca de Tena, 15. 28027 Madrid Teléfono: 91 393 89 89 www.edicionespiramide.es ISBN digital: 978-84-368-3549-6

Estadística Descriptiva

Índice Prólogo ......................................................................................................................................

9

Distribuciones en el muestreo. Estimación ................................................................

11

1.

Distribuciones en el muestreo. Estimación puntual. Propiedades de los estimadores: insesgadez, eficiencia y consistencia. Métodos de construcción de estimadores: método de los momentos y de la máxima verosimilitud. Estimación por intervalos de confianza. Determinación del tamaño muestral. 2.

Contraste de hipótesis paramétrico ............................................................................

67

Región crítica y región de aceptación. Tipos de errores y representación gráfica. Función de potencia. Determinación del tamaño muestral. Contraste de razón de verosimilitud. Contrastes en poblaciones normales: para la media, para la varianza, sobre medias de dos poblaciones, sobre varianzas de dos poblaciones. Contrastes sobre proporciones. 3.

Contraste de hipótesis no paramétrico ......................................................................

133

Contrastes de bondad de ajuste: c2 de Pearson, Kolmogorov-Smirnov para una muestra, de normalidad de Lilliefors y de Shapiro-Wilks. Tablas de contigencia: contrastes de independencia y homogeneidad. Contraste de aleatoriedad: rachas de Wald-Wolfowitz. Contrastes de localización: contraste de signos de la mediana, contraste de rangos-signos de Wilcoxon. Contrastes de comparación de poblaciones: contraste de la mediana, contraste de Kolmogorov-Smirnov para dos muestras, contraste de la U de WilcoxonMann-Whitney, contraste de Siegel-Tukey, contraste de Kruskal-Wallis, método de Dunn de comparaciones múltiples. © Ediciones Pirámide

7

Ejercicios de estadística descriptiva y probabilidad Índice 4.

Análisis de la varianza ...................................................................................................... Análisis de la varianza para una clasificación simple. Método de Scheffé de comparaciones múltiples. Test de Barlett de homocedasticidad. Análisis de la varianza para una clasificación doble.

249

5.

Muestreo en poblaciones finitas ...................................................................................

315

Muestreo aleatorio simple: estimadores, error de muestreo, intervalos de confianza, determinación del tamaño muestral para obtener un error determinado. Muestreo estratificado: estimadores, error de muestreo, intervalos de confianza, tipos de afijación y determinación del tamaño muestral. Muestreo por conglomerados. Muestreo sistemático. 6.

Teoría de la decisión ........................................................................................................

365

Decisión bajo riesgo: criterio del valor monetario esperado y criterio de la pérdida de oportunidad esperada. Valor esperado de la información perfecta. Decisiones secuenciales: árbol de decisión. Decisión bajo incertidumbre: criterio maximax, criterio maximin o de Wald, criterio de Hurwicz, criterio de Laplace, criterio de Savage. Tablas estadísticas ...................................................................................................................

435

Bibliografía ................................................................................................................................

513

Índice de materias ..................................................................................................................

515

8

© Ediciones Pirámide

Estadística Descriptiva

Prólogo Los ejercicios y problemas contenidos en este libro pretenden ser un complemento práctico de los desarrollos teóricos sobre inferencia estadística y teoría de la decisión contenidos en los manuales de Estadística para Economía y Administración de Empresas de los profesores J. M. Casas Sánchez y J. Santos Peñas, catedráticos en la Universidad de Alcalá y la Universidad Nacional de Educación a Distancia (UNED), respectivamente. Los diferentes capítulos del libro se dedican, por este orden, a distribuciones en el muestreo, estimación puntual y por intervalos, contrastes de hipótesis paramétricos, contrastes de hipótesis no paramétricos, análisis de la varianza, muestreo en poblaciones finitas y teoría de la decisión. Hemos querido enfocar la resolución de cada ejercicio desde una perspectiva didáctica, buscando la comprensión de los conceptos teóricos a través de la explicación detallada y secuencial de los pasos que conducen a la solución final y de continuas referencias a los conceptos teóricos que se utilizan en la resolución del problema. Por otra parte, se ha procurado también que los enunciados respondan a situaciones reales de la actividad económica y empresarial. Con el fin de facilitar la selección de los diferentes tipos de ejercicios, presentamos un índice temático en el que se identifica cada problema con dos números representativos del capítulo en el que aparece y de su orden dentro del mismo. En las páginas finales del libro se incluyen las tablas estadísticas que se han utilizado a lo largo del texto. Por último, queremos dedicar este texto a nuestras familias y amigos, por su apoyo constante. Madrid, septiembre de 2006. Los autores © Ediciones Pirámide

9

1

Distribuciones en el muestreo. Estimación

Distribuciones en el muestreo. Estimación

Sean X1, X2, ..., Xn n variables aleatorias independientes de Bernoulli con el mismo parámetro p. Consideramos los siguientes estimadores:

Ejercicio 1.1

n

pˆ1 =

n

∑ Xi

i =1

;

n

pˆ 2 =

∑ Xi2

i =1

n

a) ¿Son ambos estimadores insesgados para el parámetro p? b) ¿Cuál de los dos estimadores es más eficiente? c) Estudie la consistencia de ambos estimadores.

Solución

a) Para comprobar la insesgadez de pˆ 1 y pˆ 2 calculamos sus esperanzas y comprobamos si coinciden con p. Como Xi ~ B(p), se sabe que: E[ Xi ] = p

y

Var [ Xi ] = pq

Además: Var [ Xi ] = E[ Xi2 ] − ( E[ Xi ])2 por tanto: E[ Xi2 ] = Var [ Xi ] + ( E[ Xi ])2 = pq + p 2 = p( q + p) = p © Ediciones Pirámide

11

Ejercicios de inferencia estadística y muestreo y así: ⎡ n ⎤ ⎢ ∑ Xi ⎥ n i =1 ⎥ = 1 ∑ E[ X ] = np = p E[ pˆ1 ] = E ⎢ i ⎢⎣ n ⎥⎦ n i = 1 n ⎡ ∑ Xi2 ⎤ 1 n np 2 E[ pˆ 2 ] = E ⎢ = p ⎥ = ∑ E[ Xi ] = n ⎣ n ⎦ n i =1 Luego queda probado que pˆ 1 y pˆ 2 son insesgados. b) Será más eficiente el estimador que tenga menor varianza: n

Var [ pˆ1 ] =

1 n2

i =1

Var [ pˆ 2 ] =

1 n2

∑ Var [ Xi2 ] = n2 npq =

∑ Var [ Xi ] =

npq pq = n2 n

n

1

i =1

pq n

donde: Var [ Xi2 ] = E[ Xi4 ] − ( E[ Xi2 ])2 = p − p 2 = pq Como las varianzas son iguales, ambos estimadores son igualmente eficientes. c) Como los dos estimadores son insesgados, si su varianza tiende a cero al aumentar el tamaño muestral, ambos estimadores serían consistentes1. lím Var [ pˆ1 ] = lím

pq =0 n

y

E[ pˆ1 ] = p

lím Var [ pˆ 2 ] = lím

pq =0 n

y

E[ pˆ 2 ] = p

n→∞

n→∞

n→∞

n→∞

Por tanto, se verifica la consistencia de pˆ 1 y pˆ 2. 1

Una sucesión de estimadores {qˆ n} es consistente si, y sólo si, ∀ e > 0

lím P(冟θˆn − θ 冟 < ε ) = 1

n→∞

,

∀θ ∈ Ω

Cada elemento de {qˆ n} se dice que es un estimador consistente. Ahora bien, una condición suficiente para la consistencia de un estimador es que se verifiquen las dos condiciones siguientes:

1. 2.

12

lím E[θˆn ] = θ .

n→∞

lím Var [θˆn ] = 0.

n→∞

© Ediciones Pirámide

Distribuciones en el muestreo. Estimación Los errores mensuales de la predicción del IPC que realiza un instituto de estudios económicos se distribuyen normalmente. Demuestre que el error mensual medio calculado a partir de una muestra aleatoria simple de tamaño n es un estimador consistente para el verdadero error mensual medio. Ejercicio 1.2

Solución

Sea X la variable aleatoria que representa el error mensual de la predicción del IPC: X

~ N ( μ, σ )

Dada una muestra aleatoria simple de tamaño n, (X1, ..., Xn), el error mensual medio se define como:

Xn =

1 n ⋅ ∑ Xi n i =1

Para probar que este estimador es consistente para el parámetro m, debemos comprobar que: Xn ⎯⎯→ μ P

es decir, que, ∀ e > 0, se verifica: lím P(冟 Xn − μ冟 < ε ) = 1

n→∞

,

∀μ

Teniendo en cuenta que como X ~ N(m, s), entonces:

X

~ N 冢 μ,

Z= © Ediciones Pirámide

X−μ σ/ n

σ n



~ N (0, 1) 13

Ejercicios de inferencia estadística y muestreo pudiendo escribir: P(冟 Xn − μ冟 < ε ) = P( − ε < X − μ < ε ) = P =P

冢 − εσ⋅

n

0:

ε⋅ n =∞ n→∞ σ lím

resulta que: lím P(冟 Xn − μ冟 < ε ) = lím P

n→∞

n→∞

冢 − εσ⋅

n

0: lím P(冟 X − μ冟 < ε ) = 1

n→∞

,

∀μ

o, lo que es lo mismo, si ∀ e > 0: lím P(冟 X − μ冟  ε ) = 0

n→∞

Para comprobar esto, utilizaremos el teorema de Chebychev2. Previamente, calcu— lamos la esperanza y la varianza de X , teniendo en cuenta que X1, ..., Xn son variables aleatorias independientes e idénticamente distribuidas a X: ⎡1 n ⎤ 1 n nE[ X ] 1 n = E[ X ] = μ E[ X ] = E ⎢ ∑ Xi ⎥ = ∑ E[ Xi ] = ∑ E[ X ] = n i =1 n ⎢⎣ n i = 1 ⎥⎦ n i = 1 ⎡1 n ⎤ 1 Var [ X ] = Var ⎢ ∑ Xi ⎥ = 2 ⎢⎣ n i = 1 ⎥⎦ n 2

n

n

1

∑ Var [ Xi ] = n 2 ∑ Var [ X ] =

i =1

i =1

n Var [ X ] Var [ X ] σ 2 = = n2 n n

Si Y es una variable aleatoria con media y varianza finitas, entonces ∀ k > 0 se verifica:

P(冟Y − E[Y ]冟  k )  © Ediciones Pirámide

Var [Y ] k2

15

Ejercicios de inferencia estadística y muestreo Por tanto, aplicando la desigualdad de Chebychev, se tiene que, ∀ e > 0: 0  P(冟 X − μ冟  ε ) = P(冟 X − E[ X ]冟  ε ) 

Var [ X ] σ 2 / n = 2 ε2 ε

es decir: 0  P(冟 X − μ冟  ε ) 

σ2 nε 2

Como:

σ2 =0 n → ∞ nε 2 lím

entonces: lím P(冟 X − μ冟  ε ) = 0

n→∞



y, por tanto, X es consistente para m en una población cualquiera. b) Una condición suficiente para la consistencia de un estimador es que sea asintóticamente insesgado y que su varianza tienda a cero. Sabemos que la varianza muestral: S2 =

1 n ( Xi − X )2 ∑ n − 1 i =1

es insesgado para la varianza poblacional s2, es decir: E[ S 2 ] = σ 2 y como: S′2 = 16

n −1 2 1 n S ( Xi − X ) 2 = ∑ n i =1 n © Ediciones Pirámide

Distribuciones en el muestreo. Estimación resulta que3: E[ S ′ 2 ] = Var [ S ′ 2 ] =

n −1 n −1 2 E[ S 2 ] = σ n n (n − 1)2 (n − 1)2 ⎡ μ 4 3−n ⎤ 2 Var [ ] S = + σ 4⎥ ⎢ 2 2 n n ⎣ n n(n − 1) ⎦

y, por tanto: n −1 2 σ = σ2 n→∞ n

lím E[ S ′ 2 ] = lím

n→∞

(n − 1)2 n→∞ n3

lím Var [ S ′ 2 ] = lím

n→∞

3 − n 4⎤ ⎡ ⎢⎣ μ 4 + n − 1 σ ⎥⎦ = 0

con lo cual, S¢2 es consistente para s2. Sea (X1, X2, X3) una muestra aleatoria simple procedente de una población que sigue una distribución normal con media m y varianza s2. Consideremos los siguientes estimadores de m: Ejercicio 1.4

μˆ 1 =

X1 + 2 X2 + 3 X3 6

;

μˆ 2 =

X1 − 4 X2 −3

a) ¿Cuáles son insesgados? b) ¿Cuál es más eficiente? c) Busque un estimador eficiente para m.

Solución

de mˆ 1 y mˆ 2:

a) Para que un estimador sea insesgado, su esperanza debe coincidir con el parámetro que pretende estimar; por tanto, se calcula la esperanza

1 ⎡ X + 2 X2 + 3 X3 ⎤ 1 = E[ X1 + 2 X2 + 3 X3 ] = ( E[ X1 ] + 2 E[ X2 ] + 3E[ X3 ]) = E[ μˆ 1 ] = E ⎢ 1 ⎥ 6 6 ⎦ 6 ⎣ = 3

1 1 ( μ + 2 μ + 3μ ) = 6 μ = μ 6 6

Véase Casas Sánchez, J. M.: Inferencia estadística, para las expresiones de E [S2] y Var [S2].

© Ediciones Pirámide

17

Ejercicios de inferencia estadística y muestreo Como E [mˆ 1] = m, mˆ 1 es un estimador insesgado para m. 1 1 ⎡ X − 4 X2 ⎤ = − E[ X1 − 4 X2 ] = − ( E[ X1 ] − 4 E[ X2 ]) = E[ μˆ 2 ] = E ⎢ 1 ⎥ 3 3 ⎣ −3 ⎦ 1 1 = − ( μ − 4 μ ) = − ( − 3μ ) = μ 3 3 Como E [mˆ 2] = m, mˆ 2 es también un estimador insesgado de m. b) La eficiencia de un estimador insesgado se mide por su varianza. Así, un estimador insesgado será tanto más eficiente cuanto menor sea su varianza. Como mˆ 1 y mˆ 2 son insesgados, para ver cuál de ellos es más eficiente, calculamos sus varianzas respectivas teniendo en cuenta que X1, X2 y X3 son variables independientes, pues se trata de una muestra aleatoria simple: ⎡ X + 2 X2 + 3 X3 ⎤ 1 Var [ μˆ 1 ] = Var ⎢ 1 ⎥⎦ = 36 Var [ X1 + 2 X2 + 3 X3 ] = 6 ⎣ =

1 (Var [ X1 ] + 4 Var [ X2 ] + 9 Var [ X3 ]) = 36

=

1 2 14 2 7σ 2 [σ + 4σ 2 + 9σ 2 ] = σ = 36 36 18

1 ⎡ X − 4 X2 ⎤ 1 Var [ μˆ 2 ] = Var ⎢ 1 = Var [ X1 − 4 X2 ] = (Var [ X1 ] − 16 Var [ X2 ]) = ⎥ 9 ⎣ −3 ⎦ 9 =

1 2 17σ 2 [σ + 16σ 2 ] = 9 9

Como Var [mˆ 1] < Var [mˆ 2], mˆ 1 es la más eficiente de los dos. c) En una muestra aleatoria simple obtenida de una población que sigue una distribución normal, la media muestral es un estimador insesgado y eficiente. — Verifiquemos que X cumple estas dos propiedades: ⎡ X + X2 + X3 ⎤ 1 E[ X ] = E ⎢ 1 ⎥⎦ = 3 E[ X1 + X2 + X3 ] = 3 ⎣ = 18

1 1 ( E[ X1 ] + E[ X2 ] + E[ X3 ]) = ( μ + μ + μ ) = μ 3 3 © Ediciones Pirámide

Distribuciones en el muestreo. Estimación —

Se ha comprobado así que X es un estimador insesgado para m: ⎡ X + X2 + X3 ⎤ 1 Var [ X ] = Var ⎢ 1 ⎥⎦ = 9 Var [ X1 + X2 + X3 ] = 3 ⎣ =

σ2 1 1 (Var [ X1 ] + Var [ X2 ] + Var [ X3 ]) = (σ 2 + σ 2 + σ 2 ) = 9 9 3 —

Para comprobar la eficiencia de X , vista su insesgadez, hay que verificar que su varianza coincide con la cota de Frechet-Cramer-Rao para un estimador insesgado. Para ello calculamos dicha cota: 1

Cota de Frechet-Cramer-Rao = nE

冤冢

∂ ln f ( x; θ ) ∂θ

冣冥 2

Como la muestra procede de una población normal, tenemos: 1 ( x − μ )2 σ2

− 1 f ( x; μ ) = e 2 σ 2π

ln f ( x; μ ) = −

1 ( x − μ )2 1 + ln 2 2 σ σ 2π

∂ ln f ( x; μ ) ( x − μ ) = σ2 ∂μ Así, tenemos que:

nE

冤冢

∂ ln f ( x; μ ) ∂μ

冣冥 2

= nE

冤冢

X−μ σ2

冣冥 2

=

n nσ 2 n 2 [( − μ ) ] = = 2 E X 4 4 σ σ σ

Por tanto: Cota de Frechet-Cramer-Rao = © Ediciones Pirámide

1 σ2 = n /σ 2 n 19

Ejercicios de inferencia estadística y muestreo Así pues, cualquier estimador de m insesgado tiene una varianza mayor o igual que s2 /n. Como la muestra aleatoria simple que hemos considerado tiene tamaño tres, cual— quier estimador de m tiene una varianza superior o igual a s2 /3. En nuestro caso, X es insesgado y de mínima varianza, porque su varianza coincide con la cota de Frechet— Cramer-Rao; por tanto, X es un estimador eficiente.

Sea (X1, X2, ..., Xn) una muestra aleatoria simple procedente de una población con distribución uniforme U(a, b). Obtenga los estimadores de a y b según el método de los momentos y el método de máxima verosimilitud. Ejercicio 1.5

Solución

La función de densidad de la distribución U(a, b) es: ⎧ 1 ⎪ f ( x) = ⎨ b − a ⎪⎩0

si a  x  b en otro caso

Método de los momentos Los momentos de orden 1 y 2 con respecto al origen de la población U(a, b) son:

α1 = E[ X ] =



b

a

α 2 = E[ X 2 ] =



b

⎡ x2 ⎤ 1 b2 − a2 b+a = = x⋅ dx = ⎢ ⎥ b−a 2 ⎣ 2( b − a ) ⎦ a 2( b − a ) b

b

a

x2 ⋅

⎡ x3 ⎤ 1 b3 − a3 a 2 + ab + b 2 dx = ⎢ = = ⎥ b−a 3 ⎣ 3(b − a) ⎦ a 3(b − a)

Los correspondientes momentos muestrales son: n

a1 =

∑ Xi

i =1

n

=X

n

a2 = 20

∑ Xi2

i =1

n © Ediciones Pirámide

Distribuciones en el muestreo. Estimación Igualando ambos momentos, se tiene el siguiente sistema de ecuaciones: ⎫ ⎪ b + a i =1 = = a1 ⎪ ⎪ n 2 ⎬ n ⎪ 2 X ∑ i 2 2 ⎪ a + ab + b i =1 = = a2 ⎪ n 3 ⎭ n

∑ Xi

Se resuelve ahora dicho sistema: b = 2 a1 − a a 2 + a(2 a1 − a) + (2 a1 − a)2 = a2 3 a 2 + 2 a1a − a 2 + 4 a12 + a 2 − 4 a1a = a2 3 a 2 − 2 a1a + 4 a12 = 3a2 a 2 − 2 a1a + ( 4 a12 − 3a2 ) = 0 a=

2 a1 ±

4 a12 − 16 a12 + 12 a2 = a1 ± 2

− 3a12 + 3a2

luego: n

∑ Xi2

i =1 aˆ = X ± 3 n

− 3 X 2 = X ± 3S ′ 2 = X ± 3 S ′

y n

∑ Xi2

i =1 bˆ = X  3 n © Ediciones Pirámide

− 3 X 2 = X  3S ′ 2 = X  3 S ′ 21

Ejercicios de inferencia estadística y muestreo y como a < b, se tiene que la estimación por el método de los momentos es: aˆ = X − 3S ′ bˆ = X + 3S ′ Método de máxima verosimilitud Consiste en obtener aˆ y bˆ tales que: L( x1 ,..., xn ; aˆ, bˆ ) = máx L( x1 ,..., xn ; a, b) a, b

Si se plantea la función de verosimilitud, se tiene: n

L( x1 ,..., xn ; a, b) = ∏ f ( xi ; a, b) = i =1



1 b−a



n

si a  xi  b, ∀ i = 1, ..., n. Tomando el logaritmo neperiano: ln L( x1 ,..., xn ; a, b) = − n ln(b − a) y si se deriva esta expresión con respecto a los parámetros a y b, se tiene: ∂ ln L( x1 ,..., xn ; a, b) n = ∂a b−a ∂ ln L( x1 ,..., xn ; a, b) n =− b−a ∂b Al igualar estos cocientes a cero, se observa que b – a debería ser infinito, pero esto no es posible, pues los parámetros de la distribución uniforme proporcionan un intervalo finito. Este hecho se produce porque el campo de variación X depende de los parámetros (a  x  b). Por tanto, no se puede aplicar el proceso anterior y habrá que encontrar el máximo de la función de verosimilitud de otra forma. Como se ha encontrado que: ⎧ 1 ⎪ L( x1 ,..., xn ; a, b) = ⎨ (b − a)n ⎪⎩0 22

si a  xi  b

,

∀ i = 1,..., n

en caso contrario © Ediciones Pirámide

Distribuciones en el muestreo. Estimación El máximo de L se alcanzará en: a  xi  b

,

∀ i = 1,..., n

es decir, cuando: a  mín{xi} i

máx{xi}  b i

pues el máximo de 1/(b – a) n se obtendrá minimizado b – a, pero b no debe ser inferior al máximo valor obtenido en la muestra, ni a debe ser superior al mínimo de ellos. Por tanto, los estimadores máximo-verosímiles de a y b serán, respectivamente: aˆ = mín{Xi} i

bˆ = máx{Xi} i

Analíticamente: máx L( x1 ,..., xn ; a, b) ≡ a, b

1 mín (b − a)n a, b

pero como: xi  b, ∀ i = 1,..., n ⇔ máx{xi}  b i

a  xi , ∀ i = 1,..., n ⇔ a  mín{xi} i

4

a

X(1)

X(2)



X(n)

b

entonces: b − a  máx{xi} − mín{xi} i

i

4 X (i) es el estadístico de orden i. Es decir, una vez ordenadas de forma creciente las observaciones muestrales X (i), tomará el valor de la que ocupe el lugar i-ésimo.

© Ediciones Pirámide

23

Ejercicios de inferencia estadística y muestreo y, por tanto:

[

]

mín (b − a)n  máx{xi} − mín{xi} a, b

i

i

n

con lo cual: máx L( x1 ,..., xn ; a, b) ≡ a, b

1 1  n n mín (b − a) máx{xi} − mín{xi}

[

a, b

i

i

]

y, por tanto: aˆ = mín{Xi}

Ejercicio 1.6

Solución

bˆ = máx{Xi}

;

i

i

Encuentre el estimador de máxima verosimilitud del parámetro p de una variable de Bernoulli y compruebe si es consistente. Sea (X1, ..., Xn) una muestra aleatoria simple procedente de una B(p). La función de probabilidad de una B(p) para cada Xi es: P( xi ; p) = p xi (1 − p)1 − xi

xi = 0, 1,

,

i = 1,..., n

La función de verosimilitud será: n

n

L( x1 ,..., xn ; p) = P( x1 ,..., xn ; p) = ∏ P( xi ; p) = p

∑ xi

i =1

n

(1 − p)

n − ∑ xi i =1

i =1

Maximizamos el logaritmo neperiano de esa función:

冢 冣



n

ln L( x1 ,..., xn ; p) =

i =1

n

∂ ln L( x1 ,..., xn ; p) = ∂p n

∑ xi

i =1

p 24

n



∑ xi ln p + n − ∑ xi ln (1 − p) i =1

n

∑ xi

i =1



p

n − ∑ xi i =1

1− p

=0

n

=

n − ∑ xi i =1

1− p



n

n

n

i =1

i =1

i =1

∑ xi − p∑ xi = pn − p∑ xi © Ediciones Pirámide

Distribuciones en el muestreo. Estimación Por tanto, el estimador de máxima verosimilitud es: n

pˆ =

∑ Xi

i =1

n n

Para comprobar que se ha maximizado la función de verosimilitud en p =

∑ xi

i =1

n

,

calculamos la derivada segunda: n

n

∑ xi

n − ∑ xi

∂ 2 ln L( x1 ,..., xn ; p) i =1 i =1 =− 2 − ∂p 2 p (1 − p)2 n

y comprobamos cuánto vale en p = n



n

:



n

n − ∑ xi i =1 n

冢 冣 冢 冣 ∑ xi

i =1

n

n

∑ xi

i =1 n

∑ xi

i =1

2

1−

∑ xi

2

=−

i =1

n2 n

∑ xi



i =1

n

=

n − ∑ xi



i =1 n

n − ∑ xi i =1

n



n

n

i =1

i =1

2

− n 3 + n 2 ∑ xi − n 2 ∑ xi

∑ xi 冢n − ∑ xi 冣 n

n

i =1

i =1

=−

n2 n

∑ xi

i =1

=−



n2 n

n − ∑ xi

=

i =1

n3

∑ xi 冢n − ∑ xi 冣 n

n

i =1

i =1

= P χ15 > = 2 2 25 σ σ

2 2 = P( χ15 > 5,229) = 1 − P( χ15  5,229) = 1 − 0,010 = 0,99

Para encontrar esta probabilidad se ha buscado en la tabla 9.

En una estación de ferrocarril se encuentra una máquina automática de café regulada de tal forma que la cantidad de café dispensado se distribuye normalmente con una desviación típica de 0,5 centímetros cúbicos por taza. En una muestra aleatoria de 50 tazas se ha medido un total de 7.500 centímetros cúbicos de café. Ejercicio 1.10

a) Estime qué cantidad de café suministra la máquina en cada taza. b) Construya un intervalo de confianza al 95 % para la cantidad media de café que suministra la máquina.

Solución

Sea X = «Cantidad de café dispensada en una taza»:

X

~ N ( μ; 0,5)

a) La mejor estimación puntual para la media poblacional se calcula mediante la media muestral. Así: n

μˆ =

∑ xi

i =1

n

=

7.500 = 150 cm 3 50

b) Como la cantidad de café que es suministrada en cada taza sigue una distribución normal con s = 0,5 centímetros cúbicos, conocida, el estadístico: X−μ σ/ n sigue una distribución N(0, 1). © Ediciones Pirámide

31

Ejercicios de inferencia estadística y muestreo Por tanto, el intervalo solicitado no es más que el intervalo simétrico centrado en 0, de tal forma que:



P − zα / 2 



X−μ  zα / 2 = 1 − α σ/ n

En este caso, 1 – a = 0,95, luego a = 0,05, por lo que, mirando la tabla 7, se obtiene que z a/2 = 1,96. Por tanto:



P − 1,96 



P X − 1,96



X−μ  1,96 = 0,95 0,5 / 50

0,5 0,5  μ  X + 1,96 50 50

冣 = 0,95

y como x– = 150, el intervalo de confianza al 95 % será: [149,8614; 150,1386]

Un fabricante de componentes electrónicos afirma que sus condensadores tienen un tiempo medio de duración de 500 horas. Para verificar si dicho tiempo medio se mantiene, decide examinar 25 condensadores cada mes. Con una confianza del 90 %, ¿qué conclusiones debería extraer este fabricante de una muestra cuyo tiempo medio de duración es de 518 horas, con desviación típica de 40 horas? Se asume que el tiempo de duración de los condensadores se distribuye normalmente. Ejercicio 1.11

Solución

Sea X la variable que representa el tiempo de duración de un condensador: X

~ N ( μ; σ )

A partir de la muestra, se ha obtenido: x– = 518 horas 32

;

s = 40 horas © Ediciones Pirámide

Distribuciones en el muestreo. Estimación Como n es pequeño (n = 25, luego menor que 30), el estadístico: X−μ S/ n sigue una distribución t de Student con (n – 1) grados de libertad. El intervalo de confianza para m en esta caso sería:

冤X − t

α /2

S S ; X + tα / 2 n n



Calculemos t a/2: 1 − α = 0,9 ⇒ α = 0,1 ⇒ α / 2 = 0,05 t a/2 es un valor tal que P(t  t a/2) = a/2, con t una distribución t de Student de n – 1 = 24 grados de libertad. Si se busca en la tabla 10, se obtiene: t0,05;24 = 1,711 Por tanto, el intervalo queda:

冤518 − 1,711 4025 ; 518 + 1,711 4025 冥 [504,312; 531,688] Se puede afirmar, con una confianza del 95 %, que los condensadores que produce este fabricante tienen una duración media de entre 504,312 horas y 531,688 horas, mayor, por tanto, de 500 horas. Si se tomara una serie de muestras de tamaño 25, aproximadamente el 95 % de ellas proporcionarían intervalos que contendrían el verdadereo valor de parámetro que se prentende estimar, mientras que un 5 % de dichas muestras darían lugar a intervalos que no contendrían el verdadero valor de la duración media poblacional. Por tanto, el intervalo numérico obtenido puede ser de cualquiera de los dos tipos. © Ediciones Pirámide

33

Ejercicios de inferencia estadística y muestreo Ejercicio 1.12

Los niveles de audiencia (en miles de personas) de un programa de televisión, medidos en 10 emisiones elegidas aleatoriamente, han sido los

siguientes: 682, 553, 555, 666, 657, 649, 522, 568, 700, 552 Suponiendo que los niveles de audiencia siguen una distribución normal: a) ¿Se podría afirmar, con un 95 % de confianza, que la audiencia media del programa es de 600.000 espectadores por programa? b) La compañía productora del programa televisivo afirmó, durante las negociaciones para la venta del programa, que éste acapararía una audiencia fiel y que la desviación típica del número de espectadores sería de 15.000. ¿Queda esta afirmación probada con los datos disponibles, con un 95 % de confianza?

Solución

Definimos X = «Nivel de audiencia (miles de personas)». X

~ N ( μ; σ )

A partir de la información que se suministra en el enunciado, se puede calcular la media y la desviación típica muestral: n

x= s′2 =

∑ xi

i =1

=

n

∑ xi2 n

6.104 = 610, 4 miles de espectadores/ programa 10

− ( x )2 =

3.765.176 − (610,4)2 = 3.929, 44 10

luego: s2 =

10 2 10 s′ = 3.929, 44 = 4.366,0444 9 9

y, por tanto: s= 34

s 2 = 66,0761 miles de espectadores/ programa © Ediciones Pirámide

Distribuciones en el muestreo. Estimación a) Se puede calcular un intervalo de confianza para la media y comprobar si el valor 600 se encuentra dentro de él o no (sería como buscar la región de aceptación en un contraste de hipótesis bilateral):



Iμ = X − tα / 2

S S ; X + tα / 2 n n



donde t a/2 es tal que P(tn – 1  t a/2) = a/2. Se ha elegido este intervalo porque tenemos una muestra pequeña (n = 10). Como 1 – a = 0,95, entonces a = 0,05, luego a/2 = 0,025. El valor t a/2 es 2,262, puesto que tiene nueve grados de libertad (se ha buscado dicho valor en la tabla 10). Por tanto:



Iμ = 610, 4 − 2,262



66,0761 66,0761 ; 610, 4 + 2,262 = 10 10

= [610, 4 − 47,2647; 610, 4 + 47,2647] = [563,1353; 657,6647] Como el valor 600 se encuentra dentro del intervalo de confianza construido, podemos decir, con un 95 % de confianza, que la audiencia media del programa es de 600.000 espectadores (o, lo que es lo mismo, no se podría rechazar esta afirmación). Este apartado se podría resolver igualmente mediante un contraste de hipótesis bilateral. b) Se calcula ahora un intervalo de confianza para s2: Iσ 2 =



(n − 1)S 2 (n − 1)S 2 ; χ n2 − 1;1 − α / 2 χ n2 − 1; α / 2



donde: P( χ n2 − 1  χ n2 − 1;1 − α / 2 ) = 1 − α / 2 = 1 − 0,025 = 0,975 P( χ n2 − 1  χ n2 − 1; α / 2 ) = α / 2 = 0,025 Utilizando los valores de la tabla 9 con n – 1 = 9 grados de libertad, hallamos:

χ 92;1 − α / 2 = 19,02 χ 92; α / 2 = 2,7 © Ediciones Pirámide

35

Ejercicios de inferencia estadística y muestreo Por tanto:

Iσ 2 =

,0444 冤 9 ⋅ 4 ⋅19366,02,0444 ; 9 ⋅ 4 ⋅ 366 冥 = [2.065,9516; 14.553,4813] 2,7

El intervalo de confianza para s será: Iσ = [ 45, 4527; 120,6378] Este intervalo no contiene el valor 15, por lo que no queda probada la afirmación de que la audiencia tenga una desviación típica de 15.000 espectadores con una confianza del 95 %.

Para establecer las especificaciones del sistema de control de calidad de una máquina que fabrica grapas se realizan distintas mediciones y pruebas. Las longitudes de una muestra aleatoria de 10 grapas se observa que tienen una varianza de 0,32 cm2. Construya un intervalo de confianza al 90 % para la varianza de la longitud de las grapas; suponga normalidad. Ejercicio 1.13

Llamamos X a la variable aleatoria que representa la longitud de una grapa, y suponemos que su distribución es N(m, s). El intervalo de confianza para la varianza s2 es: Solución

Iσ 2 =



(n − 1)S 2 (n − 1)S 2 ; χ n2 − 1;1 − α / 2 χ n2 − 1; α / 2



con 1 – a = 0,90 fi a/2 = 0,05: P( χ n2 − 1  χ n2 − 1;1 − α / 2 ) = 1 − α / 2 = 0,95 P( χ n2 − 1  χ n2 − 1; α / 2 ) = α / 2 = 0,05 En la tabla 9 de la distribución c2 con n – 1 = 9 grados de libertad, obtenemos los valores: 36

© Ediciones Pirámide

Distribuciones en el muestreo. Estimación

2 9

0,90

0,05

0,05 0 3,325

16,92

χ 92; 0,05 = 3,325 χ 92; 0,95 = 16,92 Por tanto, sustituyendo en la expresión del intervalo: 0,32 冤 916⋅ 0,92,32 ; 93⋅,325 冥 = [0,1702; 0,8662]

Un empresario, propietario de una gasolinera, está interesado en conocer la diferencia entre las cantidades que se consumen de gasolina y de gasoil en su estación de servicio. En una semana, se registraron las cantidades suministradas de combustible a dos muestras de vehículos de tal forma que a 15 automóviles que solicitaron gasolina se les suministró una cantidad media de 27 litros, mientras que otros 10 adquirieron una media de 23 litros de gasoil por vehículo. Para obtener información del consumo de carburantes en España, se consultó el anuario estadístico de una importante compañía petrolífera y se encontró que la varianza poblacional en el suministro de combustibles era de 1002 litros, en el caso de la gasolina, y de 802 litros en el caso del gasoil. Se supone que el consumo de los carburantes de distribuye normalmente. Calcule un intervalo de confianza al 99 % para la diferencia entre los consumos medios de ambos tipos de carburante y comente el resultado. Ejercicio 1.14

© Ediciones Pirámide

37

Ejercicios de inferencia estadística y muestreo Solución

Se tienen dos poblaciones, X e Y, donde X es el consumo de gasolina, e Y es el consumo de gasoil, de tal forma que se conoce que: X → N ( μ x , 100 ) Y → N ( μ y , 80 )

Se han tomado dos muestras que han producido los siguientes resultados: nx = 15

x = 27 litros

ny = 10

y = 23 litros

El intervalo de confianza para mx – my, en estas condiciones, es el siguiente:



( X − Y ) − zα / 2

σ x2 σ y2 σ x2 σ y2 + ; ( X − Y ) + zα / 2 + nx ny nx ny



donde za/2 es tal que: P[ Z > zα / 2 ] =

α 2

y

Z → N (0, 1)

Como 1 – a = 0,99, a = 0,01, luego a/2 = 0,005. Si se mira la tabla 7, se obtiene que za/2 = 2,575, puesto que P(Z  2,57) = 0,0051 y P(Z  2,58) = 0,0049, y por interpolación entre esos dos valores se tiene que P(Z  2,575) = 0,005. En este caso, y con la información muestral recogida, el intervalo queda:

冤(27 − 23) − 2,575

100 80 100 80 + + ; (27 − 23) + 2,575 15 10 15 10

冤4 − 2,575

440 440 ; 4 + 2,575 30 30





[ 4 − 9,861; 4 + 9,861] [ − 5,861; 13,861] A la vista del intervalo obtenido, no se puede afirmar que el consumo medio de gasolina sea superior al de gasoil, puesto que en el intervalo se admiten también valores negativos y el cero. 38

© Ediciones Pirámide

Distribuciones en el muestreo. Estimación Una compañía quiere conocer la proporción de consumidores que adquieren su producto. Para ello, contrata una empresa que realiza investigaciones de mercado y le pide que el error de estimación máximo sea del 3 % con una confianza del 95 %. Ejercicio 1.15

a) ¿Cuál debe ser el tamaño de la muestra para cumplir los objetivos marcados por la compañía? b) Si, una vez extraída la muestra, se observa que la proporción muestral es del 74 %, ¿entre qué valores se encontraría la proporción poblacional si se pretende seguir teniendo la confianza inicial? ¿Cuál es el error de estimación en este caso, y a qué se debe el cambio con el error pedido previamente?

Solución

Definimos la variable aleatoria X como: ⎧1 si un consumidor adquiere el producto X=⎨ ⎩0 si un consumidor no adquiere el producto

Sea p = P(X = 1) la proporción de consumidores que adquiere el producto. a) Se quiere estimar p, con eˆp = 0,03 y 1 – a = 0,95. El intervalo de confianza para p es:



I p = pˆ − zα / 2

ˆˆ pq ; pˆ + zα / 2 n

ˆˆ pq n



Si se despeja del intervalo, se obtiene: eˆ p = zα / 2

ˆˆ pq n

de donde: n=

ˆˆ zα2 / 2 pq 2 eˆ p

Como no se tiene información de pˆ ni, por supuesto, de qˆ (qˆ = 1 – pˆ ), se considera a priori el peor de los casos, cuando pˆqˆ = pˆ(1 – pˆ) se hace máximo: pˆ = qˆ = © Ediciones Pirámide

1 = 0,5 2 39

Ejercicios de inferencia estadística y muestreo Al considerar estos valores para pˆ y qˆ, obtenemos un tamaño muestral máximo, válido para garantizar el error fijado por la compañía sea cual sea el valor del parámetro p. Luego: n=

1,96 2 ⋅ 0,5 ⋅ 0,5 = 1.067,1111 0,032

Por tanto, n = 1.068 consumidores. El valor za/2 = 1,96 se ha obtenido en la tabla 7, y es tal que P(Z  za/2) = 0,975. b) En este caso tenemos la información adicional de pˆ = 0,74. Por tanto, qˆ = 0,26. Además, n = 1.068. En esta situación: eˆ p = 1,96

0,74 ⋅ 0,26 = 0,02631 1.068

Luego p pertenece al intervalo [0,74 – 0,02631; 0,74 + 0,02631], con una confianza del 95 %. El error de estimación es más pequeño (0,02631), y eso se debe a que disponemos de información sobre pˆ y qˆ, que consideramos como conocidos y que no representan el peor de los casos.

Un prestigioso diario de información general quiere hacer un estudio sobre la diferencia en la intención de voto a los dos principales partidos políticos de su país. Lo único que se conoce es que ambos partidos están muy igualados en cuanto a intención de voto. ¿A cuántas personas debería entrevistar para estimar, con una confianza del 95 %, dicha diferencia de intención de voto con un error menor del 1 %? Ejercicio 1.16

La intención de voto de cada persona sigue una distribución B(1, p). Sean p1 = «Proporción de votantes del partido 1» y p2 = «Proporción de votantes del partido 2», el intervalo de confianza para la diferencia de proporciones es: Solución

冤( pˆ − pˆ ) − z 1

2

α /2

pˆ1qˆ1 pˆ 2 qˆ2 + ; ( pˆ1 − pˆ 2 ) + zα / 2 n n

pˆ1qˆ1 pˆ 2 qˆ2 + n n



en donde za/2 = 1,96, ya que 1 – a = 0,95. 40

© Ediciones Pirámide

Distribuciones en el muestreo. Estimación Como no se tiene información sobre p1 y p2, salvo que los partidos están igualados, se toma el peor de los casos: pˆ 1 = pˆ 2 = 0,5. Despejando, se tiene:

error = 1,96

0,25 0,25 1,96 2 ⋅ 0,5 + ⇒ n= = 19.208 personas n n (0,01)2

En una determinada comunidad autónoma se va a lanzar al mercado un nuevo modelo de ordenador. Con el fin de valorar la acogida que tendrá el producto, se encargan dos investigaciones piloto, en función de un mismo tamaño de muestra, para obtener información sobre la proporción de consumidores dispuestos a adquirir el nuevo modelo, obteniéndose en cada una de ellas las siguientes estimaciones: pˆ 1 = 0,45 y pˆ 2 = 0,6. Ejercicio 1.17

a) Utilizando los resultados de estas investigaciones piloto, ¿cuál debería ser el tamaño muestral definitivo para estimar, con un 90 % de confianza, la proporción de consumidores que adquirirían el nuevo ordenador garantizando un error inferior al 0,5 %? b) Construya un intervalo de confianza al 90 % para la proporción de consumidores dispuestos a adquirir el ordenador, en el caso de que en una muestra de 40 individuos el 20 % se manifiesten favorables a la compra.

Solución

Sea: ⎧1 si una persona está dispuesta a adquirir el ordenador X=⎨ ⎩0 en otro caso

Esta variable sigue una distribución B(1, p), con p = P(X = 1), la proporción de consumidores dispuestos a adquirir el ordenador. a) Sabemos que el intervalo al nivel de confianza 100(1 – a) % para el parámetro p es:

冤 pˆ − z

α /2

© Ediciones Pirámide

ˆˆ pq ; pˆ + zα / 2 n

ˆˆ pq n

冥 41

Ejercicios de inferencia estadística y muestreo Estimando el error cometido como:

eˆ = zα / 2

ˆˆ pq n

se pretende que: 0,005 < zα / 2

ˆˆ pq n

en los dos casos. Como el nivel de confianza es del 90 %, a/2 = 0,05, luego, buscando en la tabla 7, se obtiene: zα / 2 = 1,645 por interpolación entre los dos valores de Z cuya probabilidad acumulada se encuentra más próxima a 0,95: P( Z  1,64) = 0,9495 P( Z  1,65) = 0,9505 Ahora, si despejamos n de la ecuación anterior, se obtiene: n=

ˆˆ zα2 / 2 pq 2 e

En el primer caso, pˆ 1 = 0,45, se tiene: n1 =

(1,645)2 ⋅ 0, 45 ⋅ 0,55 = 26.789,6475 ≈ 26.790 personas (0,005)2

En el segundo caso, pˆ 2 = 0,6, se tiene: n2 = 42

(1,645)2 ⋅ 0,6 ⋅ 0, 4 = 25.977,84 ≈ 25.978 personas (0,005)2 © Ediciones Pirámide

Distribuciones en el muestreo. Estimación Por tanto, para garantizar un error inferior al 0,5 % con un nivel de confianza del 90 %, el tamaño de la muestra que habría de ser elegida para garantizar la cota de error en cualquiera de los casos será de 26.790 personas. b) El intervalo de confianza para p será:



ˆˆ pq ; pˆ + zα / 2 n

I p = pˆ − zα / 2

ˆˆ pq n



Si sustituimos los valores que conocemos en esta expresión, obtendremos el intervalo de confianza para p:

冤0,2 − 1,645

0,2 ⋅ 0,8 0,2 ⋅ 0,8 ; 0,2 + 1,645 40 40



[0,2 − 0,1040; 0,2 + 0,1040] [0,0960; 0,3040]

Se seleccionaron dos muestras aleatorias e independientes del número de puestos de trabajo creados en el último mes por diferentes empresas de dos sectores económicos. La información suministrada por las muestras es la siguiente: Ejercicio 1.18

Empresas

Número de empleos (sector A) Número de empleos (sector B)

1

2

3

4

5

6

13 18

14 19

21 20

19 22

15 31

15 26

Con el fin de conocer el impacto de las nuevas modalidades de contratación en los dos sectores y suponiendo que el número de empleos creados siguiera en ambos distribuciones normales con varianzas iguales: a) ¿Se puede admitir, con un 95 % de confianza, que la desviación típica del número de empleados en el sector B es igual a 2? b) Con un 99 % de confianza, ¿podríamos afirmar que ambos sectores son similares en cuanto al número medio de empleos creados en el último mes? c) Sin utilizar la información muestral anterior, ¿qué tamaño muestral sería necesario seleccionar para estimar, mediante un intervalo de confianza de amplitud © Ediciones Pirámide

43

Ejercicios de inferencia estadística y muestreo 0,05, la proporción de empresas del sector B que crearon más de 20 empleos en el último mes, con un nivel de confianza del 95 %? Sean las variables aleatorias X e Y las que representan el número de puestos de trabajo creados en el último mes por las empresas de los sectores económicos, A y B, respectivamente. Entonces: Solución

~ N(μx , σ x ) Y ~ N(μy , σ y )

X

con X e Y independientes y sx = sy = s. a) Para ver si 22 es un valor admisible para sy2, obtenemos el correspondiente intervalo de confianza al 95 %: Iσ 2 = y

(ny − 1)Sy2

冤χ

2 n y − 1;1 − α / 2

;

(ny − 1)Sy2

χ n2y − 1; α / 2



donde los denominadores son los cuantiles de órdenes 1 – a/2 y a/2 de una distribución c2 con ny – 1 = 6 – 1 = 5 grados de libertad, es decir, utilizando que 1 – a = 0,95,

χ25

1–

= 0,90

/2 = 0,025

/2 = 0,025

χ25;

/2

χ25; 1–

/2

P( χ 52  χ 52;1 − α / 2 ) = 0,975 ⇒ χ 52;1 − α / 2 = 12,83 P( χ 52  χ 52; α / 2 ) = 0,025 ⇒ χ 52; α / 2 = 0,8312 44

© Ediciones Pirámide

Distribuciones en el muestreo. Estimación Calculamos la media y varianza muestral de las observaciones del sector B: yi

18

19

20

22

31

26

yi2

324

361

400

484

961

676

y=

1 ny

ny

∑ yi =

i =1

136 = 22,6667 6

⎡ ny ⎢ ny 1 1 2 ⎢∑ y 2 − sy2 = ( y − y ) = ∑ i ny − 1 i = 1 ny − 1 ⎢⎣i = 1 i =

冢 冣 ⎤⎥⎥ ny

∑ yi

2

i =1

ny

⎥⎦

=

1⎡ 136 2 ⎤ = 24,6667 . 3 206 − 5 ⎢⎣ 6 ⎥⎦

Por tanto, el intervalo de confianza al 95 % para sy2: ⎡ (6 − 1)24,6667 (6 − 1)24,6667 ⎤ Iσ 2 = ⎢ ; ⎥ = [9,6129; 148,3801] y 12,83 0,8312 ⎣ ⎦ y extrayendo la raíz cuadrada: Iσ y = [3,1005; 12,1811] Como 2 œ Isy, entonces, con un 95 % de confianza, no puede admitirse este valor para la desviación típica. b) Obtengamos el intervalo de confianza al 99 % para la diferencia de las medias poblacionales; como sx y sy son desconocidas, pero iguales, y los tamaños muestrales son pequeños, éste será:



Iμ x − μ y = ( X − Y ) − tα / 2

© Ediciones Pirámide

(nx − 1)Sx2 + (ny − 1)Sy2

nx + ny

nx + ny − 2

nx ny

; ( X − Y ) + tα / 2

(nx − 1)Sx2 + (ny − 1)Sy2

nx + ny

nx + ny − 2

nx ny



45

Ejercicios de inferencia estadística y muestreo donde t a/2 es el cuantil de una t de Student con nx + ny – 2 = 10 grados de libertad, tal que: P(t10 > tα / 2 ) =

α 0,01 = = 0,005 2 2

Entonces: P(t10  tα / 2 ) = 1 − 0,005 = 0,995 y utilizando la tabla 10: tα / 2 = 3,169 Obtengamos la media y varianza muestral de X:

x=

xi

13

14

21

19

15

15

xi2

169

196

441

361

225

225

1 nx

nx

∑ xi =

i =1

97 = 16,1667 6

⎡ ⎢ nx 1 ⎢∑ x 2 − s x2 = nx − 1 ⎢⎣i = 1 i

冢 ∑ xi 冣 nx

i =1

nx

2

⎤ ⎥ 1⎡ 972 ⎤ ⎥ = ⎢1.617 − = 9,7667 6 ⎥⎦ ⎥⎦ 5 ⎣

y sustituyendo en la expresión del intervalo:



Iμ x − μ y = (16,1667 − 22,6667) − 3,169

5 ⋅ 9,7667 + 5 ⋅ 24,6667 6+6−2

6+6 ; 6⋅6

(16,1667 − 22,6667) + 3,169

5 ⋅ 9,7667 + 5 ⋅ 24,6667 6+6−2

6+6 6⋅6



Iμ x − μ y = [ − 14,0917; 1,0917] 46

© Ediciones Pirámide

Distribuciones en el muestreo. Estimación Como el valor 0 está dentro de Imx – my, entonces puede admitirse la similitud en la creación de puestos de trabajo en estos dos sectores. c)

El intervalo de confianza para estimar una proporción es:



pˆ (1 − pˆ ) ; pˆ + zα / 2 n

I p = pˆ − zα / 2

pˆ (1 − pˆ ) n



con za/2 el cuantil de orden 1 – a/2 en una N(0, 1), es decir, tal que: P( Z > zα / 2 ) = α / 2 o bien: P( Z  zα / 2 ) = 1 − α / 2 La longitud o amplitud de este intervalo será: L = 2 zα / 2

pˆ (1 − pˆ ) n

y, despejando el valor de n, tendremos: n=

4 ⋅ zα2 / 2 ⋅ pˆ (1 − pˆ ) L2

Si 1 – a = 0,95, entonces a/2 = 0,025 y, buscando en la tabla 7, el valor de za/2 será 1,96. El valor de L se sustituirá por el deseado, es decir, 0,05, y al no tener información muestral para pˆ, tomamos la situación más desfavorable: aquella que hace máxima pˆ(1 – pˆ):

pˆ (1 – pˆ) 1/4

pˆ 0 © Ediciones Pirámide

1/2

1

47

Ejercicios de inferencia estadística y muestreo por tanto, pˆ = 0,5, y así: n=

4 ⋅ 1,96 2 0,5 ⋅ (1 − 0,5) = 1.536,64 0,052

Así pues, el tamaño muestral necesario será: n  1.537 La autoridad monetaria de un país decide llevar a cabo una investigación sobre los rendimientos que produce un determinado producto financiero ofertado por los bancos. Seleccionada una muestra aleatoria simple de nueve entidades bancarias, y suponiendo que los rendimientos de este producto en el conjunto bancario se distribuyen normalmente, con media del 23 % y desviación típica del 6 %, calcule: Ejercicio 1.19

a) La probabilidad de que el rendimiento medio muestral se mantenga entre el 18,72 y el 25,76 %. b) La probabilidad de que la varianza muestral sea superior a 60,12. c) El valor de k, tal que P(S2 > k) = 0,95. d) Suponiendo ahora que la desviación típica fuera desconocida, y sabiendo que la desviación típica de la muestra de nueve bancos es 4,5 %, obtenga la probabilidad de que la media muestral sea superior al 25,79 %.

Solución

Definimos X como la variable aleatoria que representa el rendimiento de este producto en cada entidad bancaria. La distribución de esta variable

será: X

~ N (23, 6)

a) Seleccionada una muestra aleatoria simple, X1, ..., Xn, de tamaño 9, n = 9, la media muestral: X =

1 n ∑ Xi n i =1

se mantiene entre el 18,72 % y el 25,76 % con probabilidad: P(18,72  X  25,76) 48

© Ediciones Pirámide

Distribuciones en el muestreo. Estimación Para calcular esta probabilidad, tenemos en cuenta que:

X

~ N (23, 6)

⇒ X

~ N 冢23;

冣 冢

6 6 ≡ N 23; n 9



y entonces: Z=

X − 23 6/ 9

~ N (0, 1)

por tanto: P(18,72  X  25,76) = P

冢18,672/ −923  X6 /− 239  25,676/ −9 23 冣 = P(− 2,14  Z  1,38) =

= P( Z  1,38) − P( Z < − 2,14) = P( Z  1,38) − P( Z  − 2,14) = = 0,9162 − 0,0162 = 0,9 donde las probabilidades han sido buscadas en la tabla 7 de una distribución N(0, 1). b) La varianza muestral se define como:

S2 =

1 n ∑ ( Xi − X )2 n − 1 i =1

Se sabe que: (n − 1)S 2 σ2

~ χ n2 − 1

Como ahora n = 9 y s = 6, entonces: (9 − 1)S 2 36 © Ediciones Pirámide

~ χ 82 49

Ejercicios de inferencia estadística y muestreo Por tanto, utilizaremos esta distribución para calcular la probabilidad deseada: P( S 2 > 60,12) = P





(9 − 1)S 2 (9 − 1)60,12 > = P( χ 82 > 13,36) = 1 − P( χ 82  13,36) 36 36

Buscando esta probabilidad en la tabla 9, tenemos: P( S 2 > 60,12) = 1 − 0,900 = 0,10 c)

Para encontrar k, tal que: 0,95 = P( S 2 > k )

utilizamos el suceso complementario: 0,95 = 1 − P( S 2  k ) de donde: 0,05 = P( S 2  k ) = P



8 ⋅ S2 8k  36 36



y, de nuevo, de la tabla 9 se deduce que: 8k = 2,733 36 y, por tanto: k=

36 ⋅ 2,733 = 12,2985 8

d) Si suponemos ahora que la desviación típica es desconocida, entonces la distribución de X será: X 50

~ N (23, σ ) © Ediciones Pirámide

Distribuciones en el muestreo. Estimación La desviación típica muestral del rendimiento del producto en las nueve entidades ha sido de 4,5 %, por tanto: s = 4,5 Utilizando que: X−μ S/ n

~ tn − 1 ≡ t8

se tiene la probabilidad deseada buscando en la tabla 10 de una t de Student con ocho grados de libertad: P( X > 25,79) = P

冢 4X,5−/ 239 > 254,,795/ −923冣 = P(t

8

> 1,86) =

= 1 − P(t8  1,86) = 1 − 0,95 = 0,05

La empresa Buenavista, S. A., se dedica a la fabricación de monturas de gafas. Ante la celebración del próximo consejo de administración, el departamento comercial elabora un informe sobre la producción diaria, X, en cientos de unidades, que se distribuye normalmente. Para ello, recoge información durante 16 días seleccionados al azar y obtiene los siguientes resultados: Ejercicio 1.20

16

∑ xi = 276

i =1

16

;

∑ xi2 = 4.826

i =1

a) Obtenga, razonadamente, un intervalo de confianza al 95 % para la desviación típica de la producción diaria de esta empresa. b) La empresa de la competencia, Gafaplus, S. A., estudia la posibilidad de una fusión con la empresa Buenavista, S. A. Para ello, decide comprobar si existe una diferencia significativa entre sus producciones diarias. Se sabe que la producción diaria de la empresa Gafaplus, S. A. se distribuye también normalmente. Sobre la base de una muestra aleatoria tomada a lo largo de 26 días, Gafaplus, S. A., encuentra una producción media de 1.250 unidades y una varianza de 38.6002 unidades. Elabore un intervalo de confianza al 95 % para la diferencia de producciones medias. © Ediciones Pirámide

51

Ejercicios de inferencia estadística y muestreo a) La variable X, producción diaria de monturas de la empresa Buenavista, S. A. (en cientos de unidades), sigue una distribución normal de la que no se conoce ni la media, mx, ni la desviación típica, sx, aunque éstas se pueden estimar a partir de los resultados muestrales: Solución

x=

1 n 276 xi = = 17, 25 cientos de monturas/día ∑ n i =1 16

s x2 =

1 n 1 ( xi − x ) 2 = ∑ n − 1 i =1 n −1

=



冤∑ xi2 − n 冢∑ xi 冣 冥 = n

n

1

i =1

2

i =1



1 1 4.826 − (276)2 = 4,3333 15 16

El intervalo de confianza para la varianza, como m es desconocida y n = 20 (pequeña), será:

Iσ 2 = x



(nx − 1)Sx2 (nx − 1)Sx2 ; χ n2 − 1;1 − α / 2 χ n2 − 1; α / 2



donde los denominadores son los cuantiles de órdenes 1 – a/2 y a/2, tales que en una c2 con n – 1 = 15 grados de libertad verifican que:

χ215

1–

/2

/2

χ215;

52

/2

χ215; 1–

/2

© Ediciones Pirámide

Distribuciones en el muestreo. Estimación Como 1 – a = 0,95, a/2 = 0,025, entonces, utilizando la tabla 9, estos valores serán: 2 χ15 ;1 − α / 2 = 27, 49 2 χ15 ; α / 2 = 6,262

Sustituyendo en el intervalo:

Iσ 2 = x

,3333 冤1527⋅ 4,,493333 ; 156⋅ ,4262 冥 = [2,3645; 10,3800]

Por tanto, para sx, el intervalo lo podemos obtener tomando raíces cuadradas: Iσ x = [1,5377; 3,2218] b) Si denominamos Y a la variable que representa la producción de monturas de gafas de la empresa Gafaplus, S. A. (en cientos de unidades), se ha obtenido a partir de la muestra: y = 12,50 cientos de unidades sy2 = 3, 86 (cientos de unidades)2 Para construir un intervalo de confianza para la diferencia de medias, se debe conocer, en primer lugar, si las varianzas son iguales o no. Para ello, podemos construir un intervalo de confianza sobre el cociente de varianzas y comprobar si el valor 1 pertenece al intervalo (lo que implicaría la posibilidad de igualdad de varianzas). Este intervalo será: Iσ 2 /σ 2 = x

y



Sx2 Sx2 1 1 ⋅ ; ⋅ 2 2 Sy Fnx − 1,ny − 1;1 − α / 2 Sy Fnx − 1,ny − 1; α / 2



siendo: Fnx − 1,ny − 1;1 − α / 2 = © Ediciones Pirámide

1 Fny − 1,nx − 1; α / 2 53

Ejercicios de inferencia estadística y muestreo y Fnx − 1,ny − 1; α / 2 el cuantil de orden a/2 en una distribución de Ᏺ de Snedecor con nx – 1 = 15, ny – 1 = 25 grados de libertad. Gráficamente:

Ᏺ15,25

/2

/2

F15,25;

F15,25; 1 –

/2

/2

es decir: P(Ᏺ 15,25  F15,25;1 − α / 2 ) = 1 − α / 2 = 1 −

0,05 = 0,975 2

Buscando en la tabla 11, con n1 = 15 y n2 = 25, obtenemos: F15,25;1 − α / 2 = 2, 41 Por otra parte: P(Ᏺ 15,25 < F15,25; α / 2 ) = α / 2 = 0,025 0,025 = P(Ᏺ 15,25 < F15,25; α / 2 ) = P =P

冢F

1

15,25; α / 2

< Ᏺ 25,15

冢F

1

15,25; α / 2


4,

se pide: a) b) c) d) e)

¿Es una función de probabilidad? Calcule y represente la función de distribución en función de q. Obtenga la esperanza de X y su varianza. ¿Cuál es la probabilidad P(0,5  X < 3) en función de q? Dada una muestra aleatoria simple de tamaño 20, se obtienen los siguientes resultados: X

Observados

0 1 2 3

8 5 3 4

Estime q por el método de los momentos y por el método de máxima verosimilitud.

Solución

56

La distribución de probabilidad de la variable X es: X=x

0

1

2

3

P(x) = P(X = x)

1 q

5 2q

q–4 q

1 2q © Ediciones Pirámide

Distribuciones en el muestreo. Estimación a) Para comprobar que se trata de una distribución de probabilidad, debemos demostrar que: i)

P( x )  0, ∀ x

ii )

∑ P( x ) = 1 x

En este caso, como q > 4, entonces, en particular también q > 0 y, por tanto, se tiene que:

P( X = 0) =

1 >0 θ

P( X = 1) =

5 >0 2θ

P( X = 2) =

θ−4 > 0, θ

P( X = 3) =

1 >0 2θ

pues θ > 4 ⇒ θ − 4 > 0

con lo cual, queda probado i). Veamos que la suma de las probabilidades es igual a la unidad: 1

5

∑ P( x ) = P( X = 0) + P( X = 1) + P( X = 2) + P( X = 3) = θ + 2θ + x

=

θ−4 1 + = 2θ θ

6 θ − 3 3+θ − 3 θ + = = =1 2θ θ θ θ

Por tanto, se trata de una función de probabilidad. b) Por definición, la función de distribución en un valor x representa la probabilidad acumulada hasta ese punto: F( x ) = P( X  x ) © Ediciones Pirámide

57

Ejercicios de inferencia estadística y muestreo Entonces: ⎧0 ⎪ ⎪1 ⎪θ ⎪ ⎪⎪ 1 + 5 = 7 F( x ) = P( X  x ) = ⎨θ 2θ 2θ ⎪ ⎪ 7 + θ − 4 = 2θ − 1 ⎪ 2θ θ 2θ ⎪ ⎪ 2θ − 1 + 1 = 2θ = 1 ⎪⎩ 2θ 2θ 2θ

si x < 0 si 0  x < 1 si 1  x < 2 si 2  x < 3 si x  3

cuya representación gráfica es: F(x) F(x)

1 (2 – 1) ——— 2 7 —– 2 1 ––

0

1

2

3

x

c) El valor esperado o esperanza de una variable aleatoria discreta se define como: E[ X ] =

∑ x ⋅ P( X = x ) x

58

© Ediciones Pirámide

Distribuciones en el muestreo. Estimación Por tanto, en nuestro caso: 3

E[ X ] =

1

∑ x ⋅ P( X = x ) = 0 ⋅ θ

+ 1⋅

x=0

=

5 1 θ−4 + 2⋅ + 3⋅ = 2θ 2θ θ

0 + 5 + 4θ − 16 + 3 4θ − 8 2θ − 4 = = 2θ 2θ θ

Para calcular la varianza de X, utilizaremos que: Var [ X ] = E[ X 2 ] − [ E[ X ]]2 donde: 3

E[ X 2 ] =

1

5

∑ x 2 ⋅ P( X = x ) = 0 2 ⋅ θ + 12 ⋅ 2θ + 2 2 ⋅

x=0

=

1 θ−4 + 32 ⋅ = 2θ θ

5 8θ − 32 9 8θ − 18 4θ − 9 + + = = 2θ 2θ 2θ 2θ θ

Así: Var [ X ] = =



4θ − 9 2θ − 4 − θ θ



2

=

4θ − 9 4θ 2 + 16 − 16θ − = θ θ2

4θ 2 − 9θ − 4θ 2 − 16 + 16θ 7θ − 16 = θ2 θ2

que toma un valor positivo, pues q > 4 y, por tanto: 7q – 16 > 0

d)

P(0,5  X < 3) = P( X = 1) + P( X = 2) = =

© Ediciones Pirámide

5 θ − 4 5 + 2θ − 8 + = = 2θ 2θ θ

2θ − 3 3 = 1− 2θ 2θ 59

Ejercicios de inferencia estadística y muestreo e) Para emplear el método de los momentos, igualamos los momentos poblacionales a los muestrales. Por tanto:

α1 = a1 y en nuestro caso: 2θ − 4 ⎫ θ ⎪⎪ n ⎬ 1 a1 = ∑ Xi = X ⎪ n i =1 ⎪⎭

α1 = E[ X ] =

Con lo cual: X =

2θ − 4 θ

θX = 2θ − 4 4 = θ (2 − X )

θˆ =

4 2−X

Ahora bien, como: x=

1 0 ⋅ 8 + 1 ⋅ 5 + 2 ⋅ 3 + 3 ⋅ 4 23 xi ni = = ∑ n xi 20 20

entonces:

θˆ =

4 23 2− 20

=

4 ⋅ 20 80 = = 4,706 40 − 23 17

Para estimar el parámetro q por el método de máxima verosimilitud, obtenemos, en primer lugar, la función de verosimilitud asociada a esta muestra: 60

© Ediciones Pirámide

Distribuciones en el muestreo. Estimación 20

L( x1 ,..., x20 ; θ ) = P( x1 ,..., x20 ; θ ) = ∏ P( xi ; θ ) = i =1

= ( P( X = 0))8 ( P( X = 1))5 ( P( X = 2))3 ( P( X = 3)) 4 = =

冢 冣冢 冣冢 1 θ

8

5 2θ

5

θ−4 θ

冣冢 冣 3

1 2θ

4

=

3.125 ⋅ (θ − 4)3 515 ⋅ θ 20

Debemos hallar el valor que hace máxima esta función o, lo que es equivalente, el valor que maximiza su logaritmo neperiano: ⎡ 3.125 ⎤ ln L( x1 ,..., x20 ; θ ) = ln ⎢ + 3 ln (θ − 4) − 20 ln θ ⎣ 512 ⎥⎦ 3 20 ∂ ln L( x1 ,..., x20 ; θ ) =0+ − (θ − 4) θ ∂θ 3 20 ∂ ln L( x1 ,..., x20 ; θ ) =0 ⇒ = (θ − 4) θ ∂θ 3θ = 20θ − 80 80 = 17θ 80 θˆ = = 4,706 17 Un experimento realizado en un laboratorio refleja que, al inyectar determinada sustancia a un tipo de células, el tiempo de vida de éstas (en horas) se distribuye normalmente con varianza 100. Halle el número de células necesario que deben incluirse en una muestra aleatoria simple para que se verifique que: Ejercicio 1.22

P( μ − 5 < X < μ + 5) = 0,803 —

siendo X la media de la muestra de los tiempos de vida de las células.

Solución

Sea X la variable aleatoria que representa el tiempo de vida de una de estas células tras inyectarles dicha sustancia.

Como: X © Ediciones Pirámide

~ N ( μ, σ

= 10) 61

Ejercicios de inferencia estadística y muestreo entonces:

X

~ N 冢 μ,

冣 冢

σ 10 ≡ N μ, n n



y, por tanto: Z=

X−μ 10 / n

~ N (0, 1)

Así, tendremos que: 0,803 = P( μ − 5 < X < μ + 5) = P

冢 μ10− /5 −nμ < 10X /− μn < μ10+ /5 −nμ 冣 =

= P( − 0,5 n < Z < 0,5 n ) = P( Z < 0,5 n ) − P( Z  − 0,5 n ) = = P( Z < 0,5 n ) − P( Z  0,5 n ) = P( Z < 0,5 n ) − 1 + P( Z < 0,5 n ) = = 2 P( Z < 0,5 n ) − 1 Por tanto, como se trata de una variable continua: P( Z < 0,5 n ) = P( Z  0,5 n ) = 0,9015 y, utilizando la tabla correspondiente a la función de distribución de una N(0, 1), tenemos: P( Z  1,29) = 0,9015 Así, igualando las expresiones del percentil: 0,5 n = 1,29 Con lo cual: n= 62

冢 冣 = 6,6564 ⯝ 7 1,29 0,5

2

© Ediciones Pirámide

Distribuciones en el muestreo. Estimación Supongamos una variable aleatoria X con distribución normal de media tres y varianza 100. Si se pretende tomar una muestra aleatoria simple de tamaño 25, (X1, ..., X25), calcule: Ejercicio 1.23

P(0 < X < 6; 65,25 < S 2 < 151,75) —

Por el teorema de Fisher, se sabe que X y S2 son variables aleatorias independientes y, por tanto, la probabilidad conjunta pedida será el producto de las probabilidades marginales: Solución

P(0 < X < 6; 65,25 < S 2 < 151,75) = P(0 < X < 6) ⋅ P(65,25 < S 2 < 151,75) Como X ~ N(3, 10), entonces:

X

~ N 冢3;



10 ≡ N (3, 2) 25

y así: Z=

X −3 2

~ N (0, 1)

Por tanto, tipificando en el primer factor del producto de probabilidades, quedaría: P(0 < X < 6) = P

冢 0 2− 3 < Z < 6 2− 3冣 = P(− 1,5 < Z < 1,5) =

= P( Z < 1,5) − P( Z  − 1,5) = = 0,9332 − 0,0668 = 0,8664 Para el segundo factor, se puede utilizar un resultado del teorema de Fisher, que indica que: (n − 1)S 2 24 S 2 = σ2 100 © Ediciones Pirámide

~ χ n2 − 1 ≡ χ 242 63

Ejercicios de inferencia estadística y muestreo y así: P(65,25 < S 2 < 151,75) = P

25 ⋅ 24 Y ) = P( X − Y > 0 ) = P Z >



0 − ( − 1) = P( Z > 0,85) = 1 − P( Z  0,85) = 117 ,

= 1 − 0,8023 = 0,1977

En una ciudad existen dos discotecas de gran capacidad que son muy populares. Se sabe que, en la situada en el centro de la ciudad, el 70 % de los clientes tienen, cuando marchan de la fiesta, un grado de alcohol en sangre mayor que el permitido por ley para conducir un vehículo. En la que está situada a las afueras de la ciudad, este porcentaje viene a ser del 60 %. Para tratar de informar y concienciar a la población, durante un fin de semana, la policía pretende llevar a cabo un simulacro de control de alcoholemia situándose en las salidas de los dos lugares. Si se decide elegir aleatoriamente a 45 personas en la discoteca del centro y 38 en la otra, calcule la probabilidad de que la proporción muestral de personas que superan el nivel de alcohol permitido por ley descienda en más de un 5 % de la zona centro a las afueras. Ejercicio 1.25

Solución

Definimos la variable aleatoria X como: ⎧1 si un cliente de la discoteca del centro presenta ⎪ X = ⎨ mayor grado de alcohol en sangre del permitido ⎪⎩0 en otro caso

© Ediciones Pirámide

65

Ejercicios de inferencia estadística y muestreo Análogamente, se define la variable Y para los clientes de la otra discoteca. Por tanto:

~ B(1; px = 0,70) Y ~ B(1; py = 0,60)

X

y suponemos independencia entre estas variables. Denotando las proporciones muestrales correspondientes como pˆ x y pˆ y, debemos calcular: P( pˆ x > pˆ y + 0,05) = P( pˆ x − pˆ y > 0,05) Puesto que la distribución de la diferencia de proporciones muestrales es: pˆ x − pˆ y

~ N 冢 px − py ;

px q x py q y + nx ny



si hacemos px = 0,70, qx = 0,30, nx = 45, py = 0,60, qy = 0,40 y ny = 38, se tendrá: pˆ x − pˆ y Z=

pˆ x − pˆ y − 0,1 0,105

~

N (0,1; 0,105)

~

N (0, 1)

Así pues, tipificando en la probabilidad anterior:



P( pˆ x − pˆ y > 0,05) = P Z >



0,05 − 0, 1 = P( Z > − 0,48) = 1 − P( Z  − 0,48) = 0,105

= 1 − 0,6844 = 0,3156

66

© Ediciones Pirámide

2

Contraste de hipótesis paramétrico

Contraste de hipótesis paramétrico

Con anterioridad al lanzamiento de un producto, una empresa realiza un estudio de mercado para recoger información sobre el precio que los compradores estarían dispuestos a pagar. Se supone que este precio sigue una distribución normal con desviación típica 10 euros. Los técnicos del departamento de marketing emiten un informe en el que se afirma que el precio medio que el público consideraría como adecuado sería de 30 euros, y para contrastar esta hipótesis frente a la de que el precio adecuado sería de 40 euros, se dedice seleccionar al azar una muestra de 25 personas y adoptar la siguiente regla de decisión: si la media muestral es inferior o igual a 35, se considerará que lo adecuado es fijar un precio de 30 euros. Obtenga: Ejercicio 2.1

a) b) c) d) e)

La probabilidad de cometer error de tipo I. La probabilidad de cometer error de tipo II. La representación gráfica de ambos tipos de errores. La potencia del contraste y su representación gráfica. La región de rechazo, la de aceptación y la probabilidad de error de tipo II para un nivel de significación del 1 %.

Llamemos X a la variable aleatoria «Precio que una persona consideraría adecuado para el producto en cuestión». Se supone que la distribución seguida por esta variable es: Solución

X ~ N(m, 10) Las hipótesis que desea contrastar el departamento de marketing son las siguientes: H0 : μ = 30 H1: μ = 40 © Ediciones Pirámide

67

Ejercicios de inferencia estadística y muestreo Para ello, se decide seleccionar una muestra aleatoria de 25 personas, en la que se – calculará el valor de X, y se adoptará la correspondiente decisión según la regla fijada, es decir: Si X  35, acepta que μ = 30 Si X > 35, acepta que μ = 40 a) Para obtener la probabilidad de cometer error de tipo I, se debe conocer la – distribución del estadístico X. Sabemos que en poblaciones normales, X ~ N(m; 10), se tiene que: X

~ N 冢 μ,

冣 冢



σ 10 ≡ N μ, ≡ N ( μ, 2) n 25

Con esta información, y aplicando el concepto de error de tipo I, se obtiene:

α ( μ ) = P[error de tipo I] = P[ rechazar H0 / H0 cierta ] = P[ X > 35 /μ = 30] = = P[ X > 35 / X



~ N (30, 2)] = P ⎢ X − 30 > 35 − 30 ⎣

2

2

X



~ N (30, 2)⎥ = ⎦

= P[ Z > 2,5] = 1 − P[ Z  2,5] = 1 − 0,9938 = 0,0062 – pues si X ~ N(30, 2), entonces: Z=

X − 30 2

~ N (0, 1)

b) De forma análoga, obtenemos la probabilidad de cometer error de tipo II:

β ( μ ) = P[error de tipo II] = P[aceptar H0 / H0 falsa ] = P[aceptar H0 / H1 cierta ] = = P[ X  35 /μ = 40] = P[ X  35 / X ⎡ X − 40 35 − 40  = P⎢ X 2 ⎣ 2

~ N (40, 2)] = ⎤

~ N (40, 2)⎥ = P[ Z  − 2,5] = P[ Z  2,5] = ⎦

= 1 − P[ Z < 2,5] = 1 − 0,9938 = 0,0062 68

© Ediciones Pirámide

Contraste de hipótesis paramétrico c)

Representamos gráficamente las probabilidades de estos errores: N(40, 2)

N(30, 2)

= 0,0062

= 30

= 0,0062

35

Se acepta H0

= 40 Se rechaza H0

d) La función de potencia se define como la probabilidad de rechazar la hipótesis nula con los diferentes puntos del espacio paramétrico, en este caso W = {30, 40}; así: ⎧ P[ X > 35 /μ = 30] Pc ( μ ) = P[ rechazar H0 /μ ] = P[ X > 35 /μ ] = ⎨ ⎩ P[ X > 35 /μ = 40] Por tanto: si μ = 30 ⎧0,0062 si μ = 30 ⎧α Pc ( μ ) = ⎨ =⎨ ⎩1 − β si μ = 40 ⎩0,9938 si μ = 40 Su representación gráfica será: Pc( ) 1 0,9938

1– 0,0062

α

30

e)

40

μ

Para encontrar la región de rechazo y la de aceptación del contraste anterior: H0 : μ = 30 H1: μ = 40

© Ediciones Pirámide

69

Ejercicios de inferencia estadística y muestreo con un nivel de significación a = 0,01, debemos encontrar un valor, x–c, tal que: Si X  xc , aceptamos μ = 30 (aceptamos H0 ) Si X > xc , aceptamos μ = 40 (rechazamos H0 ) y, además, se verifica que, como H0 y H1 son simples: 0,01 = α =

máx α ( μ ) = α (30) = P[ rechazar H0 /μ = 30] = P[ X > xc /μ = 30]

μ ∈Ω 0 = {30}

– Si m = 30, entonces la distribución de X será: X

~ N (30, 2)

y, por tanto: X − 30 2

Z=

~ N (0, 1)

Entonces: ⎡ X − 30 xc − 30 ⎤ x − 30 ⎤ ⎡ 0,01 = P[ X > xc /μ = 30] = P ⎢ > μ = 30 ⎥ = P ⎢ Z > c = 2 2 ⎥⎦ ⎣ ⎣ 2 ⎦ x − 30 ⎤ ⎡ P⎢Z  c = 0,99 2 ⎥⎦ ⎣ y, buscando en la tabla 7, obtenemos: xc − 30 = 2,33 2 xc = 30 + 2 ⋅ 2,33 = 34,66 Con lo cual, la región de rechazo y la de aceptación son, respectivamente: C = {( X1 ,..., X25 ) ∈ ⺢ 25 / X > 34,66} C = {( X1 ,..., X25 ) ∈ ⺢ 25 / X  34,66} 70

© Ediciones Pirámide

Contraste de hipótesis paramétrico Para calcular la probabilidad del error del tipo II utilizamos su definición: P[error de tipo II] = P[aceptar H0 / H0 falsa ] = P[aceptar H0 /μ = 40] = β ( 40) = ⎡ X − 40 34,66 − 40 ⎤  = P[ X  34,66 /μ = 40] = P ⎢ μ = 40 ⎥ = 2 ⎣ 2 ⎦ = P[ Z  − 2,67] = 0,0038 pues si m = 40, entonces: Z=

X − 40 2

~ N (0, 1)

La representación gráfica conjunta de los dos tipos de errores sería ahora: N(40, 2)

N(30, 2)

= 0,0038

= 0,01 x–

= 30 Aceptamos H0

34,66

= 40 Rechazamos H0

Dos revistas especializadas en temas de derecho laboral publican cada una un estudio sobre el porcentaje de juicios ganados de los despachos de abogados laboralistas más importantes del país. En uno de los estudios se recoge que la firma de abogados Lader gana el 40 % de los juicios, mientras que en la otra revista aparece un porcentaje del 50 %. Un sindicato se plantea contratar los servicios de esta firma de abogados y, para tomar la decisión, desea conocer qué porcentaje es correcto. Con este fin se selecciona una muestra aleatoria de los juicios defendidos por este despacho y se obtiene el porcentaje de juicios ganados. Si este porcentaje es inferior al 100k %, el sindicato aceptará que el verdadero porcentaje es del 40 %; en caso contrario, aceptará que es del 50 %. Obtenga el valor de la constante k y el número de juicios, de entre todos los defendidos por Lader, que será necesario seleccionar para que los tamaños de los errores de tipo I y tipo II sean del 5 % y del 15 %, respectivamente. Ejercicio 2.2

© Ediciones Pirámide

71

Ejercicios de inferencia estadística y muestreo Sea una variable aleatoria que toma el valor 1 cuando un juicio defendido por Lader ha sido ganado, y el valor 0 en caso contrario. Por tanto, se trata de una variable con distribución B(1, p). Las hipótesis que se desea contrastar son: Solución

H0 : p = 0, 40 H1: p = 0,50 Para decidir entre ellas, se elige una muestra aleatoria simple X1, ..., Xn de esta población y se toma la siguiente regla de decisión: Si pˆ =

1 n ∑ Xi < k ⇒ se acepta H0 : p = 0,40 n i =1

Si pˆ =

1 n ∑ Xi  k ⇒ se rechaza H0 y se acepta H1: p = 0,50 n i =1

El tamaño muestral necesario, n, dependerá del tamaño de los errores de tipo I y tipo II que se esté dispuesto a tolerar. Así, utilizando la información del enunciado: 0,05 = α = máx α ( p) = máx P( rechazar H0 / H0 cierta) = máx P( pˆ  k / H0 cierta) p ∈Ω 0

p ∈Ω 0

p ∈Ω 0

0,15 = β = máx β ( p) = máx P(aceptar H0 / H0 falsa) = máx P( pˆ < k / H0 falsa) p ∈Ω1

p ∈Ω1

p ∈Ω1

teniendo en cuenta que tanto H0 como H1 son simples (W 0 = {0,40}; W1 = {0,50}) y que la distribución de la proporción muestral se puede aproximar por la distribución:



pq n

N p,



se tiene que:





0,05 = α = P( pˆ  k / p = 0, 40) = P pˆ  k / pˆ ~ N 0, 40;



=P Z







冣冣 =

k − 0, 40 = P( Z  zα ) 0,24 / n



0,15 = β = P( pˆ < k / p = 0,50) = P pˆ < k / pˆ ~ N 0,50; =P Z
0} Ω 0 = {λ0 = 55} Ω1 = {λ ∈ ⺢ + / λ ≠ 55} = ⺢ + − {55} entonces: n

∑ xi

λ0 r r r L*( e − nλ 0 0 x ; λ ) = máx L( x ; λ ) = L( x ; λ 0 ) = n λ ∈Ω 0 ∏ ( xi !) i =1

i =1

y r r r L*( x ; λ ) = máx L( x ; λ ) = L( x ; λˆ ) λ ∈Ω

donde lˆ es el estimador de máxima verosimilitud del parámetro l: r ln L( x ; λ ) =

冢∑ xi 冣 ln λ − nλ − ln 冤∏ ( xi!)冥 n

n

i =1

i =1

n

r ∂ ln L( x ; λ ) = ∂λ

∑ xi

i =1

−n−0

λ

n

∑ xi

i =1

λ r ∂ 2 ln L( x ; λ ) ∂λ2

−n= 0 ⇒ λ =



λ=x

=−

1 λ2

1 n ∑ xi = x n i =1

冢 ∑ xi 冣 − 0 < 0 n

i =1

pues xi  0, ∀ i = 1, ..., n, ya que X ~ ᏼ(l). © Ediciones Pirámide

75

Ejercicios de inferencia estadística y muestreo Por tanto, en una distribución de Poisson, el estimador de máxima verosimilitud de l es:

λˆ = X y así: n

X r r r L*( x ; λ ) = máx L( x ; λ ) = L( x ; λˆ ) = n λ ∈Ω

∑ Xi

i =1

e − nX

∏ ( Xi !) i =1

r Sustituyendo L*0 y L* en la expresión del estadístico l(x), tenemos: n

r L*( x ; λ ) r λ(x) = 0 r = L*( x ; λ )

∑ xi

λ0

i =1

e − nλ0

n

∏ ( Xi !) i =1

n

∑ Xi

X i = 1 e − nX

n

n

=

∏ ( Xi !)

冢 λX 冣 0

∑ Xi

i =1

e n( X − λ0 )

i =1

Con lo cual, la región crítica de este contraste será: n



r C = {( X1 ,..., Xn ) ∈ ⺢ n / λ ( x ) < c} = ( X1 ,..., Xn ) ∈ ⺢ n

冢 λX 冣 0

∑ Xi

i =1



e n( X − λ0 ) < c

con k la constante, tal que: r α = P( rechazar H0 / H0 cierta) = P(λ ( x ) < c /λ = λ0 ) Teniendo en cuenta que, al ser n = 150, podemos utilizar la aproximación siguiente: r − 2 ln λ ( x )

~ H0 n→∞

χ k2 ≡ χ12

en la que k es el número de parámetros desconocidos (el parámetro l) menos el número de parámetros desconocidos bajo H0 (0) y, por tanto, en el caso que nos ocupa, k = 1 – 0 = 1. 76

© Ediciones Pirámide

Contraste de hipótesis paramétrico Utilizando la aproximación anterior: r r α = P(λ ( x ) < c /λ = λ0 ) = P( − 2 ln λ ( x ) > − 2 ln c /λ = λ0 ) ≈ ≈ P( χ12 > − 2 ln c /λ = λ0 ) Gráficamente:

χ21

1–

– 2 ln c

de donde: − 2 ln c = χ12;1 − α con c21; 1 – a el cuantil de orden 1 – a en una c2 con 1 grado de libertad, que podría obtenerse de la tabla 9, cuando a sea una cantidad concreta. Despejando c en la igualdad anterior: c=

1 − χ12− α e 2

y, por tanto, la región crítica quedará como: r r C = {( X1 ,..., Xn ) ∈ ⺢ n / λ ( x ) < c} = {( X1 ,..., Xn ) ∈ ⺢ n / − 2 ln λ ( x ) > − 2 ln c} = r = {( X1 ,..., Xn ) ∈ ⺢ n / − 2 ln λ ( x ) > χ12;1 − α } = n



= ( X1 ,..., Xn ) ∈ ⺢ n / − 2 ln © Ediciones Pirámide

冤冢 λX 冣 0

∑ Xi

i =1



e n( X − λ0 ) > χ12;1 − α

冧 77

Ejercicios de inferencia estadística y muestreo Sustituyendo l0 por 55 y n por 150, tendremos: 150



C = ( X1 ,..., X150 ) ∈ ⺢

150

/ − 2 ln

冤冢 冣 55 X

∑ Xi

i =1



e150 ( X − 55) > χ12;1 − α



y la regla de decisión será, por tanto: 150

r «Si − 2 ln λ ( x ) = − 2 ln

冤冢 冣 55 X

∑ Xi

i =1



e150 ( X − 55) > χ12;1 − α , entonces se rechaza H0 »

b) La información muestral de las 150 horas: 150

∑ xi = 6.000 aterrizajes

i =1

con lo cual:

x=

1 150 6.000 xi = = 40 ∑ 150 i = 1 150

Así pues: r − 2 ln λ ( x ) = − 2 ln



冤冢 4055 冣

6.000

= − 2 6.000 ln



e150 ( 40 − 55) =

冢 4055 冣 + 150(40 − 55)冥 = 678,5552

que será el valor experimental. La región crítica, para a = 0,10, se obtendrá utilizando la tabla 9, y se representará como: 78

© Ediciones Pirámide

Contraste de hipótesis paramétrico

χ21

0,90

= 0,10

– 2 ln c = χ21; 0,90 = 2,70

Por tanto, al ser: r − 2 ln λ ( x ) = 678,5552 > 2,70 = χ12; 0,90 entonces se rechaza H0, es decir, al 10 % de significación los datos muestrales presentan evidencia suficiente para rechazar H0, por lo que hay motivos para considerar incorrecta la afirmación del informe de la torre de control. Se ha estudiado el beneficio anual (pérdida en el caso de valores negativos) de las empresas de una determinada localidad, y se ha caracterizado por una distribución normal con dos millones de euros de desviación típica. Ejercicio 2.4

a) Se elige una muestra aleatoria de 25 empresas, y la media muestral observada es de 0,5 millones. Determine el intervalo de confianza del 90 % y del 95 % para el beneficio medio anual de las empresas de la localidad. b) A la vista de los resultados anteriores, ¿sería adecuado pensar que las empresas de esta localidad tienen pérdidas anualmente? c) Si se desea obtener un intervalo de confianza al 90 % para el beneficio medio con una amplitud de dos millones de euros, ¿qué tamaño deberá tener la muestra seleccionada? Sea X = «Beneficio anual, en millones de euros, de las empresas de esta localidad». Esta variable aleatoria se distribuye según una normal con desviación típica dos millones de euros, es decir: Solución

X © Ediciones Pirámide

~ N ( μ; 2) 79

Ejercicios de inferencia estadística y muestreo a) Se eligió una muestra aleatoria de tamaño 25, x1, ..., x25, y la media muestral fue x– = 0,5. Para construir el intervalo de confianza de esta situación, sustituimos la información muestral en:



Iμ = X − zα / 2

σ σ ; X + zα / 2 n n



Para niveles de confianza del 90 % y 95 %, los valores za/2 correspondientes serán tales que: Al 90 % de confianza 1 − α = 0,90 ⇒ α / 2 = 0,05 ⇒ P( Z  z0,05 ) = 0,95 ⇒ z0,05 = 1,645 Al 95 % de confianza 1 − α = 0,95 ⇒ α / 2 = 0,025 ⇒ P( Z  z0,025 ) = 0,975 ⇒ z0,025 = 1,96 Por tanto, el intervalo de confianza del 90 % es:



Iμ = 0,5 − 1,645



2 2 ; 0,5 + 1,645 = [ − 0,158; 1158 , ] 25 25

y el intervalo de confianza del 95 % será:



Iμ = 0,5 − 1,96



2 2 ; 0,5 + 1,96 = [ − 0,284; 1,284] 25 25

Se observa que el intervalo de confianza tiene mayor amplitud cuanto mayor es el nivel de confianza exigido. b) No se podría descartar esta posibilidad, ya que ambos intervalos de confianza contienen valores menores o iguales a cero. Otra posibilidad para responder a esta pregunta sería contrastar si la media de la variable X es o no mayor que cero utilizando niveles de significación del 10 % y del 5 %; por tanto, planteamos las hipótesis del contraste como: H0 : μ  0 = μ 0 H1: μ > 0 80

© Ediciones Pirámide

Contraste de hipótesis paramétrico El estadístico de prueba a utilizar será: Z=

X − μ0 σ/ n

~ N (0, 1)

H0

cuyo valor experimental se obtiene a partir de la información muestral: zexp =

x −0 0,5 − 0 = = 1,25 σ / n 2 / 25

La región crítica o de rechazo de la hipótesis nula se representa gráficamente como: N(0,1)

1–

z

Para un nivel de significación del 5 %, el valor crítico será tal que: P( Z  zα ) = 1 − α = 1 − 0,05 = 0,95 ⇒ zα = 1,645 Por tanto, la región crítica quedará como: N(0,1)

1–

= 0,95

= 0,05

z = 1,645 © Ediciones Pirámide

81

Ejercicios de inferencia estadística y muestreo Para un nivel de significación del 10 %, el valor crítico verificará: P( Z  zα ) = 1 − α = 1 − 0,1 = 0,90 ⇒ zα = 1,28 y la región crítica será, por tanto: N(0,1)

1–

= 0,9

= 0,1

z = 1,28

Como en ambos casos: zexp = 1,25 < 1,645 = zα zexp = 1,25 < 1,28 = zα entonces no se rechaza la hipótesis nula ni con un 5 % de significación ni con un 10 % de significación. Por tanto, no se puede descartar que las empresas de esta localidad tienen pérdidas anualmente. c)

El intervalo de confianza:



Iμ = X − zα / 2

σ σ ; X + zα / 2 n n



tiene por amplitud: L = X + zα / 2





σ σ σ − X − zα / 2 = 2 ⋅ zα / 2 n n n

Por tanto, el tamaño muestral necesario para conseguir una amplitud determinada, L, con un nivel de confianza (1 – a) %, será: n= 82

4 ⋅ zα2 / 2 ⋅ σ 2 L2 © Ediciones Pirámide

Contraste de hipótesis paramétrico Si se quiere que la amplitud sea de dos millones de euros con una confianza del 90 %, entonces: L=2 z0,05 = 1, 645 y, por tanto, el tamaño muestral necesario será: n=

4 ⋅ 1,6452 ⋅ 2 2 = 10,8241 ≈ 11 empresas 22

El importe de la factura eléctrica mensual de un determinado tipo de empresas se distribuye normalmente con desviación típica de 21.200 euros. El Ministerio de Energía sostiene que el gasto medio mensual en electricidad de estas empresas no es inferior a 100.000 euros y que sería conveniente elaborar un plan de ahorro energético para las mismas. Seleccionada una muestra aleatoria de 100 empresas de este tipo, se obtiene un gasto medio mensual en electricidad de 125.600 euros. Ejercicio 2.5

a) ¿Es admisible, con un 2 % de significación, la hipótesis del Ministerio de Energía? b) ¿Cuántas empresas sería necesario seleccionar para que el test anterior detectara un gasto medio mensual en electricidad de 75.000 euros con una probabilidad de 0,995?

Se define X = «Gasto mensual de una empresa en electricidad». Esta variable se distribuye según una normal con desviación típica conocida e igual a 21.200 euros: Solución

X

~ N ( μ, 21.200)

a) El Ministerio de Energía sostiene que m no es inferior a 100.000 euros, es decir, que m  100.000. Para contrastar esta afirmación, planteamos las hipótesis del contraste como: H0 : μ  100.000 H1: μ < 100.000 © Ediciones Pirámide

83

Ejercicios de inferencia estadística y muestreo utilizando como estadístico de prueba: X − μ0 σ/ n

Z=

~ N (0, 1)

H0

La región crítica unilateral queda representada de la siguiente forma: N(0,1)

= 0,02

0,98

– z = – 2,05

donde – za verifica que: P( Z < − zα ) = α = 0,02 Por tanto, utilizando la simetría de una N(0, 1), tenemos que: P( Z > zα ) = α = 0,02 ⇒ P( Z  zα ) = 1 − α = 0,98 con lo cual, de la tabla 7: zα = 2,05 − zα = − 2,05 Calculamos el valor experimental del estadístico: zexp =

x − μ 0 125.600 − 100.000 = = 12,0755 σ/ n 21.200 / 100

Entonces no se rechaza la hipótesis nula con una significación del 2 %, pues zexp > – za y, por tanto, podemos admitir la hipótesis del Ministerio de Energía. 84

© Ediciones Pirámide

Contraste de hipótesis paramétrico b) Debemos calcular el tamaño muestral n para que: P(aceptar H1 / μ1 = 75.000) = 0,995 es decir: 0,995 = P( rechazar H0 / μ1 = 75.000) = P

冢 Xσ /− μn

< − 2,05 μ1 = 75.000

0



Como X ~ N(m, 21.200), entonces la media muestral seguirá una distribución, también normal, con parámetros: X

~ N 冢 μ, 21.200 冣 n

En particular, si m = m1 = 75.000, entonces: X

~ N 冢75.000; 21.200 冣 n

y tipificando: Z=

X − 75.000 21.200 / n

~ N (0, 1)

Por tanto:



0,995 = P X < μ 0 − 2,05 ⋅

σ n



= P X < 100.000 − 2,05 ⋅



=P Z
zα ) = α = 0,02 ⇒ zα = 2,05 P( Z > zβ ) = β = 1 − 0,995 = 0,005 ⇒ zβ = 2,575

Cuando las ventas medias, por establecimiento autorizado, de una marca de relojes caen por debajo de los 170.000 euros anuales, se considera razón suficiente para lanzar una campaña publicitaria que active las ventas de esta marca. Para conocer la evolución de las ventas, el departamento de marketing realiza una encuesta a 51 establecimientos autorizados, seleccionados aleatoriamente, que facilitan la cifra de ventas del último año en relojes de esta marca. A partir de estas cifras se obtienen los siguientes cálculos: Ejercicio 2.6

51

∑ xi = 8.640 miles de euros

i =1

86

51

;

∑ xi2 = 1.517.600 (miles de euros)2

i =1

© Ediciones Pirámide

Contraste de hipótesis paramétrico Suponiendo que las ventas anuales por establecimiento se distribuyen normalmente: a) Con un nivel de significación del 5 % y en vista de la situación reflejada en los datos, ¿se considerará oportuno lanzar una nueva campaña publicitaria? b) ¿Podría afirmarse que la desviación típica de las ventas por establecimiento del último año es igual a 20.000 euros?

Definimos la variable aleatoria X como aquella que representa las ventas anuales, en miles de euros, de un establecimiento en relojes de la marca considerada. Esa variable se supone normalmente distribuida con media y varianza desconocidas: Solución

X

~ N ( μ, σ )

La campaña publicitaria se lanzará si m < 170, luego las hipótesis a contrastar son: H0 : μ  170 = μ 0 H1: μ < 170 Utilizaremos el siguiente estadístico de prueba: t=

X − μ0 S/ n

~

t H0 n − 1

≡ t51 − 1 ≡ t50

a) Para un nivel de significación del 5 %, a = 0,05, la región crítica del contraste vendrá determinada por aquellas muestras tales que texp < – t a , siendo – t a el cuantil que en una t de Student con 50 grados de libertad deja una probabilidad a = 0,05 a su izquierda y que puede buscarse en la tabla 10. t50

= 0,05

1–

= 0,95

– t = – 1,676 © Ediciones Pirámide

87

Ejercicios de inferencia estadística y muestreo El valor experimental se calcula como:

texp =

x − μ 0 169, 4118 − 170 = = − 0,1280 32,8275 / 51 s/ n

pues:

x=

1 n 8.640 xi = = 169, 4118 miles de euros ∑ 51 n i =1

s2 =

1 n −1

= s=

冤∑ xi2 − n 冢∑ xi 冣 冥 = n

1

i =1

n

2

i =1





1 1 1.517.600 − (8.640)2 = 1.077,6471 (miles de euros)2 51 − 1 51 s 2 = 32,8275 miles de euros

Vemos que el valor experimental del estadístico es mayor que el valor crítico (texp = – 0,128 > – t a = – 1,676), por tanto, no se rechaza la hipótesis nula (m  170), con lo cual no se considerará oportuno o necesario lanzar una nueva campaña publicitaria. b) Para contrastar si la desviación típica de las ventas por establecimiento en el último año es de 20.000 euros (s = 20), planteamos las hipótesis: H0 : σ 2 = 20 2 = 400 = σ 02 H1: σ 2 ≠ 400 Para resolver este contraste utilizaremos como estadístico de prueba:

χ2 = 88

(n − 1)S 2 σ 02

~ χ n2 − 1 ≡ χ 512 − 1 ≡ χ 502

H0

© Ediciones Pirámide

Contraste de hipótesis paramétrico Los valores críticos y la región crítica para a = 0,05 aparecen en el siguiente gráfico:

χ250

0,95

0,025

χ2n – 1;

/2

= 32,357

/2 = 0,025

χ2n–1; 1–

/2

= 71,42

2 P( χ 50  χ n2 − 1; α / 2 ) = 0,025 ⇒ χ n2 − 1; α / 2 = 32,357 2 P( χ 50  χ n2 − 1;1 − α / 2 ) = 0,975 ⇒ χ n2 − 1;1 − α / 2 = 71, 42

Obtenemos el valor experimental sustituyendo en la expresión del estadístico del contraste: 2 = χ exp

(n − 1)s 2 (51 − 1) ⋅ 1.077,6471 = = 134,7059 400 σ 02

Según este valor calculado, la muestra es de las que se sitúa en la región crítica del contraste; entonces rechazamos la hipótesis nula (s2 = 400) y, por tanto, no admitimos una desviación típica igual a 20.000 euros.

El director de una compañía aseguradora afirma que el importe medio de las reparaciones de automóviles pagadas por la compañía a talleres colaboradores es superior a los 4.000 euros. Seleccionadas al azar 20 facturas de diferentes reparaciones, se observa que la suma de importes es 84.500 euros y su varianza muestral 1.502,5625. Por otra parte, también afirma el director que los importes de las facturas son muy similares y que su desviación típica es inferior a 100 euros, por lo que sospecha que los talleres no facturan adecuadamente en cada reparación, guiándose por Ejercicio 2.7

© Ediciones Pirámide

89

Ejercicios de inferencia estadística y muestreo un importe medio orientativo sujeto a pocos cambios. Compruebe si cada una de las afirmaciones es cierta a un nivel de significación del 1 %, suponiendo que los importes de las facturas siguen una distribución normal.

Sea X = «Importe de una factura correspondiente a una reparación efectuada por un taller colaborador». La distribución de esta variable aleatoria puede suponerse normal: Solución

X

~ N ( μ, σ )

Contrastaremos, en primer lugar, la afirmación de que el importe medio es superior a 4.000 euros. Por tanto, planteamos las hipótesis: H0 : μ  4.000 = μ 0 H1: μ > 4.000 El estadístico de prueba en este caso, como s es desconocida, será: t=

X − μ0 S/ n

~

t H0 n − 1

≡ t20 − 1 ≡ t19

cuyo valor experimental es: texp =

x − μ 0 4.225 − 4.000 = = 25,9586 s/ n 38,7629 / 20

pues:

x=

1 n 1 xi = 8.450 = 4.225 euros ∑ n i =1 20

s 2 = 15.025,625 (euros)2 s= 90

s 2 = 38,7629 euros © Ediciones Pirámide

Contraste de hipótesis paramétrico La región crítica delimitada por el valor crítico (texp > t a) es la siguiente: t19

1–

= 0,99

= 0,01

t = 2,539

donde t a se busca en la tabla 10 para una t de Student con 19 grados de libertad: P[t19  tα ] = 1 − α = 0,99 ⇒ tα = 2,539 Como texp = 25,9586 > 2,539 = t a, rechazamos H0 al 1 % de significación, luego admitimos la hipótesis del director referente a que el importe medio de las facturas de reparaciones realizadas en talleres colaboradores era superior a 4.000 euros. A continuación, comprobaremos si la desviación típica es inferior a 100 euros contrastando las siguientes hipótesis: H0 : σ 2  (100)2 = 10.000 = σ 02 H1: σ 2 < (100)2 = 10.000 El estadístico de prueba será ahora:

χ2 =

(n − 1)S 2 σ 02

~ χ n2 − 1 ≡ χ 202 − 1 ≡ χ192

H0

y su valor experimental a partir de la información muestral:

2 = χ exp

© Ediciones Pirámide

(n − 1)s 2 (20 − 1) ⋅ 1.502,5625 = = 2,8549 (100)2 σ 02 91

Ejercicios de inferencia estadística y muestreo El valor crítico que determina la región crítica se obtiene utilizando la tabla 9, teniendo en cuenta que: 2 P( χ19  χ n2 − 1; α ) = α = 0,01

por lo que: 2 χ19 ; 0 , 01 = 7,633

Gráficamente:

χ219

0,99

= 0,01

χ219; 0,01 = 7,633

Se rechaza la hipótesis nula si: 2 2 χ exp  χ19 ; 0 , 01 = 7,633

Como en este caso: 2 2 χ exp = 2,8549 < 7,633 = χ19 ; 0 , 01

entonces se rechaza H0 con esta información muestral y un nivel de significación del 1 %. Por tanto, no descartamos la afirmación del director sobre la dispersión de los importes de las reparaciones. 92

© Ediciones Pirámide

Contraste de hipótesis paramétrico Una cadena de producción de un componente electrónico debe revisarse cuando el porcentaje de productos defectuosos supera el 3 %. Según el mecanismo establecido para el control de calidad, se extrae a lo largo del día, y de forma aleatoria, una muestra de 300 unidades de las que se detectan 17 defectuosas. Utilizando una significación del 1 %, ¿debería revisarse el sistema de producción? Ejercicio 2.8

Definimos la variable aleatoria X como aquella que toma el valor 1 cuando una unidad es defectuosa y 0 cuando no lo es. Esta variable se distribuye según una B(1, p) con: Solución

p = P(X = 1) = Proporción de productos defectuosos La cadena de producción deberá revisarse si el porcentaje de productos defectuosos (100p) supera el 3 %; así, tendremos que contrastar las hipótesis: H0 : p  0,03 = p0 H1: p > 0,03 Para realizar este contraste utilizaremos como estadístico de prueba: Z=

pˆ − p0 p0 (1 − p0 ) n

~ H0 n→∞

N (0, 1)

pues el tamaño muestral, n = 300, puede considerarse suficientemente grande para que la aproximación a la distribución asintótica sea aceptable. Como el nivel de significación es del 1 %, obtendremos, en la tabla 7, el siguiente valor crítico y la correspondiente región crítica: P( Z > zα ) = α = 0,01 ⇒ zα = 2,33 N(0,1)

1–

= 0,99

= 0,01

z = 2,33

rechazando H0 si zexp > za. © Ediciones Pirámide

93

Ejercicios de inferencia estadística y muestreo Calculamos el valor experimental del estadístico sustituyendo los resultados muestrales en la expresión anterior:

pˆ =

1 n 17 xi = ∑ n i =1 300

zexp =

17 − 0,03 300 = 2,7076 0,03 ⋅ (1 − 0,03) 300

Por tanto, al ser zexp = 2,7076 > 2,33 = za, se rechaza la hipótesis nula (p  0,03) y, según los resultados de la muestra y con un nivel de significación del 1 %, debería revisarse el sistema de producción.

Los niveles de audiencia por capítulo de dos series de televisión se distribuyen normalmente con desviaciones típicas 100.000 y 210.000 espectadores, respectivamente. Un estudio de medios afirma que ambas series tienen igual nivel de audiencia. Las audiencias, en millones de espectadores, de ocho capítulos seleccionados al azar para cada una de las series fueron las siguientes: Ejercicio 2.9

Serie A

2,15

2,61

2,11

2,26

2,01

2,31

2,51

2,80

Serie B

2,24

2,53

2,35

2,22

2,21

2,22

2,21

2,01

¿Se podría admitir, con un 5 % de significación, que ambos niveles de audiencia son iguales?

Sean X = «Nivel de audiencia por capítulo, en millones de espectadores, de la serie A», e Y = «Nivel de audiencia por capítulo, en millones de espectadores, de la serie B». Estas variables siguen distribuciones normales: Solución

~ N ( μ x ; 0,1) Y ~ N ( μ y ; 0,21)

X

94

© Ediciones Pirámide

Contraste de hipótesis paramétrico Las hipótesis que deben plantearse para contrastar la igualdad de audiencias son: H0 : μ x − μ y = 0 H1: μ x − μ y ≠ 0 El estadístico de prueba que corresponde al caso de sx y sy conocidas es: Z=

X − Y − d0

σ x2 σ y2 + nx ny

~ N (0, 1)

H0

A continuación, obtenemos la región crítica del contraste, utilizando la tabla 7, para buscar los dos valores críticos. Gráficamente, la situación queda representada como: N(0,1)

/2 = 0,025

–z

/2

1–

= 0,95

= – 1,96

/2 = 0,025

z

/2

= 1,96

Con los datos muestrales, calculamos el valor experimental del estadístico: zexp =

x − y − d0

σ y2

σ x2 + nx ny

=

2,345 − 2,249 0,12 0,212 + 8 8

= 11674 ,

pues: x=

y= © Ediciones Pirámide

1 nx 1 ny

nx

1

∑ xi = 8 18,76 = 2,345

i =1 ny

1

∑ yi = 8 17,99 = 2,249

i =1

95

Ejercicios de inferencia estadística y muestreo Como zexp = 1,1674 está comprendida entre los valores críticos – 1,96 y 1,96, el valor experimental se sitúa en la región de aceptación; por tanto, puede decirse que no hay evidencia, al 5 % de significación, para rechazar la hipótesis de igualdad de medias y entonces admitimos que los niveles de audiencia son similares. Para realizar un estudio sobre los salarios mensuales pagados por una entidad financiera española a sus empleados, se selecciona aleatoriamente una muestra de hombres y otra de mujeres. De dichas muestras se obtienen los siguientes resultados a partir de los salarios expresados en euros: Ejercicio 2.10

Muestra de hombres 10

10

i =1

i =1

Muestra de mujeres

∑ xi = 17.100 ∑ xi2 = 29.670.000

10

10

i =1

i =1

∑ yi = 13.500 ∑ yi2 = 18.410.000

Se supone que los salarios mensuales siguen una distribución normal en ambas poblaciones de hombres y mujeres y que son independientes: a) ¿Se podría afirmar, con un 5 % de significación, que el salario medio de los hombres que trabajan en la entidad es de 1.400 euros? b) Obtenga un intervalo de confianza al 95 % para el cociente de varianzas poblacionales de los salarios de hombres y mujeres. c) ¿Podemos admitir que el salario pagado por la entidad a los hombres es superior al de las mujeres con un 5 % de significación? Definimos las variables X = «Salario mensual de los hombres empleados en la entidad financiera (en euros)», e Y = «Salario mensual de las mujeres empleadas en la entidad financiera (en euros)», que son independientes y cuyas distribuciones son: Solución

~ N(μx , σ x ) Y ~ N(μy , σ y )

X

a) Debemos contrastar, a un 5 % de significación, si mx = 1.400 (euros). Para ello, planteamos las siguientes hipótesis: H0 : μ x = 1.400 H1: μ x ≠ 1.400 96

© Ediciones Pirámide

Contraste de hipótesis paramétrico En el caso de población normal con varianza desconocida, el estadístico que se utiliza para realizar un contraste sobre la media es: X − μx0 Sx / n x

t=

~

t H0 n x − 1

≡ t10 − 1 ≡ t9

Con un nivel de significación del 5 %, la región crítica de este contraste bilateral queda determinada por los valores críticos t a/2 = 2,262 y – t a/2 = – 2,262, obtenidos a partir de la tabla 10 de una t de Student con nueve grados de libertad. Rechazaremos H0 si texp < – t a/2 o si texp > t a/2, según se aprecia en el gráfico: t9

/2 = 0,025

–t

1–

= 0,95

= – 2,262

/2

/2 = 0,025

t

/2

= 2,262

Para calcular el valor experimental del estadístico, debemos obtener previamente la media y la desviación típica muestrales:

x=

s x2 =

1 nx

nx

1

∑ xi = 10 17.100 = 1.710 euros

i =1

1 nx − 1

冤∑ xi2 − n 冢∑ xi 冣 冥 = 9 冤29.670.000 − 10 (17.100)2 冥 = nx

nx

1

i =1

x

2

1

1

i =1

= 47.666,6667 (euros)2 sx =

s x2 = 218,33 euros

El valor experimental será: texp = © Ediciones Pirámide

x − μ x 0 1.710 − 1.400 = = 4,490 s x / nx 218,33 / 10 97

Ejercicios de inferencia estadística y muestreo Como texp > t a/2 = 2,262, el valor experimental se sitúa en la región crítica del contraste; por tanto, al 5 % de significación, los datos muestrales presentan evidencia suficiente para rechazar la hipótesis nula, con lo cual, no podemos afirmar que el salario medio de los hombres que trabajan en la entidad sea de 1.400 euros. Hay que observar que este apartado se podría haber resuelto también obteniendo el correspondiente intervalo de confianza. b) El intervalo correspondiente al cociente de varianzas poblacionales cuando las medias poblacionales son desconocidas será: Iσ 2 / σ 2 = x

y



Sx2 Sx2 1 1 ⋅ ; ⋅ 2 2 Sy Fnx − 1, ny − 1;1 − α / 2 Sy Fnx − 1, ny − 1; α / 2



donde Fnx – 1, ny – 1; 1 – a/2 y Fnx – 1, ny – 1; a/2 son los cuantiles que en una F de Snedecor con nx – 1, ny – 1 grados de libertad verifican que: P( Fnx − 1, ny − 1  Fnx − 1, ny − 1; α / 2 ) = α / 2 P( Fnx − 1, ny − 1  Fnx − 1, ny − 1;1 − α / 2 ) = 1 − α / 2 Gráficamente, teniendo en cuenta que 1 – a = 0,95;

Ᏺnx –1, ny –1 ≡ Ᏺ9,9

/2 = 0,025

Fnx – 1, ny – 1;

/2

/2 = 0,025

Fnx –1, ny –1; 1–

/2

Entonces, utilizando la tabla de una F de Snedecor (tabla 11), se tiene: Fnx − 1, ny − 1;1 − α / 2 = F9, 9; 0,975 = 4,03 98

© Ediciones Pirámide

Contraste de hipótesis paramétrico Para obtener el cuantil Fnx – 1, ny – 1; a/2 = F9, 9; 0,025, utilizamos la siguiente propiedad de la distribución F de Snedecor con n1, n2 grados de libertad:

Fn1 , n2 ; p =

1 Fn2 , n1 ;1 − p

Así, tenemos que:

F9, 9; 0,025 =

1 F9, 9; 0,975

=

1 = 0,2481 4,03

Gráficamente:

Ᏺ9,9

1–

= 0,95

/2 = 0,025

/2 = 0,025

F9,9; 0,025 = 0,2481

F9,9; 0,975 = 4,03

Calculamos ahora sy2, pues del apartado anterior tenemos sx2 = 47.666,6667:

sy2 =

1 ny − 1

冤∑ yi2 − n 冢∑ yi 冣 冥 = 10 − 1 冤18.410.000 − 10 (13.500)2 冥 = ny

i =1

1

y

ny

2

1

1

i =1

= 20.555,5556 © Ediciones Pirámide

99

Ejercicios de inferencia estadística y muestreo y así, el intervalo de confianza al 95 % será: Iσ 2 / σ 2 = x

y

=





1 1 s x2 s x2 ⋅ ; ⋅ = 2 2 sy Fnx − 1, ny − 1;1 − α / 2 sy Fnx − 1, ny − 1; α / 2

666,6667 1 47.666,6667 1 ⋅ ; ⋅ = 冤 2047..555 ,5556 4,03 20.555,5556 0,2481冥

= [0,5754; 9,3467] c) Hay que someter a contrastación la hipótesis mx > my, es decir, que el salario medio de los hombres es superior al de las mujeres. Por tanto, las hipótesis se plantearán como: H0 : μ x − μ y  0 H1: μ x − μ y > 0 Admitimos la igualdad de varianzas poblacionales de las variables X e Y según los resultados obtenidos en el apartado b), donde el intervalo calculado para el cociente de varianzas incluía el valor 1; por tanto, el estadístico del contraste será: t=

X − Y − d0 (nx − 1)Sx2

+ (ny − 1)Sy2

nx + ny − 2

~

1 1 + nx ny

t H0 n x + n y − 2

≡ t10 + 10 − 2 ≡ t18

Para un nivel de significación del 5 %, la región crítica será la siguiente: t18

1–

= 0,95

= 0,05

t = 1,734

donde t a se obtiene de la tabla 10, y se rechazará H0 si: texp > tα = 1,734 100

© Ediciones Pirámide

Contraste de hipótesis paramétrico Con los resultados muestrales calculamos el valor experimental del estadístico: texp =

1.710 − (13.500 /10) − 0 (10 − 1)47.666,6667 + (10 − 1)20.555,5556 1 1 + 10 + 10 − 2 10 10

= 4,3585

como: texp = 4,3585 > 1,734 = tα entonces, rechazamos la hipótesis nula y, por tanto, admitimos, al 5 % de significación, que el salario medio pagado a los hombres es superior al de las mujeres. En un estudio sobre los efectos de los nuevos métodos de planificación en el ámbito de la gestión empresarial, se comprobó, en una muestra aleatoria simple de seis empresas en las que se aplicaban dichos métodos, que el incremento medio de sus ingresos netos, con respecto al anterior ejercicio, era del 9,972 %, con una varianza muestral 7,740. Paralelamente, y con fines comparativos, se seleccionó una muestra aleatoria simple de nueve empresas que seguían los métodos de gestión tradicionales. En función de los datos de esta última muestra, se calculaba un incremento medio de 6,098 % y una varianza muestral de 10,834. Suponiendo que los porcentajes de incrementos de ingresos en ambas poblaciones de empresas están distribuidos normal e independientemente con la misma varianza: Ejercicio 2.11

a) ¿Se puede admitir, con un 10 % de significación, que el conjunto de empresas que aplican los nuevos métodos de planificación obtienen incrementos medios de ingresos superiores a las empresas que utilizan métodos tradicionales? b) Construya un intervalo de confianza al 90 % para la diferencia de incrementos medios poblacionales de ambos tipos de empresas. Sean X e Y las variables aleatorias que representan los incrementos porcentuales de los ingresos en empresas que aplican métodos nuevos de planificación (X) y tradicionales (Y). Las distribuciones de estas variables son: Solución

~ N(μx , σ x ) Y ~ N(μy , σ y )

X

con X e Y independientes y sx = sy = s. © Ediciones Pirámide

101

Ejercicios de inferencia estadística y muestreo a) Se pretende contrastar según la información muestral si mx > my. Por tanto, planteamos las hipótesis: H0 : μ x − μ y  0 H1: μ x − μ y > 0 (ingresos superiores con nuevos métodos) El estadístico de prueba para realizar este contraste será: t=

X − Y − d0 (nx − 1)Sx2 + (ny − 1)Sy2 nx + ny − 2

~

t H0 n x + n y − 2

1 1 + nx ny

≡ t6 + 9 − 2 ≡ t13

pues sx = sy = s, aunque son desconocidas. El valor experimental de este estadístico se obtiene sustituyendo la información muestral en la expresión anterior:

texp =

nx = 6

;

x = 9,972

;

s x2 = 7,740

ny = 9

;

y = 6,098

;

s x2 = 10,834

9,972 − 6,098 − 0 (6 − 1)7,740 + (9 − 1)10,834 6+9−2

1 1 + 6 9

= 2,3669

La región crítica unilateral es: t13

1–

= 0,90

= 0,10

t = 1,350

rechazándose H0 si: texp > tα = 1,350 102

© Ediciones Pirámide

Contraste de hipótesis paramétrico Como en este caso: texp = 2,3669 > tα = 1,350 entonces, con un nivel de significación del 10 %, se rechaza la hipótesis nula (H0; mx – my  0) y admitimos que los incrementos medios de los ingresos son superiores en las empresas que aplican métodos nuevos. b) El intervalo de confianza para la diferencia de medias de poblaciones normales, independientes y con desviaciones típicas desconocidas iguales, será:



Iμ x − μ y = ( X − Y ) − tα / 2

( X − Y ) + tα / 2

(nx − 1)Sx2 + (ny − 1)Sy2

nx + ny

nx + ny − 2

nx ny

(nx − 1)Sx2 + (ny − 1)Sy2

nx + ny

nx + ny − 2

nx ny

;



pues nx = 6, ny = 9 se consideran tamaños muestrales pequeños. El valor t a/2 es el cuantil que en una distribución t de Student con n x + ny – 2 = = 6 + 9 – 2 = 13 grados de libertad verifica que: P(t13 > tα / 2 ) = α / 2 Como el nivel de confianza es del 90 %, entonces: 1 − α = 0,90 ⇒ α = 0,10 ⇒ α / 2 = 0,05 y, utilizando la tabla 10: tα / 2 = 1,771 Sustituyendo en el intervalo:



Iμ x − μ y = (9,972 − 6,098) − 1,771

(9,972 − 6,098) + 1,771

5 ⋅ 7,740 + 8 ⋅ 10,834 6+9−2 5 ⋅ 7,740 + 8 ⋅ 10,834 6+9−2

6+9 ; 6⋅9 6+9 6⋅9



Iμ x − μ y = [0,9753; 6,7727] © Ediciones Pirámide

103

Ejercicios de inferencia estadística y muestreo El vicerrectorado de docencia de una universidad decide publicar los resultados de las encuestas que cada año se realizan para evaluar la calidad de la docencia de todos sus profesores. Seleccionados al azar 10 profesores, se recogen en la tabla adjunta las calificaciones obtenidas en el curso anterior y posterior a la toma de esta medida por parte del vicerrectorado. Suponiendo que las puntuaciones se distribuyen normalmente en cada curso, ¿podríamos afirmar, con un 2,5 % de significación, que la decisión de hacer públicos los resultados de las encuestas mejora las puntuaciones de los profesores? Ejercicio 2.12

Solución

Profesor

Puntuación antes de la publicación

Puntuación después de la publicación

1 2 3 4 5 6 7 8 9 10

3,2 3,3 3,4 2,1 4,1 3,1 2,9 4,2 3,5 2,8

3,1 3,5 3,6 3 4,2 3,3 2,5 4 3,6 2,9

Definimos las variables aleatorias X e Y como:

X = «Puntuación de cada uno de los profesores en el curso anterior a la toma de la medida». X

~ N(μx , σ x )

Y = «Puntuación de cada uno de los profesores en el curso posterior a la toma de la medida». Y

~ N(μy , σ y )

Estamos en el caso de muestras apareadas: ( X1 , Y1 ),..., ( X10 , Y10 ) 104

© Ediciones Pirámide

Contraste de hipótesis paramétrico por tanto, debemos definir las diferencias: Di = Xi − Yi que calculamos obteniendo los siguientes resultados: Profesor

1

2

3

4

5

6

7

8

9

10

di

0,1

– 0,2

– 0,2

– 0,9

– 0,1

– 0,2

0,4

0,2

– 0,1

– 0,1

La publicación de resultados mejorará las puntuaciones si mx < my. El contraste que hay que realizar se planteará como: H0 : μ x − μ y  0 H1: μ x − μ y < 0 (los resultados mejoran) El estadístico experimental que utilizaremos será: t=

D − d0 Sd / n

~

t H0 n − 1

≡ t9

con D=

1 n ∑ Di n i =1

Sd2 =

1 n ( Di − D )2 ∑ n − 1 i =1

La región crítica de este contraste unilateral se representa gráficamente como: t9

= 0,025

1–

= 0,975

– t = – 2,262

donde el valor crítico se obtiene de la tabla 10. © Ediciones Pirámide

105

Ejercicios de inferencia estadística y muestreo Para calcular el valor del estadístico de prueba obtenemos primero la media y la desviación típica de las diferencias di: d =

1 n 1 di = ( − 11 , ) = − 0,11 ∑ n i =1 10

sd2 =

1 n 1 ( di − d )2 = ∑ n − 1 i =1 n −1



n

∑ di2 −

i =1

1 n

, − 冢∑ di 冣 冥 = 9 冤117 n

2

1

i =1



( − 11 , )2 = 0,1166 10

sd = + sd2 = 0,3414 y sustituimos en la expresión del estadístico de prueba: texp =

d − d0 − 0,11 − 0 = = − 1,0189 sd / n 0,3414 / 10

Como: texp = − 1,0189 > − tα = − 2,262 entonces, no hay evidencia suficiente, al 2,5 % de significación, para rechazar la hipótesis nula y, por tanto, no se puede afirmar, con este nivel de significación, que la publicación de los resultados de las encuestas mejore las puntuaciones de los profesores. Según la Consejería de Agricultura de una comunidad autónoma, la subvención media percibida por agricultor en la provincia A, supera en más de 2.000 euros a la subvención media percibida en la provincia B. Seleccionadas dos muestras aleatorias de 10 agricultores en cada una de las provincias, se obtienen los siguientes resultados, expresados en miles de euros: Ejercicio 2.13

Provincia A

Provincia B

x¯ = 14 sx2 = 25

y¯ = 9 sy2 = 0,25

Suponiendo que la cuantía de las subvenciones sigue en ambas provincias distribuciones normales con varianza diferente, ¿se puede admitir, con un 1 % de significación, la afirmación de la consejería? 106

© Ediciones Pirámide

Contraste de hipótesis paramétrico Definimos las variables aleatorias X = «Subvención percibida por un agricultor de la provincia A (miles de euros)», e Y = «Subvención percibida por un agricultor de la provincia B (miles de euros)», cuyas distribuciones son: Solución

~ N(μx , σ x ) Y ~ N(μy , σ y )

X

Se quiere contrastar si mx > my + 2, es decir, las hipótesis se formularán como: H0 : μ x − μ y  2 H1: μ x − μ y > 2 Utilizaremos el siguiente estadístico de prueba, pues sx2 ≠ sy2 según el enunciado: t=

X − Y − d0 Sx2 Sy2 + nx ny

~

t H0 v

siendo: ⎡ ⎤ Sx2 Sy2 2 ⎥ ⎢ + ⎢ ⎥ nx ny v=⎢ ⎥ +1 Sy2 2 ⎥ ⎢ Sx2 2 ⎢ ⎥ ⎢ nx + ny ⎥ ⎢ nx − 1 ny − 1 ⎥ ⎣ ⎦





冢 冣 冢 冣

donde [ · ] indica la parte entera. Sustituyendo en la expresión anterior los datos muestrales, tendremos: ⎡ 25 0,25 2 ⎤ ⎢ ⎥ + 10 10 ⎢ ⎥ + 1 = [9,18] + 1 = 9 + 1 = 10 v= ⎢ 25 2 0,25 2 ⎥ ⎢ ⎥ ⎢ 10 + 10 ⎥ ⎢⎣ 10 − 1 10 − 1 ⎥⎦





冢 冣 冢 冣

© Ediciones Pirámide

107

Ejercicios de inferencia estadística y muestreo Por tanto, el estadístico de prueba seguirá bajo H0 una distribución t de Student con 10 grados de libertad. Utilizando la tabla correspondiente a esta distribución, obtenemos el valor crítico de la región de rechazo de este contraste. Su representación gráfica es: t10

1–

= 0,99

= 0,01

t = 2,764

El valor experimental del estadístico de prueba se calcula como: texp =

x − y − d0 Sx2 Sy2 + nx ny

14 − 9 − 2

=

25 + 10

0,25 10

= 1,888

Como: texp = 1,888 < tα = 2,764 no se rechaza la hipótesis nula, por tanto, no se admite la afirmación de la consejería (mx > my + 2) al 1 % de significación. Los estudios de una asociación de mutuas de accidentes aseguran que el número medio de bajas ocurridas en el último mes debidas a accidentes laborales, en empresas constructoras que realizan su actividad en la capital de la provincia, superan en más de cinco al número medio de bajas en las mismas circunstancias en empresas constructoras que trabajan en el resto de la provincia. Con el fin de contrastar esta afirmación, se seleccionan aleatoriamente 10 empresas constructoras, en cada una de las zonas, para obtener los datos correspondientes al número de bajas por accidentes laborales ocurridas en el último mes. Los resultados fueron: Ejercicio 2.14

108

Capital de la provincia

6

8

9

5

0

1

4

2

0

1

Resto de la provincia

3

4

2

2

1

0

5

0

1

3

© Ediciones Pirámide

Contraste de hipótesis paramétrico Suponiendo que las cifras de bajas por accidentes laborales pudieran considerarse normalmente distribuidas: a) Contraste la afirmación realizada por la asociación utilizando un 5 % de significación. b) ¿Podría afirmarse, al 10 % de significación, que el número medio de bajas por accidentes laborales en las empresas constructoras que realizan su actividad en la capital de la provincia es superior a cuatro?

Solución

Sean las variables aleatorias X e Y definidas como:

X = «Número de bajas por accidentes laborales ocurridos durante el último mes en empresas constructoras que realizan su actividad en la capital de provincia». Y = «Número de bajas por accidentes laborales ocurridos durante el último mes en empresas constructoras que realizan su actividad en el resto de la provincia». Ambas variables se distribuyen normalmente:

~ N(μx , σ x ) Y ~ N(μy , σ y )

X

a) La afirmación realizada por la asociación de mutuas de accidentes es que mx > 5 + my. Por tanto, el contraste a realizar será: H0 : μ x − μ y  5 H1: μ x − μ y > 5

(1)

El estadístico de prueba que se utilizará dependerá de si las varianzas poblacionales pueden considerarse similares o no. Por tanto, realizaremos previamente un contraste sobre la igualdad de estas varianzas: H0 : σ x2 = σ y2 H1: σ x2 ≠ σ y2

(2)

El estadístico de prueba para contrastar la hipótesis de (2) será, teniendo en cuenta que las medias poblacionales son desconocidas: F= © Ediciones Pirámide

Sx2 Sy2

~ Ᏺ n − 1, n − 1 ≡ Ᏺ 10 − 1,10 − 1 ≡ Ᏺ 9, 9

H0

x

y

109

Ejercicios de inferencia estadística y muestreo y para una significación del 5 %, la región crítica se representa gráficamente como:

Ᏺ9,9

/2 = 0,025

/2 = 0,025

F

F1–

/2

/2

donde Fa/2 y F1 – a/2 son, respectivamente, los cuantiles de órdenes a/2 y 1 – a/2, que verifican: P[Ᏺ 9, 9  F9, 9;1 − α / 2 ] = 1 − α / 2 = 1 − 0,025 = 0,975 P[Ᏺ 9, 9  F9, 9; α / 2 ] = α / 2 = 0,025 De la primera probabilidad, utilizando la tabla 11, se tiene: F9, 9;1 − α / 2 = F9, 9; 0,975 = 4,03 Para obtener F9,9;a/2 = F9,9;0,025, utilizamos la siguiente propiedad de una F de Snedecor con n1 y n2 grados de libertad: Fn1 , n2 ; p =

1 Fn2 , n1 ;1 − p

por tanto, aplicando este resultado a Fa/2, tenemos que: Fα / 2 = F0,025 = F9, 9; 0,025 = 110

1 F9, 9;1 − 0,025

=

1 F9, 9; 0,975

=

1 = 0,2481 4,03 © Ediciones Pirámide

Contraste de hipótesis paramétrico con lo cual, rechazaremos la hipótesis nula de igualdad de varianza si: Fexp < Fα / 2 = 0,2481 o si: Fexp > F1 − α / 2 = 4,03 Para calcular el valor experimental, obtenemos primero las varianzas muestrales: 10

Capital de la provincia:

10

∑ xi = 36

∑ xi2 = 228

i =1

Resto de la provincia:

s x2 =

sy2 =

i =1

10

10

i =1

i =1

∑ yi = 21 ∑ yi2 = 69

1 nx − 1

冤∑ xi2 − n 冢∑ xi 冣 冥 = 10 − 1 冤228 −

1 ny − 1

冤∑ yi2 − n 冢∑ yi 冣 冥 = 10 − 1 冤69 −

10

i =1 10

i =1

10

1

x

1

y

2

1

i =1 10

2

1

i =1



36 2 = 10,9333 10



212 = 2,7666 10

Por tanto, el valor experimental del estadístico del contraste (2) quedaría como:

Fexp =

s x2 10,9333 = = 3,95 sy2 2,7666

y, puesto que: 0,2481 = Fα / 2 < Fexp = 3,95 < F1 − α / 2 = 4,03 entonces no se rechaza, al 5 % de significación, la hipótesis nula de igualdad de varianzas (sx2 = sy2). © Ediciones Pirámide

111

Ejercicios de inferencia estadística y muestreo Realizamos a continuación el contraste (1) sobre la diferencia de medias considerando que las varianzas poblacionales son similares y utilizando, por tanto: t=

X − Y − d0 (nx − 1)Sx2

~

+ (ny − 1)Sy2

1 1 + nx ny

nx + ny − 2

t H0 n x + n y − 2

≡ t18

como estadístico del contraste. La región crítica de (1) viene representada por: t18

0,95

= 0,05

t = 1,734

donde el valor crítico, t a, se ha buscado en la tabla 10 de una t de Student con 18 grados de libertad, de tal forma que se verifique: P[t18 > tα ] = α = 0,05 Las medias muestrales son: x=

y=

1 nx 1 ny

nx

1

∑ xi = 10 ⋅ 36 = 3,6

i =1 ny

1

∑ yi = 10 ⋅ 21 = 2,1

i =1

Sustituyendo la información muestral en t, obtenemos el valor experimental: texp =

112

3,6 − 2,1 − 5 9 ⋅ 10,9333 + 9 ⋅ 2,7666 1 1 + 10 + 10 − 2 10 10

= − 2,9903

© Ediciones Pirámide

Contraste de hipótesis paramétrico y como: texp = − 2,9903 < 1,734 = tα entonces, no se rechaza la hipótesis nula H0 : mx – my  5. Por tanto, al 5 % de significación, no hay evidencia para confirmar la afirmación de la asociación de mutuas de accidentes. b) Se pretende contrastar si mx > 4. Por tanto, planteamos las hipótesis: H0 : μ x  4 H1: μ x > 4 El estadístico de prueba de este caso es:

t=

X − μ0 S/ n

~

t H0 n − 1

≡ t10 − 1 ≡ t9

pues la desviación típica poblacional, sx, es desconocida. La región crítica, al 10 % de significación, de este contraste unilateral viene dada por: t9

1–

= 0,90

= 0,10

t = 1,383

con t a calculado a partir de la tabla 10, teniendo en cuenta que: P[t9 > tα ] = 0,10 © Ediciones Pirámide

113

Ejercicios de inferencia estadística y muestreo El valor experimental del estadístico del contraste será: texp =

3,6 − 4 = − 0,3825 10,9333 / 10

que verifica: texp < tα por lo que no se rechaza tampoco en este caso la hipótesis nula, H0 : mx  4, con lo cual no podría afirmarse que el número medio de bajas por accidentes laborales en las empresas constructoras de la capital de la provincia sea superior a cuatro.

Una cadena de grandes almacenes está considerando la decisión de adquirir nuevas máquinas etiquetadoras. Para comprobar si las nuevas máquinas mejoran significativamente la eficiencia de los empleados, selecciona aleatoriamente dos grupos de nueve trabajadores para realizar un control sobre el número de etiquetas colocadas en períodos de cinco minutos. En uno de los grupos, se utilizan las antiguas máquinas, y en el otro, las nuevas, tras un período de adaptación de los empleados. Los resultados obtenidos son los siguientes: Ejercicio 2.15

Grupo 1 (etiquetadoras antiguas)

305

312

300

248

290

264

272

301

275

Grupo 2 (etiquetadoras nuevas)

303

301

310

303

309

296

315

282

272

Suponiendo que el número de etiquetas colocadas cada cinco minutos sigue una distribución normal, y utilizando un nivel de significación del 5 %, ¿mejoran las nuevas máquinas significativamente la eficiencia de los empleados?

Solución

Sean las variables X e Y definidas como:

X = «Número de etiquetas colocadas en un período de cinco minutos por un empleado que utiliza una etiquetadora antigua». Y = «Número de etiquetas colocadas en un período de cinco minutos por un empleado que utiliza una etiquetadora nueva». 114

© Ediciones Pirámide

Contraste de hipótesis paramétrico Estas dos variables son independientes y siguen distribuciones normales:

~ N(μx , σ x ) Y ~ N(μy , σ y )

X

Las nuevas etiquetadoras mejorarán la eficiencia de los empleados si éstos colocan más etiquetas que el grupo que utiliza las antiguas máquinas, es decir, en términos medios, necesitamos contrastar si my > mx. Por tanto, debemos realizar el contraste: H0 : μ x − μ y  0 H1: μ x − μ y < 0

(μy > μx )

(1)

Para determinar el estadístico de prueba del contraste se debe comprobar previamente la igualdad o desigualdad de varianzas poblacionales; por tanto, antes de realizar el anterior contraste, debemos contrastar la hipótesis sx2 = sy2 y, en función del resultado, utilizaremos un estadístico u otro. Así pues, realicemos, al 5 % de significación, el contraste: H0 : σ x2 = σ y2 H1: σ x2 ≠ σ y2 El estadístico de prueba que utilizaremos será: F=

Sx2 Sy2

~ Ᏺ n − 1, n − 1 ≡ Ᏺ 9 − 1, 9 − 1 ≡ Ᏺ 8, 8

H0

x

y

pues las medias poblacionales, mx y my, son desconocidas. Para un nivel de significación del 5 %, la región crítica bilateral que se obtiene es: Ᏺ8,8

1–

= 0,95

/2 = 0,025

/2 = 0,025

F © Ediciones Pirámide

/2

= 0,226

F1–

/2

= 4,43

115

Ejercicios de inferencia estadística y muestreo rechazándose la hipótesis de igualdad de varianzas si: Fexp > F1 − α / 2 = 4, 43 o si Fexp < Fα / 2 = 0,226 Estos dos valores críticos han sido obtenidos a partir de la tabla 11 de una Ᏺ8, 8, teniendo en cuenta que:

P[Ᏺ 8, 8  F1 − α / 2 ] = 1 − α / 2 = 1 −

0,05 = 1 − 0,025 = 0,975 2

lo que implica: F1 − α / 2 = 4, 43 = F0,975 El valor crítico inferior verifica que: P[Ᏺ 8, 8  Fα / 2 ] = 0,025 y, utilizando que en una F de Snedecor con n1, n2 grados de libertad, se verifica que: Fn1 , n2 ; p =

1 Fn2 , n1 ;1 − p

el valor anterior se obtiene como:

F8, 8; 0,025 = 116

1 F8, 8; 0,975

=

1 = 0,226 4, 43 © Ediciones Pirámide

Contraste de hipótesis paramétrico Calculamos a continuación las varianzas muestrales de ambos grupos: 9

∑ xi = 2.567

i =1

s x2 = sy2 =

9

9

∑ xi2 = 735.879

∑ yi = 2.691

i =1

i =1

9

∑ yi2 = 806.149

i =1

1 nx − 1

冤∑ xi2 − n 冢∑ xi 冣 冥 =

1 1 735.879 − (2.567)2 = 464,1944 9 −1 9

1 ny − 1

冤∑ yi2 − n 冢∑ yi 冣 冥 =

1 1 806.149 − (2.691)2 = 192,5 9 −1 9

nx

i =1 ny

i =1

1

x

1

y

nx

2

i =1 ny

2

i =1









Con lo cual, el valor experimental: Fexp =

s x2 464,1944 = = 2, 4114 sy2 192,5

y como: 0,226 = Fα / 2 < Fexp = 2, 4114 < F1 − α / 2 = 4, 43 entonces nos encontramos en la región de aceptación. Es decir, al 5 % de significación no se rechaza la hipótesis nula de igualdad de varianzas (sx2 = sy2). Por tanto, para realizar el contraste sobre la diferencia de medias (1) se utilizará como estadístico de prueba: t=

X − Y − d0 (nx − 1)Sx2 + (ny − 1)Sy2 nx + ny − 2

~

1 1 + nx ny

t H0 n x + n y − 2

≡ t9 + 9 − 2 ≡ t16

pues estamos admitiendo que las varianzas de X e Y son similares. La región crítica de (1), con un nivel de significación del 5 %, es: t16

= 0,05

1–

= 0,95

– t = – 1,746

rechazándose H0 si texp < – t a = – 1,746. © Ediciones Pirámide

117

Ejercicios de inferencia estadística y muestreo Para buscar el cuantil – t a en una t de Student con 16 grados de libertad se ha utilizado la tabla 10 y la simetría de esta distribución: P(t16 < − tα ) = 0,05 ⇒ P(t16 > tα ) = 0,05 ⇒ P(t16  tα ) = 0,95 ⇒ tα = 1,746 Calculemos ahora el valor experimental del estadístico del contraste: x=

1 nx

1 y= ny texp =

nx

∑ xi =

2.567 = 285,2222 9

,

s x2 = 464,1944

ny

2.691 = 299 9

,

sy2 = 192,5

i =1

∑ yi =

i =1

285,2222 − 299 (9 − 1)464,1944 + (9 − 1)192,5 9+9−2

1 1 + 9 9

= − 1,6129

luego, como: texp = − 1,6129 > − 1,746 = − tα no se rechaza la hipótesis nula (mx – my  0). Por tanto, no podemos decir que las nuevas máquinas etiquetadoras mejoran la eficiencia significativamente. Según los dirigentes del partido político A, su intención de voto en Andalucía supera en más de cuatro puntos a la obtenida en Extremadura. Un diario de tirada nacional realiza una encuesta a 1.500 votantes de Andalucía, de los que 752 manifiestan su apoyo al partido A, y a 1.000 votantes de Extremadura, de los que 548 se inclinan por el partido A. Contraste, al 5 % de significación, la afirmación realizada por la dirección del partido A. Ejercicio 2.16

Solución

Sean X e Y las variables aleatorias definidas como: ⎧1 X=⎨ ⎩0 ⎧1 Y=⎨ ⎩0

118

si un votante de Andalucía apoya al partido político A en caso contrario si un votante de Extremadura apoya al partido A en caso contrario © Ediciones Pirámide

Contraste de hipótesis paramétrico Estas variables son independientes y se distribuirán según el modelo de Bernoulli:

~ B(1, px ) Y ~ B(1, py )

X

siendo: px = P( X = 1) = «Proporción de votantes de Andalucía que apoyarían al partido A». py = P(Y = 1) = «Proporción de votantes de Extremadura que apoyarían al partido A». Los dirigentes del partido A afirman que: px > py + 0,04 Por tanto, para contrastar esta afirmación, debemos plantear las hipótesis: H0 : px − py  0,04 H1: px − py > 0,04 Como los tamaños muestrales se pueden considerar grandes, utilizaremos como estadístico del contraste:

Z=

pˆ x − pˆ y − p0 nx + ny nx ny

ˆˆ pq

~ H0 nx , ny → ∞

N (0, 1)

siendo:

pˆ = © Ediciones Pirámide

nx pˆ x + ny pˆ y nx + ny 119

Ejercicios de inferencia estadística y muestreo La región crítica, al 5 % de significación, será: N(0,1)

1–

= 0,95

= 0,05

z = 1,645

rechazándose H0 si zexp > za : pˆ x =

752 1.500

zexp =

;

pˆ y =

548 1.000

;

pˆ =

752 + 548 = 0,52 1.500 + 1.000

752 548 − − 0,04 1.500 1.000 = − 4,249 1.500 + 1.000 ⋅ 0,52 ⋅ 0, 48 1.500 ⋅ 1.000

como: zexp = − 4,249 < zα = 1,645 entonces, al 5 % de significación, no se rechaza la hipótesis nula. Por tanto, la afirmación de la dirección del partido A no se encuentra apoyada por la evidencia empírica con este nivel de significación.

Una compañía del sector agroalimentario desea introducir sus yogures en un nuevo mercado, por lo que encarga a su centro de investigación analizar cuáles deberían ser el aspecto y la textura de éstos para que tuvieran una mejor aceptación. Uno de los investigadores cree que deberían ser más líquidos que de costumbre. Para estimar la proporción de personas que, en el nuevo mercado, aceptarían estos yogures más líquidos, se decidió realizar una degustación con una muestra aleatoria de 500 potenciales clientes; de ellos, 280 opinaron favorablemente sobre estos yogures más líquidos. Ejercicio 2.17

120

© Ediciones Pirámide

Contraste de hipótesis paramétrico a) A la vista de estos datos, y con un 1 % de significación, ¿puede afirmarse que el porcentaje de aceptación de estos yogures no superaría el 50 % del nuevo mercado? b) ¿Qué tamaño muestral sería necesario para que el test anterior detectara un porcentaje de aceptación del 60 % con una probabilidad de 0,9? c) Los investigadores se preguntan si los yogures más líquidos tendrían también éxito en el mercado actual, por lo que se decide realizar una degustación entre 300 clientes habituales y solicitarles que indiquen su preferencia por unos u otros sin admitir la posibilidad de indiferencia. Los resultados de esta degustación señalaron que 230 de ellos preferían los yogures más líquidos. ¿Indican estos datos que el porcentaje de aceptación de los yogures más líquidos en el mercado actual es superior al del futuro mercado? Nivel de significación: 1 %.

Solución

a) Sea px la proporción de personas que, en el nuevo mercado, serían favorables a estos yogures más líquidos. Definimos la variable aleatoria X

como: ⎧1 si una persona en el nuevo mercado es favorable a estos yogures X=⎨ ⎩0 en caso contrario Se trata, por tanto, de un experimento de Bernoulli con probabilidad de éxito px: X

~ B(1, px )

Los resultados de la degustación, realizada con una muestra aleatoria de nx = 500 potenciales clientes, indican que 280 fueron favorables a estos yogures, con lo cual: 500

∑ xi = 280

i =1

Para tratar de comprobar si el porcentaje de aceptación de los yogures en el nuevo mercado no superaría el 50 % (px  0,5), planteamos el siguiente contraste: H0 : px  0,5 H1: px > 0,5 © Ediciones Pirámide

121

Ejercicios de inferencia estadística y muestreo Utilizando el estadístico de prueba:

Z=

pˆ x − p0 p0 (1 − p0 ) n

=

pˆ x − 0, 5 0,5(1 − 0,5) 500

~

N (0, 1)

H0

se tiene que la región crítica o de rechazo de H0 en este contraste unilateral es, al 1 % de significación: N(0,1)

0,99

= 0,01

z = 2,33

Calculamos el valor experimental del estadístico de prueba utilizando la información muestral:

pˆ x = zexp =

1 n 280 xi = = 0,56 ∑ n i =1 500 0,56 − 0, 5 0,5(1 − 0,5) 500

= 2,6833

y como: zexp = 2,6833 > zα = 2,33 entonces, al 1 % de significación, y con estos datos, existe evidencia suficiente para rechazar H0 ; por tanto, no puede afirmarse que el porcentaje de aceptación de los yogures no superaría el 50 % del nuevo mercado. 122

© Ediciones Pirámide

Contraste de hipótesis paramétrico b) Para que el test anterior detecte un porcentaje real de compradores del 60 % con probabilidad 0,9, habría que rechazar la hipótesis nula cuando el verdadero valor de px fuese igual a 0,6 con la probabilidad anterior: 0,9 = P( rechazar H0 / px = 0,6) = P



pˆ x − 0,5 > 2,33 px = 0,6 0,5 ⋅ 0, 5 n



Utilizando que la distribución de la proporción muestral puede aproximarse por una normal: pˆ x =

1 n ∑ Xi n i =1

~

n→∞



px q x n

N px ,



tenemos que, para px = 0,6, la distribución de pˆx es: pˆ x

~

n→∞

N (0,6; 0,24 / n ) ⇒ Z =

pˆ x − 0,6 0,24 n

~

n→∞

N (0, 1)

y así: 0,9 = P( pˆ x > 0,5 + 2,33 0,25 / n px = 0,6) = = P( pˆ x > 0,5 + 2,33 0,25 / n pˆ x → N (0,6; 0,24 / n ) =



=P Z>

0,5 + 2,33 0,25 / n − 0,6 0,24 / n



con Z

~ N (0, 1)

Utilizando la tabla 7 para buscar un valor z tal que: P(Z > z) = 0,9 © Ediciones Pirámide

123

Ejercicios de inferencia estadística y muestreo se tiene que: z = – 1,28 con lo cual: 0,5 − 0,6 + 2,33 0,25 / n = − 1,28 0,24 / n y despejando el valor de n: 1 (2,33 0,25 + 1,28 0,24 ) = 0,6 − 0,5 n n=

冤 2,33

0,25 + 1,28 0,24 0,6 − 0,5

, ≈ 322 冥 = 32115 2

c) Definimos una variable aleatoria similar a la anterior, pero que refleje la información sobre la aceptación de los yogures más líquidos en el mercdado actual. Sea: ⎧1 si una persona en el mercado actual es favorable a los nuevos yogures Y=⎨ ⎩0 en otro caso De nuevo Y ~ B(1, py) con py la proporción de personas que aceptan favorablemente los yogures más líquidos en el mercado actual. Las variables X e Y tienen, por tanto, distribuciones de Bernoulli y son independientes. Para probar si el porcentaje de aceptación en el mercado actual es superior al del futuro mercado, py > px, planteamos las hipótesis: H0 : p x  py H1: px < py El estadístico del contraste será: Z=

pˆ x − pˆ y nx + ny nx ny

124

~ ˆˆ pq

H0 nx , ny → ∞

N (0, 1)

© Ediciones Pirámide

Contraste de hipótesis paramétrico con

pˆ =

1 x+y = nx + ny nx + ny



nx

ny

i =1

i =1

∑ xi + ∑ yi



qˆ = 1 − pˆ y su región crítica o de rechazo de la hipótesis nula viene determinada por: N(0,1)

= 0,01

0,99

– z = – 2,33

Con los datos muestrales, calculamos el valor experimental del estadístico: pˆ x =

280 = 0,56 500

pˆ y =

230 = 0,77 300

pˆ =

x+y 280 + 230 510 = = = 0,6375 nx + ny 500 + 300 800

qˆ = 1 − 0,6375 = 0,3625 zexp =

0,56 − 0,77 500 + 300 ⋅ 0,6375 ⋅ 0,3625 150.000

= − 5,9817

y al ser: zexp = − 5,9817 < − zα = − 2,33 © Ediciones Pirámide

125

Ejercicios de inferencia estadística y muestreo rechazamos la hipótesis nula H0 : px  py. Por lo que al 1 % de significación se refiere, estos datos indican que el porcentaje de aceptación de los yogures en el mercado actual supera al del mercado nuevo.

El centro de salud de una determinada ciudad está realizando un estudio sobre el consumo de tabaco en la población adulta. Para comparar los porcentajes de mujeres y hombres fumadores, se seleccionaron dos muestras aleatorias independientes de 25.000 mujeres y 23.500 hombres, resultando que 6.150 y 7.228, respectivamente, eran consumidores habituales de tabaco. ¿Presentan estos datos evidencia suficiente para concluir que el porcentaje de fumadores supera al de fumadoras en esta localidad? Nivel de significación del 10 %. Ejercicio 2.18

Definimos la variable aleatoria X como aquella que toma el valor 1 si un hombre es fumador, y 0 en caso contrario. La variable aleatoria Y se define de la misma forma, pero para las mujeres. Por tanto: Solución

~ B(1, px ) Y ~ B(1, py )

X

y se quiere probar si los datos presentan evidencia suficiente para afirmar que px > py. Planteamos el contraste como: H0 : p x  py H1: px > py El estadístico de prueba a utilizar es: Z=

pˆ x − pˆ y nx + ny nx ny

~ ˆˆ pq

H0 nx , ny → ∞

N (0, 1)

con pˆ = 126

x+y nx + ny

y

qˆ = 1 − pˆ © Ediciones Pirámide

Contraste de hipótesis paramétrico y la región crítica para a = 0,1 viene dada por: N(0,1)

0,90

= 0,1

z = 1,28

Para determinar el valor experimental del estadístico de prueba calculamos primero las proporciones muestrales: pˆ x =

7.228 = 0,308 23.500

pˆ y =

6.150 = 0,246 25.000

pˆ =

7.228 + 6.150 = 0,276 23.500 + 25.000

Así: zexp =

0,308 − 0,246 23.500 + 25.000 (0,276) ⋅ (0,724) 23.500 ⋅ 25.000

= − 15,27

Como zexp = 15,27 > 1,28 = za, entonces rechazamos H0 al 10 % de significación y, por tanto, los datos presentan evidencia suficiente para concluir que el porcentaje de fumadores supera al de fumadoras.

Una compañía de refrescos presenta un nuevo producto en el mercado afirmando que posee menos calorías que su homólogo más antiguo y conserva el resto de propiedades. Para tratar de verificar la afirmación de la compañía se eligieron al azar 14 botes del refresco nuevo y se calculó su media, 20 calorías por bote, y su desviación típica muestral, tres calorías. De modo independiente, se tomó otra Ejercicio 2.19

© Ediciones Pirámide

127

Ejercicios de inferencia estadística y muestreo muestra aleatoria de 16 botes del refresco antiguo, obteniéndose una media de 28 calorías por bote con desviación típica muestral 5. Suponiendo que la cantidad de calorías por bote sigue una distribución normal en ambos refrescos, pero con desviaciones típicas diferentes, ¿existe alguna razón para no creer en la afirmación de la compañía con un nivel de significación del 2,5 %?

Solución

Denotaremos por X e Y las variables aleatorias que representan la cantidad de calorías por bote en el nuevo producto y en el antiguo, respectivamente:

~ N(μx , σ x ) Y ~ N(μy , σ y )

X

siendo X e Y independientes y con sx ≠ sy. Se pretenden contrastar las hipótesis: H0 : μ x − μ y  0 H1: μ x − μ y < 0 (el nuevo producto posee menos calorías que el antiguo) Como las desviaciones típicas son desconocidas y distintas, el estadístico de prueba a utilizar es: t=

X − Y − d0 Sx2 Sy2 + nx ny

~

t H0 v

con





Sx2 Sy2 2 + nx ny Sy2 Sx2 2





9 25 2 + 14 16 v= = 2 9 2 25 ny 14 16 nx + + 13 15 nx − 1 ny − 1

冢 冣 冢 冣 冢 冣 冢 冣

2

= 24,999

Tomando como grados de libertad la parte entera de v más una unidad, se tiene que: texp 128

~

t H0 25 © Ediciones Pirámide

Contraste de hipótesis paramétrico y la región crítica unilateral viene dada por: t25

= 0,025

1–

–t

es decir, P(t25 < – t a) = 0,025, pero, por la simetría de la distribución t de Student: P(t25 > tα ) = 0,025 y P(t25  tα ) = 1 − 0,025 = 0,975 entonces t a = 2,06 y la región crítica o de rechazo de H0 será: texp  − 2,06 = − tα Calculamos ahora el valor experimental del contraste: texp =

20 − 28 − 0 9 25 + 14 16

= − 5,387

Como texp = – 5,387 < – 2,06 = – t a , entonces se rechaza H0 y, por tanto, con estos datos y un 2,5 % de significación no existen razones para no creer en la afirmación de la compañía.

Un anuncio publicitario presenta un nuevo aparato de gimnasia cuyo uso durante 12 semanas reduce el peso considerablemente. Se tomó una muestra aleatoria simple de seis personas y se les ofreció probar gratuitamente el aparato durante 12 semanas. Los pesos, en kilogramos, de estas personas antes y después de la prueba fueron los siguientes: Ejercicio 2.20

© Ediciones Pirámide

129

Ejercicios de inferencia estadística y muestreo Antes

81,64

88,45

80,28

90,68

99,25

77,83

Después

78,25

80,45

64,35

79,27

82,30

73,15

Suponiendo que el peso de las personas se distribuye normalmente y utilizando un 2,5 % de significación, ¿se puede concluir a partir de estos datos que el peso medio que se pierde con este aparato no supera los tres kilogramos?

Tenemos aquí una muestra aleatoria de n = 6 pares de observaciones (X1, Y1), ..., (X6, Y6) correspondientes a los pesos de las personas antes y después de la utilización del aparato de gimnasia: Solución

~ N(μx , σ x ) Y ~ N(μy , σ y )

X

El contraste a realizar viene expresado por las hipótesis: H0 : μ x − μ y  3 H1: μ x − μ y > 3 Por tratarse de muestras apareadas, el estadístico de prueba que utilizaremos es: t=

d − d0 sd / n

~ t n − 1 ≡ t5

y la región crítica unilateral viene expresada en la siguiente gráfica: t5

0,975

0,025

t = 2,571

130

© Ediciones Pirámide

Contraste de hipótesis paramétrico Calculamos las diferencias di = xi – yi, que representan el peso perdido por cada una de las personas: di: 3,39

8

15,93

11,41

16,95

4,68

Hallamos la media y la varianza de estas cantidades: d =

1 n 60,36 di = = 10,06 ∑ 6 n i =1

sd2 =

1 n ∑ (di − d )2 = 32,29 n − 1 i =1

y calculamos el valor experimental: texp =

10,06 − 3 32,29 / 6

= 3,04

Por tanto, texp = 3,04 > 2,571 = t a, con lo cual rechazamos H0 al 2,5 % de significación. Es decir, con los datos de la muestra no puede concluirse que el peso medio perdido no supera los tres kilogramos, pues se está aceptando la hipótesis alternativa H1.

© Ediciones Pirámide

131

3

Contraste de hipótesis no paramétrico

Contraste de hipótesis no paramétrico

Las investigaciones realizadas por la Asociación de Fabricantes Artesanos de Turrón, cuya sede se encuentra en Jijona, señalan los siguientes porcentajes sobre las preferencias de los consumidores con respecto al turrón: el 35 % prefieren turrón de almendra duro; el 30 %, turrón de almendra blando; el 20 %, turrón de yema tostada, y el resto prefieren otros tipos de turrón (chocolate, coco, etc.). Una cadena de supermercados debe decidir, con anterioridad a las fiestas navideñas, la cantidad de turrón que solicitará a su proveedor con el fin de satisfacer las demandas de sus clientes, pero sin que la adquisición de las clases de turrón menos deseadas suponga un gasto innecesario. Para tratar de comprobar si los porcentajes facilitados por los fabricantes de turrón son admisibles, se lleva a cabo una desgustación entre 250 clientes seleccionados al azar, que deben optar por un solo tipo de turrón. Los resultados obtenidos fueron: Ejercicio 3.1

Tipo de turrón

Almendra duro Almendra blando Yema tostada Otros

Número de clientes

90 72 52 36

Teniendo en cuenta la información de esta muestra, ¿existen motivos para que la cadena de supermercados considere inadmisibles los porcentajes presentados por la Asociación de Fabricantes Artesanos de Turrón? Nivel de significación: 5 %.

Solución

Sea X la variable que representa el tipo de turrón preferido por un consumidor. Según la asociación, la distribución de probabilidad correspondien-

te a X sería: © Ediciones Pirámide

133

Ejercicios de inferencia estadística y muestreo Turrón (xi)

pi = P(X = xi)

Almendra duro Almendra blando Yema tostada Otros

0,35 0,30 0,20 0,15

Se pretende contrastar si las frecuencias obtenidas con las observaciones de los 250 clientes presentan diferencias significativas con las que cabría esperar si la afirmación de la asociación fuera cierta; es decir, se trata de un contraste de bondad de ajuste: H0 : p1 = 0,35; p2 = 0,30; p3 = 0,20; p4 = 0,15 H1: Al menos una pi toma un valor diferente a los anteriores que puede realizarse mediante el estadístico c2 de Pearson:

χ2 =

(ni − Ei )2 = ∑ E i =1 i k

(ni − npi )2 ∑ np i =1 i k

~ χ k2 − h − 1

H0

donde k: Número de categorías de X (después de agrupar si fuera necesario). h: Número de parámetros estimados con la muestra. k

n:

∑ ni > 30.

i =1

Ei : npi > 5, ∀ i. Si alguna frecuencia esperada, Ei, no es superior a cinco, entonces se agruparía con las categorías adyacentes hasta que se verificara la condición que permite la aproximación a la distribución c2 para el estadístico del contraste. Realizamos los cálculos en la siguiente tabla: Turrón (xi)

ni

pi = P(X = xi)

Ei = npi

(ni – Ei)2

(ni – Ei)2/Ei

Almendra duro Almendra blando Yema tostada Otros

90 72 52 36

0,35 0,30 0,20 0,15

87,5 75,0 50,0 37,5

6,25 9,00 4,00 2,25

0,07 0,12 0,08 0,06

n = 250

1,00

134

H0

0,33

© Ediciones Pirámide

Contraste de hipótesis no paramétrico Se observa que todas las Ei son mayores que cinco, por lo que no hay que realizar agrupaciones. Así, la distribución del estadístico bajo H0 será:

χ 2 H~ χ k2 − h − 1 ≡ χ 42 − 0 − 1 ≡ χ 32 0

rechazando H0, al nivel de significación a = 0,05, si: 2 χ exp > χ12− α

donde c21 – a se busca en la tabla 9, de manera que: P( χ 32  χ12− α ) = 1 − α = 1 − 0,05 = 0,95 de donde:

χ12− α = 7,81 Como el valor experimental es: 2 χ exp = 0,33 < χ12− α = 7,81

entonces no se rechaza H0 y, por tanto, con un 5 % de significación y con estos datos muestrales, no existirían motivos para considerar inadmisibles los porcentajes de la Asociación de Fabricantes Artesanos de Turrón. Una entidad bancaria trata de analizar si es rentable mantener en servicio el cajero automático situado en la plaza de cierta localidad. Para ello, decide estudiar el número de clientes por hora que acuden a este cajero a realizar sus operaciones. Durante 90 horas punta de días laborables elegidos al azar, se obtuvieron los siguientes resultados: Ejercicio 3.2

© Ediciones Pirámide

Número de clientes

Número de horas

0 1 2 3 4 5 6 o más

15 5 25 40 2 1 2

135

Ejercicios de inferencia estadística y muestreo ¿Indican estos datos que se trata de una distribución de Poisson con media tres clientes por hora? Nivel de significación: 1 %.

Solución

Sea X = «Número de clientes por hora que acuden a este cajero». Se trata de contrastar:

~ ᏼ(3) H1: X ~ / ᏼ(3)

H0 : X

para lo cual podemos utilizar el estadístico c2 de Pearson de bondad de ajuste:

χ2 =

(ni − npi )2 ∑ np i =1 i k

~ χ k2 − h − 1

H0

Mediante las probabilidades teóricas, pi, obtenidas en la tabla 5 para l = 3, construimos la tabla de frecuencias observadas (ni) y teóricas (Ei), realizando las agrupaciones necesarias hasta conseguir todas las frecuencias teóricas superiores a 5:

Número de clientes xi

Número de horas ni

0 1 1 2 3 4 5 6

15 20 5 25 40 2 1 2





pi H= P(X = xi)

Ei = npi

(ni – npi)2

0,0498 0,1494 0,2240 0,2240 0,1680 0,1008 0,0839

4,482 17,928 13,446 20,160 20,160 15,120 9,072 7,551



(20 – 17,928)2

0,2395

2

1,1620 19,5251 11,3846 7,1822 4,0807

0

(ni – npi)2/npi

(25 – 20,160) (40 – 20,160)2 (2 – 15,120)2 (1 – 9,072)2 (2 – 7,551)2

43,5741

n = 90

Por tanto, la distribución del estadístico de prueba y la región crítica serán:

χ 2 H~ χ k2 − h − 1 ≡ χ 62 − 0 − 1 ≡ χ 52 0

136

© Ediciones Pirámide

Contraste de hipótesis no paramétrico

χ25

0,99

= 0,01

χ21– = 15,09

y como el valor experimental, c2exp = 43,5741, es superior al valor crítico, c21 – a = 15,09, entonces, al 1 % de significación, los datos de la muestra presentan evidencia suficiente para rechazar H0, con lo cual no se admite que el número de clientes por hora siga una distribución de Poisson con media 3.

Cierta universidad posee un programa de concesión de becas para realizar colaboraciones en los departamentos. Las cuantías de las becas varían según la dedicación y el tipo de colaboración que realicen los alumnos. Examinada una muestra aleatoria de 150 becas concedidas, se obtuvieron los siguientes resultados: Ejercicio 3.3

Cuantía de la beca (euros por semana)

Número de becas

[40, 50] (50, 60] (60, 65] (65, 70] (70, 75] (75, 80] (80, 100]

9 24 28 35 30 21 3

¿Puede decirse, a la vista de estos datos y utilizando un 5 % de significación, que las cuantías de las becas se conceden de acuerdo a una distribución normal? © Ediciones Pirámide

137

Ejercicios de inferencia estadística y muestreo Representamos con la variable aleatoria X la cuantía de una beca (euros por semana). De esta variable se ha observado una muestra aleatoria X1, ..., X150, y los resultados han sido clasificados en siete intervalos. Para contrastar si la distribución de las cuantías de las becas es normal, planteamos las siguientes hipótesis: Solución

~ N ( μ, σ ) H1: X ~ / N ( μ, σ )

H0 : X

Puesto que los datos están agrupados por intervalos, este contraste puede realizarse utilizando el test c2 de Pearson de bondad de ajuste; para ello, necesitamos estimar los parámetros poblacionales, m y s, mediante sus estimadores de máxima verosimilitud:

μˆ = X =

1 k ∑ Xi ni n i =1

σˆ 2 = S ′ 2 =

1 k ∑ ( Xi − X )2 ni n i =1

Realizamos los cálculos en la tabla siguiente: (Li, Li + 1]

xi = (Li + Li + 1)/2

ni

xi n i

xi2ni

[40, 50] (50, 60] (60, 65] (65, 70] (70, 75] (75, 80] (80, 100]

45,0 55,0 62,5 67,5 72,5 77,5 90,0

9 24 28 35 30 21 3

405,0 1.320,0 1.750,0 2.362,5 2.175,0 1.627,5 270,0

18.225,00 72.600,00 109.375,00 159.468,75 157.687,50 126.131,25 24.300,0

n = 150

9.910,0

667.787,5

Por tanto, las estimaciones máximo verosímiles serán: x= s′2 = s′ = 138

1 k 9.910 xi ni = = 66,07 ∑ n i =1 150



9.910 1 k 1 k 1 ⋅ 667.787,5 − ( xi − x )2 ni = ∑ xi2 ni − x 2 = ∑ n i =1 n i =1 150 150

冣 = 87,11 2

87,11 = 9,33 © Ediciones Pirámide

Contraste de hipótesis no paramétrico Así, el contraste c2 de Pearson de bondad de ajuste a realizar será:

~ N (66,07; 9,33) H1: X ~ / N (66,07; 9,33)

H0 : X

cuyo estadístico de prueba es:

χ2 =

(ni − Ei )2 Ei i =1 k



~ χ k2 − h − 1

H0

donde: Ei : n: pi: k: h:

npi > 5, ∀ i = 1, ..., 7. n1 + L + nk = 150 > 30. Probabilidad de cada intervalo bajo H0 cierta. Número de intervalos o categorías de X después de agrupar si fuera preciso. Número de parámetros estimados con la misma muestra que utilizamos para realizar el contraste. En este caso, h = 2, pues se han estimado los parámetros m y s.

Para calcular las frecuencias esperadas necesitamos las probabilidades teóricas obtenidas, suponiendo que H0 fuera cierta: pi H= P( Li < X  Li + 1 )

,

0

i = 1,..., 7

Si H0 fuera cierta, entonces: Z=

X − 66,07 9,33

~ N (0, 1)

H0

Por tanto, tipificando y utilizando la tabla 7, las probabilidades teóricas serán: p1 = P( 40  X  50) = P

冢 40 −9,3366,07  Z  50 −9,3366,07 冣 = P(− 2,79  Z  − 1,72) =

= P( Z  − 1,72) − P( Z < − 2,79) H= 0,0427 − 0,0026 = 0,0401 0

p2 = P(50 < X  60) = P

冢 50 −9,3366,07 < Z  60 −9,3366,07 冣 = P(− 1,72 < Z  − 0,65) =

= P( Z  − 0,65) − P( Z  − 1,72) H= 0,2578 − 0,0427 = 0,2151 0

© Ediciones Pirámide

139

Ejercicios de inferencia estadística y muestreo p3 = P(60 < X  65) = P( − 0,65 < Z  − 0,11) H= 0, 4562 − 0,2578 = 0,1984 0

p4 = P(65 < X  70) = P( − 0,11 < Z  0, 42) H= 0,6628 − 0, 4562 = 0,2066 0

p5 = P( 70 < X  75) = P( 0, 42 < Z  0,96) H= 0,8315 − 0,6628 = 0,1687 0

p6 = P(75 < X  80) = P(0,96 < Z  1, 49) H= 0,9319 − 0,8315 = 0,1004 0

p7 = P(80 < X  100) = P(1, 49 < Z  3,64) H≈ 1 − 0,9319 = 0,0681 0

Con estas probabilidades obtenemos la siguiente tabla: Li – Li + 1

ni

pi

40-50 50-60 60-65 65-70 70-75 75-80 80-100

9 24 28 35 30 21 3

0,0401 0,2151 0,1984 0,2066 0,1687 0,1004 0,0681

n = 150

0,9974 ≈ 1

Ei = npi

6,015 32,265 29,76 30,99 25,305 15,06 10,215

(ni – Ei)2

(ni – Ei)2/Ei

8,9102 68,3102 3,0976 16,0801 22,0430 35,2836 52,0562

1,4813 2,1172 0,1041 0,5189 0,8711 2,3429 5,0961 12,5316

Como todos los valores Ei son mayores que cinco, no se han realizado agrupaciones de los intervalos. Por tanto, k = 7, y la distribución del estadístico de prueba, si la hipótesis nula es cierta, será:

χ 2 H~ χ k2 − h − 1 ≡ χ 72 − 2 − 1 ≡ χ 42 0

Rechazando H0, al 1 % de significación, si: 2 χ exp > χ12− α

con c21 – a tal que: P( χ 42  χ12− α ) = 1 − α = 1 − 0,01 = 0,99 utilizando la tabla 9:

χ12− α = 13,28 140

© Ediciones Pirámide

Contraste de hipótesis no paramétrico Como: 2 χ exp = 12,5316 < χ12− α = 13,28

entonces no se rechaza H0 al 1 % de significación y, por tanto, las cuantías de las becas concedidas pueden suponerse normalmente distribuidas.

La editorial Lea, S. A. está realizando una campaña de suscripción personalizada para la venta de una colección de libros de próxima aparición. Uno de los agentes comerciales de esta editorial visita cada día ocho hogares previamente concertados. Los resultados sobre el número de suscripciones diarias que este agente consiguió durante un período de 150 días aparecen recogidos en la siguiente tabla: Ejercicio 3.4

Número de suscripciones

Número de días

0 1 2 3 4 5 6 7 8

4 15 30 43 31 18 5 3 1

Contraste, utilizando un 10 % de significación, si el número de suscripciones diarias conseguidas por este agente puede considerarse una variable aleatoria distribuida según un modelo binomial.

Definimos la variable aleatoria X como el número de suscripciones conseguidas por el agente en las ocho visitas que realiza un día. Se pretende contrastar las hipótesis: Solución

~ B(n, p) H1: X ~ / B(n, p)

H0 : X

© Ediciones Pirámide

141

Ejercicios de inferencia estadística y muestreo donde n = 8 (pues cada día visita ocho hogares) y p es el parámetro que representa la probabilidad de conseguir una suscripción, cuyo estimador de máxima verosimilitud es:

pˆ =

X X = n 8

Como:

x=

1 r 477 xi ni = = 3,18 ∑ 150 i = 1 150

entonces: 477 150 3,18 pˆ = = = 0,3975 ≈ 0, 40 8 8 y, por tanto, el contraste a realizar quedará como:

~ B(8; 0,40) H1: X ~ / B(8; 0,40)

H0 : X

Podemos utilizar el contraste c2 de Pearson de bondad de ajuste, cuyo estadístico de prueba es:

χ2 =

(ni − npi )2 ∑ np i =1 i k

~ χ k2 − h − 1

H0

Para calcular su valor experimental obtenemos las probabilidades teóricas, pi, bajo la hipótesis nula, es decir, en la tabla de probabilidades de una B(8; 0,40), y comprobamos que las frecuencias esperadas, Ei = npi, sean todas superiores a cinco; en caso contrario, se realizará una agrupación. Los cálculos necesarios aparecen en la tabla siguiente: 142

© Ediciones Pirámide

Contraste de hipótesis no paramétrico Número de suscripciones xi

Número de días ni



4 19 15 30 43 31 18 5 3 9 1

0 1 1 2 3 4 5 6 7 6 8







pi = P(X = xi) H0

0,0168 0,0896 0,2090 0,2787 0,2322 0,1239 0,0413 0,0079 0,0007

Ei = npi

(ni – npi)2



(19 – 15,96)20

2,520 15,96 13,440 31,350 41,805 34,830 18,585 6,195 1,185 7,485 0,105



(ni – npi)2/npi

2

0,5790

(30 – 31,35) 0 (43 – 41,805)2 (31 – 34,83)20 (18 – 18,585)2

0,0581 0,0342 0,4212 0,0184

(9 – 7,485)20

0,3066

1,4175

n = 150

Como se han realizado agrupaciones, por la existencia de frecuencias esperadas inferiores a 5, y se ha estimado un parámetro, entonces la distribución del estadístico de prueba bajo la hipótesis nula será:

χ 2 H~ χ 62 − 1 − 1 ≡ χ 42 0

y la región crítica viene determinada por los valores mayores que c20,90, donde se tiene: P( χ 42 > χ 02,90 ) = 0,10 ⇒ χ 02,90 = 7,78 Por tanto, al ser: 2 χ exp = 1, 4175 < χ 02,90 = 7,78

no hay motivos suficientes para rechazar la hipótesis nula, por lo que admitimos la distribución B(8; 0,40) como válida para el número de suscripciones diarias conseguidas por el agente.

En un centro autorizado por la Dirección General de Tráfico para realizar la Inspección Técnica de Vehículos (ITV) se ha seleccionado al azar un período de cinco horas, recogiéndose los datos correspondientes a los vehículos y sus horas de llegada. Los tiempos transcurridos entre dos llegadas sucesivas se resumen de la siguiente forma: Ejercicio 3.5

© Ediciones Pirámide

143

Ejercicios de inferencia estadística y muestreo Tiempo entre dos llegadas sucesivas (minutos)

Número de vehículos

5 (5, 10] (10, 20] (20, 30] Más de 30

25 42 30 15 3

A la vista de estos datos, y con un 10 % de significación, ¿es admisible el modelo exponencial para la distribución del tiempo transcurrido entre dos llegadas sucesivas de vehículos? Sea la variable aleatoria X la que representa el tiempo transcurrido entre dos llegadas. Si X tuviera una distribución exponencial, entonces su correspondiente función de densidad y de distribución serían, respectivamente: Solución

f ( x ) = ae − ax

x>0

,

F( x ) = 1 − e − ax

x>0

,

con E[ X ] =

1 a

Var [ X ] =

y

1 a2

El contraste que se pretende realizar es:

~ Exp (a) H1: X ~ / Exp (a)

H0 : X

que puede realizarse utilizando el estadístico c2 de Pearson de bondad de ajuste, puesto que los datos están agrupados en cinco categorías. Para utilizar este test, hay que estimar el parámetro a mediante máxima verosimilitud: n

L( x1 ,..., xn ; a) = ae

− ax1

⋅…⋅ ae

− ax n

=a e n

− a ∑ xi i =1

n

ln L( x1 ,..., xn ; a) = n ln a − a ∑ xi i =1

∂ ln L( x1 ,..., xn ; a) n = − ∑ xi ∂a a i =1 n

144

© Ediciones Pirámide

Contraste de hipótesis no paramétrico igualando esta derivada a cero: n

n − a ∑ xi = 0 i =1

aˆ =

n n

∑ xi

=

1 x

i =1

Por tanto, calculamos la media muestral para las observaciones obtenidas, teniendo en cuenta que el tiempo entre llegadas es superior o igual a cero e inferior o igual a 300 minutos (5 horas · 60 = 300). (Li, Li + 1]

ni

xi

[0, 5] (5, 10] (10, 20] (20, 30] (30, 300]

25 42 30 15 3

2,5 7,5 15,0 25,0 165,0

62,5 315,0 450,0 375,0 495,0 1.697,5

n = 115

x=

xini

1 k 1.697,5 xi ni = ≈ 14,76 ∑ n i =1 115

Por tanto, la estimación correspondiente al parámetro a y las hipótesis del contraste serán: aˆ =

1 1 = = 0,07 x 14,76

~ Exp (0,07) H1: X ~ / Exp (0,07)

H0 : X

El estadístico c2 de Pearson de bondad de ajuste es:

χ2 = © Ediciones Pirámide

(ni − Ei )2 Ei i =1 k



~ χ k2 − h − 1

H0

145

Ejercicios de inferencia estadística y muestreo donde: Ei : n: pi: h: k:

npi > 5, ∀ i. n1 + L + nk = 115 > 30. Probabilidades asignadas a los intervalos bajo la hipótesis nula. Número de parámetros estimados con la muestra; en este caso, h = 1. Número de categorías después de agrupar si ocurriera que Ei  5 para algún Ei.

Calculemos las probabilidades teóricas de los intervalos: p1 = P( X  5) = F(5) = 1 − e − 5a H= 1 − e − 0,07 ⋅ 5 = 0,2953 0

p2 = P(5 < X  10) = F(10) − F(5) H= 1 − e − 10 ⋅ 0,07 − 0,2953 = 0

= 0,5034 − 0,2953 = 0,2081 p3 = P(10 < X  20) = F(20) − F(10) H= 1 − e − 20 ⋅ 0,07 − 0,5034 = 0

= 0,7534 − 0,5034 = 0,25 p4 = P(20 < X  30) = F (30) − F (20) H= 1 − e − 30 ⋅ 0,07 − 0,7534 = 0

= 0,8775 − 0,7534 = 0,1241 p5 = P(30 < X  300) = F (300) − F (30) H= 1 − e − 300 ⋅ 0,07 − 0,8775 = 0

≈ 1 − 0,8775 = 0,1225 Utilizando estas probabilidades, realizamos los cálculos en la siguiente tabla: (Li, Li + 1]

ni

pi

Ei = npi

(ni – Ei)2/Ei

[0, 5] (5, 10] (10, 20] (20, 30] (30, 300]

25 42 30 15 3

0,2953 0,2081 0,2500 0,1241 0,1225

33,9595 23,9315 28,7500 14,2715 14,0875

2,3638 13,6419 0,0543 0,0372 8,7264

n = 115

1,0000

24,8236

Como ninguna Ei es inferior o igual a cinco, no hay necesidad de realizar agrupaciones, con lo cual el valor de k es 5 y la distribución del estadístico c2 de Pearson es:

χ 2 H~ χ k2 − h − 1 ≡ χ 52 − 1 − 1 ≡ χ 32 0

146

© Ediciones Pirámide

Contraste de hipótesis no paramétrico La región crítica se representa gráficamente como:

χ23

1–

= 0,90

= 0,10

χ21–

y la hipótesis nula será rechazada si: 2 χ exp > χ12− α

donde c21 – a es tal que: P( χ 32 > χ12− α ) = α = 0,10 Utilizando la tabla 9, tenemos que:

χ12− α = 6,25 como 2 χ exp = 24,8236 > χ12− α = 6,25

se rechaza la hipótesis nula con un 10 % de significación, es decir, el modelo Exp (0,07) no es admisible para la distribución del tiempo transcurrido entre llegadas sucesivas a este centro de ITV. © Ediciones Pirámide

147

Ejercicios de inferencia estadística y muestreo En una comunidad de vecinos, los gastos de agua caliente y fría son costeados hasta el momento con el dinero de la comunidad. En la última reunión celebrada, algunos vecinos propusieron modificar este sistema, de manera que la comunidad pagase sólo hasta una determinada cantidad anual de agua caliente por vivienda, debiendo abonar el propietario el gasto por la cantidad restante. Para determinar cuál debería ser la cantidad máxima anual por vivienda que pagaría la comunidad, se seleccionaron al azar 15 viviendas, contabilizándose en ellas la cantidad de agua caliente gastada (en m3) al año. Los resultados obtenidos fueron: Ejercicio 3.6

78 73 132 66 102 96 82 67 79 75 85 68 85 92 68 Contraste, utilizando un nivel de significación del 1 %, si el consumo anual de agua caliente en esta comunidad se distribuye normalmente.

Definimos X = «Consumo anual de agua caliente en una vivienda de la comunidad». De esta variable se ha seleccionado una muestra aleatoria de tamaño 15, X1, ..., X15 y se pretende contrastar, utilizando la información muestral, si la variable aleatoria X sigue una distribución normal. Por tanto, planteamos las hipótesis: Solución

H0 : La muestra aleatoria procede de una distribución normal con media y desviación típica desconocidas. H1: La muestra no procede de una población normal. o bien, si F(x) es la función de distribución desconocida de X, entonces: H0 : F(x) es la función de distribución de una normal. H1: F(x) no es la función de distribución de una normal. Como los datos no están agrupados y, además, el tamaño muestral es pequeño, no utilizaremos el contraste c2 de Pearson de bondad de ajuste. Sin embargo, podemos contrastar las hipótesis anteriores mediante el test de normalidad de Lilliefors y mediante el test de normalidad de Shapiro-Wilks. En ambos, la hipótesis de normalidad aparece sin especificar los parámetros poblacionales media y desviación típica.

Contraste de normalidad de Lilliefors Para realizar este contraste a partir de la información de X1, ..., X15, calculamos, en primer lugar, la media y la varianza muestral: 148

© Ediciones Pirámide

Contraste de hipótesis no paramétrico x=

1 n 1.248 xi = = 83,2 ∑ n i =1 15

⎡ ⎢ n 1 1 ⎢n 2 2 2 s = ∑ ( xi − x ) = n − 1 ⎢ ∑ xi − n − 1 i =1 ⎣i = 1

2⎤

冢∑ x 冣 ⎥⎥ n

i =1

i





1 (1.248)2 = − = 108 . 054 ⎥ 14 15 ⎦

n

= 301, 4571 s=

s2 =

301, 4571 = 17,3625

En segundo lugar, tipificamos las observaciones originales: zi =

xi − x xi − 83,2 = s 17,3625

,

i = 1,..., 15

cuyos valores incorporaremos a la tabla en la que se realizarán todos los cálculos. El estadístico del contraste de Lilliefors es el mismo que para el de KolmogorovSmirnov, pero construido sobre los valores tipificados: Dn′ = máx 冟Fn ( z ) − F0 ( z )冟 z

con F0 la función de distribución correspondiente a la N(0, 1) y Fn la función de distribución empírica de las observaciones muestrales tipificadas. La región crítica o de rechazo de H0 viene determinada por el valor D¢a, tal que: P( Dn′ > Dα′ / H0 ) = α Utilizando la tabla 15 con a = 0,05 y n = 15, se tiene: Dα′ = 0,257 rechazándose la hipótesis de normalidad si: Dn,′ exp > Dα′ = 0,257 © Ediciones Pirámide

149

Ejercicios de inferencia estadística y muestreo Para calcular el valor experimental del estadístico de prueba, ordenamos las observaciones muestrales de menor a mayor, calculamos F0 (zi), Fn (zi) y obtenemos los valores: ai = 冟F0 ( zi ) − Fn ( zi )冟 bi = 冟F0 ( zi ) − Fn ( zi − 1 )冟 Organizamos los cálculos en la siguiente tabla, teniendo en cuenta que: Fn ( z ) =

N ( z ) Número de observaciones  z = n n

xi

ni

xini

xi2ni

zi

Fn(zi)

F0(zi)

ai = 兩F0(zi) – Fn(zi)兩

bi = 兩F0(zi) – Fn(zi – 1)兩

66 67 68 73 75 78 79 82 85 92 96 102 132

1 1 2 1 1 1 1 1 2 1 1 1 1

66 67 136 73 75 78 79 82 170 92 96 102 132

4.356 4.489 9.248 5.329 5.625 6.084 6.241 6.724 14.450 8.464 9.216 10.404 17.424

– 0,99 – 0,93 – 0,88 – 0,59 – 0,47 – 0,30 – 0,24 – 0,07 0,10 0,51 0,74 1,08 2,81

0,0667 0,1333 0,2667 0,3333 0,4000 0,4667 0,5333 0,6000 0,7333 0,8000 0,8667 0,9333 1,0000

0,1611 0,1762 0,1894 0,2776 0,3192 0,3821 0,4052 0,4721 0,5398 0,6950 0,7704 0,8599 0,9975

0,0944 0,0429 0,0773 0,0557 0,0808 0,0846 0,1281 0,1279 0,1935 0,1050 0,0963 0,0734 0,0025

0,1611 0,1095 0,0561 0,0109 0,0141 0,0179 0,0615 0,0612 0,0602 0,0383 0,0296 0,0068 0,0642

15

A partir de la tabla: Dn′, exp = máx{ai , bi} = 0,1935 < 0,257 = Dα′ i

Por tanto, al 1 % de significación, no se rechaza la hipótesis de normalidad de la distribución del agua caliente consumida. Contraste de normalidad de Shapiro-Wilks Para realizar el contraste, utilizaremos el estadístico W de Shapiro-Wilks:

冤∑ ai ( X(n − i +1) − X(i) )冥 k

W=

2

i =1

n

∑ ( Xi − X ) 2

i =1

150

© Ediciones Pirámide

Contraste de hipótesis no paramétrico donde: k=

n − 1 15 − 1 = = 7 ( pues n = 15 impar; si n fuera par, el valor de k sería igual a 2 2 n / 2).

ai, i = 1, ..., k son los coeficientes de normalidad de Shapiro-Wilks. X (i) es el estadístico ordenado de orden i (la observación i-ésima más pequeña). Con este estadístico, rechazaremos H0 si: Wˆ < Wα siendo Wa el valor, tal que: P[W < Wα / H0 ] = α Este valor crítico puede encontrarse en la tabla 17 utilizando n = 15 y a = 0,01, con lo cual: Wa = 0,835 Para calcular el valor experimental, Wˆ , ordenamos las observaciones de menor a mayor: ; X( 5) = 73 X(1) = 66 ; X( 2 ) = 67 ; X( 3) = 68 ; X( 4 ) = 68 ; X(10 ) = 85 X( 6 ) = 75 ; X( 7) = 78 ; X(8) = 79 ; X( 9 ) = 82 X(11) = 85 ; X(12 ) = 92 ; X(13) = 96 ; X(14 ) = 102 ; X(15) = 132 buscamos los coeficientes ai en la tabla 16 con n = 15 y calculamos las diferencias (X (n – i + 1) – X (i)): ai

X(n – i + 1) – X(i)

ai(X(n – i + 1) – X(i))

0,5150 0,3306 0,2495 0,1878 0,1353 0,0880 0,0433 0,0000

132 – 66 = 66 102 – 67 = 35 96 – 68 = 28 92 – 68 = 24 85 – 73 = 12 85 – 75 = 10 82 – 78 = 4 79 – 66 = 66

33,9900 11,5710 6,9860 4,5072 1,6236 0,8800 0,1732 00,000 59,7310

© Ediciones Pirámide

151

Ejercicios de inferencia estadística y muestreo El denominador de W se obtiene como:

∑ ( xi − x )2 = ∑ xi2 − nx 2 = 108.054 − 15 ⋅ 冢 n

D=

i =1

n

i =1

1.248 15



2

= 108.054 −

(1.248)2 = 4.220, 4 15

Por tanto:

冤∑ a ( X k

Wˆ =

i =1

( n − i + 1)

i

n



− X( i ) )

∑ ( xi − x ) 2

2

=

[59,731]2 = 0,8454 4.220, 4

i =1

Como: Wˆ = 0,8454 > Wα = 0,835 entonces, al 1 % de significación, no se rechaza la hipótesis de normalidad del consumo anual de agua caliente. En cierto ministerio se van a realizar unas oposiciones que permiten acceder al cuerpo de funcionarios del mismo. La primera prueba consiste en un examen tipo test con 100 preguntas. Los candidatos deben superar al menos la mitad de ellas para poder realizar los siguientes exámenes. Uno de los miembros del tribunal cree que este test está planteado de tal manera que la proporción de respuestas acertadas que obtendrá cada opositor es una variable aleatoria cuya función de densidad viene dada por: Ejercicio 3.7

⎧6 x (1 − x ) si 0  x  1 f ( x) = ⎨ en caso contrario ⎩0 Al finalizar la prueba se seleccionaron aleatoriamente los tests realizados por 12 opositores, que obtuvieron las siguientes puntuaciones: 50, 80, 42, 95, 80, 52, 40, 82, 56, 85, 46, 60 ¿Existen motivos para sospechar que esta persona está equivocada al suponer la función de densidad anterior como modelo de distribución para la proporción de respuestas acertadas? Nivel de significación: 1 %. 152

© Ediciones Pirámide

Contraste de hipótesis no paramétrico Sea X la variable aleatoria que representa la proporción de respuestas acertadas por un opositor en este test. Esta variable aleatoria tendrá una función de distribución F(x) desconocida. Se pretende realizar el siguiente contraste: Solución

H0 : F( x ) = F0 ( x ) H1: F( x ) ≠ F0 ( x ) donde F0 (x) es la función de distribución que se obtiene a partir de f(x):

F0 ( x ) =



x

−∞

si x < 0 ⎧0 ⎪ 2 f (t ) dt = ⎨ x (3 − 2 x ) si 0  x < 1 ⎪1 si x  1 ⎩

Como el tamaño de la muestra es pequeño, n = 12, utilizaremos el contraste de bondad de ajuste de Kolmogorov-Smirnov para una muestra, cuyo estadístico de prueba es: Dn = máx 冟F0 ( x ) − Fn ( x )冟 x

con Fn ( x ) =

N ( x ) Número de observaciones muestrales menores o iguales que x = n n

Para un nivel de significación a = 0,01, la región crítica está determinada por aquellos valores de Dn que superen a un valor crítico D a, tal que: P( Dn > Dα / H0 ) = α Utilizando la tabla 14 para un test bilateral, se tiene que: D a = 0,449 y se rechazará H0 cuando Dn,exp > D a. Gráficamente: Dn D = 0,449 © Ediciones Pirámide

153

Ejercicios de inferencia estadística y muestreo Para calcular el valor experimental, ordenamos las observaciones muestrales de menor a mayor, calculamos F0 (xi), Fn (xi) y obtenemos: ai = 冟F0 ( xi ) − Fn ( xi )冟 bi = 冟F0 ( xi ) − Fn ( xi − 1 )冟 Recordemos que xi es la proporción de respuestas acertadas por un opositor, es decir: xi =

Puntuación(i ) 100

Puntuación

xi = Puntuación(i)/100

ni

Fn(xi)

F0(xi)

40 42 46 50 52 56 60 80 82 85 95

0,40 0,42 0,46 0,50 0,52 0,56 0,60 0,80 0,82 0,85 0,95

1 1 1 1 1 1 1 2 1 1 1

1/12 = 0,083 2/12 = 0,167 3/12 = 0,250 4/12 = 0,333 5/12 = 0,417 6/12 = 0,500 7/12 = 0,583 9/12 = 0,750 10/12 = 0,833 11/12 = 0,917 12/12 = 1,000

0,352 0,381 0,440 0,500 0,530 0,590 0,648 0,896 0,914 0,939 0,993

ai

bi

0,269 兩0,352 – 0兩 = 0,352,000 0,214 兩0,381 – 0,083兩 = 0,298 0,273 0,190 0,250 0,167 0,197 0,113 0,173 0,090 0,148 0,065 0,313 0,146 0,164 0,081 0,106 0,022 0,076 0,007

n = 12

Como: máx{ai , bi} = b1 = 0,352 entonces: Dn, exp = 0,352 < Dα = 0, 449 por lo que, con los datos de la muestra, y utilizando un 1 % de significación, no existen motivos para rechazar H0. Por tanto, los datos muestrales no presentan evidencia suficiente para sospechar que este miembro del tribunal está equivocado, y se acepta así que la proporción de respuestas acertadas por cada opositor se distribuye según la función de densidad del enunciado. 154

© Ediciones Pirámide

Contraste de hipótesis no paramétrico En una determinada región existen tres facultades en las que se cursan estudios de Economía. Un programa de radio universitario pretende debatir si la dificultad de estos estudios pudiera estar relacionada con el centro donde se cursan. Para aportar información al programa, se propuso a los oyentes licenciados en Economía que llamaran a un teléfono gratuito donde se les realizaría una serie de preguntas. Con la información obtenida se completó la siguiente tabla de frecuencias, en la que las llamadas han sido clasificadas según el lugar donde se realizaron los estudios y el tiempo empleado en terminarlos: Ejercicio 3.8

Número de años empleados para finalizar la licenciatura de Economía

Facultad

4 o menos

Entre 5 y 6

7 o más

300 110 325

150 125 350

50 90 100

A B C

Suponiendo que estos datos pudieran ser considerados como procedentes de una muestra aleatoria, ¿se podría afirmar que existe alguna relación entre el centro de estudio y el tiempo que un estudiante tarda en terminar su carrera en Economía? Nivel de significación: 10 %.

Definimos la variable X como la que representa la facultad en la que ha estudiado un licenciado en Economía, y la variable Y como aquella que representa el número de años empleados para finalizar la carrera. Se pretende contrastar si existe relación entre estas dos variables o si, por el contrario, son independientes. Para ello, se utilizará la información de las llamadas telefónicas, que se consideran una muestra aleatoria con tamaño: Solución

n = 300 + 150 + 50 + 110 + 125 + 90 + 325 + 350 + 100 = 1.600 Las hipótesis a contrastar son: H0 : X , Y son independientes H1: X , Y no son independientes © Ediciones Pirámide

155

Ejercicios de inferencia estadística y muestreo Para realizar el contraste utilizaremos el test de independencia de la c2 de Pearson, cuyo estadístico de prueba es:

χ2 =

r

s

∑∑



nij −

ni.n. j n



2

ni.n. j

i =1 j =1

~ χ (2r − 1)( s − 1)

H0

n Para que esta distribución asintótica sea aceptable, el valor de n debe ser grande y las frecuencias esperadas, Eij = ni. n. j /n, no demasiado pequeñas (n > 30 y Eij > 5). Puesto que n = 1.600 > 30, calculemos los valores de las Eij de acuerdo al siguiente esquema dentro de cada casilla: nij

Eij

(nij − Eij )2 Eij Por tanto, tendremos la siguiente tabla: Facultad

4 o menos

300

5-6

229,688

150

7 o más

195,313

50

ni.

75

500

48,75

325

A 21,524 110

10,513

149,297

125

8,333

126,953

90

B 10,344 325

0,030

356,016

350

302,734

34,904 100

116,25

775

C 2,702 n. j

7,380

735

625

2,272 240

1.600 = n

que posee todas las frecuencias esperadas superiores a cinco, por lo que no es preciso realizar ninguna agrupación, siendo, por tanto, la distribución del estadístico de prueba:

χ2 156

~ χ (23 − 1)(3 − 1) ≡ χ 42

H0

© Ediciones Pirámide

Contraste de hipótesis no paramétrico La región crítica correspondiente al test de la c2 de Pearson (tabla 9) es: χ24

1–

= 0,90

= 0,10

χ21– = 7,78

y como el valor experimental es: 2 χ exp = 21,524 + 10,513 + 8,333 + 10,344 + 0,030 + 34,904 +

+ 2,702 + 7,380 + 2,272 = 98,002 superior al valor crítico c21 – a = 7,78, entonces rechazamos la hipótesis de independencia al 10 % de significación. Por tanto, existirá alguna relación entre las dos variables. Las asociaciones de madres y padres de alumnos de los colegios públicos de una determinada ciudad pretenden organizar de forma conjunta las actividades extraescolares del próximo curso. Para tratar de conocer el interés de los padres en el tipo de actividades que pueden desarrollar sus hijos, la comisión encargada decide llevar a cabo una encuesta a una muestra aleatoria de 1.500 padres. Con los datos de esta encuesta, pudo construirse la siguiente tabla: Ejercicio 3.9

Nivel de estudios de los padres Actividades

Competiciones deportivas Talleres creativos en la propia ciudad Excursiones diversas Otras

Primarios

Bachillerato

Universitarios

150 90 60 50

195 100 330 75

175 46 180 49

¿Cabe pensar, al 1 % de significación, que el nivel de estudios de los padres influye en el tipo de actividad extraescolar elegida para sus hijos? © Ediciones Pirámide

157

Ejercicios de inferencia estadística y muestreo Sea la variable X la que representa el tipo de actividad extraescolar y la variable Y la que representa el nivel de estudios de los padres. Estas variables presentan las categorías señaladas en la tabla del enunciado. Para tratar de comprobar si el nivel de estudios de los padres influye en el tipo de actividad extrescolar, planteamos un contraste de independencia: Solución

H0 : X , Y son independientes H1: X , Y no son independientes que tiene como estadístico de prueba el de la c2 de Pearson:

χ2 =

r

(nij − Eij )2

s

∑∑

~ χ (2r − 1)( s − 1)

H0

Eij

i =1 j =1

con r

n=

s

∑ ∑ nij > 30

Eij =

y

i =1 j =1

ni.n. j n

>5

En este caso, n = 1.500 > 30 y calculamos las Eij en la tabla adjunta de acuerdo con el siguiente esquema para cada una de las celdas: nij

Eij

(nij − Eij )2 Eij Por tanto, tendremos la siguiente tabla: Nivel de estudios de los padres Actividades Primarios

Competiciones deportivas Talleres creativos en la propia ciudad Excursiones diversas

90

55,07 100 110,13 22,16 0,93

60

133 330 40,07

350

46

40,6

266 180

75

520

70,8

236

171

570

52,2

174

0,47 81,2

49

0,47 700

ni.

8,69

15,40

2,18 n. j

Universitarios

121,33 195 242,67 175 156 6,77 9,36 2,31

50

Otras

158

150

Bachillerato

0,20 450

1.500 © Ediciones Pirámide

Contraste de hipótesis no paramétrico Como se aprecia en la tabla, todas las frecuencias esperadas, Eij, son superiores a cinco, por lo que no es preciso agrupar. Por tanto, la distribución del estadístico c2 de Pearson será:

χ2

~ χ (24 − 1)(3 − 1) ≡ χ 62

H0

Su valor experimental se obtiene sumando las cantidades situadas en la parte central de cada celda: 2 χ exp = 6,77 + 9,36 + 2,31 + 22,16 + … + 0,20 = 109,01

Como la región crítica del contraste de independencia tiene la forma:

χ26

1–

= 0,99

= 0,01

χ21– = 16,81

donde c21 – a = 16,81 ha sido buscado en la tabla 9, de manera que: P( χ 62  χ12− α ) = α = 0,01 entonces rechazamos la hipótesis de independencia (H0), puesto que: 2 χ exp = 109,01 > 16,81 = χ12− α

por lo que cabe pensar que el nivel de estudios de los padres influye a la hora de elegir la actividad extraescolar de sus hijos. © Ediciones Pirámide

159

Ejercicios de inferencia estadística y muestreo Uno de los encargados de una planta de montaje tiene la creencia de que el rendimiento de los trabajadores a primera hora de la mañana puede estar relacionado con el tiempo de viaje para acudir desde sus respectivas residencias hasta el lugar de trabajo. Para tratar de contrastar esta teoría, una mañana, los encargados de la planta deciden seleccionar una muestra aleatoria de 300 trabajadores, clasificándolos en la siguiente tabla según la duración del viaje y el número de unidades montadas durante la primera hora de trabajo: Ejercicio 3.10

Número de unidades montadas durante la primera hora Tiempo de viaje (minutos)

(0, 5] (poco eficientes)

(5, 10] (eficientes)

(10, 15] (muy eficientes)

2 3 10

85 80 75

14 14 17

(0, 15] (15, 30] (30, 90]

¿Se encuentra apoyada por estos datos la creencia del encargado con una significación del 1 %?

Representamos con las variables X e Y el tiempo de viaje y el número de unidades montadas, respectivamente. Si la creencia del encargado es cierta, entonces las variables serían dependientes. Por tanto, planteamos el contraste: Solución

H0 : X , Y son independientes H1: X , Y no son independientes que puede resolverse utilizando como estadístico de prueba el de la c2 de Pearson:

χ2 =

r

s

∑∑

i =1 j =1

(nij − Eij )2

~ χ (2r − 1)( s − 1)

H0

Eij

con r

n=

s

∑ ∑ nij = 300 > 30

i =1 j =1

y

Eij =

ni.n. j n

>5

para que la distribución asintótica bajo H0 sea aceptable. 160

© Ediciones Pirámide

Contraste de hipótesis no paramétrico Realizamos los cálculos en la siguiente tabla teniendo en cuenta que la estructura de cada celda es: nij

Eij

(nij − Eij )2 Eij Así: Número de unidades montadas durante la primera hora Tiempo de viaje (0, 5]

(5, 10]

ni.

(10, 15]

(0, 15]

2

5,05

85

80,8

14

15,15

101

(15, 30]

3

4,85

80

77,6

14

14,55

97

(30, 90]

10

5,10

75

81,6

17

15,30

102

n. j

15

240

45

300

donde se observa una frecuencia teórica inferior a cinco: E21 =

n2.n.1 97 ⋅ 15 = = 4,85 n 300

Por tanto, habrá que realizar agrupaciones hasta que todas las Eij superen a cinco. Para tratar de discriminar, por ejemplo, entre los que tienen un tiempo de viaje moderado y los que emplean mucho tiempo, agruparemos la primera y la segunda fila, resultando que la nueva tabla quedará: Número de unidades montadas durante la primera hora Tiempo de viaje (0, 5]

(0, 30]

(30, 90] n. j © Ediciones Pirámide

5

(5, 10]

9,9

165

2,43 10

15

158,4

28

0,275 5,1

75

4,71

29,7

198

15,3

102

0,10 81,6

17

0,53 240

ni.

(10, 15]

0,19 45

300

161

Ejercicios de inferencia estadística y muestreo donde, por ejemplo, los datos correspondientes a la primera celda son: n11 = 2 + 3 = 5 E11 = 5,05 + 4,85 = 9,9 (n11 − E11 )2 (5 − 9,9)2 = = 2, 43 E11 9,9 La distribución del estadístico de prueba tendrá en cuenta la agrupación realizada:

χ2

~ χ (22 − 1)(3 − 1) ≡ χ 22

H0

Con los datos de esta segunda tabla calculamos el valor experimental del estadístico: 2 χ exp = 2, 43 + 0,275 + 0,10 + 4,71 + 0,53 + 0,19 = 8,235

La región crítica correspondiente a este contraste queda gráficamente como:

χ22

0,99

= 0,01

χ21– = 9,21

donde el valor crítico c21 – a se ha buscado en la tabla 9, de manera que: P( χ 22  χ12− α ) = 1 − α = 0,99 Como c2exp = 8,235 < 9,21 = c21 – a, entonces no se rechaza H0 al 1 % de significación; por tanto, los datos no apoyan la creencia del encargado. 162

© Ediciones Pirámide

Contraste de hipótesis no paramétrico Un sindicato pretende analizar los accidentes laborales en los sectores de la construcción y de la siderometalurgia. Para ello, toma una muestra aleatoria de 125 empresas dedicadas a la construcción y otra de 75 pertenecientes al sector de la siderometalurgia. Una vez analizados los porcentajes de accidentes en cada una de estas empresas, obtiene la siguiente clasificación: Ejercicio 3.11

Porcentaje de accidentes Sector Menos del 10 %

Mayor o igual al 10 %

98 54

27 21

Construcción Siderometalurgia

¿Presentan estos dos sectores diferencias significativas en cuanto a la cantidad de accidentes laborales? Nivel de significación: 1 %.

Representamos con X el porcentaje de accidentes en las empresas de estos sectores. Para saber si este porcentaje presenta diferencias significativas entre el sector de la construcción y el de la siderometalurgia, se han seleccionado dos muestras aleatorias cuyos tamaños respectivos son n1 = 125 (construcción) y n2 = 75 (siderometalurgia). Veamos si los porcentajes de accidentes en las empresas de estas muestras son homogéneos: Solución

H0 : Las muestras son homogéneas H1: Las muestras no son homogéneas Para realizar este contraste de homogeneidad utilizaremos el estadístico c2 de Pearson:

χ = 2

r

s

∑∑

(nij − Eij )2 Eij

i =1 j =1

~ χ (2r − 1)( s − 1)

H0

donde: Eij =

ni m j n

>5

n = n1 + n2 = 125 + 75 = 200 > 30 © Ediciones Pirámide

163

Ejercicios de inferencia estadística y muestreo Para calcular las frecuencias teóricas, Eij, y comprobar que efectivamente son superiores a cinco, construimos la tabla adjunta, en la que cada celda posee la siguiente estructura: nij

Eij

(nij − Eij )2 Eij

Porcentaje de accidentes Sector Menos del 10 %

Construcción

Siderometalurgia mj

98

95

Mayor o igual al 10 %

27

0,09

ni

30

125

18

75

0,3

54

57

21

0,16

0,5

152

48

n = 200

Por ejemplo, los datos de la primera celda corresponden a: n11 = 98 E11 =

n1m1 125 ⋅ 152 = = 95 n 200

(n11 − E11 )2 (98 − 95)2 = = 0,09 E11 95 Se observa que todos los valores Eij son superiores a cinco. Por tanto, la distribución del estadístico de prueba bajo la hipótesis nula será:

χ2

~ χ (22 − 1)( 2 − 1) ≡ χ12

H0

y su valor experimental se obtiene como suma de las cantidades centrales de las celdas: 2 χ exp = 0,09 + 0,3 + 0,16 + 0,5 = 1,05

164

© Ediciones Pirámide

Contraste de hipótesis no paramétrico La región crítica del test de homogeneidad se obtiene a partir de la tabla 9: P( χ12  χ12− α ) = 1 − α = 1 − 0,01 = 0,99 ⇒ χ12− α = 6,63

χ21

0,99

= 0,01

χ21– = 6,63

Como c2exp = 1,05 < 6,63, entonces, al 1 % de significación, no se rechaza la hipótesis H0 de homogeneidad de las muestras. Por tanto, los datos no señalan la existencia de diferencias significativas en los porcentajes de accidentes laborales.

Un comité de Naciones Unidas está encargado de realizar un estudio para implantar un programa de salud pública en una ciudad de un país que no dispone de censos fiables. Para conocer la distribución por edades de la población de esta ciudad se toma una muestra aleatoria de individuos en cada uno de los tres distritos administrativos en que se encuentra dividida. Los resultados obtenidos aparecen en la siguiente tabla: Ejercicio 3.12

Edades Distritos Menores de 14

14-24

25-34

35-44

45-64

65 o más

298 324 237

120 149 94

105 97 83

283 321 230

134 217 175

60 92 81

Distrito I Distrito II Distrito III

A la vista de estos datos, y con un 5 % de significación, ¿existen diferencias significativas en cuanto a la distribución por edades de la población en los tres distritos de la ciudad? © Ediciones Pirámide

165

Ejercicios de inferencia estadística y muestreo Sea X la variable aleatoria que representa la edad de un individuo. En este caso se considera dicha variable clasificada en seis intervalos de edades, que son los que aparecen en la tabla del enunciado. Se han tomado tres muestras aleatorias, una en cada distrito, de tamaños: Solución

n1 = 298 + 120 + 105 + 283 + 134 + 60 = 1.000 n2 = 324 + 149 + 97 + 321 + 217 + 92 = 1.200 n3 = 237 + 94 + 83 + 230 + 175 + 81 = 900 Si no existieran diferencias en las distribuciones por edades de la población en los distritos de la ciudad, cabría esperar la homogeneidad de las muestras seleccionadas. Por tanto, planteamos el contraste: H0 : Las muestras son homogéneas H1: Las muestras no son homogéneas Para tomar la decisión utilizaremos el estadístico c2 de Pearson:

χ2 =

r

s

∑∑

i =1 j =1



nij −

ni m j n



2

ni m j

~ χ (2r − 1)( s − 1)

H0

n Para que esta distribución asintótica sea aceptable, el valor de n debe ser grande y las frecuencias esperadas, Eij = nimj /n, no demasiado pequeñas (n > 30 y Eij > 5). Ahora bien, n = 1.000 + 1.200 + 900 = 3.100, con lo que se cumple la condición sobre el número de individuos. Para calcular las frecuencias esperadas nos ceñiremos al siguiente esquema:

nij

Eij =

ni m j n

(nij − Eij )2 Eij 166

© Ediciones Pirámide

Contraste de hipótesis no paramétrico Así pues: Edades 0,05 de donde se deduce que k¢a/2 = 3, y, además: P( R  7) = 0,8810 ⇒ P( R  8) = 1 − 0,8810 = 0,1190 > 0,05 P( R  8) = 0,9762 ⇒ P( R  9) = 1 − 0,9762 = 0,0238  0,05 por lo que k a/2 = 9. Por tanto, la región de rechazo de H0 será:

3

9

Como el número de rachas en la muestra de las 10 observaciones es: 3 = kα′ / 2 < Rˆ = 5 < kα / 2 = 9 entonces, al 5% de significación, no rechazamos la aleatoriedad en la dirección de las desviaciones de las cotizaciones con respecto a la media histórica de 18,00 euros. © Ediciones Pirámide

169

Ejercicios de inferencia estadística y muestreo b) Llamamos X a la variable aleatoria que representa las cotizaciones de las acciones de la compañía. Se tienen 10 observaciones de X, (X1, ..., X10), que pueden considerarse una muestra aleatoria. Planteamos las siguientes hipótesis: H0 : La muestra procede de una distribución normal con media y desviación típica desconocidas H1: La muestra no procede de una población normal Como los datos no están agrupados y el tamaño muestral es pequeño, no se utiliza el test c2 de Pearson de bondad de ajuste, sino los contrastes de normalidad de Lilliefors y de Shapiro-Wilks. En ninguno de estos dos se especifican los parámetros poblacionales en la hipótesis de normalidad.

Contraste de normalidad de Lilliefors Calculamos la media y desviación típica muestrales:

x=

1 n 169,35 xi = = 16,935 ∑ n i =1 10

⎡ ⎢ n 1 1 ⎢n 2 2 2 s = ∑ ( xi − x ) = n − 1 ⎢ ∑ xi − n − 1 i =1 ⎣i = 1 = s=

2⎤

冢∑ x 冣 ⎥⎥ n

i =1

i

n





1 (169,35)2 = − = 2 . 942 , 1975 ⎥ 9 10 ⎦

74,25525 = 8,250583 9 s 2 = 2,8724

Con estos valores tipificamos las observaciones originales, es decir, calculamos: zi =

xi − x xi − 16,935 = s 2,8724

cuyos valores incorporamos a la tabla de cálculos. 170

© Ediciones Pirámide

Contraste de hipótesis no paramétrico El estadístico de prueba de Lilliefors se construye sobre los valores tipificados, zi: Dn′ = máx 冟Fn ( z ) − F0 ( z )冟 z

con F0 (z) la función de distribución de una N(0, 1) y Fn (z) la función de distribución empírica de la muestra tipificada: Fn ( z ) =

N ( z ) Número de observaciones  z = n n

Rechazaremos la hipótesis de normalidad si: Dn,′ exp > Dα′ siendo D¢a el valor, tal que: P( Dn′ > Dα′ / H0 ) = α = 0,10 Utilizando la tabla 15, se tiene que: Dα′ = 0,239 El valor experimental de D¢n se obtiene a partir de la tabla adjunta, donde se han ordenado las observaciones y calculado F0 (zi), Fn (zi) y: ai = 冟F0 ( zi ) − Fn ( zi )冟 bi = 冟F0 ( zi ) − Fn ( zi − 1 )冟 xi

zi

Fn(zi)

F0(zi)

ai = 兩F0(zi) – Fn(zi)兩

bi = 兩F0(zi) – Fn(zi – 1)兩

12,65 13,50 14,50 15,00 17,25 17,75 18,40 19,30 20,00 21,00

– 1,49 – 1,20 – 0,85 – 0,67 0,11 0,28 0,51 0,82 1,07 1,42

0,1000 0,2000 0,3000 0,4000 0,5000 0,6000 0,7000 0,8000 0,9000 1,0000

0,0681 0,1151 0,1977 0,2503 0,5438 0,6103 0,6950 0,7939 0,8577 0,9222

0,0319 0,0849 0,1023 0,1497 0,0438 0,0103 0,0050 0,0061 0,0423 0,0778

0,0681 0,0151 0,0023 0,0497 0,1438 0,1103 0,0950 0,0939 0,0577 0,0222

© Ediciones Pirámide

171

Ejercicios de inferencia estadística y muestreo De la tabla anterior, se tiene que: Dn′, exp = máx{ai , bi} = 0,1497 < 0,239 = Dα′ i

por lo que, al 10 % de significación, no se rechaza la hipótesis nula.

Contraste de normalidad de Shapiro-Wilks Planteamos la hipótesis de normalidad sin especificar los parámetros poblacionales: H0 : F( x ) es la función de distribución normal (la muestra procede de una población normal) H1: F( x ) no es la función de distribución normal con X la variable aleatoria que representa las cotizaciones de las acciones y F(x) su función de distribución, que es desconocida. El estadístico W de Shapiro-Wilks se obtendrá a partir de la fórmula:

冤∑ ai ( X(n − i +1) − X(i) )冥 k

W=

2

i =1

n

∑ ( Xi − X ) 2

i =1

con k=

n 10 = = 5 (pues n es par) 2 2

X (i), el estadístico ordenado de orden i ai, i = 1, ..., k, los coeficientes del test de Shapiro-Wilks, que se obtienen a partir de la tabla 16: a1 = 0,5739

; a2 = 0,3291

;

a3 = 0,2141 ;

a4 = 0,1224

;

a5 = 0,0399

Rechazamos la hipótesis de normalidad, H0, cuando: Wˆ < Wα 172

© Ediciones Pirámide

Contraste de hipótesis no paramétrico donde Wa se obtiene a partir de la tabla 17, de manera que: P[W < Wα / H0 ] = α = 0,10 ⇒ Wα = 0,869 Para calcular el valor experimental, Wˆ , ordenamos las observaciones de menor a mayor: X(1) = 12,65 ; X( 2 ) = 13,50 ; X( 3) = 14,50 ; X( 4 ) = 15,00 ; X( 5) = 17,25 X( 6 ) = 17,75 ; X( 7) = 18, 40 ; X(8) = 19,30 ; X( 9 ) = 20,00 ; X(10 ) = 21,00 Organizamos las operaciones en la siguiente tabla: ai

X(n – i + 1) – X(i)

ai(X(n – i + 1) – X(i))

0,5739 0,3291 0,2141 0,1224 0,0399

21,00 – 12,65 = 8,35 20,00 – 13,50 = 6,50 19,30 – 14,50 = 4,80 18,40 – 15,00 = 3,40 17,75 – 17,25 = 0,50

4,792065 2,139150 1,027680 0,416160 0,019950 8,395005

y calculamos el denominador de W:

冢∑ x 冣 n

n

D=

∑ ( xi − x ) 2 =

i =1

n

∑ xi2 −

i =1

2

i =1

n

i

= 2.942,1975 −

(169,35)2 = 74,25525 10

Así pues: [8,395005]2 Wˆ = = 0,949 74,25525 Como: Wˆ = 0,949 > Wα = 0,869 entonces, al 10 % de significación, no se rechaza la hipótesis de normalidad. © Ediciones Pirámide

173

Ejercicios de inferencia estadística y muestreo De una revista de investigación sobre el mercado turístico se han obtenido los datos correspondientes al número total de turistas que visitaron España durante el período 1980-1996: Ejercicio 3.14

Año

Número de turistas (miles)

1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996

28.900 29.450 25.405 30.125 33.361 31.608 32.950 33.104 33.912 32.342 34.085 34.553 39.897 36.724 38.430 39.324 41.295

¿Confirman estos datos la existencia de tendencia en la serie relativa al número de turistas que visitan España? Nivel de significación: 1%. Se trata de intentar detectar la existencia de no aleatoriedad como consecuencia de la presencia de una tendencia. Para ello, podemos utilizar el test de rachas unilateral a la izquierda aplicado a la sucesión dicotómica correspondiente a los signos de las diferencias Di = Xi – Me, donde Me es la mediana muestral. Las hipótesis del contraste pueden formularse como: Solución

H0 : La muestra es aleatoria H1: Los datos muestrales presentan tendencia con región crítica o de rechazo de H0 dada por la cola de la izquierda:  k′

174

© Ediciones Pirámide

Contraste de hipótesis no paramétrico siendo k¢a el mayor entero, tal que: P( R  kα′ )  α = 0,01 Para determinar este valor crítico y el valor experimental del estadístico de prueba (R = número total de rachas), transformamos los datos en dicotómicos, asignándoles el signo correspondiente al valor de las diferencias con respecto a la mediana de la muestra e ignorando aquellas observaciones cuya diferencia sea nula. Como en nuestro caso hay 17 observaciones, la mediana será la que ocupe el lugar noveno ((17 + 1)/2) en la muestra ordenada de menor a mayor: 25.405 32.950 36.724

; ; ;

28.900 33.104 38.430

; ; ;

29.450 33.361 39.324

; ; ;

30.125 33.912 39.897

; ; ;

31.608 34.085 41.295

; ;

32.342 34.553

Por tanto: Me = 33.361 y la sucesión dicotómica de los signos de las diferencias Di = Xi – Me = Xi – 33.361 es:

冟–

– – – 0 – – –冟+冟–冟+ + + + + + +冟

Como hay una observación cuya diferencia es cero, ignoramos la observación correspondiente y reducimos en una unidad el tamaño muestral, es decir, n = 16 Sea: n1 = «Número de signos +» = 8 n2 = «Número de signos −» = 8 r = «Número de rachas» = 4 Utilizando la tabla 20 con los valores de n1 = 8 = n2, obtenemos que: P( R  4) = 0,0089  0,01 = α P( R  5) = 0,0317 > 0,01 = α © Ediciones Pirámide

175

Ejercicios de inferencia estadística y muestreo por tanto, el valor crítico será: kα′ = 4 y rechazaremos la aleatoriedad de la muestra en favor de la existencia de tendencia cuando: Rˆ  4 Como en este caso concreto: Rˆ = r = 4 entonces rechazamos H0, al 1 % de significación, con lo cual los datos indican que existe tendencia en la serie del número de turistas que visitaron España entre 1980 y 1996.

Ejercicio 3.15

Una hoja de cálculo proporciona el siguiente valor para el número e: e = 2,71828182845905

Compruebe si estas 15 primeras cifras tienen la propiedad de ser una secuencia de cifras elegidas de manera aleatoria. Nivel de significación: 10 %.

Solución

Como se pretende ver si la sucesión de cifras es aleatoria o no, el contraste a realizar es: H0 : La muestra es aleatoria H1: La muestra no es aleatoria

que puede resolverse con el test de rachas de Wald-Wolfowitz utilizando como estadístico de prueba: R = «Número total de rachas en la muestra» 176

© Ediciones Pirámide

Contraste de hipótesis no paramétrico Para un nivel de significación a = 0,10, la región crítica bilateral vendrá determinada por aquellos valores k¢a/2 y k a/2 que serán, respectivamente, el mayor y el menor enteros, tales que: P( R  kα′ / 2 )  α / 2 = 0,05 P( R  kα / 2 )  α / 2 = 0,05 rechazando H0 cuando Rˆ  k¢a/2 o cuando Rˆ  k a/2. Al tener datos cuantitativos, las rachas se obtendrán asignando un signo + o – a las diferencias Di = Xi – Me, donde Me es la mediana de la muestra, y despreciando las diferencias iguales a cero con la correspondiente reducción del tamaño muestral. Calculamos, pues, la mediana muestral ordenando las observaciones de menor a mayor: 011222455788889 Entonces, como Me = 5, la sucesión de signos correspondientes para aplicar el test de rachas que se obtiene a partir de la sucesión original es la siguiente:

冟 – 冟 + 冟 – 冟 + 冟 – 冟 + 冟 – 冟 + 冟 – 冟 + 冟 – 0冟 + 冟 – 0冟 Como hemos obtenido dos diferencias iguales a cero, reducimos el tamaño muestral en dos unidades, con lo cual, n = 13, n1 = 6 (número de signos +) y n2 = 7 (número de signos –). Con estas cantidades buscamos los valores críticos en la tabla 20, donde encontramos: P( R  4) = 0,0425  0,05⎫ ⎬ ⇒ kα′ / 2 = 4 P( R  5) = 0,1212 > 0,05 ⎭ y, además, como: P( R  9) = 0,8788

y

P( R  10) = 0,9662

entonces: P( R  10) = 1 − P( R < 10) = 1 − P( R  9) = 1 − 0,8788 = 0,1212 > 0,05 ⎫ ⎬ ⇒ kα / 2 = 11 P( R  11) = 1 − P( R < 11) = 1 − P( R  10) = 1 − 0,9662 = 0,0338  0,05⎭ © Ediciones Pirámide

177

Ejercicios de inferencia estadística y muestreo y se obtiene la siguiente región crítica: R k

k′ /2 = 4

/2

= 11

Para calcular el valor experimental, contabilizamos el número de rachas en la muestra, resultando: Rˆ = 13 Como Rˆ = 13 > k a/2 = 11, entonces, con un 10 % de significación, se rechaza H0 y, por tanto, la aleatoriedad en el orden de las 15 primeras cifras del número e.

El día en que determinado centro comercial celebró su noveno aniversario, se realizó un sorteo de nueve automóviles entre los clientes que acudieron a realizar sus compras al supermercado de dicho centro. El sorteo se realizó ante notario, eligiendo al azar nueve números de registro correspondientes a los tickets de compras realizadas ese mismo día. El volumen del gasto (en euros) realizado en los tickets elegidos fue de: Ejercicio 3.16

149,99

;

95,38

203,42

;

105,00

;

154,20 ;

164,00

;

123,00 ;

;

85,58

82,00

Con un nivel de significación del 10 %, ¿indican los datos que la mitad de los clientes gastaron como mucho 150,00 euros en el supermercado de este centro comercial?

Sea X = «Gasto realizado por un cliente en el supermercado del centro comercial el día del noveno aniversario». La mediana poblacional de esta variable aleatoria será aquel valor Me, tal que: Solución

50%

50%

Gasto Me

178

© Ediciones Pirámide

Contraste de hipótesis no paramétrico Por tanto, se pretende contrastar si este valor poblacional es o no 150 euros. Es decir, la formulación de las hipótesis será: H0 : Me = 150 = m H1: Me ≠ 150 Para tomar la decisión podemos utilizar el contraste de signos de la mediana o el de rangos-signos de Wilcoxon. Contraste de signos de la mediana Suponemos que la variable aleatoria X es continua al menos en un entorno alrededor de su mediana poblacional, Me; es decir, que P(X = Me) = 0. Como el número de observaciones es igual a nueve, el estadístico de prueba a utilizar será: S + = «Número de signos + en la muestra» cuya distribución, si la hipótesis nula es cierta, es: S+

~ B(n, 1/ 2)

H0

Para obtener la sucesión de signos + y –, calculamos las desviaciones de las observaciones con respecto al valor mediano propuesto, m = 150,00, y asignamos el signo correspondiente, ignorando aquellas observaciones cuya desviación sea nula. Es decir: ⎧> 0 ⇒ Asignamos signo + ⎪ Di = Xi − m = Xi − 150,00 ⎨< 0 ⇒ Asignamos signo − ⎪= 0 ⇒ Ignoramos la observación y reducimos n ⎩ En este caso, la sucesión de signos quedará como sigue: – – + – – + – + – y, por tanto, como no hay valores iguales a cero: S+ © Ediciones Pirámide

~ B(n = 9, 1/ 2)

H0

179

Ejercicios de inferencia estadística y muestreo El valor experimental correspondiente será: Sˆ + = 3 Como se trata de un contraste bilateral, la región crítica tiene dos colas:  /2

 /2 k′ /2

k

/2

donde k¢a/2 y k a/2 son el mayor y el menor entero, respectivamente, tales que, para un nivel de significación a = 0,10: P( S +  kα′ / 2 )  α / 2 = 0,05 P( S +  kα / 2 )  α / 2 = 0,05 Utilizando la tabla 2 de la función de distribución para una B(9, 1/2), tenemos que: P( S +  1) = 0,0195  0,05 P( S +  2) = 0,0898 > 0,05 por tanto: kα′ /2 = 1 Como además: P( S +  6) = 0,9102 P( S +  7) = 0,9805 entonces: P( S +  7) = 1 − P( S + < 7) = 1 − P( S +  6) = 1 − 0,9102 = 0,0898 > 0,05 P( S +  8) = 1 − P( S + < 8) = 1 − P( S +  7) = 1 − 0,9805 = 0,0195  0,05 180

© Ediciones Pirámide

Contraste de hipótesis no paramétrico con lo cual: kα /2 = 8 Hay que observar que este último valor puede obtenerse también utilizando la simetría de una B(n, 1/2); por tanto: kα / 2 = n − kα′ / 2 = 9 − 1 = 8 Así, rechazaremos H0 si: Sˆ +  kα′ / 2 = 1

o

Sˆ +  kα / 2 = 8

Como en este caso: kα′ / 2 = 1 < Sˆ + = 3 < 8 = kα / 2 entonces no rechazamos H0, al 10 % de significación; por tanto, los datos no contradicen la afirmación de que la mitad de los clientes gastaron como mucho 150 euros.

Contraste de rangos-signos de Wilcoxon Suponemos que la distribución de la variable X es continua y simétrica con respecto a su mediana poblacional. Para aplicar el contraste de rangos-signos de Wilcoxon a las hipótesis: H0 : Me = 150,00 = m H1: Me ≠ 150,00 utilizamos el estadístico: T + = «Suma de rangos de las Di > 0» con Di = Xi – m = Xi – 150,00, haciendo las mismas asignaciones de signos + y – que en el contraste de signos de la mediana, pero calculando además las magnitudes de estas © Ediciones Pirámide

181

Ejercicios de inferencia estadística y muestreo diferencias, que serán utilizadas para asignar los rangos correspondientes. Así, obtendremos la siguiente tabla: xi

di = xi – 150,00

Signo

Rango de 兩 di 兩

149,99 95,38 154,20 123,00 85,58 203,42 105,00 164,00 82,00

– 0,01 – 54,62 4,20 – 27,00 – 64,42 53,42 – 45,00 14,00 – 68,00

– – + – – + – + –

1 7 2 4 8 6 5 3 9

Para calcular los rangos se han ordenado las diferencias en valor absoluto, 冟 di 冟, y se le ha asignado rango 1 a la menor de ellas y rango 9 a la mayor. Hay que observar que, en este caso, no existen valores de 冟 di 冟 repetidos ni iguales a cero. Con los datos de la tabla: Tˆ + = 2 + 6 + 3 = 11 Como el contraste es bilateral, la región crítica tendrá dos colas:  /2 = 0,05

 /2 = 0,05 k′ /2

k

/2

siendo a = 0,10 el nivel de significación y k¢a/2, k a/2 el mayor y menor entero, respectivamente, tales que: P(T +  kα′ / 2 )  α / 2 = 0,05 P(T +  kα / 2 )  α / 2 = 0,05 Para obtener estos valores críticos utilizamos la tabla 21 con n = 9, de forma que: P(T +  kα′ / 2 )  0,05 ⇒ kα′ / 2 = 8 P(T +  kα / 2 )  0,05 = 1 − 0,95 ⇒ kα / 2 = 37 182

© Ediciones Pirámide

Contraste de hipótesis no paramétrico Así pues, como: 8 = kα′ / 2 < Tˆ + = 11 < kα / 2 = 37 con una significación del 10 % no se puede rechazar H0 : Me = 150,00.

Un inversor en bolsa posee acciones en diferentes sectores del mercado continuo de valores. Por diferentes motivos, ha despedido a su asesor. Con el fin de tener una idea sobre las cotizaciones de sus acciones, el inversor seleccionó nueve sociedades al azar entre las que tenía participación y revisó sus cotizaciones de cierre el pasado viernes: Ejercicio 3.17

Sociedad

Cotización (€)

Telefónica BBVA BSCH Banesto Aceralia Dragados y Construcciones Endesa Repsol Carrefour

10,810 6,290 3,980 2,560 3,000 4,120 3,440 6,610 3,000

Utilizando un 10 % de significación, ¿indican estos valores que más de la mitad de las sociedades en las que participa este inversor presentan cotizaciones superiores a tres euros?

Representamos con X la cotización de cierre (en euros) de las acciones de las sociedades en las que tiene inversiones. Sea Me la mediana poblacional de la variable aleatoria X; entonces: Solución

50%

50%

Cotizaciones 3

Me Más del 50%

© Ediciones Pirámide

183

Ejercicios de inferencia estadística y muestreo Por tanto, las hipótesis que se quieren contrastar se plantean como: H0 : Me  3 H1: Me > 3 Es decir, se trata de un contraste unilaterial sobre la mediana poblacional, que puede resolverse utilizando el test de signos de la mediana o el de rangos-signos de Wilcoxon. Contraste de signos de la mediana Suponemos que los valores de las cotizaciones son continuos en un entorno alrededor de su mediana. El contraste de signos de la mediana se basa en el estadístico: S + = «Número de signos + en la muestra»

~ B(n, 1/ 2)

H0

donde los signos + o – vienen dados en función del signo de las diferencias Di: ⎧> 0 ⇒ Asignamos signo + ⎪ Di = Xi − m = Xi − 3 ⎨< 0 ⇒ Asignamos signo − ⎪= 0 ⇒ Ignoramos la observación y reducimos el tamaño muestral ⎩ Con los valores observados, se tiene la siguiente sucesión de signos: + + + – 0 + + + 0 Por tanto, el tamaño muestral será n = 7, y la distribución de S + bajo la hipótesis nula: S+

~ B(7, 1/ 2)

H0

con Sˆ + = 6 como valor experimental. La región crítica de este contraste unilateral tendrá la forma:  0

k

= 0,10 n=7

con k a el menor entero, tal que P(S +  k a)  a = 0,10. 184

© Ediciones Pirámide

Contraste de hipótesis no paramétrico Utilizando la tabla 2 para una distribución B(7, 1/2), el valor crítico se obtendrá teniendo en cuenta que: P( S +  4) = 0,7734 ⇒ P( S +  5) = 1 − P( S + < 5) = 1 − P( S +  4) = 0,2266 > 0,10 P( S +  5) = 0,9375 ⇒ P( S +  6) = 1 − P( S + < 6) = 1 − P( S +  5) = 0,0625  0,10 y así: ka = 6 Como el valor experimental, Sˆ + = 6, coincide con el valor crítico, k a = 6, entonces, al 10 % de significación, se rechaza la hipótesis nula H0 : Me  3, con lo cual los valores observados indican que más de la mitad de las sociedades en las que participa este inversor presentan cotizaciones superiores a tres euros. Contraste de rangos-signos de Wilcoxon Para poder aplicar este contraste supondremos que la variable X es continua y simétrica con respecto a su mediana. El test de rangos-signos de Wilcoxon utiliza como estadístico de prueba: T + = «Suma de rangos de las Di > 0» donde los valores de Di y los signos que se les asignan se definen de la misma forma que en el contraste de signos de la mediana. Para obtener los rangos, se ordenan de menor a mayor los valores absolutos de las diferencias, es decir, los 冟 di 冟, y se asignan los rangos o números de orden desde 1 hasta n. Si existen valores de 冟 di 冟 repetidos, el rango correspondiente será el promedio de los que se les asignarían si fueran diferentes. En nuestro caso:

© Ediciones Pirámide

xi

di = xi – 3

10,810 6,290 3,980 2,560 3,000 4,120 3,440 6,610 3,000

7,810 3,290 0,980 – 0,440 0,000 1,120 0,440 3,610 0,000

185

Ejercicios de inferencia estadística y muestreo Como hay dos diferencias nulas, entonces, el tamaño muestral se reduce en dos observaciones: n=9–2=7 Ordenamos 冟 di 冟 y les asignamos su rango: 冟 di 冟

Signo

Rango

0,440 0,440 0,980 1,120 3,290 3,610 7,810

– + + + + + +

1,5 1,5 3,0 4,0 5,0 6,0 7,0

Por tanto, el valor experimental es: Tˆ + = 1,5 + 3 + 4 + 5 + 6 + 7 = 26,5 La región crítica unilateral tiene la forma:  k

= 0,10 T+

donde k a se busca en la tabla 21 de manera que sea el menor entero que verifique: P(T +  kα )  α = 0,10 = 1 − 0,90 Así pues, con n = 7: k a = 23 y como: Tˆ + = 26,5 > kα = 23 entonces se rechaza H0 al 10 % de significación. 186

© Ediciones Pirámide

Contraste de hipótesis no paramétrico Una agencia inmobiliaria desea adquirir 12 inmuebles que van a ser sometidos a pública subasta en el plazo de un mes. Un perito que trabaja en esta agencia ha visitado los inmuebles y ha realizado las tasaciones que consideró oportunas, teniendo en cuenta las dimensiones, antigüedad, localización geográfica, etc. Posteriormente, la agencia recibe los valores de los inmuebles correspondientes a las tasaciones oficiales. Ambas tasaciones, en miles de euros, se recogen en la siguiente tabla: Ejercicio 3.18

Número del inmueble

Tasación oficial

Tasación privada

1 2 3 4 5 6 7 8 9 10 11 12

155 227 175 135 167 450 148 182 155 165 254 129

156 235 175 150 163 455 150 180 163 170 263 130

Contraste, al 10 % de significación, si hay diferencias entre los valores de tasación oficiales y los realizados por su propio perito.

Solución

Definimos las variables aleatorias X e Y como:

X = «Tasación oficial del inmueble». Y = «Tasación de un inmueble realizada por el perito de la agencia». Podemos considerar los datos correspondientes a los 12 inmuebles como una muestra apareada: (X1, Y1), ..., (X12, Y12) Las diferencias entre los valores de tasación oficiales y los realizados por el perito se definen como: Di = Xi – Yi , © Ediciones Pirámide

i = 1, ..., 12 187

Ejercicios de inferencia estadística y muestreo Para contrastar la existencia de diferencias entre las tasaciones, planteamos las hipótesis: H0 : MeD = 0 H1: MeD ≠ 0 La decisión de rechazar H0 puede tomarse utilizando el contraste de signos de la mediana, cuyo estadístico de prueba es: S + = «Número de signos + en la muestra» cuya distribución bajo la hipótesis nula es: S+

~ B(n, 1/ 2)

H0

Los signos + y – se obtienen de la siguiente forma: ⎧> 0 ⇒ Asignamos + ⎪ Di = Xi − Yi − 0 ⎨< 0 ⇒ Asignamos − ⎪= 0 ⇒ Ignoramos el par ( X , Y ) y reducimos el tamaño muestral i i ⎩ En este caso: Número del inmueble

d i = x i – yi

1 2 3 4 5 6 7 8 9 10 11 12

–1 –8 0 – 15 4 –5 –2 2 –8 –5 –9 –1

Como la tasación oficial del tercer inmueble coincide con la del perito de la agencia, entonces, reducimos el tamaño de la muestra: n = 12 – 1 = 11 188

© Ediciones Pirámide

Contraste de hipótesis no paramétrico y, por tanto: S+

~ B(11, 1/ 2)

H0

La región crítica del contraste bilateral es:  /2

 /2 k′ /2

k

/2

con k¢a/2 y k a/2 el mayor y menor entero, respectivamente, tales que: P( S +  kα′ / 2 )  α / 2 = 0,05 P( S +  kα / 2 )  α / 2 = 0,05 Utilizando la tabla 2 para una distribución B(11, 1/2), encontramos: P( S +  2) = 0,0327  0,05 = α / 2 P( S +  3) = 0,1133 > 0,05 por tanto: kα′ /2 = 2 y utilizando la simetría de la B(n, 1/2): kα / 2 = n − kα′ / 2 = 11 − 2 = 9 con lo cual rechazamos H0 si: Sˆ +  kα′ / 2 = 2 o si: Sˆ +  kα / 2 = 9 Como en nuestro caso: Sˆ + = 2  kα′ / 2 = 2 © Ediciones Pirámide

189

Ejercicios de inferencia estadística y muestreo entonces rechazamos H0, al 10 % de significación, es decir, los datos parecen señalar la existencia de diferencias entre los valores oficiales y las tasaciones realizadas por el perito de la agencia. Como n = 11 > 10, se podría haber utilizado la aproximación normal del estadístico: Z=

S + − E[ S + ] Var [ S + ]

=

2S + − n H0 n→∞

n

N (0, 1)

que tiene por valor experimental: zexp =

2 ⋅ 2 − 11 11

= − 2,11

La región crítica bilateral con esta aproximación es: N(0,1)

/2 = 0,05

–z

/2

/2 = 0,05

= – 1,645

z

/2

= 1,645

por lo que también rechazamos H0, ya que: zexp = − 2,11 < − zα / 2 = − 1,645

Para el diseño de un conjunto de estrategias de marketing, el director de un concesionario de automóviles está interesado en obtener información sobre las edades de los compradores de un determinado modelo de utilitario. Por este motivo, se decide registrar la edad de las personas que compran este tipo de coche. La secuencia obtenida fue la siguiente: Ejercicio 3.19

31 31 32 23 190

26 29 31 34

25 28 32 23

30 25 27 26

34 42 35

40 27 31

29 36 23

24 29 37

24 29 28

28 34 20

© Ediciones Pirámide

Contraste de hipótesis no paramétrico Utilizando un 5 % de significación: a) ¿Debe admitirse en esta serie de edades la aleatoriedad? b) ¿Señalan los datos que la mitad de las personas que compran este modelo de coche tienen al menos 30 años? c) Suponiendo normalidad en las edades de los compradores, ¿puede admitirse que su edad media supera los 35 años?

Solución

Sea la variable aleatoria X = «Edad de una persona que compra este modelo de coche».

a) Para comprobar si la sucesión de edades es aleatoria, realizamos el siguiente contraste: H0 : La muestra es aleatoria H1: La muestra no es aleatoria El estadístico de prueba del test de rachas de Wald-Wolfovitz es: R = «Número de rachas en la muestra» Como las observaciones son cuantitativas, construimos una sucesión dicotómica asignando a cada observación el signo de su desviación con respecto a la mediana muestral, me, es decir, el signo de: Di = Xi − me Como tenemos 34 datos (par), la mediana de esta muestra será el valor medio de las observaciones que ocupen los lugares 17 y 18 en la sucesión de edades ordenada de menor o mayor; una vez hecho esto, se obtendrá que el valor mediano es: me =

29 + 29 = 29 2

con lo cual, la sucesión de signos correspondientes a las diferencias Di obtenidas a partir de la serie original será: +冟– –冟+ + + 0冟– – –冟+冟0 – –冟+冟–冟+ 0 0 + + + +冟–冟+ +冟–冟+冟– – –冟+冟– – © Ediciones Pirámide

191

Ejercicios de inferencia estadística y muestreo Como hay cuatro observaciones iguales a la mediana, las ignoramos y reducimos el tamaño de la muestra. Por tanto, ahora tenemos: n = 34 − 4 = 30 n1 = «Número de signos +» = 15 > 10 n2 = «Número de signos −» = 15 > 10 y al ser n1, n2 > 10, podemos utilizar la aproximación normal: Z=

R − E[ R] Var [ R]

H0 n→∞

N (0, 1)

Utilizando este estadístico de prueba, podemos buscar los valores críticos de la región de rechazo en la tabla 7: N(0,1)

0,025

/2 = 0,025

– 1,96 = – z

z

/2

/2

= 1,96

Para calcular el valor experimental, observamos que: Rˆ = 16 E[ R] = Var [ R] =

2 n1n2 2 ⋅ 15 ⋅ 15 +1 = + 1 = 16 n 30 2 n1n2 (2 n1n2 − n) 2 ⋅ 15 ⋅ 15(2 ⋅ 15 ⋅ 15 − 30) = = 7,241 n 2 (n − 1) 30 2 (30 − 1)

y así: zexp = 192

Rˆ − E[ R] Var [ R]

=

16 − 16 7,241

=0 © Ediciones Pirámide

Contraste de hipótesis no paramétrico Como: − 1,96 = − zα / 2 < zexp = 0 < zα / 2 = 1,96 podemos decir que, al 5 % de significación, los datos de esta muestra no presentan evidencia suficiente para rechazar la hipótesis de aleatoriedad (H0), por lo que admitiremos la aleatoriedad de esta serie de edades. b) Si llamamos ahora Me a la mediana poblacional, se quiere saber si este valor coincide con 30: 50% Me = 30

Por tanto, suponemos que la variable aleatoria X es continua alrededor de la mediana y utilizaremos la información de la muestra aleatoria (apartado a) para contrastar: H0 : Me = 30 = m H1: Me ≠ 30 mediante el contraste de los signos de la mediana o el test de rangos-signos de Wilcoxon. Contraste de signos de la mediana Está basado en el estadístico: S + = «Número de signos + en la muestra» cuya distribución bajo H0 es: S+

~ B(n, 1/ 2)

H0

Para obtener los signos + y –, se calculan las diferencias de cada observación con respecto al valor propuesto m: ⎧> 0 ⇒ Asignamos signo + ⎪ Di = Xi − m = Xi − 30 ⎨< 0 ⇒ Asignamos signo − ⎪= 0 ⇒ Ignoramos X y reducimos el tamaño de muestra i ⎩ © Ediciones Pirámide

193

Ejercicios de inferencia estadística y muestreo Por tanto, nuestra sucesión de signos será: +––0++––––+–––+–+––++++–++–+–––+–– y el tamaño muestral definitivo: n = 34 – 1 = 33 > 10 Como n es suficientemente grande para utilizar la aproximación normal, el estadístico del contraste será: Z=

S + − E[ S + ] Var [ S + ]

=

S+ − n/2 n/ 4

=

2S + − n n

H0 n→∞

N (0, 1)

y la región de rechazo bilateral con a = 0,05 se obtiene buscando los valores críticos en la tabla 7: N(0,1)

/2 = 0,025

–z

/2

/2 = 0,025

= – 1,96

z

/2

= 1,96

Comparando el valor experimental: zexp =

2 Sˆ + − n n

=

2 ⋅ 14 − 33 33

= − 0,87

con los valores críticos, resulta que: − zα / 2 = − 1,96 < zexp = − 0,87 < 1,96 = zα / 2 por lo que, con un 5 % de significación, los datos muestrales no presentan evidencia suficiente para rechazar H0 : Me = 30. Por tanto, los datos no contradicen la hipótesis de que la mitad de las personas que compran este modelo de coche tienen al menos 30 años. 194

© Ediciones Pirámide

Contraste de hipótesis no paramétrico Contraste de rangos-signos de Wilcoxon Para aplicar este contraste, suponemos que la variable aleatoria X es continua y simétrica respecto a su mediana. El estadístico de prueba de este contraste es: T + = «Suma de los rangos de las Di > 0» donde: ⎧> 0 ⇒ Asignamos signo + ⎪ Di = Xi − m = Xi − 30 ⎨< 0 ⇒ Asignamos signo − ⎪= 0 ⇒ Ignoramos X y reducimos el tamaño muestral i ⎩ Como sólo hay una observación igual a 30, entonces el tamaño muestral será: n = 33 = 34 – 1 y como n > 15, podemos utilizar la aproximación normal y, en el lugar de T +, basar el contraste en el estadístico: Z=

T + − E[T + ] Var [T + ]

H0 n→∞

N (0, 1)

La región crítica correspondiente al contraste bilateral con nivel de significación a = 0,05 se presenta gráficamente como: N(0,1)

/2 = 0,025

– 1,96 = – z

/2 = 0,025

/2

z

/2

= 1,96

donde los valores críticos se obtienen a partir de la tabla 7. © Ediciones Pirámide

195

Ejercicios de inferencia estadística y muestreo Para calcular el valor experimental del estadístico, obtenemos E[T +], Var [T +] y Tˆ +: E[T + ] = Var [T + ] =

n(n + 1) 33 ⋅ 34 = = 280,5 4 4 n(n + 1)(2 n + 1) 33 ⋅ 34(2 ⋅ 33 + 1) = = 3.132,25 24 24

y para el valor de Tˆ + calculamos las diferencias Di = Xi – 30, ordenamos sus valores absolutos y les asignamos su rango. Si hay observaciones tales que los 冟 Di 冟 son iguales, se les asigna el rango medio de los que les corresponderían si fueran diferentes. Así, organizamos los cálculos en las siguientes tablas:

xi

di = xi – 30

xi

di = xi – 30

xi

di = xi – 30

31 26 25 30 34 40 29 24 24 28 31 29

1 –4 –5 0 4 10 –1 –6 –6 –2 1 –1

28 25 42 27 36 29 29 34 32 31 32 27

–2 –5 12 –3 6 –1 –1 4 2 1 2 –3

35 31 23 37 28 20 23 34 23 26

5 1 –7 7 –2 – 10 –7 4 –7 –4

Signo

冟 di 冟

Rango

Signo

冟 di 冟

Rango

Signo

冟 di 冟

Rango

+ – + – – – + + – – + +

1 1 1 1 1 1 1 1 2 2 2 2

4,5 4,5 4,5 4,5 4,5 4,5 4,5 4,5 11,0 11,0 11,0 11,0

– – – – + + + – – – + –

2 3 3 4 4 4 4 4 5 5 5 6

11,0 14,5 14,5 18,0 18,0 18,0 18,0 18,0 22,0 22,0 22,0 25,0

– + – + – – + – +

6 6 7 7 7 7 10 10 12

25,0 25,0 28,5 28,5 28,5 28,5 31,5 31,5 33,0

196

© Ediciones Pirámide

Contraste de hipótesis no paramétrico El rango de las 冟 di 冟 = 1 se ha obtenido de la siguiente forma: 1+ 2 + 3+…+ 8 = 4,5 8 es decir, asignándoles el rango medio de los rangos que les corresponderían si fueran diferentes. Del mismo modo, para 冟 di 冟 = 2, el rango asignado se calcula como: 9 + 10 + 11 + 12 + 13 = 11 5 y así sucesivamente. Con los datos de la segunda tabla, tenemos que: Tˆ + = 4,5 + 4,5 + 4,5 + 4,5 + 11 + 11 + 18 + 18 + 18 + 22 + 25 + 28,5 + 31,5 + 33 = = 234 y, por tanto: zexp =

T + − E[T + ] Var [T + ]

=

234 − 280,5 3.132,25

= − 0,831

verificándose que: − 1,96 = − zα / 2 < zexp = − 0,831 < zα / 2 = 1,96 y, en consecuencia, no pudiéndose rechazar la hipótesis nula H0 : Me = 30, que es la misma decisión a la que conduce el test de signos de la mediana. c)

Suponemos que la variable X se distribuye según una normal: X

~ N ( μ, σ )

con m y s desconocidos. Se pretende contrastar si la edad media supera los 35 años, es decir, si m > 35. Por tanto, se formulan las hipótesis como: H0 : μ  35 = μ 0 H1: μ > 35 © Ediciones Pirámide

197

Ejercicios de inferencia estadística y muestreo Como se admite normalidad y s es desconocida, el estadístico para realizar el contraste es: t=

X − μ0 S/ n

~ tn − 1 ≡ t34 − 1 ≡ t33

H0

con x=

1 n 1.003 xi = = 29,5 ∑ 34 n i =1

y

冢 ∑ xi 冣 n

s2 = =

1 n 1 ( xi − x ) 2 = ∑ n − 1 i =1 n −1

冤∑ xi2 − n

2

i =1

i =1

n



=





1 (1.003)2 30.429 − = 33 34

840,5 = 25, 47 33

y, por tanto, el valor experimental queda: texp =

29,5 − 35 25, 47 / 35

= − 6, 45

Al ser el contraste unilateral, la región crítica de una cola se representa gráficamente como: t33

= 0,05

t

198

© Ediciones Pirámide

Contraste de hipótesis no paramétrico En la tabla 10 de la función de distribución t de Student no aparece el valor n = 33 grados de libertad, pero como t a es tal que: P(t33 > tα ) = α = 0,05 entonces, el valor de t a deberá ser mayor que 0, y como texp = – 6,45 < 0, se tiene que: texp = − 6, 45 < tα por lo que rechazamos la hipótesis nula al 5 % de significación y aceptamos H1: m > 35 años. En un determinado cine se está proyectando una película de dibujos animados. Para conocer la opinión de los espectadores, a la entrada del cine se entrega un cuestionario a cada uno de ellos. La persona encargada de repartir los cuestionarios debe anotar la edad de los espectadores que acuden a ver la película según su orden de llegada. Durante un día elegido al azar entre los del período de proyección de la película, se obtuvieron los siguientes datos, correspondientes a las edades de las personas que acudieron al cine en cada una de las sesiones: Ejercicio 3.20

Primera sesión (17:30): 11 10 13

20 10 9

16 12 10 9 18 15 7 11

25 15 13 9 8 11 12 11

10 9

11 9

34 11

27 11

14 14

10 17

13 18

12 16

17 14

16 26

16 31

14 32

17

19

32

13

20

Segunda sesión (20:15): 18 18

18 21

12 24

25 13

15 27

19 35

18 19

19 23

a) Si los espectadores menores de 15 años son considerados como público infantil, y el resto como adulto, ¿puede decirse que la sucesión de espectadores de la primera sesión es aleatoria con respecto a esta clasificación? Nivel de significación: 10 %. b) ¿Puede decirse, con un 10 % de significación, que más del 50 % del total de los espectadores superan los 15 años? c) Al 10 % de significación, ¿indican los datos de estas dos sesiones que la edad de los asistentes a la sesión de las 20:15 supera a la de los espectadores de la primera sesión? © Ediciones Pirámide

199

Ejercicios de inferencia estadística y muestreo a) La sucesión de espectadores según el orden de llegada a la primera sesión, clasificados según el tipo de público en infantil (I) y adulto (A), quedaría como sigue: Solución

I冟AA冟II冟AA冟IIII冟AA冟IIIIIII冟AA冟IIIIIIIII冟AAA冟IIII Las hipótesis que se pretenden contrastar son: H0 : La muestra es aleatoria H1: La muestra no es aleatoria Podemos utilizar el test de rachas de Wald-Wolfowitz, cuyo estadístico de prueba es: R = «Número total de rachas en la muestra» Al ser H1 simplemente la hipótesis de no aleatoriedad, la región crítica es bilateral y cada una de las colas está delimitada por los valores k¢a/2 y k a/2, que son el mayor y menor entero, respectivamente, tales que: P( R  kα′ / 2 )  α / 2 = 0,05 P( R  kα / 2 )  α / 2 = 0,05 siendo a = 0,10 el nivel de significación. Pero como en este caso: n = «Número total de observaciones» = 38 n1 = «Número de espectadores de 15 o más años ( A)» = 11 n2 = «Número de espectadores menores de 15 años ( I )» = 27 podemos utilizar la aproximación normal (pues, n1 = 11 > 10; n2 = 27 > 10) y emplear como estadístico de prueba: Z= 200

R − E[ R] Var [ R]

H0 n→∞

N (0, 1)

© Ediciones Pirámide

Contraste de hipótesis no paramétrico La región crítica viene dada en la siguiente gráfica: N(0,1)

/2 = 0,05

/2 = 0,05

–z

z

/2

/2

Buscando en la tabla 7, estos valores críticos son: zα / 2 = 1,645 − zα / 2 = − 1,645 El valor experimental del estadístico se obtiene teniendo en cuenta que: Rˆ = «Número de rachas en la sucesión I / A» = 11 E[ R] = Var [ R] =

2 n1n2 2 ⋅ 11 ⋅ 27 +1 = + 1 = 16,632 38 n 2n1n2 (2n1n2 − n) 2 ⋅ 11 ⋅ 27(2 ⋅ 11 ⋅ 27 − 38) = = 6,181 382 (38 − 1) n 2 (n − 1)

y, por tanto: zexp =

Rˆ − E[ R] Var [ R]

=

11 − 16,632 6,181

= − 2,265 < − zα / 2 = − 1,645

con lo cual, rechazamos H0, es decir, al 10 % de significación, los datos de esta muestra presentan evidencia suficiente para decir que la sucesión del público infantil/adulto en la primera sesión no es aleatoria. b) Definimos la variable aleatoria X como la edad de un espectador de esta película. Consideramos las observaciones procedentes de las dos sesiones como si constituyeran una muestra aleatoria de la variable X, que suponemos continua alrededor de su mediana (P(X = Me) = 0). © Ediciones Pirámide

201

Ejercicios de inferencia estadística y muestreo El valor de la mediana poblacional de X es aquella edad, Me, que es superada por el 50 % de los espectadores, es decir: P( X > Me) = 0,5 = P( X < Me) Si la mediana fuese 15, entonces el 50 % de los espectadores superarían los 15 años. Por tanto, si el valor de Me es mayor que 15, más del 50 % de los espectadores superarían dicha edad. Gráficamente: 50% Edad 15

Me Más del 50%

Así pues, las hipótesis que hay que contrastar pueden formularse como: H0 : Me  15 = m H1: Me > 15 = m Para resolver el contraste, podemos utilizar el contraste de signos de la mediana y el contraste de rangos-signos de Wilcoxon.

Contraste de signos de la mediana El estadístico de prueba se define como: S + = «Número de signos + que aparecen en la muestra» S+

~ B(n, 1/ 2)

H0

Los signos + o – son asignados a las observaciones en función del signo resultante de las diferencias con respecto a m: ⎧> 0 ⇒ Asignamos signo + ⎪ Di = Xi − m = Xi − 15 ⎨< 0 ⇒ Asignamos signo − ⎪= 0 ⇒ Ignoramos X y reducimos el tamaño muestral i ⎩ 202

© Ediciones Pirámide

Contraste de hipótesis no paramétrico En nuestro caso, la sucesión de signos será: – + + – – +0– – – – + + – – – – – – – +0– – – – – – – – – + + + – – – – + + – +0+ + + + + + – + + + – + + + + – + – + + + + + + con lo cual, el tamaño muestral se reduce en tres unidades: n = 64 Como este valor de n es superior a 10, podemos utilizar la aproximación normal y realizar el contraste basándonos en el estadístico:

Z=

+

+

S − E[ S ] Var [ S + ]

S+ − =

n 2

n 4

=

2S + − n n

H0 n→∞

N (0, 1)

La región crítica de este contraste unilateral viene determinada por: N(0,1)

= 0,10

z = 1,28

donde el valor crítico za ha sido buscado en la tabla 7 de una distribución normal estándar. Como: Sˆ + = 32 el valor experimental del estadístico de prueba es: zexp = © Ediciones Pirámide

2 Sˆ + − n n

=

2 ⋅ 32 − 64 64

=0 203

Ejercicios de inferencia estadística y muestreo y al ser: zexp = 0 < zα = 1,28 entonces, con un 10 % de significación, no rechazamos H0 : Me  15, por lo que no puede decirse que más del 50 % del total de los espectadores superan los 15 años. Contraste de rangos-signos de Wilcoxon Además de la continuidad de la variable aleatoria X, suponemos, para poder aplicar este contraste, que su distribución es simétrica con respecto a la mediana poblacional Me. El estadístico de prueba del test de rangos-signos de Wilcoxon viene dado por: T + = «Suma de los rangos de las Di > 0» donde, de nuevo: ⎧> 0 ⇒ Asignamos signo + ⎪ Di = Xi − m = Xi − 15 ⎨< 0 ⇒ Asignamos signo − ⎪= 0 ⇒ Ignoramos y reducimos n ⎩ para asignar los rangos, se ordenan de menor a mayor los valores 冟 di 冟 y se les asocia su número de orden. Si se tienen valores absolutos repetidos, entonces se les asignaría un rango igual al promedio de los rangos que les corresponderían si fueran diferentes. Los valores di obtenidos son: xi

di = xi – 15

xi

di = xi – 15

xi

di = xi – 15

xi

di = xi – 15

xi

di = xi – 15

11 20 16 12 10 25 15 13 9 10 11 34 27 14 10

–4 5 1 –3 –5 10 0 –2 –6 –5 –4 19 12 –1 –5

13 12 10 10 9 18 15 8 11 12 11 9 9 11 11

–2 –3 –5 –5 –6 3 0 –7 –4 –3 –4 –6 –6 –4 –4

14 17 18 16 13 9 7 11 18 18 12 25 15 17 19

–1 2 3 1 –2 –6 –8 –4 3 3 –3 10 0 2 4

18 19 16 16 14 17 19 32 13 20 18 21 24 13 27

3 4 1 1 –1 2 4 17 –2 5 3 6 9 –2 12

14 35 19 23 26 31 32

–1 20 4 8 11 16 17

204

© Ediciones Pirámide

Contraste de hipótesis no paramétrico Como hay tres diferencias nulas, el tamaño muestral quedará: n = 64 Ordenamos las diferencias absolutas 冟 di 冟 y les asignamos su rango: Signo

兩di兩

ri

Signo

兩di兩

ri

Signo

兩di兩

ri

Signo

兩di兩

ri

Signo

兩di兩

ri

+ – – + + + – – – – + – + + –

1 1 1 1 1 1 1 1 2 2 2 2 2 2 2

4,5 4,5 4,5 4,5 4,5 4,5 4,5 4,5 12,5 12,5 12,5 12,5 12,5 12,5 12,5

– – – + – + + + – + + – – – –

2 3 3 3 3 3 3 3 3 3 3 4 4 4 4

12,5 21,5 21,5 21,5 21,5 21,5 21,5 21,5 21,5 21,5 21,5 32,0 32,0 32,0 32,0

– – – + + + + + – – – – – + –

4 4 4 4 4 4 4 5 5 5 5 5 5 5 6

32,0 32,0 32,0 32,0 32,0 32,0 32,0 41,0 41,0 41,0 41,0 41,0 41,0 41,0 47,5

– – – – + – – + + + + + + + +

6 6 6 6 6 7 8 8 9 10 10 11 12 12 16

47,5 47,5 47,5 47,5 47,5 51,0 52,5 52,5 54,0 55,5 55,5 57,0 58,5 58,5 60,0

+ + + +

17 17 19 20

61,5 61,5 63,0 64,0

El rango correspondiente al valor 冟 di 冟 = 1 ha sido obtenido calculando el rango medio de los que les corresponderían si hubieran sido diferentes, es decir: 1+ 2 +…+ 8 = 4,5 8 Del mismo modo, para las 冟 di 冟 = 2, este rango se calcula como: 9 + 10 + … + 16 = 12,5 8 y así sucesivamente. El valor experimental de T + será: T + = «Suma de los rangos de las di > 0» = = 4,5 + 4,5 + 4,5 + 4,5 + 12,5 + 12,5 + 12,5 + 21,5 + 21,5 + 21,5 + 21,5 + + 21,5 + 21,5 + 32 + 32 + 32 + 32 + 41 + 41 + 47,5 + 52,5 + 54 + 55,5 + + 55,5 + 57 + 58,5 + 58,5 + 60 + 61,5 + 61,5 + 63 + 64 = 1.143,5 © Ediciones Pirámide

205

Ejercicios de inferencia estadística y muestreo y como n = 64 > 15, podemos utilizar la aproximación normal y considerar como estadístico de prueba: Z=

T + − E[T + ] Var [T + ]

H0 n→∞

N (0, 1)

donde: E[T + ] = Var [T + ] =

1 64(65) n(n + 1) = = 1.040 4 4 n(n + 1)(2 n + 1) 64 ⋅ 65(2 ⋅ 64 + 1) = = 22.360 24 24

y la región crítica, con un nivel de significación a = 0,10, será unilateral, obteniéndose el valor crítico en la tabla 7: N(0,1)

= 0,10

z = 1,28

Como el valor experimental es: zexp =

Tˆ + − E[T + ] Var [T + ]

=

1.143,5 − 1.040 22.360

= 0,692

que es inferior al valor crítico za , entonces no rechazamos H0 : Me  15 al 10 % de significación. c) Sean las variables aleatorias X1 y X2 correspondientes a la edad de un espectador de la primera y segunda sesión, respectivamente. Suponemos que se trata de variables aleatorias continuas y que los datos muestrales constituyen muestras aleatorias independientes. Representamos mediante F y G las respectivas funciones de distribución de X1 y X2. 206

© Ediciones Pirámide

Contraste de hipótesis no paramétrico Para contrastar si la edad de los espectadores de la segunda sesión supera a los de la primera, planteamos las siguientes hipótesis: H 0 : F ( z )  G( z ) H1: F( z ) > G( z ) donde H1 implicaría que la distribución de X2 estaría por encima de la de X1 y, por tanto, a la segunda sesión acudirían los espectadores de más edad. Esta situación se ilustra en el siguiente gráfico, referente a H1: X1 ~ f(x)

X2 ~ g(x)

F(z) G(z)

z F(z) > G(z)

Para realizar el contraste, podemos utilizar el test de la U de Wilcoxon-Mann-Whitney, el de la mediana o el de Kolmogorov-Smirnov para dos muestras.

Contraste de la U de Wilcoxon-Mann-Whitney Para aplicar este test se ordenan los datos muestrales de menor a mayor y se asigna a cada observación su correspondiente rango desde 1 hasta n = n1 + n2. En caso de empates en varias observaciones, se les asignará a cada una de ellas el rango promedio de los que les correspondería si hubieran sido diferentes. Una vez hecho esto, se utilizará como estadístico del contraste la expresión: U = U X1 = n1n2 +

n1 (n1 + 1) − WX1 2

siendo: WX1 =

∑ ri = Suma de los rangos correspondientes a la muestra de X1. x1i

© Ediciones Pirámide

207

Ejercicios de inferencia estadística y muestreo Como en este caso n1 = 38 > 10 y n2 = 29 > 10, la distribución del estadístico de prueba se aproxima a una normal:

U = U X1

H0 n1 , n2 > 10

N

冢 n 2n , 1 2

n1n2 (n1 + n2 + 1) 12



o bien, podemos utilizar como estadístico de prueba: n1n2 2 n1n2 (n1 + n2 + 1) 12 U−

Z=

H0 n1 , n2 > 10

N (0, 1)

rechazando la hipótesis nula al 10 % de significación cuando: zexp  zα donde: P( Z  zα ) = α = 0,10 Utilizando la tabla 7, encontramos za , con lo cual, la representación gráfica de la región crítica es: N(0,1)

1–

= 0,90

= 0,10

z ≅ 1,28

208

© Ediciones Pirámide

Contraste de hipótesis no paramétrico Obtengamos el valor experimental del estadístico de prueba: Obs.

x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x1 x2 x1 x1 x1 x2 x2

ri

7 8 9 9 9 9 9 10 10 10 10 10 11 11 11 11 11 11 11 12 12 12 12 13 13 13 13 13

1, 2, 5, 5, 5, 5, 5, 10,0 10,0 10,0 10,0 10,0 16,0 16,0 16,0 16,0 16,0 16,0 16,0 21,5 21,5 21,5 21,5 26,0 26,0 26,0 26,0 26,0

Obs.

x1 x1 x2 x2 x1 x1 x2 x1 x1 x2 x2 x1 x2 x2 x1 x1 x2 x2 x2 x2 x2 x2 x2 x2 x1 x2 x2 x2

ri

14 14 14 14 15 15 15 16 16 16 16 17 17 17 18 18 18 18 18 18 19 19 19 19 20 20 21 23

30,5 30,5 30,5 30,5 34,0 34,0 34,0 37,5 37,5 37,5 37,5 41,0 41,0 41,0 45,5 45,5 45,5 45,5 45,5 45,5 50,5 50,5 50,5 50,5 53,5 53,5 55,0 56,0

Obs.

x1 x1 x2 x2 x1 x2 x2 x2 x2 x1 x2

ri

24 25 25 26 27 27 31 32 32 34 35

57,0 58,5 58,5 60,0 61,5 61,5 63,0 64,5 64,5 66,0 67,0

WX1 = ∑ ri = 1 + 2 + 5 ⋅ 5 + 10 ⋅ 5 + 16 ⋅ 7 + 21,5 ⋅ 3 + 26 ⋅ 3 + 30,5 ⋅ 2 + 34 ⋅ 2 + x1i

+ 37,5 ⋅ 2 + 41 + 45,5 ⋅ 2 + 53,5 + 58,5 + 61,5 + 66 = 908 38(38 + 1) Uˆ = Uˆ X1 = 38 ⋅ 29 + − 908 = 935 2 38 ⋅ 29 2 = 4,8593 38 ⋅ 29(38 + 29 + 1) 12 935 −

zexp =

© Ediciones Pirámide

209

Ejercicios de inferencia estadística y muestreo Por tanto, como: zexp = 4,8593 > 1,28 = zα se rechaza H0 al 10 % de significación. Es decir, los datos presentan evidencia suficiente para rechazar la hipótesis de que las edades de los espectadores de la primera sesión son mayores o iguales que los de la segunda; por tanto, los asistentes a la segunda sesión tienen edades superiores a los de la primera.

Contraste de la mediana Para realizar este contraste, se obtiene en primer lugar la mediana muestral de la muestra combinada de n1 + n2 elementos, y se utiliza como estadístico del contraste: V = «Número de valores observados de X1 que son menores o iguales que la mediana de la muestra combinada de n1 + n2 elementos». Como n1 = 38 y n2 = 29, ambos superiores a 10, la distribución de V puede aproximarse mediante una normal: Z=

V − E[V ] Var [V ]

H0 n1 , n2 > 10

N (0, 1)

siendo: E[V ] = k Var [V ] = k

n1 n n1 n2 n − k ⋅ ⋅ n n n −1

con n = n1 + n2 = 38 + 29 = 67 k=

n − 1 66 = = 33 2 2

pues n es impar. 210

© Ediciones Pirámide

Contraste de hipótesis no paramétrico Puede comprobarse que la mediana de la muestra de las 67 observaciones es: me = 15 y el valor experimental del estadístico es: Vˆ = 29 E[V ] = 33 ⋅ Var [V ] = 33 ⋅ zexp =

38 = 18,7164 67 38 29 67 − 33 ⋅ ⋅ = 4,1733 67 67 67 − 1

29 − 18,7164 4,1733

= 5,0339

La región crítica del contraste será, al 10 % de significación: zexp  zα con P( Z  zα / H0 ) = α = 0,10 y buscando el valor crítico en la tabla de la distribución normal, tendremos: N(0,1)

0,90

= 0,10

z ≅ 1,28

y como: zexp = 5,0339 > 1,28 rechazamos H0 al 10 % de significación. © Ediciones Pirámide

211

Ejercicios de inferencia estadística y muestreo Contraste de Kolmogorov-Smirnov para dos muestras Se basa en un estadístico de prueba que utiliza las funciones de distribución empíricas de las muestras: Dn+1 , n2 = máx[ Fn1 ( x ) − Gn2 ( x )] con

Fn1 ( x ) =

N1 ( x ) n1

y

Gn2 ( x ) =

N2 ( x ) n2

Se rechazará H0, al 10 % de significación, si: Dn+1 , n2 , exp > Dn1 , n2 ; α siendo Dn1, n2; a el valor crítico, tal que: P( Dn+1 , n2 > Dn1 , n2 ; α / H0 ) = α = 0,10 Utilizando la tabla 18 con n1 = 38 y n2 = 29 con su aproximación para muestras de tamaño grande, tendremos que:

Dn1 , n2 ; α =

=

n1 + n2 ⋅ 1,0730 = n1n2 38 + 29 ⋅ 1,0730 = 0,2646 38 ⋅ 29

En la siguiente tabla aparecen los cálculos necesarios para obtener el valor experimental del estadístico del contraste. 212

© Ediciones Pirámide

Contraste de hipótesis no paramétrico x1i

n1i

7 8 9 10 11 12 13 14 15 16 17 18

1 1 5 5 7 3 3 2 2 2 1 2

20

1

25

1

27

1

34

1

n1 = 38

x2i

n2i

12 13 14 15 16 17 18 19 20 21 23 24 25 26 27 31 32

1 2 2 1 2 2 4 4 1 1 1 1 1 1 1 1 2

35

1

Fn1(x) = N1(x)/38

Gn2(x) = N2(x)/29

Fn1(x) – Gn2(x)

1/38 2/38 7/38 12/38 19/38 22/38 25/38 27/38 29/38 31/38 32/38 34/38 34/38 35/38 35/38 35/38 35/38 36/38 36/38 37/38 37/38 37/38 38/38 = 1 1

0 0 0 0 0 1/29 3/29 5/29 6/29 8/29 10/29 14/29 18/29 19/29 20/29 21/29 22/29 23/29 24/29 25/29 26/29 28/29 28/29 29/29 = 1

0,0263 0,0526 0,1842 0,3158 0,5000 0,5445 0,5544 0,5381 0,5563 0,5399 0,4973 0,4120 0,2740 0,2659 0,2314 0,1969 0,1624 0,1543 0,1198 0,1116 0,0771 0,0082 0,0345 0,0000

n2 = 29

Así: Dn+1 , n2 , exp = 0,5563 > 0,2646 y, por tanto, al 10 % de significación, se rechaza H0. En una compañía dedicada a la fabricación de productos de limpieza, el responsable de publicidad pretende incluir también a los varones como destinatarios de una campaña publicitaria para promocionar un nuevo tipo de lavavajillas, pues, según su opinión, la creciente incorporación de las mujeres al mercado laboral disminuye el tiempo que éstas dedican a las tareas del hogar y, en consecuencia, estas tareas comenzarían a ser compartidas por sus parejas. Para tratar de confirmar esta creencia, se comparan los resultados de dos encuestas realizadas en 1992 y 1996 en las que se preguntó a dos grupos diferentes de mujeres el número de horas semanales dediEjercicio 3.21

© Ediciones Pirámide

213

Ejercicios de inferencia estadística y muestreo cadas por cada una de ellas a los trabajos del hogar. Las respuestas obtenidas aparecen en la tabla siguiente: 1992

1996

22 17 26 13 16 25 18 21 19 14 20 23 15

16 20 15 19 13 12 17 10 13 17 11 26

¿Puede concluirse a partir de estos datos y con un 1 % de significación que, en 1996, las mujeres dedicaban menos tiempo a tareas del hogar que en 1992?

Solución

Sean X e Y las variables aleatorias:

X = «Tiempo semanal, en horas, que una mujer dedica a las tareas del hogar en 1992». Y = «Tiempo semanal, en horas, que una mujer dedica a las tareas del hogar en 1996». Si en 1996 las mujeres dedicaran menos tiempo a las tareas del hogar que en 1992, entonces la distribución X (1992) estaría a la derecha de Y (1996): fy

fx ⇒F Mey siendo F y G las respectivas funciones de distribución de X y de Y, y Mex y Mey las correspondientes medianas poblacionales. Para tomar la decisión, basándonos en la información muestral, podemos utilizar el contraste de Kolmogorov-Smirnov para dos muestras, el test de la mediana o el contraste de la U de Wilcoxon-Mann-Whitney. Contraste de la mediana Utiliza como estadístico de prueba: V = «Número de observaciones de X menores o iguales que la mediana de la muestra de n1 + n2 elementos». Como en este caso n1 = 13 > 10 y n2 = 12 > 10, la distribución de V puede aproximarse por una normal: V

H0 n1 , n2 > 10

N ( E[V ], Var [V ])

con E[V ] = k

n1 n

Var [V ] = k ⋅

n1 n2 n − k ⋅ ⋅ n n n −1

siendo: n = n1 + n2 = 13 + 12 = 25 k=

n − 1 25 − 1 = = 12 2 2

pues n es impar. © Ediciones Pirámide

215

Ejercicios de inferencia estadística y muestreo Así pues, podemos utilizar: Z=

V − E[V ] Var [V ]

→ N (0, 1)

como estadístico del contraste, rechazando H0 con un nivel de significación a = 0,01, cuando: zexp  − zα con P( Z  − zα ) = α = 0,01 Buscando en la tabla de una distribución N(0, 1), la región crítica se representará gráficamente como: N(0,1)

= 0,05

– z = – 2,33

Para calcular el valor experimental de V, necesitamos la mediana de la muestra combinada de n1 + n2 observaciones. La muestra ordenada de menor a mayor será: y

y

y

x

y

y

x

x

y

x

y

x

y

y

x

x

y

x

y

x

x

x

x

x

y

10 11 12 13 13 13 14 15 15 16 16 17 17 17 18 19 19 20 20 21 22 23 25 26 26

y, por tanto, la mediana será la observación que ocupe el lugar: n +1 = 13 2 es decir: me = 17 216

© Ediciones Pirámide

Contraste de hipótesis no paramétrico existiendo cinco observaciones de X menores o iguales que me = 17, con lo cual: Vˆ = 5 E[V ] = 12 ⋅ Var [V ] = 12 ⋅ zexp =

13 = 6,24 25 13 12 25 − 12 ⋅ ⋅ = 1,6224 25 25 25 − 1

5 − 6,24 1,6224

= − 0,9735

y como: zexp = − 0,9735 > − 2,33 entonces no se rechaza H0 al 1 % de significación, es decir, no puede concluirse, a partir de estos datos, que las mujeres estén trabajando en tareas del hogar menos tiempo en 1996 que en 1992. Contraste de la U de Wilcoxon-Mann-Whitney Utilizaremos como estadístico de prueba para realizar el contraste: U = U X = n1n2 +

n1 (n1 + 1) − WX 2

siendo: WX =

∑ ri = Suma de rangos de las observaciones de X xi

Como n1 = 13, n2 = 10, ambos superiores a 10, la distribución de U puede aproximarse por una normal: U

H0 n1 , n2 > 10

N ( E[V ], Var [U ])

con E[U ] = © Ediciones Pirámide

n1n2 13 ⋅ 12 = = 78 2 2 217

Ejercicios de inferencia estadística y muestreo Var [U ] =

n1n2 (n1 + n2 + 1) 13 ⋅ 12(13 + 12 + 1) = = 338 12 12

Por tanto, utilizaremos: Z=

U − E[U ] Var [U ]

H0 n1 , n2 > 10

N (0, 1)

como estadístico para realizar el contraste, rechazando la hipótesis nula si: zexp  − zα = − 2,33 siendo a = 0,01 el nivel de significación. Para calcular el valor experimental de U ordenamos las observaciones muestrales de menor a mayor, asignándoles un rango desde 1 hasta 25. Si hay observaciones repetidas, se les asigna el rango medio de los que les corresponderían si fueran diferentes:

y y y x y y x x y x y x y y x x y x y x x x x x y

218

Obs.

ri

10 11 12 13 13 13 14 15 15 16 16 17 17 17 18 19 19 20 20 21 22 23 25 26 26

1,0 2,0 3,0 5,0 5,0 5,0 7,0 8,5 8,5 10,5 10,5 13,0 13,0 13,0 15,0 16,5 16,5 18,5 18,5 20,0 21,0 22,0 23,0 24,5 24,5

© Ediciones Pirámide

Contraste de hipótesis no paramétrico WX = 5 + 7 + 8,5 + 10,5 + 13 + 15 + 16,5 + 18,5 + 20 + 21 + 22 + 23 + 24,5 = 204,5 n (n + 1) 13 ⋅ 14 Uˆ = Uˆ X = n1n2 + 1 1 − WX = 13 ⋅ 12 + − 204,5 = 42,5 2 2 Entonces:

zexp =

42,5 − 78

= − 1,93 > − 2,33

338

y, por tanto, no se rechaza H0 al 1 % de significación.

Contraste de Kolmogorov-Smirnov para dos muestras Este test se basa en las funciones de distribución empíricas de las muestras de X e Y. El estadístico del contraste es, en este caso: Dn−1 , n2 = máx[Gn2 ( x ) − Fn1 ( x )] siendo: Fn1 ( x ) =

N1 ( x ) n1

;

Gn2 ( x ) =

N2 ( x ) n2

las funciones de distribución empíricas de X e Y, respectivamente. Se rechazará la hipótesis nula H0, al 1 % de significación, si: Dn−1 , n2 , exp > Dn1 , n2 ; α con P( Dn−1 , n2 > Dn1 , n2 ; α / H0 ) = α = 0,01 © Ediciones Pirámide

219

Ejercicios de inferencia estadística y muestreo Utilizando la tabla 18 con n1 = 13 y n2 = 12, tendríamos que: N1 = mín (n1 , n2 ) = 12 N2 = máx (n1 , n2 ) = 13 y buscando en las tablas adecuadas se obtendría el valor crítico. No obstante, como en las tablas presentadas no vienen estos valores N1 y N2 y ambos son superiores a 10, utilizaremos la aproximación para muestras grandes, y, así, el valor crítico será aproximadamente igual a:

Dn1 , n2 ; α ≈

xi

n xi

13 14 15 16 17 18 19 20 21 22 23 25 26

1 1 1 1 1 1 1 1 1 1 1 1 1 13

n1 + n2 ⋅ 1,5174 = n1n2

13 + 12 ⋅ 1,5174 = 0,6074 13 ⋅ 12

yi

ny i

Fn1(x)

Gn2(x)

[Gn2(x) – Fn1(x)]

10 11 12 13

1 1 1 2

15 16 17

1 1 2

19 20

1 1

26

1

0 = 0 = 0 = 1/13 = 2/13 = 3/13 = 4/13 = 5/13 = 6/13 = 7/13 = 8/13 = 9/13 = 10/13 =1 11/13 =1 12/13 =1 13/13 = 1

1/12 = 2/12 = 3/12 = 5/12 = 5/12 = 6/12 = 7/12 = 9/12 = 9/12 = 10/12 =1 11/12 =1 11/12 =1 11/12 =1 11/12 =1 11/12 =1 12/12 = 1

1/12 – 0/13 = 0,0833 2/12 – 0/13 = 0,1667 3/12 – 0/13 = 0,2500 5/12 – 1/13 = 0,3397 5/12 – 2/13 = 0,2628 6/12 – 3/13 = 0,2692 7/12 – 4/13 = 0,2756 9/12 – 5/13 = 0,3654 9/12 – 6/13 = 0,2885 10/12 – 7/13 = 0,2949 11/12 – 8/13 = 0,3013 11/12 – 9/13 = 0,2244 11/12 – 10/13 = 0,1474 11/12 – 11/13 = 0,0705 11/12 – 12/13 = – 0,0064 00/01 – 1/13 = 0,0000

12

Por tanto: Dn−1 , n2 , exp = 0,3654 < 0,6074 = Dn1 , n2 ; α y no se rechaza la hipótesis nula al 1 % de significación. 220

© Ediciones Pirámide

Contraste de hipótesis no paramétrico Un fabricante de juguetes desea conocer si existen diferencias en cuanto a la calidad de las tres marcas de pilas alcalinas más extendidas en el mercado con el fin de recomendarlas para su utilización en un nuevo juguete que se va a promocionar. Para comparar las tres marcas, toma muestras aleatorias de pilas de cada una de ellas y controla el tiempo que permanece funcionando el juguete en cuestión. Los resultados obtenidos fueron: Ejercicio 3.22

Marca de las pilas

Horas de duración

A

125

140

218

78

98

B

87

100

85

65

115

83

C

55

50

78

93

60

78

Utilizando un nivel de significación del 5 %, ¿puede decirse que existen diferencias significativas en las calidades de estas marcas de pilas alcalinas? En su caso, indique qué marcas presentan diferencias significativas.

Solución

Definimos las variables aleatorias:

Xi = «Tiempo de funcionamiento del juguete (en horas) con las pilas de la marca i». i = 1 (A), 2 (B), 3 (C). Para tratar de ver si hay diferencias significativas en las calidades de las pilas, realizaremos el contraste de Kruskal-Wallis, que detecta diferencias de ubicación entre más de dos distribuciones. Planteamos, pues, la hipótesis: H0 : F1 ( x ) = F2 ( x ) = F3 ( x ) H1: Al menos dos son diferentes siendo Fi la función de distribución de la variable Xi, i = 1, 2, 3. El estadístico del contraste es:

H= © Ediciones Pirámide

k Ri2 12 − 3(n + 1) ∑ n(n + 1) i = 1 ni

221

Ejercicios de inferencia estadística y muestreo siendo: k

n= Ri =

∑ ni = n1 + n2 + n3 = 5 + 6 + 6 = 17

i =1 ni

∑ rij j =1

rij = Rango de la observación j -ésima de la muestra i rechazándose la hipótesis nula cuando el valor experimental supere al valor crítico h a, es decir, cuando: Hˆ  hα donde P( H  hα / H0 ) = α Utilizando la tabla 24 con k = 3, y tamaños muestrales 6, 6 y 5, tendremos, para un nivel de significación del 5 %: h a = 5,765 Para calcular el valor experimental, ordenamos las observaciones de menor a mayor, asignándoles su correspondiente rango y sumando los rangos de las observaciones de cada muestra. En caso de empates, se procede de la forma habitual: Observaciones

C C C B C C A B B B C A B B A A A

50 55 60 65 78 78 78 83 85 87 93 98 100 115 125 140 218 Ri

222

rij

1 2 3 4 6 6 6 8 9 10 11 12 13 14 15 16 17

r1j

r2j

r3j

1 2 3 4 6 6 6 8 9 10 11 12 13 14 15 16 17 R1 = 66

R2 = 58

R3 = 29 © Ediciones Pirámide

Contraste de hipótesis no paramétrico Por tanto, el valor experimental:

Hˆ =





12 66 2 582 292 + + − 3(17 + 1) = 7,648 17(17 + 1) 5 6 6

y como: Hˆ = 7,648 > hα = 5,765 entonces, al 5 % de significación, se rechaza H0 y puede decirse que existen diferencias significativas en las calidades de estas tres marcas de pilas. Para obtener qué marcas presentan diferencias significativas realizaremos el test de comparaciones múltiples, o método de Dunn, según el cual la diferencia entre las poblaciones i y l es significativa al nivel a si:

冟Ri − Rl 冟  cil siendo:

cil = z p



n(n + 1) 1 1 + 12 ni nl



con P( Z  z p ) = p =

α k ( k − 1)

Por tanto, como en este caso tenemos: R1 =

66 5

p=

0,05 = 0,0083 3(3 − 1)

;

R2 =

58 6

;

R3 =

29 6

P( Z  z p ) = 0,0083 ⇒ z p = 2,395 © Ediciones Pirámide

223

Ejercicios de inferencia estadística y muestreo

冉 冊 冉 冊 冉 冊

c12 = 2,395

17(18) 1 1 + = 7,3234 12 5 6

c13 = 2,395

17(18) 1 1 + = 7,3234 12 5 6

c23 = 2,395

17(18) 1 1 + = 6,9826 12 6 6

冟R1 − R2 冟 = 冷 66 − 58 冷 = 3,5333 < 7,3234 = c12 5

6

⇒ Las marcas A y B no presentan diferencias significativas.

冟R1 − R3 冟 = 冷 66 − 29 冷 = 8,3667 > 7,3234 = c13 5

6

⇒ Las marcas A y C presentan diferencias significativas.

冟R2 − R3 冟 = 冷 58 − 29 冷 = 4,8333 < 6,9826 6

6

⇒ Las marcas B y C no presentan diferencias significativas. Una compañía dedicada a la venta de material musical y literario tiene abiertos tres establecimientos, en Madrid, Barcelona y Bilbao. Para tratar de analizar las ventas diarias, se eligieron al azar seis días de un determinado período, obteniéndose los siguientes volúmenes de ventas, en miles de euros: Ejercicio 3.23

224

Madrid

Barcelona

Bilbao

0,65 0,84 0,35 0,75 0,60 0,54

0,95 0,46 0,58 0,74 0,25 0,70

0,48 0,30 0,98 0,87 0,50 0,96

© Ediciones Pirámide

Contraste de hipótesis no paramétrico Utilizando un 5 % de significación, ¿señalan estos datos la existencia de diferencias significativas en cuanto a los volúmenes de ventas de dichos establecimientos?

Representamos con Xi la variable aleatoria correspondiente a las ventas diarias (en miles de euros) en el establecimiento i, i = 1 (Madrid), 2 (Barcelona), 3 (Bilbao). Sean F1, F2 y F3 las correspondientes funciones de distribución. Se trata de comprobar si estas funciones presentan diferencias significativas en cuanto a ubicación. Por tanto, aplicaremos el test de Kruskall-Wallis para contrastar: Solución

H0 : F1 ( x ) = F2 ( x ) = F3 ( x ) H1: Fi ( x ) ≠ Fj ( x ) para algún i ≠ j El estadístico del contraste será:

H=

k Ri2 12 − 3(n + 1) ∑ n(n + 1) i = 1 ni

con n = n1 + n2 + n3 = 6 + 6 + 6 = 18 Ri =

ni

∑ rij j =1

rij = Rango de la observación j -ésima de la muestra i Como ni = 6 (i = 1, 2, 3), todos superiores a cinco, la distribución de H puede aproximarse por una c2: H

H0 ni > 5

χ k2 − 1 ≡ χ 32− 1 ≡ χ 22

y, así, la región crítica representada gráficamente, al 5 % de significación, quedará como: © Ediciones Pirámide

225

Ejercicios de inferencia estadística y muestreo

χ22

0,95

χ21 – = 5,99

donde el valor crítico ha sido obtenido a partir de la tabla 9. Ordenamos las observaciones de menor a mayor y les asignamos sus rangos: Observaciones

Barcelona Bilbao Madrid Barcelona Bilbao Bilbao Madrid Barcelona Madrid Madrid Barcelona Barcelona Madrid Madrid Bilbao Barcelona Bilbao Bilbao

rij

0,25 0,30 0,35 0,46 0,48 0,50 0,54 0,58 0,60 0,65 0,70 0,74 0,75 0,84 0,87 0,95 0,96 0,98

Suma de rangos

r1j

r2j

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

9 10

R = 171

R1 = 56

r3j

1 2 3 4 5 6 7 8

11 12 13 14 15 16 17 18 R2 = 52

R3 = 63

Por tanto, el valor experimental H es: Hˆ = 226





12 56 2 52 2 632 + + − 3(18 + 1) = 0,3626 18(18 + 1) 6 6 6 © Ediciones Pirámide

Contraste de hipótesis no paramétrico y como: Hˆ = 0,3626 < 5,99 = χ12− α entonces, al 5 % de significación, los datos muestrales no presentan evidencia suficiente para concluir que existen diferencias significativas entre los volúmenes de ventas de esos tres establecimientos. Si no se utiliza la aproximación a una c2, se podría buscar el valor crítico en la tabla 24, y así: hα = 5,801 Hˆ = 0,3626 < 5,801 = hα llegándose a las mismas conclusiones anteriores.

Un nuevo equipo accede a la dirección de dos cadenas de fabricación y comercialización de electrodomésticos con una amplia red de puntos de venta en el territorio nacional. Dicha directiva desearía realizar una política de equiparación de las ventas si es que se aprecian diferencias significativas en las distribuciones de las ventas de ambas cadenas. Para realizar una primera aproximación al problema, se extraen al azar dos muestras de tiendas de cada una de las cadenas, obteniéndose los siguientes importes de ventas en miles de euros: Ejercicio 3.24

Cadena A

Cadena B

6,4 8,9 9, 2,7 4,5 10,0 9, 4,9 3, 7, 15,0

8, 5,9 10,0 15,0 17,5 9, 3, 3,2 6, 8, 16,0

a) Utilizando la información procedente de la función de distribución empírica, ¿tendrá que acometerse la política de igualación de ventas en ambas cadenas? © Ediciones Pirámide

227

Ejercicios de inferencia estadística y muestreo b) Si se decidiera considerar la dispersión como factor indicador de la distinta distribución de las ventas en las dos cadenas, ¿tomaría ahora las medidas integradas en dicha política homogeneizadora? c) Si admitimos que las dos muestras proceden de poblaciones normales, ¿podría afirmarse que se observa más dispersión en las ventas de la cadena A? Nota: Trabaje en todos los casos con un nivel de significación del 5 %.

Llamemos X e Y a las variables aleatorias que representan las ventas, en miles de euros, de las tiendas de las cadenas A y B, respectivamente. Sean F y G las correspondientes funciones de distribución. Solución

a) Para contrastar si F y G son iguales utilizando funciones de distribución empíricas, tendremos que realizar el contraste de Kolmogorov-Smirnov para dos muestras y aplicarlo a las hipótesis: H0 : F ( x ) = G( x ) H1: F( x ) ≠ G( x ) El estadístico del contraste será: Dn1 , n2 = máx 冟Fn1 ( x ) − Gn2 ( x )冟 donde: Fn1 ( x ) =

N1 ( x ) n1

Gn2 ( x ) =

N2 ( x ) n2

son las funciones de distribución empíricas de las muestras de X e Y, respectivamente. La hipótesis nula será rechazada al 5 % de significación si: Dn1 , n2 , exp > Dn1 , n2 ; α 228

© Ediciones Pirámide

Contraste de hipótesis no paramétrico siendo el valor crítico, tal que: P( Dn1 , n2 > Dn1 , n2 ; α / H0 ) = α = 0,05 y buscando en la tabla 19 con n1 = n2 = 11, tendremos: Dn1 , n2 ; α =

6 = 0,5455 11

Buscamos a continuación el valor experimental del estadístico del contraste: xi

nxi

2,7 3,0

1 1

4,5 4,9

yi

ny i

3,0 3,2

1 1

5,9 6,0

1 1

8,0

2

9,0 10,0 15,0 16,0 17,5

1 1 1 1 1

1 1

6,4 7,0

1 1

8,9 9,0 10,0 15,0

1 2 1 1

n1 = 11

Fn1(x)

Gn2(x)

1/11 = 2/11 = 2/11 = 2/11 = 3/11 = 4/11 = 4/11 = 4/11 = 5/11 = 6/11 = 6/11 = 7/11 = 9/11 = 10/11 =1 11/11 = 1 1 = 1 =

0 = 0 = 1/11 = 2/11 = 2/11 = 2/11 = 3/11 = 4/11 = 4/11 = 4/11 = 6/11 = 6/11 = 7/11 = 8/11 = 9/11 = 10/11 =1 11/11 = 1

冟 Fn (x) – Gn (x) 冟 1

2

冟 1/11 – 冟 2/11 – 冟 2/11 – 冟 2/11 – 冟 3/11 – 冟 4/11 – 冟 4/11 – 冟 4/11 – 冟 5/11 – 冟 6/11 – 冟 6/11 – 冟 7/11 – 冟 9/11 –

0 冟/00 = 1/11 0 冟/00 = 2/11 1/11 冟 = 1/11 2/11 冟 = 0/00 2/11 冟 = 1/11 2/11 冟 = 2/11 3/11 冟 = 1/11 4/11 冟 = 0/00 4/11 冟 = 1/11 4/11 冟 = 2/11 6/11 冟 = 0/00 6/11 冟 = 1/11 7/11 冟 = 2/11 冟 10/11 – 8/11 冟 = 2/11 冟 11/11 – 9/11 冟 = 2/11 /000冟 1 – 10/11 冟 = 1/11 /000冟 1 – 11/11 冟 = 0/00

n2 = 11

Dn1 , n2 , exp = máx 冟Fn1 ( x ) − Gn2 ( x )冟 =

2 = 0,1818 11

Por tanto, como: Dn1 , n2 , exp = 0,1818
10 y n2 = 11 > 10, podemos utilizar la aproximación normal: Z=

Sn − E[ Sn ] Var [ Sn ]

H0 n1 , n2 → ∞

N (0, 1)

con E[ Sn ] = Var [ Sn ] =

n1 (n + 1) 11(22 + 1) = = 126,5 2 2 n1n2 (n + 1) 11 ⋅ 11(22 + 1) = = 231,92 12 12

La región crítica, al 5 % de significación, será: N(0,1)

1–

/2 = 0,025

–z

230

/2

= – 1,96

= 0,95

/2 = 0,025

z

/2

= 1,96 © Ediciones Pirámide

Contraste de hipótesis no paramétrico Para obtener el valor experimental ordenamos las observaciones de forma conjunta en orden creciente y les asignamos los rangos ai: Observaciones

ai

zi

aizi

x x y y x x y y x x y y x x x y x y x y y y

1 4 5 8 9 12 13 16 17 20 21 22 19 18 15 14 11 10 7 6 3 2

1 1 0 0 1 1 0 0 1 1 0 0 1 1 1 0 1 0 1 0 0 0

1 4 — — 9 12 — — 17 20 — — 19 18 15 — 11 — 7 — — —

2,7 3,0 3,0 3,2 4,5 4,9 5,9 6,0 6,4 7,0 8,0 8,0 8,9 9,0 9,0 9,0 10,0 10,0 15,0 15,0 16,0 17,5

Sˆn = 1 + 4 + 9 + 12 + 17 + 20 + 19 + 18 + 15 + 11 + 7 = 133 zexp =

133 − 126,5 23,92

= 0,4268

y como: − zα / 2 = − 1,96 < 0, 4268 = zexp < zα / 2 = 1,96 entonces no se rechaza H0 al 5 % de significación. Por tanto, las distribuciones no presentan diferencias significativas en cuanto a dispersión; así pues, considerando como factor indicador de la distinta distribución de ventas la dispersión, no sería necesario tomar las medidas integradas en dicha política homogeneizadora. © Ediciones Pirámide

231

Ejercicios de inferencia estadística y muestreo c)

Si se supone que las distribuciones son normales:

~ N(μx , σ x ) Y ~ N(μy , σ y )

X

para ver si las ventas en la cadena A presentan más dispersión, planteamos las hipótesis: H0 : σ x2  σ y2 H1: σ x2 > σ y2 Este contraste se resolverá utilizando como estadístico de prueba: F=

Sx2 Sy2

~ Ᏺ n − 1, n − 1 ≡ Ᏺ 10,10

H0

x

y

pues mx y my son desconocidas. La región crítica representada gráficamente será: Ᏺ10,10

0,95

= 0,05

F1– = 2,98

rechazándose H0 si Fexp > F1 – a = 2,98. Calculamos las varianzas muestrales:

232



nx

冢 冣冥 2



sy2 =

1 (101,6)2 1.186,3 − = 24,7885 11 − 1 11



i =1

∑ xi

i =1

=



1 80, 4 2 716,72 − = 12,9069 11 − 1 11

1 nx − 1

∑ xi2 −

1 nx

nx

s x2 =



© Ediciones Pirámide

Contraste de hipótesis no paramétrico y así: Fexp =

12,9069 = 0,5207 < F1 − α = 2,98 24,7885

por tanto, no se rechaza H0 al 5 % de significación, por lo que, al parecer, las ventas de la cadena A no presentan más dispersión. Durante los meses de mayo y junio, las entidades bancarias suelen disponer de personal que facilita la realización de la declaración de la renta a sus clientes. Ante la gran cantidad de clientes que solicitan este servicio, una sucursal bancaria decidió dar cita previa con el fin de evitar las largas esperas que se producían. A pesar de la medida, los clientes tenían que seguir esperando un tiempo medio de cinco minutos antes de ser atendidos. Una mañana elegida al azar se decidió contabilizar los tiempos de espera de cada uno de los clientes, que fueron los siguientes: Ejercicio 3.25

3 4,5 5 3 0 5,5 2 6,5 8 ¿Podría decirse que el tiempo de espera se distribuye según una ley exponencial? Nivel de significación: 1 %. Denotemos con X la variable aleatoria que representa el tiempo de espera de uno de estos clientes. Se desea contrastar, sobre la base de la información muestral, si X se distribuye según una exponencial de parámetro a. Si esto fuera así, como los clientes esperan un tiempo medio de cinco minutos, se tendría: Solución

5 = E[ X ] = a=

1 a

1 = 0,2 5

Por tanto, las hipótesis a contrastar serán:

© Ediciones Pirámide

H0 : X

~ Exp 冢 1 冣

H1: X

~/ Exp 冢 1 冣

5

5

233

Ejercicios de inferencia estadística y muestreo o equivalentemente: H0 : F( x ) = F0 ( x ) H1: F( x ) ≠ F0 ( x ) siendo F(x) la verdadera función de distribución de la variable X y F0 (x) la función de distribución de una Exp (1/5), es decir: ⎧1 − e − ax F0 ( x ) = ⎨ ⎩0

si x > 0 ⎫ ⎧1 − e − x / 5 si x > 0 ⎬=⎨ si x  0 ⎭ ⎩0 si x  0

Para realizar este contraste, podemos utilizar el test de Kolmogorov-Smirnov para una muestra, cuyo estadístico de prueba es, en el caso bilateral: Dn =

máx

−∞ Dα / H0 ) = α = 0,01 234

© Ediciones Pirámide

Contraste de hipótesis no paramétrico Utilizando la tabla 14 para un test bilateral y con n = 9, se tiene: Dα = 0,513 Por tanto, rechazaremos H0 si: Dn, exp > 0,513 Para calcular el valor experimental del estadístico, construimos la siguiente tabla, en la que las observaciones muestrales han sido ordenadas de menor a mayor: xi

ni

Fn(xi) = N(xi)/n

F0(xi)

ai = 冟 Fn(xi) – F0(xi) 冟

bi = 冟 Fn(xi) – F0(xi – 1) 冟

0,0 2,0 3,0 4,5 5,0 5,5 6,5 8,0

1 1 2 1 1 1 1 1

1/9 2/9 4/9 5/9 6/9 7/9 8/9 9/9 = 1

0,0000 0,3297 0,4512 0,5934 0,6321 0,6671 0,7275 0,7981

0,1111 0,1075 0,0067 0,0379 0,0345 0,1106 0,1614 0,2019

0,0000 0,2186 0,2290 0,1490 0,0766 0,0005 0,0503 0,0908

n=9

Así: Dn, exp = máx{ai , bi} = 0,2290 y como: Dn, exp = 0,2290  0,513 la información muestral no presenta evidencia suficiente, al 1 % de significación, para rechazar la hipótesis nula H0, que indicaba que el tiempo de espera de los clientes seguía una distribución exponencial con parámetro a = 1/5. En una facultad se decidió formar un solo grupo para impartir una asignatura que es común a las licenciaturas de Economía y de Dirección y Administración de Empresas. En un examen tipo test de 100 preguntas, se encontró que la calificación media de los estudiantes de una y otra licenciatura era la misma. Sin emEjercicio 3.26

© Ediciones Pirámide

235

Ejercicios de inferencia estadística y muestreo bargo, el profesor desea conocer también el grado de homogeneidad de las calificaciones obtenidas por los alumnos de dichas licenciaturas. Para ello, toma dos muestras aleatorias simples de 11 y 12 exámenes, respectivamente, pertenecientes a alumnos de cada una de las licenciaturas. Las puntuaciones fueron las siguientes: Dirección y Administración de Empresas

Economía

56 85 23 64 75 92 45 38 67 40 73 13 52

60 58 50 32 69 83 36 48 55 88 70 20

Utilizando un 10 % de significación, ¿señalan estos datos la existencia de diferencias significativas en cuanto a la dispersión de las calificaciones entre estas licenciaturas?

Sean las variables X e Y las que representan la puntuación de los alumnos de Economía y Dirección y Administración de Empresas, respectivamente, en el test realizado. Suponemos que estas variables son continuas con la misma distribución, salvo, quizá, en el parámetro de dispersión. Por tanto, se trata de contrastar: Solución

H0 : F ( x ) = G( x )

(tienen el mismo parámetro de dispersión)

H1: F( x ) ≠ G( x )

(tienen distinto parámetro de dispersión)

siendo F y G las funciones de distribución de X e Y, respectivamente. Para realizar este contraste utilizaremos el test de Siegel-Tukey, cuyo estadístico es: n

Sn = 236

∑ ai Zi

i =1

© Ediciones Pirámide

Contraste de hipótesis no paramétrico siendo: ⎧1 ⎪ ⎪ Zi = ⎨ ⎪0 ⎪⎩

si la observación i-ésima en la muestra combinada y ordenada es una X si la observación i-ésima en la muestra combinada y ordenada es una Y

y ai los coeficientes obtenidos al asignar los rangos a la muestra combinada y ordenada de menor a mayor de la siguiente forma: a la primera observación se le asigna rango 1; a la última, rango 2; a la penúltima, rango 3; a la segunda y tercera, rangos 4 y 5, y así sucesivamente. Como en este caso el número total de observaciones, nx + ny = 13 + 12 = 25, es un número impar, se ignorará la observación central. Además, al ser nx = 13 > 10 y ny = 12 > 10, la distribución de Sn se puede aproximar a la normal. Por tanto, para realizar el contraste podemos utilizar el estadístico: Z=

Sn − E[ Sn ] σ [ Sn ]

H0 n1 , n2 → ∞

N (0, 1)

con E[ Sn ] = Var [ Sn ] =

nx (n + 1) 13(25 + 1) = = 169 2 2 nx ny (n + 1) 12

=

13 ⋅ 12(25 + 1) 12

= 338

Con este test, la región crítica aproximada es: N(0,1)

1–

/2 = 0,05

–z © Ediciones Pirámide

/2

= – 1,645

= 0,90

/2 = 0,05

z

/2

= 1,645

237

Ejercicios de inferencia estadística y muestreo Para calcular zexp ordenamos las observaciones muestrales de forma conjunta y de menor a mayor para asignarles los rangos ai:

x y x y y x x x y y x y x y y x x y y x x y x y x

a

ai

zi

a i zi

13 20 23 32 36 38 40 45 48 50 52 55 56 58 60 64 67 69 70 73 75 83 85 88 92

1 4 5 8 9 12 13 16 17 20 21 24 — 23 22 19 18 15 14 11 10 7 6 3 2

1 0 1 0 0 1 1 1 0 0 1 0 1 0 0 1 1 0 0 1 1 0 1 0 1

1 — 5 — — 12 13 16 — — 21 — — — — 19 18 — — 11 10 — 6 — 2

Por tanto: Sˆn =

n

∑ ai zi = 1 + 5 + 12 + 13 + 16 + 21 + 19 + 18 + 11 + 10 + 6 + 2 = 134

i =1

zexp =

134 − 169 338

= − 1,9037

y como: zexp = − 1,9037 < − 1,645 = − zα / 2 entonces se rechaza la hipótesis nula H0 al 10 % de significación, pudiendo afirmarse, con un 10 % de significación, que existen diferencias significativas en cuanto a la dispersión de las calificaciones entre dichas licenciaturas. 238

© Ediciones Pirámide

Contraste de hipótesis no paramétrico El Ministerio de Trabajo desea conocer si las cuantías de las sanciones que recaen sobre las empresas por incumplimiento de normas de seguridad son similares en tres comunidades autónomas consideradas. En cada comunidad se eligen al azar cinco expedientes sancionadores, que presentan los siguientes importes, expresados en miles de euros: Ejercicio 3.27

Comunidad A

Comunidad B

Comunidad C

1,225 1,624 4,626 1,411 3,151

1,128 4,622 3,121 1,823 1,141

6,225 9,524 4,625 5,521 15,629

Con una significación del 10 %: a) ¿Se podría admitir que los importes de las sanciones son similares en las tres comunidades? b) En caso de resultar distintos, ¿entre qué comunidades se observan diferencias significativas respecto a la cuantía de las sanciones? a) Definimos las variables Xi, i = 1, 2, 3 como aquellas que representan el importe de las sanciones en la comunidad i. Planteamos un contraste de Kruskal-Wallis dada la suposición de no normalidad, puesto que no disponemos de información sobre las distribuciones poblacionales de las variables Xi. Las hipótesis serán: Solución

H0 : F1 ( x ) = F2 ( x ) = F3 ( x ) H1: ∃ (i, j ), i ≠ j / Fi ( x ) ≠ Fj ( x ) donde Fi representa la función de distribución de la variable aleatoria Xi (i = 1, 2, 3). El estadístico del contraste de Kruskal-Wallis es: H=

k Ri2 12V 12 = ∑ − 3(n + 1) n(n + 1) n(n + 1) i = 1 ni

siendo: Ri = © Ediciones Pirámide

ni

∑ rij j =1

239

Ejercicios de inferencia estadística y muestreo y se rechaza H0 si: Hˆ  hα donde h a es tal que: P( H  hα / H0 ) = α = 0,10 Utilizando la tabla 23, se obtiene que: hα = 4,56 y, por tanto, se rechazará H0 si: Hˆ  4,56 Para calcular el valor experimental, asignamos los rangos, en orden creciente, a cada uno de los importes:

240

Comunidad

Importe

rij

r1j

r2j

r3j

B B A A A B B A B C A C C C C

1,128 1,141 1,225 1,411 1,624 1,823 3,121 3,151 4,622 4,625 4,626 5,521 6,225 9,524 15,629

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

— — 3 4 5 — — 8 — — 11 — — — —

1 2 — — — 6 7 — 9 — — — — — —

— — — — — — — — — 10 — 12 13 14 15

Suma de rangos



R = 120

R1 = 31

R2 = 25

R3 = 64

© Ediciones Pirámide

Contraste de hipótesis no paramétrico Así, el valor experimental del estadístico será: Hˆ =





12 312 252 64 2 + + − 3(15 + 1) = 8,82 15(15 + 1) 5 5 5

como: Hˆ = 8,82 > hα = 4,56 entonces se rechaza la hipótesis nula y, por tanto, con un 10 % de significación, podemos concluir que se aprecian diferencias significativas en los importes de las sanciones entre cada comunidad. b) Para localizar entre qué comunidades se aprecian diferencias significativas, utilizaremos el método de Dunn, para lo cual calcularemos: cil = z p



n(n + 1) 1 1 + 12 ni nl



,

i, l = 1, 2, 3

con p=

α 0,10 = = 0,0167 k ( k − 1) 3(3 − 1)

y zp, tal que, siendo Z ~ N(0, 1): P( Z  z p ) = p = 0,0167 Utilizando la tabla 7: N(0,1)

0,9833

p = 0,0167

zp = 2,13 © Ediciones Pirámide

241

Ejercicios de inferencia estadística y muestreo Así, como n1 = n2 = n3 = 5 cil = 2,13

冉 冊

15 ⋅ 16 1 1 + = 6,0245 12 5 5

,

∀ i, l

y diremos que las diferencias entre los importes de la comunidad i y la comunidad l son significativas si:

冟Ri − Rl 冟  cil Por tanto:

冟R1 − R2 冟 = 冷 31 − 25 冷 = 6 = 1,2 < 6,0245 5

5

5

No hay diferencias entre los importes de las sanciones en las comunidades A y B.

冟R1 − R3 冟 = 冷 31 − 64 冷 = 33 = 6,6 > 6,0245 5

5

5

Se aprecian diferencias significativas entre los importes sancionadores de A y C.

冟R2 − R3 冟 = 冷 25 − 64 冷 = 39 = 7,8 > 6,0245 5

5

5

Hay diferencias significativas entre los importes de las comunidades B y C.

Ante las numerosas incidencias detectadas, la Organización de Consumidores y Usuarios pretende investigar la duración de los tiempos de entrega de la empresa Televenta, S. A., perteneciente a un conocido grupo comercial. Para ello, decide realizar la compra de una bicicleta, que se oferta en la semana de promoción, desde 10 puntos geográficos diferentes. En cada compra, el tiempo de compromiso de entrega fue de 15 días como máximo. Los tiempos reales de entrega (número de días) fueron los siguientes: Ejercicio 3.28

45 242

7 23

15

30

16

28

40

50

32 © Ediciones Pirámide

Contraste de hipótesis no paramétrico Utilizando un 10 % de significación: a) ¿Indican estos datos que el 50 % de las ventas se entregan durante el tiempo de compromiso? b) Para comparar con el servicio de venta telefónica de otra empresa de la competencia, se realizaron seis compras similares en esta última, en la que el período de compromiso de entrega resultó ser el mismo. Los tiempos reales de entrega en este caso fueron: 10 15

20

17

30

22

En vista de toda la información, y con el mismo nivel de significación del apartado anterior, ¿puede decirse que los tiempos reales de entrega son similares en estas dos empresas? Utilice las correspondientes funciones de distribución empíricas.

Solución

a) Definimos la variable aleatoria X como:

X = «Tiempo de entrega de la bicicleta comprada a Televenta, S. A.» El 50 % de las ventas se entregarían durante el período de compromiso si el tiempo de entrega fuese inferior o igual a 15 días: 50% 15 días

Por tanto, se pretende contrastar si el valor de la mediana poblacional es igual a 15 días: H0 : Me = 15 días = m H1: Me ≠ 15 días Para realizar este contraste podemos utilizar el contraste de signos de la mediana o el de rangos-signos de Wilcoxon. Contraste de signos de la mediana Suponemos que X es una variable aleatoria continua, al menos en un entorno de su mediana poblacional, y, por tanto, P(X = Me) = 0. Puesto que el número de observaciones es reducido, el estadístico de prueba para este contraste será: S + = «Número de signos + en la muestra». © Ediciones Pirámide

243

Ejercicios de inferencia estadística y muestreo cuya distribución, si la hipótesis nula es cierta, es: S+

~ B(n, 1/ 2)

H0

La sucesión de signos se calcula midiendo las desviaciones de las observaciones con respecto al valor mediano propuesto en las hipótesis: ⎧> 0 ⇒ Asignamos signo + ⎪ Di = Xi − m = Xi − 15 ⎨< 0 ⇒ Asignamos signo − ⎪= 0 ⇒ Ignoramos la observación y reducimos n ⎩ En nuestro caso, la sucesión de signos queda: + – + 0 + + + + + + Puesto que hay una diferencia nula, entonces el tamaño muestral se reduce en una unidad y, así: S+

~ B(n = 9, 1/ 2)

H0

El valor experimental correspondiente al número de signos positivos es Sˆ + = 8. La región crítica del contraste es bilateral:  /2

 /2 k′ /2

k

/2

siendo k¢a/2 y k a/2 el mayor y menor entero, respectivamente, tales que, para un nivel de significación del 10 % (a = 0,10), verifican: P( S +  kα′ / 2 )  α / 2 = 0,05 P( S +  kα / 2 )  α / 2 = 0,05 Utilizando la tabla correspondiente a la función de distribución de una binomial con n = 9 y p = 1/2, tenemos que: P( X  0) = P( X = 0) = 0,0020  α / 2 = 0,05 P( X  1) = 0,0195  0,05 P( X  2) = 0,0898 > 0,05 244

© Ediciones Pirámide

Contraste de hipótesis no paramétrico Por tanto, k¢a/2 = 1; utilizando la simetría de una B(n, 1/2) obtenemos también el otro valor crítico: kα / 2 = n − kα′ / 2 = 9 − 1 = 8 La región crítica o de rechazo queda entonces de la siguiente forma:

k′ /2 = 1

k

/2

=8

Puesto que Sˆ + = 8  k a/2, entonces se rechaza la hipótesis nula al 10 % de significación, indicando los datos que el 50 % de las ventas no se entregan en el período de compromiso.

Contraste de rangos-signos de Wilcoxon De nuevo suponemos que X es continua y simétrica con respecto a su mediana poblacional. El estadístico de prueba para el contraste planteado anteriormente es ahora: T + = «Suma de los rangos de las Di > 0» estando las Di definidas de la misma manera que en el contraste de signos de la mediana realizado antes. Ahora las magnitudes de las Di se utilizarán para asignar los rangos correspondientes: xi

di = xi – 15

Signo (di)

Rango (冟 di 冟)

45 7 23 15 30 16 28 40 50 32

30 –8 8 0 15 1 13 25 35 17

+ – +

8,0 2,5 2,5

+ + + + + +

5,0 1,0 4,0 7,0 9,0 6,0

Para calcular los rangos, se ordenan los valores 冟 di 冟 y se asignan sus números de orden de menor a mayor. Como hay dos valores 冟 di 冟 repetidos (correspondientes a las © Ediciones Pirámide

245

Ejercicios de inferencia estadística y muestreo observaciones 7 y 23), se les asigna a cada una el rango medio de los rangos que les corresponderían si fueran diferentes. Así: Tˆ + = «Suma de rangos de las Di > 0» = = 8 + 2,5 + 5 + 1 + 4 + 7 + 9 + 6 = = 42,5 La región crítica también es bilateral en este caso:  /2 = 0,05

 /2 = 0,05 k′ /2

k

/2

siendo k¢a/2 y k a/2 el mayor y menor entero, respectivamente, que verifican: P(T +  kα′ / 2 )  α / 2 = 0,05 P(T +  kα / 2 )  α / 2 = 0,05 Utilizando la tabla 21 con n = 9: P(T +  kα′ / 2 )  0,05 ⇒ kα′ / 2 = 8 P(T +  kα / 2 )  0,05 = 1 − 0,95 ⇒ kα / 2 = 37

k′ /2 = 8

k

/2

= 37

Como T + = 42,5  k a/2, entonces la decisión a tomar, utilizando un 10 % de significación, vuelve a rechazar la hipótesis nula H0 : Me = 15 días. b) Definimos ahora la variable aleatoria Y, que corresponde al tiempo de entrega en la empresa de la competencia. Suponemos que X e Y son variables aleatorias continuas y que los datos muestrales han sido recogidos de manera aleatoria y forman dos muestras independientes. 246

© Ediciones Pirámide

Contraste de hipótesis no paramétrico Sean F y G las correspondientes funciones de distribución de X e Y. Para contrastar si los tiempos de entrega son similares, planteamos las siguientes hipótesis: H 0 : F ( z ) = G( x ) H1: F( z ) ≠ G( x ) Puesto que indica la utilización de las funciones de distribución empíricas, debemos realizar el test de Kolmogorov-Smirnov para dos muestras, cuyo estadístico de prueba es: Dn1 , n2 = máx 冟Fn1 ( x ) − Gn2 ( x )冟 siendo: Fn1 ( x ) =

N1 ( x ) n1

y

Gn2 ( x ) =

N2 ( x ) n2

y Ni (x) el número de observaciones de la variable i que son menores o iguales que x. La región crítica de este contraste es: = 0,10 Dn1, n2,

P( Dn1 , n2 > Dn1 , n2 ; α / H0 ) = α = 0,10 Utilizando la tabla 18 con n1 = 10, n2 = 6, N1 = mín (n1, n2) = 6 y N2 = máx (n1, n2) = 10, tendremos el valor crítico: Dn1 , n2 ; α =

17 = 0,567 30

Para calcular el valor experimental del estadístico de prueba organizamos los cálculos en la siguiente tabla: © Ediciones Pirámide

247

Ejercicios de inferencia estadística y muestreo xi

yi

Fn1(x) = N1(x)/10

Gn2(x) = N2(x)/6

冟 Fn (x) – Gn (x) 冟

1/10 = 0,10 1/10 = 0,10 2/10 = 0,20 3/10 = 0,30 3/10 = 0,30 3/10 = 0,30 3/10 = 0,30 4/10 = 0,40 5/10 = 0,50 6/10 = 0,60 7/10 = 0,70 8/10 = 0,80 9/10 = 0,90 10/10 = 1,00

0 1/6 = 0,167 2/6 = 0,333 2/6 = 0,333 3/6 = 0,500 4/6 = 0,667 5/6 = 0,883 5/6 = 0,883 5/6 = 0,883 6/6 = 1,000 6/10 = 1,000 6/10 = 1,000 6/10 = 1,000 6/10 = 1,000

0,100 0,067 0,133 0,033 0,200 0,367 0,583 0,483 0,383 0,400 0,300 0,200 0,100 0,000

7 15 16

10 15 17 20 22

23 28 30 32 40 45 50

30

1

2

De esta tabla, se tiene que: Dˆ n1 , n2 = máx 冟Fn1 ( x ) − Gn2 ( x )冟 = 0,533 x

y como es menor que el valor crítico: 17 Dˆ n1 , n2 = 0,533 < = 0,567 30 entonces, con un nivel de significación del 10 %, no se tiene evidencia para rechazar H0. No puede rechazarse la hipótesis correspondiente a tiempos de entrega similares.

248

© Ediciones Pirámide

4

Análisis de la varianza

Análisis de la varianza

Un diario de tirada nacional publica en su suplemento dominical un estudio sobre el perfil y la situación económica de los afiliados de los tres partidos más importantes del espectro político actual. Para su elaboración, se entrevistó a cinco militantes de cada uno de los partidos, seleccionados aleatoriamente. Entre otras cuestiones de interés, los entrevistados facilitaron la cifra correspondiente a la renta media mensual de la familia a la que pertenecen, que resultó ser, en euros: Ejercicio 4.1

Partido A

Partido B

Partido C

1.260 1.790 2.480 2.350 2.460

1.570 1.340 1.450 5.670 3.270

2.340 1.110 2.450 1.230 2.310

En el apartado de conclusiones se recogía la siguiente información: «Existen grandes diferencias de renta entre los afiliados a partidos de uno y otro signo...». Suponiendo normalidad y homocedasticidad de los datos, y con un 5 % de significación, ¿sería estadísticamente correcta esta afirmación? Representamos como Xi la variable aleatoria que recoge la renta media mensual, en euros, de la familia de un militante en el partido político i (i = 1 (A), 2 (B), 3 (C)): Solución

Xi ~ N(mi, s) pues son normales y homocedásticas. Además, por la propia definición de cada Xi, podría decirse que estas variables son independientes. © Ediciones Pirámide

249

Ejercicios de inferencia estadística y muestreo En este ejercicio se pretende contrastar las hipótesis: H0 : μ1 = μ2 = μ3 H1: μi ≠ μ j

para algún i ≠ j

para lo que pueden utilizarse los métodos del análisis de la varianza, pues las variables verifican los supuestos previos exigidos. El estadístico de prueba para realizar el contraste es: F=

CME CM D

~ Ᏺ k − 1, n − k ≡ Ᏺ 3 − 1,15 − 3 ≡ Ᏺ 2,12

H0

pues k = 3 y n = 15. La región crítica puede representarse gráficamente1 como:

1

Ᏺ2,12

= 0,05

0,95

F2, 12; 1– = 3,89

donde el valor crítico se ha obtenido a partir de la tabla 11. Pasamos a calcular el valor del estadístico experimental. 1 Aunque en las tablas estadísticas se representa la forma genérica más habitual de la función de densidad de una distribución Ᏺ de Snedecor:

Ᏺn1, n2

en cada uno de los ejercicios se ha representado su forma correspondiente a los grados de libertad concretos.

250

© Ediciones Pirámide

Análisis de la varianza x1j

x2j

x3j

x21j

x22j

x23j

01.260 01.790 02.480 02.350 03.460

01.570 01.340 01.450 05.670 03.270

2.340 1.110 2.450 1.230 2.310

01.587.600 03.204.100 06.150.400 05.522.500 11.971.600

02.464.900 01.795.600 02.102.500 32.148.900 10.692.900

05.475.600 01.232.100 06.002.500 01.512.900 05.336.100

11.340

13.300

9.440

28.436.200

49.204.800

19.559.200

k

T=

ni

∑ ∑ xij = 11.340 + 13.300 + 9.440 = 34.080

i =1 j =1 k

ni

∑ ∑ xij2 = 28.436.200 + 49.204.800 + 19.559.200 = 97.200.200

i =1 j =1

k

SCT =

i =1 j =1 k

SCD =

ni

∑ ∑ xij2 − ni

Ti 2 34.080 2 = 97.200.200 − = 19.770.440 n 15



k

i =1 j =1



11.340 2 13.300 2 9.440 2 Ti 2 = 97.200.200 − + + = 18.280.360 5 5 5 i = 1 ni

∑ ∑ xij2 − ∑

SCE = SCT − SCD = 19.770.440 − 18.280.360 = 1.490.080 Tabla ANOVA para una clasificación simple Fuente de variación

Dentro de los partidos (error aleatorio)

Entre partidos

Sumas de cuadrados

SCD = 18.280.360

Grados de libertad

n – k = 15 – 3 = 12

Cuadrados medios

CM D =

SCD = n−k

= 1.523.363,33

SCE = 1.490.080

k–1=3–1=2

CME =

SCE = k −1

Fexp

CME = CM D = 0, 4891

= 745.040

Total

SCT = 19.770.404

n – 1 = 15 – 1 = 14

Como: Fexp = 0, 4891 < 3,89 = F2, 12;1 − α © Ediciones Pirámide

251

Ejercicios de inferencia estadística y muestreo entonces no se rechaza la hipótesis nula H0: m1 = m2 = m3, por lo que, al 5 % de significación, la afirmación realizada por el diario no sería estadísticamente correcta, pues los datos muestrales no presentan evidencia suficiente para rechazar la hipótesis de igualdad de medias. En un restaurante se ha realizado un proceso de selección para contratar a un camarero profesional altamente cualificado. De entre todos los candidatos presentados, cuatro de ellos fueron seleccionados para realizar las pruebas finales. Una de estas pruebas consistía en desempeñar el puesto de trabajo durante cierto número de horas de un día determinado. El dueño del restaurante considera que podría utilizar las cantidades entregadas como propinas para evaluar el grado de satisfacción de los clientes y la calidad del servicio prestado por cada camarero. Los resultados correspondientes a esta prueba se recogen en la tabla siguiente, donde los datos expresan el porcentaje de propina entregado sobre el importe total de la factura de distintos clientes. Ejercicio 4.2

Señor Ruiz

Señor Pérez

Señor González

Señor Ortega

08,0 07,5 10,9 10,0 12,0 06,5 10,0

10,0 09,5 11,4 10,3 12,0

08,5 05,0 15,0 11,1 10,5 07,0 11,0

13,0 10,5 09,5 12,0 16,0 08,0

Suponiendo que los porcentajes de propinas sobre el importe total de la factura pueden considerarse normalmente distribuidos, y utilizando un nivel de significación del 10 %: a) ¿Puede aceptarse la hipótesis de homocedasticidad de las distribuciones correspondientes al porcentaje de propina entregado a cada uno de los camareros? b) ¿Puede decirse que los cuatro candidatos están igualmente cualificados para este tipo de trabajo?

Solución

Sean las variables aleatorias:

Xi = «Porcentaje de propina sobre el importe total de una factura recibido por el candidato i». con i = 1, 2, 3, 4, correspondientes a los señores Ruiz, Pérez, González y Ortega, respectivamente. Estas variables tienen distribuciones normales: Xi ~ N(mi, si) y, además, pueden considerarse independientes. 252

© Ediciones Pirámide

Análisis de la varianza a) Para comprobar si las variables pueden considerarse homocedásticas, realizamos el test de Bartlett de homogeneidad de varianzas: H0 : σ 12 = σ 22 = σ 32 = σ 42 H1: σ i2 ≠ σ 2j

para algún i ≠ j

El estadístico de prueba para contrastar estas hipótesis viene dado por: k

B=

(n − k ) ln CM D − ∑ (ni − 1) ln Si2 i =1

1 1+ 3( k − 1)



k

1 1 ∑ n −1 − n − k i =1 i



~ χ k2 − 1 ≡ χ 42 − 1 ≡ χ 32

H0

y rechazaremos H0, con un nivel de significación a = 0,10, si: Bexp > χ k2 − 1;1 − α = χ 32;1 − α donde este valor crítico verifica que: P[ χ 32 > χ 32, 1 − α ] = α = 0,10 Por tanto, utilizando la tabla 9, se tiene:

χ 32, 1 − α = 6,25 y, gráficamente, la región crítica queda representada por: χ23

1–

= 0,90 = 0,10

χ23, 1 – = 6,25 © Ediciones Pirámide

253

Ejercicios de inferencia estadística y muestreo Para calcular el valor experimental de B, debemos encontrar en primer lugar las varianzas muestrales y el valor del cuadrado medio dentro de los grupos. Como: s2 =

1 n 1 ( xi − x ) 2 = ∑ n − 1 i =1 n −1

冤∑ xi2 − n 冢∑ xi 冣 冥 n

n

1

i =1

2

i =1

entonces:













s12 =

(64,9)2 1 = 3,9324 625,31 − 7 −1 7

s22 =

(53,2)2 1 570,3 − = 1,063 5 −1 5

s32 =

(68,1)2 1 725,71 − = 10,5324 7 −1 7

s42 =

(69)2 1 833,5 − =8 6 −1 6



SCD n−k

CM D =

k

SCD =



ni

k

Ti 2 i = 1 ni

∑ ∑ xij2 − ∑

i =1 j =1

Por tanto, construimos la siguiente tabla:

254

x1j

x2j

x3j

x4j

x21j

x22j

x23j

x24j

08,0 07,5 10,9 10,0 12,0 06,5 10,0

10,0 09,5 11,4 10,3 12,0

08,5 05,0 15,0 11,1 10,5 07,0 11,0

13,0 10,5 09,5 12,0 16,0 08,0

064,00 056,25 118,81 100,00 144,00 042,25 100,00

100,00 090,25 129,96 106,09 144,00

072,25 025,00 225,00 123,21 110,25 049,00 121,00

169,00 110,25 090,25 144,00 256,00 064,00

64,9

53,2

68,1

69,0

625,31

570,30

725,71

833,50

© Ediciones Pirámide

Análisis de la varianza y así: k

ni

∑ ∑ xij2 = 625,31 + 570,3 + 725,71 + 833,5 = 2.754,82

i =1 j =1

SCD = 2.754,82 − CM D =





64,9 2 53,2 2 68,12 69 2 + + + = 131,0406 7 5 7 6

SCD 131,0406 = = 6,24 n−k 25 − 4

con k

n=

∑ ni = 7 + 5 + 7 + 6 = 25

i =1

k=4 Sustituyendo estos valores en la expresión del estadístico de Bartlett, tenemos: Bexp =

=

(25 − 4) ln (6,24) − [6 ⋅ ln 3,9324 + 4 ⋅ ln 1,063 + 6 ⋅ ln 10,5324 + 5 ⋅ ln 8]



1 1 1 1 1 1 1+ + + + − 3( 4 − 1) 6 4 6 5 25 − 4



=

5, 4668 = 5,0539 1,0817

Como: Bexp = 5,0539 < 6,25 = χ 32, 1 − α entonces, al 10 % de significación, no se rechaza H0, la hipótesis de homogeneidad de varianzas, por lo que parece aceptable la hipótesis de homocedasticidad de las variables. b) Los cuatro candidatos estarán igualmente cualificados si la calidad del servicio prestado y el grado de satisfacción de los clientes es el mismo para todos; como se ha decidido medir estas cualidades a través de las propinas recibidas, los candidatos estarán © Ediciones Pirámide

255

Ejercicios de inferencia estadística y muestreo igualmente cualificados si los porcentajes medios de propinas son iguales para todos ellos. Por tanto, debemos contrastar las hipótesis: H0 : μ1 = μ2 = μ3 = μ 4 H1: ∃ (i, j ), i ≠ j /μi ≠ μ j y puesto que las variables aleatorias Xi son normales, homocedásticas e independientes, utilizaremos las técnicas del ANOVA. Así pues, el estadístico de prueba para realizar el contraste será: F=

CME CM D

~ Ᏺ k − 1, n − k ≡ Ᏺ 4 − 1, 25 − 4 ≡ Ᏺ 3, 21

H0

pues k = 4 y n = 25. La región crítica del contraste se puede representar gráficamente como:

Ᏺ3, 21

1–

= 0,90 = 0,10

F3, 21; 1 – = 2,36

donde el valor crítico ha sido obtenido a partir de la tabla 11, de manera que verifique: P[Ᏺ 3, 21 > F3, 21;1 − α ] = 0,10 Para obtener el valor experimental calculamos en primer lugar las sumas de cuadrados y construimos la tabla ANOVA. Algunos de los cálculos necesarios ya han sido realizados en el apartado anterior: 256

© Ediciones Pirámide

Análisis de la varianza k

T=

∑ Ti = 64,9 + 53,2 + 68,1 + 69 = 255,2

i =1 k

SCT =

i =1 j =1 k

SCD =

ni

∑ ∑ xij2 − ni

T2 (255,2)2 = 2.754,82 − = 149,7384 n 25 k

Ti = 131,0406 i = 1 ni

∑ ∑ xij2 − ∑

i =1 j =1

SCE = SCT − SCD = 18,6978 Tabla ANOVA para una clasificación simple Fuente de variación

Entre grupos

Sumas de cuadrados

SCE = 18,6978

Grados de libertad

k–1=3

Cuadrados medios

CME =

SCE = k −1

= 6,2326

Dentro de grupos

SCD = 131,0406

n – k = 21

CM D =

SCD = n−k

Fexp

CME = CM D = 0,9988

= 6,2400

Total

SCT = 149,7384

n – 1 = 24

Como: Fexp = 0,9988 < F3, 21;1 − α = 2,36 entonces, al 10 % de significación, no se rechaza H0, es decir, los datos muestrales, al 10 % de significación, no presentan evidencia suficiente para decir que existen diferencias significativas entre las cualificaciones de los cuatro candidatos a camareros. El Instituto Nacional de Estadística de un determinado país desea comprar una potente estación de servicio para el tratamiento de sus datos. Tres distribuidores de ordenadores independientes, Infomat, S. A., Servired, S. A., y Compumat, S. A., presentaron sus ofertas al instituto, que fueron muy similares en cuanto a precios, garantía, servicios posventa y resto de especificaciones. Para decidir a qué distribuidor comprar la estación de servicio, el instituto solicitó a cada uno de ellos que Ejercicio 4.3

© Ediciones Pirámide

257

Ejercicios de inferencia estadística y muestreo ejecutara cierto programa con cinco conjuntos similares de datos. Los tiempos de ejecución, en minutos, aparecen en la siguiente tabla: Distribuidor

Conjunto de datos

Infomat, S. A.

Servired, S. A.

Compumat, S. A.

1 2 3 4 5

67 50 55 72 67

52 56 43 66 68

40 52 44 47 35

Suponiendo que los tiempos de ejecución de este programa pueden considerarse normalmente distribuidos, y utilizando un nivel de significación del 1 %, ¿pueden apreciarse diferencias significativas en los ordenadores de estos tres distribuidores?

Solución

Definimos las variables:

Xi = «Tiempo de ejecución del programa en el ordenador del distribuidor i». siendo i = 1, 2, 3 correspondientes a los distribuidores Infomat, S. A., Servired, S. A., y Compumat, S. A., respectivamente. Se supone que estas variables están normalmente distribuidas, por tanto: Xi

~ N ( μi , σ i ),

i = 1, 2, 3

y, además, son independientes. Los ordenadores de los tres distribuidores pueden considerarse iguales si los tiempos medios de ejecución del programa son similares. Así, tendremos que contrastar la hipótesis m1 = m2 = m3. Para poder realizar un análisis de la varianza, veamos, en primer lugar, si puede admitirse la hipótesis de homocedasticidad; es decir, comprobamos si las variables aleatorias Xi presentan homogeneidad de varianzas. Para ello, aplicamos el test de Bartlett para contrastar las hipótesis. H0 : σ 12 = σ 22 = σ 32 H1: σ i2 ≠ σ 2j 258

para algún i ≠ j © Ediciones Pirámide

Análisis de la varianza El estadístico de prueba proporcionado por el test de Bartlett es: k

B=

(n − k ) ln CM D − ∑ (ni − 1) ln Si2 i =1

1+

1 3( k − 1)

冢∑ n 1− 1 − n −1 k 冣 k

i =1

i

cuya distribución bajo H0 es: B

~ χ k2 − 1 ≡ χ 32− 1 ≡ χ 22

H0

La región crítica, con un 1 % de significación, viene determinada por los valores del estadístico, tales que: P[ B > χ 22;1 − α ] = α = 0,01 ⇒ χ 22;1 − α = 9,21 donde el valor crítico ha sido buscado en la tabla 9. Gráficamente:

χ22

= 0,01

0,99

χ22,1– = 9,21

Con lo cual, rechazaremos la homogeneidad de varianzas si: Bexp > 9,21 © Ediciones Pirámide

259

Ejercicios de inferencia estadística y muestreo Calculemos ahora el valor experimental del estadístico. Para calcular las varianzas muestrales, utilizamos que: s2 =

1 n 1 ( xi − x ) 2 = ∑ n − 1 i =1 n −1



n

∑ xi2 −

i =1

1 n

冢∑ x 冣 冥 n

2

i =1

i

Así:













s12 =

1 (311)2 19.678 − = 85,7 4 5

s22 =

1 (285)2 = 106 16.669 − 4 5

s32 =

1 (218)2 9.674 − = 42,3 4 5 k

SCD = CM D =

ni



k



3112 2852 2182 Ti 2 = 46.030 − + + = 936 5 5 5 i = 1 ni

∑ ∑ xij2 − ∑

i =1 j =1

SCD 936 = = 78 n−k 12

Sustituyendo en la expresión de B, se tiene: Bexp =

(15 − 3) ln 78 − [ 4 ⋅ ln 85,7 + 4 ⋅ ln 106 + 4 ⋅ ln 42,3] 1+



1 1 1 1 1 + + − 3(3 − 1) 4 4 4 15 − 3



=

0,8442 = 0,7598 1111 ,

y como: Bexp = 0,7598 < 9,21 = χ 22;1 − α entonces no se rechaza la hipótesis nula de homogeneidad de varianzas y podemos admitir la hipótesis de homocedasticidad, de modo que las variables Xi verifican: Xi Xi Xi 260

~ N ( μi , σ i ),

i = 1, 2, 3 independientes homocedásticas (σ 12 = σ 22 = σ 32 = σ 2 ) © Ediciones Pirámide

Análisis de la varianza Por tanto, realizamos un ANOVA para contrastar las hipótesis: H0 : μ1 = μ2 = μ3 H1: ∃ (i, j ), i ≠ j, tal que μi ≠ μ j El estadístico del contraste viene dado por: CME CM D

F=

~ Ᏺ k − 1, n − k ≡ Ᏺ 3 − 1,15 − 3 ≡ Ᏺ 2,12

H0

Para calcular el valor experimental de este estadístico, necesitamos las sumas de cuadrados. Realizamos los cálculos correspondientes en la siguiente tabla: x1j

x2j

x3j

x21j

x22j

x23j

067 050 055 072 067

052 056 043 066 068

040 052 044 047 035

04.489 02.500 03.025 05.184 04.489

02.704 03.136 01.849 04.356 04.624

1.600 2.704 1.936 2.209 1.225

311

285

218

19.687

16.669

9.674

Por tanto: k

T=

ni

∑ ∑ xij = 311 + 285 + 218 = 814

i =1 j =1 k

ni

∑ ∑ xij2 = 19.687 + 16.669 + 9.674 = 46.030

i =1 j =1

k

SCT =

ni

∑ ∑ xij2 −

i =1 j =1

T2 814 2 = 46.030 − = 1.856,9333 n 15

k

SCE =

Ti 2 T 2 3112 2852 2182 814 2 − = 920,9333 − = + + n 5 15 5 5 i = 1 ni



SCD = SCT − SCE = 936 © Ediciones Pirámide

261

Ejercicios de inferencia estadística y muestreo Construimos la tabla ANOVA: Fuente de variación

Sumas de cuadrados

Grados de libertad

Entre distribuidores

SCE = 920,9333

Dentro de distribuidores

SCD = 936

Cuadrados medios

CME =

k–1=3–1=2

SCE = k −1

= 460, 4667 CM D =

n – k = 15 – 3 = 12

SCD = n−k

Fexp

CME = CM D = 5,9034

= 78

Total

SG = 1.856,9333

n – 1 = 15 – 1 = 14

La región crítica para a = 0,01 viene expresada gráficamente como:

Ᏺ2,12

0,99

= 0,01

F2, 12; 1– = 6,93

Como: Fexp = 5,9034 < F2, 12;1 − α = 6,93 entonces, al 1 % de significación, no se rechaza H0, por lo que no se aprecian diferencias significativas en los ordenadores de estos tres distribuidores. En cierta región se pretende realizar un estudio comparativo sobre el precio del litro de gasolina sin plomo en las gasolineras situadas en áreas comerciales, residenciales y zonas industriales. Para realizar el estudio se ha elegido al azar un determinado número de gasolineras en cada una de estas zonas y se ha Ejercicio 4.4

262

© Ediciones Pirámide

Análisis de la varianza anotado el precio medio semanal, en euros, del litro de gasolina sin plomo. Los datos recogidos aparecen en la siguiente tabla: Zona comercial

Zona residencial

Zona industrial

1,097 1,122 1,105 1,119 1,089 1,102 1,095

1,158 1,145 1,161 1,153

1,138 1,176 1,159 1,093 1,124 1,089

Admitiendo como ciertas las hipótesis de independencia, normalidad y homocedasticidad en las variables estudiadas, ¿señalan los datos diferencias significativas en el precio de la gasolina sin plomo en las distintas zonas? Nivel de significación: 2,5 %.

Representamos el precio medio semanal del litro de gasolina sin plomo en una gasolinera de la zona i mediante la variable aleatoria Xi, con i = 1 (zona comercial), 2 (zona residencial) y 3 (zona industrial). Estas variables se distribuyen normalmente: Solución

~ N ( μ1, σ 1 ) X2 ~ N ( μ 2 , σ 2 ) X3 ~ N ( μ3 , σ 3 ) X1

son independientes y, además, homocedásticas, por lo que:

σ 12 = σ 22 = σ 32 = σ 2 con s una cantidad constante. Si no hubiera diferencia entre los precios de la gasolina sin plomo en estas tres zonas, las medias de las tres variables aleatorias deberían ser iguales:

μ1 = μ2 = μ3 © Ediciones Pirámide

263

Ejercicios de inferencia estadística y muestreo Por tanto, debemos contrastar las hipótesis: H0 : μ1 = μ2 = μ3 H1: ∃ (i, j ), i ≠ j /μi ≠ μ j y como las variables Xi, i = 1, 2, 3 son normales, independientes y homocedásticas, aplicaremos el análisis de la varianza. El estadístico de prueba para realizar el contraste es: F=

CME CM D

~ Ᏺ k − 1, n − k ≡ Ᏺ 3 − 1,17 − 3 ≡ Ᏺ 2,14

H0

ya que tenemos k = 3 variables y n = n1 + n2 + n3 = 7 + 4 + 6 = 17 datos. La región crítica, gráficamente, quedará como:

Ᏺ2,14

0,975

= 0,025

F2, 14; 1– = 4,86

donde el valor crítico F2,14; 1 – a ha sido obtenido a partir de la tabla 11, de tal forma que verifique: P[Ᏺ 2, 14  F2, 14;1 − α ] = 1 − α = 0,975 Para obtener el valor experimental, calculamos en primer lugar las sumas de cuadrados: k

SCT = 264

ni

k

ni

∑ ∑ ( xij − x )2 = ∑ ∑ xij2 −

i =1 j =1

i =1 j =1

T2 n © Ediciones Pirámide

Análisis de la varianza k

SCD =

∑ ∑ ( xij − xi )2 =

i =1 j =1 k

SCE =

ni

ni

k

ni

k

Ti 2 i = 1 ni

∑ ∑ xij2 − ∑

i =1 j =1 k

Ti 2 T 2 − = SCT − SCD n i = 1 ni

∑ ∑ ( xi − x ) 2 = ∑

i =1 j =1

Realizamos las operaciones en la siguiente tabla: Zona comercial

Zona residencial

Zona industrial

x1j

x21j

x2j

x22j

x3j

x23j

1,097 1,122 1,105 1,119 1,089 1,102 1,095

1,203409 1,258884 1,221025 1,252161 1,185921 1,214404 1,199025

1,158 1,145 1,161 1,153

1,340964 1,311025 1,347921 1,329409

1,138 1,176 1,159 1,093 1,124 1,089

1,295044 1,382976 1,343281 1,194649 1,263376 1,185921

7,729

8,534829

4,617

5,329319

6,779

7,665247

Así, tenemos que: T1 = 7,729

;

T2 = 4,617

;

T3 = 6,779

k

T=

∑ Ti = 19,125

i =1 k

ni

∑ ∑ xij2 = 8,534829 + 5,329319 + 7,665247 = 21,529395

i =1 j =1

SCT = 21,529395 −

19,1252 = 0,01377 17

SCD = 21,529395 −





7,729 2 4,6172 6,779 2 + + = 0,00716244 7 4 6

SCE = SCT − SCD = 0,00660756 y con estos valores construimos la tabla ANOVA: © Ediciones Pirámide

265

Ejercicios de inferencia estadística y muestreo Tabla ANOVA para una clasificación simple Fuente de variación

Sumas de cuadrados

Grados de libertad

Dentro de los grupos

SCD = 0,00716244

n – k = 17 – 3 = 14

Entre grupos

Cuadrados medios

CM D =

SCD = n−k

= 0,00051160

SCE = 0,00660756

k–1=3–1=2

CME =

SCE = k −1

Fexp

CME = CM D = 6, 4577

= 0,003303780

Total

SCT = 0,013770

n – 1 = 17 – 1 = 16

Como Fexp = 6, 4577 > 4,86 = F2, 14;1 − α entonces, al 2,5 % de significación, los datos muestrales presentan evidencia suficiente para rechazar la hipótesis nula de igualdad de medias. Por tanto, al 2,5 % de significación, los datos señalan diferencias significativas en los precios de la gasolina sin plomo en las diferentes zonas. Teniendo en cuenta los resultados del ejercicio anterior, y con el mismo nivel de significación, indique entre qué zonas se presentan diferencias significativas en cuanto al precio de la gasolina sin plomo. Ejercicio 4.5

Como en el ejercicio anterior se ha rechazado la hipótesis nula al realizar el análisis de la varianza, los datos señalan diferencias significativas en los precios de la gasolina entre las distintas zonas. Para ver qué zonas presentan diferencias debemos realizar los siguientes contrastes: Solución

a)

H0 : μ1 = μ2 H1: μ1 ≠ μ2

b)

H0 : μ1 = μ3 H1: μ1 ≠ μ3

c)

H0 : μ 2 = μ 3 H1: μ2 ≠ μ3

266

© Ediciones Pirámide

Análisis de la varianza mediante el método de comparaciones múltiples de Scheffé. Los estadísticos de prueba a utilizar serán: F=

( Xi − X j )2



SCD 1 1 + ( k − 1) n − k ni n j



~ Ᏺ k − 1, n − k ≡ Ᏺ 2,14

H0

donde i = 1, 2, 3; j = 1, 2, 3, según se trate de los contrastes a), b) y c). La región crítica es la misma para los contrastes a), b) y c), y como la distribución del estadístico es idéntica a la del análisis de varianza, entonces la región crítica será la misma del ejercicio anterior para los tres contrastes:

Ᏺ2,14

= 0,025

0,975

F2, 14; 1 – = 4,86

Calculamos los valores experimentales:





7,729 4,617 2 − 7 4 (a) Fexp = = 6,2460 0,00716244 1 1 (3 − 1) + 17 − 3 7 4









7,729 6,779 2 − 7 6 (b) Fexp = = 2,0839 0,00716244 1 1 (3 − 1) + 17 − 3 7 6









4,617 6,779 2 − 4 6 (c) = 1,3984 Fexp = 0,00716244 1 1 (3 − 1) + 17 − 3 4 6



© Ediciones Pirámide



267

Ejercicios de inferencia estadística y muestreo Por tanto, como: (a) = 6,2460 > 4,86 = F2, 14;1 − α Fexp

entonces, rechazamos H0 en el contraste a), es decir, el precio de la gasolina de las zonas comerciales y residenciales presenta diferencias significativas: (b) Fexp = 2,0839 < 4,86 = F2, 14;1 − α

luego no se rechaza H0 en el contraste b), es decir, el precio de la gasolina no presenta diferencias significativas entre las zonas comerciales e industriales: (c) Fexp = 1,3984 < 4,86 = F2, 14;1 − α

No se rechaza H0 en el contraste c) y, por tanto, el precio de la gasolina no presenta diferencias significativas entre las zonas residenciales e industriales. El departamento de marketing de una empresa desea estudiar la repercusión de sus campañas publicitarias en las cifras de ventas de uno de sus productos. Se realizaron tres campañas diferentes, cada una en una provincia de la misma comunidad autónoma. Las tres campañas tenían diferentes características en cuanto al medio de comunicación utilizado. La campaña A se centraba en la prensa escrita, la B en las emisoras de radio y la C en anuncios en vallas publicitarias. Durante los tres primeros meses, las cifras de ventas (en cientos de unidades) en cinco tiendas, seleccionadas al azar y de manera independiente en cada provincia, fueron las siguientes: Ejercicio 4.6

Campañas publicitarias A (prensa)

B (radio)

C (vallas)

30 20 35 42 60

85 73 92 86 75

40 28 39 41 50

a) Comprobar, con un nivel de significación del 10 %, si las cifras de ventas difieren según el tipo de campaña aplicado. 268

© Ediciones Pirámide

Análisis de la varianza b) Suponiendo normalidad, independencia y homocedasticidad de las diferentes distribuciones de las cifras de ventas en cada provincia, ¿podemos ahora admitir, con un 1 % de significación, que el tipo de campaña utilizado repercute en las ventas del artículo? c) ¿Se puede afirmar que las ventas de las tiendas situadas en la provincia en la que se ha aplicado la campaña A son diferentes a las de las tiendas situadas en la provincia en la que se ha aplicado la campaña C? ¿Podría mantener la misma conclusión al 5 % de significación?

Solución

Definimos las variables aleatorias:

Xi = «Cifra de ventas (en cientos de unidades) en una tienda de la provincia donde se ha realizado la campaña publicitaria i». i = 1 (A: prensa escrita), 2 (B: emisoras de radio), 3 (C: vallas publicitarias). a) Denotamos por Fi la función de distribución correspondiente a la variable aleatoria Xi. Si las cifras de ventas no difieren según el tipo de campaña utilizado, las funciones de distribución serían idénticas. Por tanto, podemos plantear el contraste: H0 : F1 ( x ) = F2 ( x ) = F3 ( x ) H1: ∃ (i, j )/ Fi ( x ) ≠ Fj ( x )

;

i≠j

que puede resolverse mediante el test de Kruskall-Wallis suponiendo que las variables aleatorias son continuas y las muestras han sido obtenidas independientemente unas de otras. El estadístico de prueba de este contraste es:

H=

k 12 Ri2 ∑ − 3(n + 1) n(n + 1) i = 1 ni

con n = n1 + n2 + n3 = 5 + 5 + 5 = 15 Ri = © Ediciones Pirámide

ni

∑ rij = Suma de rangos de la muestra i,

i = 1, 2, 3

j =1

269

Ejercicios de inferencia estadística y muestreo La hipótesis nula se rechazará, al nivel de significación a = 0,10, si: Hˆ  hα = h0,10 donde este valor crítico es tal que: P( H  hα ) = α = 0,10 Utilizando la tabla 23 para k = 3 y con n1 = n2 = n3 = 5, tenemos que: P( H  4,56) = 0,10 Por tanto, h a = 4,56. Para obtener el valor experimental, Hˆ , del estadístico de Kruskall-Wallis, ordenamos las observaciones muestrales de menor a mayor asignando a cada una su rango correspondiente; si hubiera observaciones repetidas, entonces se les asignaría el rango medio de los que les corresponderían si fuesen diferentes: Provincia

Observaciones

Rango

r1j

A C A A C C C A C A B B B B B

20 28 30 35 39 40 41 42 50 60 73 75 85 86 92

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15

01

R = 120

R1 = 26

r2j

r3j

2 03 04 5 6 7 08 9 10 11 12 13 14 15 R2 = 65

R3 = 29

Entonces: Hˆ = 270





12 26 2 652 29 2 + + − 3(15 + 1) = 9, 42 15(15 + 1) 5 5 5 © Ediciones Pirámide

Análisis de la varianza y como: Hˆ = 9,24 > 4,56 = h0,10 rechazamos la hipótesis nula al 10 % de significación, es decir, los datos muestrales presentan evidencia suficiente, al 10 % de significación, para decir que las cifras de ventas difieren según el tipo de campaña aplicada. b) Si se supone normalidad, independencia y homocedasticidad en las variables Xi, podemos utilizar las técnicas del análisis de varianza (ANOVA) para comparar las tres distribuciones de cifras de ventas: Xi Xi

~ N ( μi , σ i )

Xi

independientes homocedásticas (σ 12 = σ 22 = σ 32 = σ 2 )

En esta situación, si las campañas publicitarias no influyeran en las ventas, se tendría que las tres distribuciones serían idénticas, es decir, m1 = m2 = m3. Por tanto, planteamos las hipótesis: H0 : μ1 = μ2 = μ3 H1: ∃ (i, j ), i ≠ j /μi ≠ μ j El estadístico de prueba utilizado en un ANOVA es: F=

CME CM D

~ Ᏺ k − 1, n − k ≡ Ᏺ 3 − 1,15 − 3 ≡ Ᏺ 2,12

H0

con k=3 n = n1 + n2 + n3 = 15 Rechazaremos la hipótesis nula de igualdad de medias al 1 % de significación (a = 0,01) si: Fexp > F2, 12, 1 − α © Ediciones Pirámide

271

Ejercicios de inferencia estadística y muestreo donde el valor crítico es tal que: P[ F2, 12  F2, 12;1 − α ] = 1 − α = 1 − 0,01 = 0,99 Utilizando la tabla 11: F2, 12;1 − α = 6,93 Gráficamente:

Ᏺ2,12

= 0,01

0,99

F2, 12; 1– = 6,93

A continuación, realizamos las operaciones necesarias para construir la tabla ANOVA y calcular el valor experimental del estadístico del contraste: x1j

x2j

x3j

x21j

x22j

x23j

030 020 035 042 060

085 073 092 086 075

040 028 039 041 050

0.900 0.400 1.225 1.764 3.600

07.225 05.329 08.464 07.396 05.625

1.600 0.784 1.521 1.681 2.500

187

411

198

7.889

34.039

8.086

;

T3 = 198

k

T1 = 187 k

;

T2 = 411

;

T=

∑ Ti = 796

i =1

ni

∑ ∑ xij2 = 7.889 + 34.039 + 8.086 = 50.014

i =1 j =1

272

© Ediciones Pirámide

Análisis de la varianza k

SCT =

i =1 j =1 k

SCD =

ni

∑ ∑ xij2 − ni

T2 796 2 = 50.014 − = 7.772,9333 n 15



k

i =1 j =1



Ti 2 1872 4112 1982 = 50.014 − + + = 1.395,2 5 5 5 i = 1 ni

∑ ∑ xij2 − ∑ k

SCE =

Ti 2 T 2 ∑ − n = SCT − SCD = 7.772,9333 − 1.395,2 = 6.377,7333 i = 1 ni Tabla ANOVA para una clasificación simple

Fuente de variación

Sumas de cuadrados

Dentro de las provincias (dentro de las campañas)

SCD = 1.395,2

Entre provincias (entre campañas)

SCE = 6.377,7333

Total

SCT = 7.772,9333

Grados de libertad

n – k = 15 – 3 = 12

Cuadrados medios

CM D =

SCD = n−k

= 116,2667

k–1=3–1=2

CME =

SCE = k −1

Fexp

CME = CM D = 27, 4272

= 3.188,8667

n – 1 = 15 – 1 = 14

Como: Fexp = 27, 4272 > F2, 12, 1 − α = 6,93 entonces, al 1 % de significación, rechazamos la hipótesis nula, H0 : m1 = m2 = m3, y podemos decir que el tipo de campaña publicitaria repercute en las ventas del artículo. c) Para determinar si las ventas de las tiendas situadas en la provincia en la que se ha aplicado la campaña A son diferentes a las de las de C, podemos aplicar el método de comparaciones múltiples de Scheffé: a)

H0 : μ1 = μ2 H1: μ1 ≠ μ2

b)

H0 : μ1 = μ3 H1: μ1 ≠ μ3

c)

H0 : μ 2 = μ 3 H1: μ2 ≠ μ3

© Ediciones Pirámide

273

Ejercicios de inferencia estadística y muestreo El estadístico del contraste es: F=

( Xi − X j )2



SCD 1 1 + ( k − 1) n − k ni n j



~ Ᏺ k − 1, n − k ≡ Ᏺ 2,12

H0

tomando i, j los valores 1, 2, 3 según el contraste a), b) o c) que estemos realizando. La región crítica común para estos tres contrastes será la misma que la utilizada para realizar el análisis de la varianza al 1 % de significación

Ᏺ2,12

= 0,01

0,99

F2, 12; 1– = 6,93

El valor experimental correspondiente al contraste b) que compara las campañas A y C se calcula como: 187 198 − 冢 5 5 冣 = = 0,0520 1.395,2 1 1 (3 − 1) + 15 − 3 冢 5 5 冣 2

(b) Fexp

con lo cual, como: (b) = 0,0520 < F2, 12, 1 − α = 6,93 Fexp

entonces no se rechaza H (b) 0 , es decir, los datos muestrales no presentan evidencia suficiente, al 1 % de significación, para decir que las ventas donde se ha realizado la campaña A sean diferentes a las ventas donde se ha aplicado la campaña C. 274

© Ediciones Pirámide

Análisis de la varianza Con un 5 % de significación, la región crítica sería:

Ᏺ2,12

= 0,05

0,95

F2, 12; 1– = 3,89

y de nuevo: (b) Fexp = 0,0520 < 3,89 = F2, 12, 1 − α

por lo que tampoco se rechaza H (b) 0 con un nivel de significación del 5 % y, por tanto, se mantiene la misma conclusión que al utilizar un 1 % de significación. De una fundación de una entidad financiera dependen tres escuelas de negocios, ubicadas en tres ciudades diferentes, que imparten distintas especialidades en cada ciudad. Una comisión designada por la entidad financiera realiza el seguimiento de los titulados por los mencionados centros. Para evaluar la influencia del tipo de escuela elegido sobre el salario que perciben los titulados, se seleccionan al azar tres muestras independientes de titulados por cada una de las escuelas, que facilitan la siguiente información sobre sus salarios semanales en euros: Ejercicio 4.7

Escuela 1

Escuela 2

Escuela 3

256 628 253 256

266 256 258 320 450

269 256 620 452 286 256

Suponiendo normalidad, ¿se puede admitir la influencia del tipo de escuela elegido en los salarios de los titulados a un 5 % de significación? © Ediciones Pirámide

275

Ejercicios de inferencia estadística y muestreo Solución

Definimos las variables aleatorias:

Xi = «Sueldo semanal de un titulado de la escuela i (en euros)», i = 1, 2, 3, que son independientes y normales: Xi

~ N ( μi , σ i )

Si, además, fueran homocedásticas (s12 = s22 = s32 = s2), bastaría contrastar las hipótesis: H0 : μ1 = μ2 = μ3

( no hay influencia )

H1: μi ≠ μ j para algún i ≠ j

(sí hay influencia )

utilizando las técnicas del análisis de la varianza para una clasificación simple. Por tanto, veamos primero si es admisible la hipótesis de homocedasticidad, es decir, contrastemos las hipótesis: H0 : σ 12 = σ 22 = σ 32 H1: σ i2 ≠ σ 2j para algún i ≠ j mediante el test de Bartlett, que tiene por estadístico de prueba: k

B=

(n − k ) ln CM D − ∑ (ni − 1) ln Si2 i =1

1 1+ 3( k − 1)



k

1 1 ∑ n −1 − n − k i =1 i



~ χ k2 − 1 ≡ χ 32− 1 ≡ χ 22

H0

rechazando la hipótesis nula de igualdad de varianzas con una significación del 5 % cuando: Bexp > χ k2 − 1;1 − α ≡ χ 22;1 − α siendo c22; 1 – a el valor crítico, que verifica: P[ χ 22 > χ 22, 1 − α ] = α = 0,05 276

© Ediciones Pirámide

Análisis de la varianza Utilizando la tabla 9, este valor crítico será:

χ 22, 1 − α = 5,99 Gráficamente:

χ22

= 0,05

0,95

χ22, 1– = 5,99

A continuación, realizamos las operaciones necesarias encaminadas a calcular el valor experimental de B: si2 =

1 ni 1 ( xij − xi )2 = ∑ ni − 1 j = 1 ni − 1

冤 ∑ xij2 − n 冢 ∑ xij 冣 冥 ni

1

ni

j =1

i

j =1

2

siendo n1 = 4, n2 = 5 y n3 = 6. Sustituyendo en la expresión correspondiente a B: Bexp =

(15 − 3) ln (20.249,0208) − [3 ⋅ ln 34.784,25 + 4 ⋅ ln 6.814 + 5 ⋅ ln 22.275,9]



1 1 1 1 1 1+ + + − 3(3 − 1) 3 4 5 15 − 3



= 2,0206

Por tanto: Bexp = 2,0206 < 5,99 = χ 22, 1 − α Entonces, al 5 % de significación, no hay motivos para rechazar H0 : s21 = s22 = s23, por lo que admitiremos la hipótesis de homocedasticidad de las variables Xi, i = 1, 2, 3. © Ediciones Pirámide

277

Ejercicios de inferencia estadística y muestreo Así pues, realizamos el contraste: H0 : μ1 = μ2 = μ3 H1: μi ≠ μ j para algún i ≠ j a través del análisis de la varianza (ANOVA). El estadístico del contraste es: F=

CME CM D

~ Ᏺ k − 1, n − k ≡ Ᏺ 3 − 1,15 − 3 ≡ Ᏺ 2,12

H0

y la región crítica o de rechazo de H0 se representa gráficamente como:

Ᏺ2,12

= 0,05

0,95

F2, 12; 1– = 3,89

278

x1j

x2j

x3j

x21j

x22j

x23j

256 628 253 256

266 256 258 320 450

269 256 620 452 286 256

065.536 394.384 064.009 065.536

070.756 065.536 066.564 102.400 202.500

072.361 065.536 384.400 204.304 081.796 065.536

T1 = 1.393

T2 = 1.550

T3 = 2.139

589.465

507.756

873.933









s12 =

1 1.3932 589.465 − = 34.784,25 4 −1 4

s22 =

1 1.550 2 507.756 − = 6.814 5 −1 5 © Ediciones Pirámide

Análisis de la varianza

s32 = k





1 2.139 2 873.933 − = 22.275,9 6 −1 6

ni

∑ ∑ xij2 = 589.465 + 507.756 + 873.933 = 1.971.154

i =1 j =1

k

SCD =

CM D =

ni



k



Ti 2 1.3932 1.550 2 2.139 2 = 1.971.154 − + + = 242.988,25 4 5 6 i = 1 ni

∑ ∑ xij2 − ∑

i =1 j =1

SCD 242.988,25 = = 20.249,0208 n − k ( 4 + 5 + 6) − 3

Calculamos las sumas de cuadrados y construimos la tabla ANOVA: k

T=

ni

i =1 j =1 k

SCT =

k

∑ ∑ xij = ∑ Ti = 1.393 + 1.550 + 2.139 = 5.082 ni

∑ ∑ xij2 −

i =1 j =1

i =1

T2 5.082 2 = 1.971.154 − = 249.372,4 n 15

SCD = 242.988,25 SCE = SCT − SCD = 6.384,15 Tabla ANOVA para una clasificación simple Fuente de variación

Entre escuelas

Sumas de cuadrados

SCE = 6.384,15

Grados de libertad

k–1=3–1=2

Cuadrados medios

CME =

SCE = k −1

= 3.192,075

Dentro de escuelas (error aleatorio)

SCD = 242.988,25

n – k = 15 – 3 = 12

CM D =

SCD = n−k

Fexp

CME = CM D = 0,1576

= 20.249,0208

Total

© Ediciones Pirámide

SCT = 249.372,4

n – 1 = 15 – 1 = 14

279

Ejercicios de inferencia estadística y muestreo Al ser: Fexp = 0,1576 < 3,89 = F2, 12;1 − α no se rechaza H0 al 5 % de significación, es decir, no se presentan evidencias suficientes para afirmar que el tipo de escuela elegido influye en los sueldos de los titulados. Un grupo de empresas pretende llevar a cabo una política de reducción del absentismo laboral mediante la toma de diferentes decisiones sobre gratificaciones al personal. En la recogida de los datos, previa al diseño definitivo de las medidas, se obtienen las siguientes cifras de ausencias anuales de varios empleados al azar seleccionados en tres empresas del grupo: Ejercicio 4.8

Empresa A

Empresa B

Empresa C

1 2 3 5 1 3 5

6 5 8 9 7 3 5

1 2 1 5 4 3 2

a) ¿Se puede admitir la normalidad de los datos de partida con un 5 % de significación? b) Teniendo en cuenta los resultados del apartado anterior, ¿podría admitirse, con un 5 % de significación, que el número de ausencias por empleado presenta diferencias significativas según la empresa considerada? c) ¿Entre qué empresas se producen las diferencias más significativas?

Solución

Definimos las variables aleatorias:

Xi = «Número de ausencias anuales de un empleado de la empresa i», i = 1 (A), 2 (B), 3 (C). a) Se pretende contrastar si las variables X1, X2 y X3 siguen distribuciones normales. Sean F1, F2 y F3 las funciones de distribución de estas variables. Por tanto, los contrastes a realizar serán: H0 : Fi ( x ) es la función de distribución de una variable normal H1: Fi ( x ) no es la función de distribución de una variable normal 280

© Ediciones Pirámide

Análisis de la varianza Utilizaremos el test de normalidad de Lilliefors para cada una de estas funciones de distribución. El estadístico del contraste, construido sobre los valores tipificados, será: Dn′i = máx 冟Fni ( z ) − F0( z )冟 z

donde F0 es la función de distribución correspondiente a una normal estándar y Fni la función de distribución empírica de las observaciones muestrales tipificadas de la variable Xi (i = 1, 2, 3). Como en este caso n1 = n2 = n3 = 7, la región crítica, al 5 % de significación, será la misma para los tres contrastes que debemos realizar, rechazando H0 en el contraste i-ésimo si: Dn′i , exp > Dα′ siendo D¢a el valor crítico, tal que: P( Dn′i , exp > Dα′ / H0 ) = 0,05 Utilizando la tabla 15 con a = 0,05 y n = 7, este valor será: Dα′ = 0,300 Calculemos ahora los valores experimentales para cada contraste que hay que realizar. Empresa A H0 : F1 ( x ) es la función de distribución de una variable normal H1: F1 ( x ) no es la función de distribución de una variable normal La media y varianza muestrales de la muestra de empleados de la empresa A son: n1

x1 =

1 n1

s12 =

1 n1 − 1

s1 = © Ediciones Pirámide

∑ x1 j = j =1

20 7

冤 ∑ x12j − n 冢 ∑ x1 j 冣 冥 = 7 − 1 冤74 − n1

j =1

1

1

n1

j =1

2

1



20 2 = 2,8095 7

2,8095 = 1,6762 281

Ejercicios de inferencia estadística y muestreo Los valores tipificados de las observaciones muestrales:

z1 j =

x1 j − x1 s1

20 7 = 1,6762 x1 j −

j = 1,..., 7

,

el valor de Fn1 y F0 en cada uno de ellos, así como las diferencias en valor absoluto: a1 j = 冟F0( z1 j ) − Fn( z1 j )冟 b1 j = 冟F0( z1 j ) − Fn( z1 j − 1 )冟 aparecen en la siguiente tabla:

x1j

n1j

z1j

N(z1j) Fn1(z1j) = —–— n1

F0(z1j) = P(Z  z1j)

a1j

b1j

1 2 3 5

2 1 2 2

– 1,11 – 0,51 0,09 1,28

2/7 = 1 3/7 = 1 5/7 = 1 7/7 = 1

0,1335 0,3050 0,5359 0,8997

0,1522 0,1236 0,1784 0,1003

0,1335 0,0193 0,1073 0,1854

n1 = 7

Por tanto: Dn′1 , exp = máx{a1 j , b1 j } = 0,1854 < 0,300 = Dα′ j

y, entonces, no se rechaza la hipótesis nula de normalidad de la muestra de la empresa A. De modo análogo, para las empresas B y C tendremos los siguientes resultados.

Empresa B H0 : F2 ( x ) es la función de distribución de una variable normal H1: F2 ( x ) no es la función de distribución de una variable normal 282

© Ediciones Pirámide

Análisis de la varianza n2

x2 =

1 n2

s22 =

1 n2 − 1

s2 =

∑ x2 j = j =1

43 7

冤 ∑ x22 j − n 冢 ∑ x2 j 冣 冥 = 7 − 1 冤289 − n2

n2

1

j =1

2

2

1

j =1



432 = 4,1429 7

4,1429 = 2,0354

x2j

n2j

z2j

N(z2j) Fn2(z2j) = —–— n2

F0(z2j) = P(Z  z2j)

a2j

b2j

3 5 6 7 8 9

1 2 1 1 1 1

–1,54 –0,56 –0,07 0,42 0,91 1,40

1/7 = 1 3/7 = 1 4/7 = 1 5/7 = 1 6/7 = 1 7/7 = 1

0,0618 0,2877 0,4721 0,6628 0,8186 0,9192

0,0811 0,1409 0,0993 0,0515 0,0385 0,0808

0,0618 0,1448 0,0435 0,0914 0,1043 0,0621

n2 = 7

Siendo: Dn′2 , exp = máx{a2 j , b2 j } = 0,1448 < 0,300 = Dα′ j

por lo que, de nuevo, no se rechaza la hipótesis nula de normalidad de la muestra de la empresa B. Empresa C H0 : F3 ( x ) es la función de distribución de una variable normal H1: F3 ( x ) no es la función de distribución de una variable normal n3

x3 =

1 n3

s32 =

1 n3 − 1

s3 = © Ediciones Pirámide

∑ x3 j = j =1



n3

18 7

∑ x32j − j =1

1 n3



n3

∑ x3 j j =1

冣冥 2

=





1 182 60 − = 2,2857 7 −1 7

2,2857 = 1,5119 283

Ejercicios de inferencia estadística y muestreo

x3j

n3j

z3j

N(z3j) Fn3(z3j) = —–— n3

F0(z3j) = P(Z  z3j)

a3j

b3j

1 2 3 4 5

2 2 1 1 1

–1,04 –0,38 0,28 0,94 1,61

2/7 = 1 4/7 = 1 5/7 = 1 6/7 = 1 7/7 = 1

0,1492 0,3520 0,6103 0,8264 0,9463

0,1365 0,2194 0,1040 0,0307 0,0537

0,1492 0,0663 0,0389 0,1121 0,0892

n3 = 7

Como: Dn′3 , exp = máx{a3 j , b3 j } = 0,2194 < 0,300 = Dα′ j

por lo que tampoco se rechaza la normalidad de los datos que empleamos de la empresa C. Entonces, sí admitiremos la normalidad de las variables X1, X2 y X3. b) Si las variables Xi fuesen homocedásticas, se trataría de variables normales, independientes y con la misma varianza: Xi

~ N ( μi , σ )

Por tanto, para ver si existen diferencias significativas en el número de ausencias por empleado según las empresas consideradas, contrastaríamos las hipótesis: H0 : μ1 = μ2 = μ3

( no hay diferencias significativas)

H1: μi ≠ μ j para algún i ≠ j

(sí hay diferencias significativas)

mediante un análisis de la varianza. Veamos, en primer lugar, si es aceptable suponer la homogeneidad de varianzas de las variables Xi, i = 1, 2, 3; para ello, utilizaremos el test de Bartlett de homocedasticidad al contrastar las hipótesis: H0 : σ 12 = σ 22 = σ 32 = σ 2 H1: σ i2 ≠ σ 2j para algún i ≠ j 284

© Ediciones Pirámide

Análisis de la varianza El estadístico del contraste y su distribución seguida bajo H0 es: k

B=

(n − k ) ln CM D − ∑ (ni − 1) ln Si2 i =1

1+

1 3( k − 1)

冤∑ n 1− 1 − n −1 k 冥 k

i =1

~ χ k2 − 1 ≡ χ 32− 1 ≡ χ 22

H0

i

La representación gráfica de la región crítica o de rechazo de H0 será:

χ22

= 0,05

0,95

χ22; 1– = 5,99

con el valor crítico obtenido en la tabla 9, de forma que: P[ χ 22  χ 22;1 − α ] = 1 − α = 1 − 0,05 = 0,95 Calculemos el valor experimental del estadístico de prueba:

© Ediciones Pirámide

x1j

x2j

x3j

x21j

x22j

x23j

1 2 3 5 1 3 5

6 5 8 9 7 3 5

1 2 1 5 4 3 2

1 4 9 25 1 9 25

36 25 64 81 49 9 25

1 4 1 25 16 9 4

20

43

18

74

289

60

285

Ejercicios de inferencia estadística y muestreo









s12 =

1 20 2 74 − = 2,8095 7 −1 7

s22 =

1 432 289 − = 4,1429 7 −1 7

s32 =

1 182 60 − = 2,2857 7 −1 7



k

SCD = CM D = Bexp =

ni





k

i =1 j =1



Ti 2 20 2 432 182 = ( 74 + 289 + 60) − + + = 55, 4286 7 7 7 i = 1 ni

∑ ∑ xij2 − ∑

SCD 55, 4286 = = 3,0794 21 − 3 n−k (21 − 3) ln 3,0794 − 6 ⋅ ln 2,8095 − 6 ⋅ ln 4,129 − 6 ⋅ ln 2,2857



1 1 1 1 1 1+ + + − 3(3 − 1) 6 6 6 21 − 3



= 0,5202

y puesto que: Bexp = 0,5202 < 5,99 = χ 22;1 − α entonces no se rechaza la homogeneidad de varianzas al 5 % de significación y supondremos que las variables Xi son homocedásticas. Contrastemos a continuación si el número de ausencias por empleado presenta diferencias significativas según la empresa considerada, es decir, realizaremos el contraste: H0 : μ1 = μ2 = μ3 H1: μi ≠ μ j para algún i ≠ j utilizando las técnicas del ANOVA para una clasificación simple, puesto que admitimos que las variables Xi son normales, homocedásticas (Xi ~ N(mi, s), i = 1, 2, 3) e independientes. El estadístico del contraste, su distribución bajo H0 y la región crítica son: F= 286

CME CM D

~ Ᏺ k − 1, n − k ≡ Ᏺ 3 − 1, 21 − 3 ≡ Ᏺ 2,18

H0

© Ediciones Pirámide

Análisis de la varianza

Ᏺ2,18

= 0,05

0,95

F2, 18; 1– = 3,55

De la tabla ANOVA para una clasificación simple obtendremos el valor experimental de F:

Fuente de variación

Sumas de cuadrados

Grados de libertad

Cuadrados medios

Entre grupos

SCE = 55,1428

k–1=2

CME = 27,5714

Intra grupos

SCD = 55,4286

n – k = 18

CMD = 3,0794

Total

SCT = 110,5714

n – 1 = 20

Fexp

8,9535

Se observa que: Fexp = 8,9535 > 3,55 = F2, 18;1 − α por tanto, al 5 % de significación, se rechaza la hipótesis nula de igualdad de medias, es decir, los datos muestrales indican que existen diferencias significativas en el número de ausencias por empleado según la empresa considerada. c) Para tratar de averiguar en qué empresas se producen estas diferencias, realizaremos el test de Scheffé de comparaciones múltiples. Mediante este test se puede contrastar las hipótesis: H0 : μ i = μ j H1: μi ≠ μ j © Ediciones Pirámide

287

Ejercicios de inferencia estadística y muestreo utilizando como estadístico de prueba: F=

( Xi − X j )2



SCD 1 1 + ( k − 1) n − k ni n j



~ Ᏺ k − 1, n − k ≡ Ᏺ 2,18

H0

;

i = 1, 2, 3; j = 1, 2, 3

y como región crítica común:

Ᏺ2,18

= 0,05

0,95

F2, 18; 1 – = 3,55

Por tanto: III. H0 : m1 = m2

I Fexp =

;

H1: m1 π m2



20 43 − 7 7



2



1 1 (3 − 1)3,0794 + 7 7



= 6,1352 > 3,55 = F2, 18;1 − α

entonces, se rechaza H0 : m1 = m2, y diremos que se aprecian diferencias significativas, al 5 %, entre las empresas A y B en cuanto al número de ausencias por empleado. III. H0 : m1 = m3 ; H1: m1 π m3

II Fexp =



冣 = 0,0464 < 3,55 = F 1 1 (3 − 1)3,0794 冢 + 冣 7 7 20 18 − 7 7

2

2 , 18;1 − α

entonces, no se rechaza H0 : m1 = m3, y no se aprecian diferencias significativas entre las empresas A y C. 288

© Ediciones Pirámide

Análisis de la varianza III. H0 : m2 = m3

;

III Fexp =

H1: m2 π m3



冣 = 7,2486 > 3,55 = F 1 1 (3 − 1)3,0794 冢 + 冣 7 7 43 18 − 7 7

2

2 , 18;1 − α

rechazándose H0 : m2 = m3 y apreciándose diferencias significativas entre las empresas B y C (al 5 % de significación). Una subdelegación del Ministerio de Educación y Ciencia está interesada en estudiar la cantidad mensual pagada por los padres de alumnos de Enseñanza Primaria en los colegios privados pertenecientes al territorio de su competencia que no reciben ningún tipo de ayuda ministerial. Para realizar el estudio, se clasificaron los colegios privados de este territorio en bloques según su localización geográfica y según el número de alumnos por aula que afirmaban tener. En cada una de las combinaciones obtenidas se seleccionó una muestra aleatoria de tres colegios y se recogió la información correspondiente a la cantidad diaria que el colegio recibía por cada alumno de Enseñanza Primaria. Los datos obtenidos, en euros, fueron los siguientes: Ejercicio 4.9

Número de alumnos por aula

Zona norte

Zona centro

Zona sur

Menos de 25

32,00 45,50 28,95

25,4 37,2 23,0

50,0 20,9 27,0

25 o más

21,60 25,00 19,00

26,5 17,2 22,0

15,0 24,0 18,0

A la vista de estos datos, y suponiendo que se verifican las hipótesis de normalidad, independencia y homocedasticidad, ¿podría decirse que los colegios privados pertenecientes a esta subdelegación presentan diferencias significativas en las cantidades cobradas a los alumnos de Enseñanza Primaria? Nivel de significación: 5 %. Se trata de estudiar la cantidad mensual que los colegios reciben por cada alumno de enseñanza primaria considerando los factores A, número de alumnos por aula, y B, zona en la que está situado el colegio. Definimos las variables aleatorias: Solución

© Ediciones Pirámide

289

Ejercicios de inferencia estadística y muestreo Xij = «Cantidad diaria que un colegio del bloque i, j recibe por un alumno de Enseñanza Primaria», siendo i = 1 (menos de 25 alumnos por aula), 2 (25 o más alumnos por aula); j = 1 (zona norte), 2 (zona centro), 3 (zona sur). Estas variables son normales, homocedásticas: Xij

~ N ( μij , σ )

,

i = 1, 2; j = 1, 2, 3

y, además, independientes. Si estos colegios no presentaran diferencias significativas en cuanto a la variable estudiada, las distribuciones de Xij serían idénticas y, por tanto, las medias mij serían iguales. Entonces, para tratar de ver si existen tales diferencias, planteamos el siguiente contraste: H0 : μ11 = μ12 = … = μ23 H1: μij ≠ μ hk para algún (i, j ) ≠ (h, k ) que resolveremos mediante un análisis de la varianza para una clasificación doble, es decir, considerando el modelo: Xijk = μ + α i + β j + (αβ )ij + ε ijk i = 1,..., r = 2

;

j = 1,..., s = 3

;

k = 1,..., n = 3

con Xijk: ai : bj : (ab) ij:

observación k-ésima en el bloque (i, j). efecto del i-ésimo nivel del factor A. efecto del j-ésimo nivel del factor B. efecto de interacción del i-ésimo nivel del factor A y el j-ésimo nivel del factor B. eijk: k-ésimo error aleatorio en los tratamientos (i, j).

Rechazaremos la hipótesis H0 anterior cuando se rechace alguna de las hipótesis nulas de los siguientes contrastes:

290

Efecto del factor A

Efecto del factor B

Efecto interacción A, B

H0′ : α1 = α 2 = 0 H1′: ∃ i, α i ≠ 0

H0′′: β1 = β 2 = β3 = 0 H1′′: ∃ j, β j ≠ 0

H0′′′: (αβ )11 = … = (αβ )23 = 0 H1′′′: ∃ (i, j ), (αβ )ij ≠ 0 © Ediciones Pirámide

Análisis de la varianza Los estadísticos de prueba, las distribuciones que éstos siguen bajo la hipótesis nula, y las correspondientes regiones críticas obtenidas utilizando la tabla 11 son, respectivamente: F′ =

CM A CME

F ′′ =

CM B CME

F ′′′ =

CM AB CME

Ᏺ1,12

~ Ᏺ r − 1, rs( n − 1) ≡ Ᏺ 1,12

H0

~ Ᏺ s − 1, rs( n − 1) ≡ Ᏺ 2,12

H0

~ Ᏺ ( r − 1)( s − 1), rs( n − 1) ≡ Ᏺ 2,12

H0

Ᏺ2,12

= 0,05

0,95

Ᏺ2,12

= 0,05

0,95

F′1, 12;1 – = 4,75

= 0,05

0,95

F′′ 2,12; 1– = 3,89

F′′′ 2, 12; 1– = 3,89

Realizamos a continuación las operaciones para construir la tabla ANOVA para una clasificación doble:

Menos de 25 alumnos i=1

Zona norte j=1

Zona centro j=2

Zona sur j=3

32,00 45,50 28,95 T11 = 106,45 ∞ x211k = 3.932,3525

25,4 37,2 23,0 T12 = 85,6 ∞ x212k = 2.558

50,0 20,9 27,0 T13 = 97,9 ∞ x213k = 3.665,81

T1. = 289,95

21,6 25,0 19,0 T21 = 65,6 ∞ x221k = 1.452,56

26,5 17,2 22,0 T22 = 65,7 ∞ x222k = 1.482,09

15 24 18 T23 = 57 ∞ x223k = 1.125

T2. = 188,3

T.1 = 172,05

T.2 = 151,3

T.3 = 154,9

T.. = 478,25

k

25 alumnos o más i=2

k

T. j

k

k

Ti.

k

k

∞∞∞ x2ijk = i

j

k

= 14.215,8125

© Ediciones Pirámide

291

Ejercicios de inferencia estadística y muestreo SCT =

∑ ∑ ∑ xijk2 − i

j

k

T..2 ( 478,25)2 = 14.215,8125 − = 1.508,9757 rsn 2 ⋅3⋅3

SCA =

1 T..2 1 ( 478,25)2 2 2 2 T − = [( 289 , 95 ) + ( 188 , 3 ) ] − = 574,0401 ∑ i. rsn 3 ⋅ 3 ns i 2 ⋅3⋅3

SCB =

1 nr

SCE =

T2

.. ∑ T. 2j − rsn

1 ( 478,25)2 [(172 172,05)2 + (151,3)2 + (154,9)2 ] − = 40,9803 3⋅2 2 ⋅3⋅3

=

j

1

∑ ∑ ∑ xijk2 − n ∑ ∑ Tij2 = i

j

k

i

j

1 = 14.215,8125 − [106, 452 + 85,6 2 + 97,9 2 + 65,6 2 + 65,72 + 572 ] = 845,0717 3 SCAB = SCT − SCA − SCB − SCE = = 1.508,9757 − 574,0401 − 40,9803 − 845,0717 = 48,8836 Tabla ANOVA para una clasificación doble Fuente de variación

Factor A

Factor B

Sumas de cuadrados

Grados de libertad

SCA = 574,0401

r–1=2–1=1

SCB = 40,9803

s–1=3–1=2

(r – 1)(s – 1) = =1·2=2

Factor AB (interacción)

SCAB = 48,8836

Error aleatorio

SCE = 845,0717

rs(n – 1) = = 2 · 3(3 – 1) = 12

SCT = 1.508,9757

rsn – 1 = = 2 · 3 · 3 – 1 = 17

Total

292

Cuadrados medios

Fexp

SCA = r −1 = 574,0401

Fexp ′ =

SCB = s −1 = 20, 49015

Fexp ′′ =

SCAB = (r − 1)( s − 1) = 24, 4418

Fexp ′′′ =

CM A =

CM B =

CM AB =

CM A = CME

= 8,1514 CM B = CME

= 0,2910 CM AB = CME

= 0,3471

SCE = rs(n − 1) = 70, 4226

CME =

© Ediciones Pirámide

Análisis de la varianza Como: Fexp ′ = 8,1514 > 4,75 = F1′, 12;1 − α Rechazamos H¢0, por lo que, al 5 % de significación, podemos decir que el factor A (número de alumnos por aula) influye en el precio de los colegios, es decir, existen diferencias en este precio debidas al número de alumnos por aula que cada colegio admite: Fexp ′′ = 0,2910 < 3,89 = F2′′, 12;1 − α No rechazamos H0≤, es decir, no hay diferencias significativas en los precios de los colegios debidas a la zona donde están situados (factor B): Fexp ′′′ = 0,3471 < 3,89 = F2′′′ , 12 ;1 − α No rechazamos H¢¢¢, 0 por lo que los datos no indican una interacción entre los factores A y B al 5 % de significación. Por todo lo anterior, y al rechazarse H¢0, debemos rechazar también la hipótesis H0 : m11 = … = m23, por lo que se puede afirmar que hay diferencias significativas entre los precios de los colegios y que éstas son debidas al factor A. El programa de proyecciones de la Filmoteca Nacional para el mes de marzo consta de tres ciclos de películas dedicados a los directores A, B y C, respectivamente. La programación diaria ha sido dividida en tres sesiones; en la primera sesión, se proyectarán las películas de A, en la segunda, las de B, y en la tercera, las de C. La tabla siguiente presenta los ingresos, en euros, correspondientes a sesiones de días elegidos al azar clasificados en función de la película proyectada y del tipo de día de proyección según éste sea laborable o festivo: Ejercicio 4.10

Director de la película

© Ediciones Pirámide

Días laborables

Días festivos

Director A

180 230

400 450

Director B

280 290

630 515

Director C

350 400

608 580

293

Ejercicios de inferencia estadística y muestreo Utilizando un nivel de significación del 1 %, y suponiendo que los ingresos por sesión pueden considerarse independientes, normales y homocedásticos, ¿confirman los datos la existencia de diferencias significativas entre dichas sesiones? En este ejercicio tenemos dos factores, el director de la película (A), y el tipo de día de la proyección (B), que podrían afectar a los ingresos de las sesiones de proyección. Sea: Solución

Xij = «Ingresos obtenidos por la proyección de una película con las características i, j». con i = 1 (A), 2 (B), 3 (C); j = 1 (día laborable), 2 (día festivo): Xij

~ N ( μij , σ )

pues se pueden considerar normales, homocedásticas y, además, independientes. Se trata de contrastar las siguientes hipótesis: H0 : μ11 = … = μ23 H1: μij ≠ μ hk para algún (i, j ) ≠ (h, k ) Del mismo modo que en el ejercicio anterior, la hipótesis nula será rechazada si se rechaza alguna de las hipótesis nulas en los contrastes que evalúan los efectos de los factores y su posible interacción. Efecto del factor A

Efecto del factor B

Efecto interacción A, B

H0′ : α1 = α 2 = α 3 = 0 H1′: ∃ i, α i ≠ 0

H0′′: β1 = β 2 = 0 H1′′: ∃ j, β j ≠ 0

H0′′′: (αβ )11 = … = (αβ )32 = 0 H1′′′: ∃ (i, j ), (αβ )ij ≠ 0

cuyos estadísticos de prueba y regiones críticas son, respectivamente: F′ =

CM A CME

F ′′ =

CM B CME

F ′′′ =

CM AB CME

~ Ᏺ r − 1, rs( n − 1) ≡ Ᏺ 2, 6

H0′

~ Ᏺ s − 1, rs( n − 1) ≡ Ᏺ 1, 6

H0′′

~ Ᏺ ( r − 1)( s − 1), rs( n − 1) ≡ Ᏺ 2, 6

H0′′′

pues r = 3, s = 2 y n = 2. 294

© Ediciones Pirámide

Análisis de la varianza

Ᏺ2,6

Ᏺ1,6

= 0,01

0,99

Ᏺ2,6

= 0,01

0,99

F′2, 6;1 – = 10,92

= 0,01

0,99

F′′ 1,6;1– = 13,75

F′′′ 2, 6; 1– = 10,92

Para obtener los valores experimentales de estos estadísticos tendremos que realizar todas las operaciones encaminadas a construir la tabla ANOVA para una clasificación doble: Ingresos

Días laborables

Días festivos

Ti.

Director A

180 230 T11 = 410 ∞ x211k = 85.300

400 450 T12 = 850 ∞ x212k = 362.500

T1. = 1.260

280 290 T21 = 570 ∞ x221k = 162.500

630 515 T22 = 1.145 ∞ x222k = 662.125

T2. = 1.715

350 400 T31 = 750 ∞ x231k = 282.500

608 580 T32 = 1.188 ∞ x232k = 706.064

T3. = 1.938

T.1 = 1.730

T.2 = 3.183

T.. = 4.913 ∞∞∞ x2ijk = 2.260.989

k

Director B

k

k

Director C

k

T. j

k

k

i

SCT =

T2

.. ∑ ∑ ∑ xijk2 − rsn i

j

k

= 2.260.989 −

j

k

( 4.913)2 = 249.524,92 3⋅2 ⋅2

SCA =

1 T2 1 ( 4.913)2 Ti.2 − .. = [1.260 2 + 1.7152 + 1.9382 ] − = 59.703,17 ∑ ns i rsn 2 ⋅ 2 3⋅2 ⋅2

SCB =

1 nr

© Ediciones Pirámide

T2

.. ∑ T. 2j − rsn j

=

1 ( 4.913)2 [1.730 2 + 3.1832 ] − = 175.934,08 2⋅3 3⋅2 ⋅2 295

Ejercicios de inferencia estadística y muestreo SCE =

1

∑ ∑ ∑ xijk2 − n ∑ ∑ Tij2 = i

j

k

i

= 2.260.989 −

j

1 [ 410 2 + 850 2 + 570 2 + 1.1452 + 750 2 + 1.1882 ] = 10.804,5 2

SCAB = SCT − SCA − SCB − SCE = = 249.524,92 − 59.703,17 − 175.934,08 − 10.804,5 = 3.083,17 Tabla ANOVA para una clasificación doble Fuente de variación

Factor A

Factor B

Suma de cuadrados

Grados de libertad

SCA = 59.703,17

r–1=3–1=2

SCB = 175.934,08

s–1=2–1=1

(r – 1)(s – 1) = =2·1=2

Factor AB (interacción)

SCAB = 3.083,17

Error aleatorio

SCE = 10.804,5

rs(n – 1) = = 3 · 2(2 – 1) = 6

SCT = 249.524,92

rsn – 1 = = 3 · 2 · 2 – 1 = 11

Total

Cuadrados medios

F

SCA = r −1 = 29.851,585

Fexp ′ =

SCB = s −1 = 175.934,08

Fexp ′′ =

CM A =

CM B =

SCAB = (r − 1)( s − 1) = 1.541,585

CM AB =

CM A = CME

= 16,58 CM B = CME

= 97,70 Fexp ′′′ =

CM AB = CME

= 0,856

SCE = rs(n − 1) = 1.800,75

CME =

Comparamos los valores experimentales con los valores críticos: Fexp ′ = 16,58 > 10,92 = F2′, 6;1 − α Se rechaza H¢0, por lo que, al 1 % de significación y con estos datos muestrales, se aprecian diferencias significativas debidas al factor A (director de la película): Fexp ′′ = 97,70 > 13,75 = F1′′, 6;1 − α 296

© Ediciones Pirámide

Análisis de la varianza Se rechaza H≤0, existiendo también diferencias significativas, al 1 % de significación, debidas al factor B (tipo de día): Fexp ′′′ = 0,856 < 10,92 = F2′′′ , 6;1 − α No se rechaza H0¢¢¢ y, por tanto, no hay diferencias significativas debidas a la interacción de los dos factores. Entonces, se rechaza la hipótesis nula H0 : m11 = … = m32 de igualdad de medias, por lo que los datos, al 1 % de significación, evidencian la existencia de diferencias significativas entre dichas sesiones.

A una prueba de selección de personal de una firma de auditoría sólo pueden concurrir licenciados en económicas y empresariales y en derecho. De cinco exámenes seleccionados al azar en cada uno de los grupos de hombres y mujeres con estas licenciaturas, se obtuvieron las siguientes puntuaciones: Ejercicio 4.11

Mujeres licenciadas en económicas o empresariales

Mujeres licenciadas en derecho

Hombres licenciados en económicas o empresariales

Hombres licenciados en derecho

300 269 298 256 290

200 265 228 200 265

256 258 267 125 265

128 259 210 120 200

Suponiendo normalidad y homocedasticidad de las puntuaciones, y con un 5 % de significación: a) ¿Podría admitirse que los factores sexo y licenciatura cursada influyen significativamente sobre las puntuaciones? b) ¿Es significativo un efecto interacción sexo-licenciatura sobre las puntuaciones?

Llamemos A al factor sexo, que presenta dos niveles o tratamientos, mujer/hombre (r = 2), y B al factor licenciatura cursada, que también presenta dos niveles (s = 2), económicas y empresariales/derecho. Se desea comprobar si estos dos factores influyen en la puntuación obtenida en la prueba. Definimos las variables aleatorias: Solución

© Ediciones Pirámide

297

Ejercicios de inferencia estadística y muestreo Xij = «Puntuación obtenida por una persona de sexo i con licenciatura j». i = 1 (mujer), 2 (hombre). j = 1 (económicas y empresariales), 2 (derecho). Estas variables son normales, homocedásticas y también independientes: Xij

~ N ( μij , σ )

Si no hubiera influencia de los factores sobre las puntuaciones, las distribuciones de Xij serían idénticas y, por tanto, sus medias coincidirían para todos los valores i, j. Así pues, planteamos las hipótesis: H0 : μ11 = μ12 = μ21 = μ 22 H1: μij ≠ μ hk para algún (i, j ) ≠ (h, k ) que pueden ser contrastadas mediante un análisis de la varianza para una clasificación doble. La hipótesis nula H0 no será rechazada si ninguna de las hipótesis nulas siguientes es rechazada: Efecto del factor A

Efecto del factor B

Efecto interacción A, B

H0′ : α1 = α 2 = 0 H1′: ∃ i, α i ≠ 0

H0′′: β1 = β 2 = 0 H1′′: ∃ j, β j ≠ 0

H0′′′: (αβ )11 = … = (αβ )22 = 0 H1′′′: ∃ (i, j ), (αβ )ij ≠ 0

Los estadísticos de prueba, las distribuciones seguidas bajo las hipótesis nulas y las regiones críticas son, teniendo en cuenta que r = 2, s = 2, n = 5:

298

F′ =

CM A CME

F ′′ =

CM B CME

F ′′′ =

CM AB CME

~ Ᏺ r − 1, rs( n − 1) ≡ Ᏺ 1,16

H0′

~ Ᏺ s − 1, rs( n − 1) ≡ Ᏺ 1,16

H0′′

~ Ᏺ ( r − 1)( s − 1), rs( n − 1) ≡ Ᏺ 1,16

H0′′′

© Ediciones Pirámide

Análisis de la varianza

Ᏺ1,16

Ᏺ1,16

= 0,05

0,95

Ᏺ1,16

= 0,05

0,95

F′1,16; 1 – = 4,49

= 0,05

0,95

F′′1, 16; 1– = 4,49

F′′′ 1, 16;1– = 4,49

Calculamos a continuación los valores experimentales de los estadísticos de prueba: Licenciados en económicas o empresariales

Licenciados en derecho

Ti.

T11 = 1.413 ∞ x211k = 400.801

T12 = 1.158 ∞ x212k = 272.434

T1. = 2.571

T21 = 1.171 ∞ x221k = 289.239

T22 = 917 ∞ x222k = 181.965

T2. = 2.088

T.1 = 2.584

T.2 = 2.075

T.. = 4.659 ∞∞∞ x2ijk = 1.144.439

Mujeres

k

Hombres

k

T. j

k

k

i

j

k

Mediante las fórmulas de los ejercicios anteriores, calculamos las sumas de cuadrados, teniendo en cuenta que r = 2, s = 2 y n = 5: SCT = 1.114.439 −

( 4.659)2 = 59.124,95 2⋅2⋅5

SCA =

( 4.659)2 1 [2.5712 + 2.0882 ] − = 11.664, 45 5⋅2 2⋅2⋅5

SCB =

( 4.659)2 1 [2.584 2 + 2.0752 ] − = 12.954,05 5⋅2 2⋅2⋅5

1 SCE = 1.114.439 − [1.4132 + 1.1582 + 1.1712 + 9172 ] = 34.506, 4 5 SCAB = 59.124,95 − 11.664, 45 − 12.954,05 − 34.506, 4 = 0,05 © Ediciones Pirámide

299

Ejercicios de inferencia estadística y muestreo Fuente de variación

Sumas de cuadrados

Grados de libertad

Factor A

SCA = 11.664,45

r–1=2–1=1

CM A =

Factor B

SCB = 12.954,05

s–1=2–1=1

CM B =

SCAB = 0,05

(r – 1)(s – 1) = =1·1=1

Error aleatorio

SCE = 34.506,4

rs(n – 1) = = 2 · 2(5 – 1) = 16

Total

SCT = 59.124,95

rsn – 1 = = 2 · 2 · 5 – 1 = 19

Factor AB (interacción)

Cuadrados medios

F

SCA = r −1 = 11.664, 45

Fexp ′ = 5, 4085

SCB = s −1 = 12.954,05

Fexp ′′ = 6,0066

CM AB =

SCAB = (r − 1)( s − 1) = 0,05

Fexp ′′′ = 2,3 ⋅ 10 −5

SCE = rs(n − 1) = 2.156,65

CME =

a) Como: Fexp ′ = 5, 4085 > 4, 49 = F1′, 16;1 − α entonces rechazamos H¢0 : a1 = a2 = 0, por lo que, al 5 % de significación, podemos decir que las puntuaciones obtenidas se ven afectadas por el factor A (sexo). Como: Fexp ′′ = 6,0066 > 4, 49 = F1′′, 16;1 − α entonces se rechaza la hipótesis H0≤: b1 = b2 = 0, pudiendo admitirse que también el tipo de licenciatura influye en la puntuación obtenida al 5 % de significación. Por tanto, H0 : m11 = m12 = m21 = m22 es rechazada con un 5 % de significación, y puede afirmarse, con los datos muestrales, que el factor sexo y el factor licenciatura influyen significativamente sobre las puntuaciones. b) El efecto interacción sexo-licenciatura se estudia contrastando: H0′′′: (αβ )11 = … = (αβ )22 = 0 H1′′′: (αβ )ij ≠ (αβ )hk para algún (i, j ) ≠ (h, k ) 300

© Ediciones Pirámide

Análisis de la varianza Como se ha obtenido: Fexp ′′′ = 2,3 ⋅ 10 − 5 < 4, 49 = F1′′′ , 16;1 − α entonces, al 5 % de significación, los datos muestrales no indican que debamos rechazar H0. Por tanto, no es significativo el efecto interacción de los dos factores sobre las puntuaciones.

Durante tres semanas, se contabilizó en cuatro empresas el número de ejecutivos que habían utilizado el correo electrónico. Los resultados de la encuesta se recogen en la siguiente tabla:

Ejercicio 4.12

Empresa

III III III IV

Observaciones

114 171 147 151

120 166 134 179

Total

150 143 121 150

384 480 402 480 1.746

Suponiendo que se verifican las hipótesis de normalidad, independencia y homogeneidad de varianzas, determine, al 10 % de significación, si el número medio de ejecutivos que utilizan correo electrónico presenta diferencias significativas entre las cuatro empresas.

Solución

Debemos contrastar las hipótesis: H0 : μ I = μ II = μ III = μ IV H1: Al menos dos son diferentes

El estadístico de prueba viene dado por la siguiente expresión, y su distribución bajo H0 es: F= © Ediciones Pirámide

SCE /( k − 1) SCD /(n − k )

H0

Ᏺ k − 1, n − k ≡ Ᏺ 4 − 1, 12 − 4 ≡ Ᏺ 3, 8 301

Ejercicios de inferencia estadística y muestreo La región crítica para a = 0,10 viene dada por:

Ᏺ3, 8

0,90 = 0,10

2,92

Para calcular el valor experimental del estadístico de prueba, calculamos primero las sumas de cuadrados y construimos la tabla ANOVA: k

SCE =

Ti 2 T 2 384 2 480 2 402 2 480 2 1.746 2 − = + + + − = n 3 3 3 3 12 i = 1 ni



= 256.620 − 254.043 = 2.577 k

SCT =

ni

∑ ∑ xij2 −

i =1 j =1

(1.746)2 T2 = (114)2 + … + (150)2 − = 4.647 n 12

SCD = SCT − SCE = 4.647 − 2.577 = 2.070 Fuente de variación

Suma de cuadrados

Grados de libertad

Cuadrados medios

Entre empresas

SCE = 2.577

4–1=3

859,00

Dentro de empresas

SCD = 2.070

12 – 4 = 8

258,75

Total

SCT = 4.647

12 – 1 = 11

Fexp

3,32

Como: Fexp = 3,32 > F3, 8; 0,90 = 2,92 302

© Ediciones Pirámide

Análisis de la varianza entonces, al 10 % de significación, y con los datos de la muestra, tenemos evidencia suficiente para rechazar H0. Por tanto, podemos afirmar que existen diferencias significativas en el número medio de usuarios del correo electrónico entre las cuatro empresas.

El departamento de personal de un supermercado desea comparar la eficacia de sus tres cajeros, que trabajan por turnos. Para ello, observa, durante cierto número de horas, el número de clientes atendidos por cada uno de los cajeros: Ejercicio 4.13

Total

Cajero 1

Cajero 2

Cajero 3

15 17 15 14 18 14

12 15 22 14 17 19

20 22 27 25 19

93

99

113

a) Suponiendo normalidad, independencia y homogeneidad de varianzas, contraste, al 5 % de significación, si los tres cajeros son igualmente eficientes. b) ¿Qué cajeros presentan diferencias significativas al 5 % de significación? c) ¿Presentan los datos evidencia suficiente para indicar que la hipótesis de homogeneidad de varianzas es falsa? Nivel de significación: 5 %.

a) Sea Xi la variable aleatoria que representa el número de clientes atendidos por el cajero i en una hora. Se desea contrastar las hipótesis:

Solución

H0 : μ1 = μ2 = μ3 H1: ∃ i, j con i ≠ j, tal que μi ≠ μ j Para ello, aplicaremos el análisis de varianza, que utiliza como estadístico de prueba: F= © Ediciones Pirámide

SCE /( k − 1) SCD /(n − k )

H0

Ᏺ k − 1, n − k ≡ Ᏺ 2, 14 303

Ejercicios de inferencia estadística y muestreo La región crítica con a = 0,05 queda representada como:

Ᏺ2,14

0,05

0,95 3,74

Tenemos que calcular el valor experimental, para lo que necesitamos las sumas de cuadrados y la tabla ANOVA: T = T1 + T2 + T3 = 93 + 99 + 113 = 305 SCE =

k =3



i =1 k

SCT =

Ti 2 T 2 932 99 2 1132 3052 − = + + − = 156,741 6 6 5 17 ni n ni

∑ ∑ Xij2 −

i =1 j =1

T2 3052 = 152 + 172 + … + 252 + 19 2 − = 280,94 n 17

SCD = SCT − SCE = 280,94 − 156,741 741 = 124,199 Fuente de variación

Suma de cuadrados

Grados de libertad

Cuadrados medios

Entre cajeros

SCE = 156,741

3–1=2

78,37

Dentro de cajeros

SCD = 124,199

17 – 3 = 14

8,87

SCT = 280,94

17 – 1 = 16

Fexp

8,84

Total

Como: Fexp = 8,84 > 3,74 = F2, 14; 0,95 entonces rechazamos H0 ; es decir, al 5 % de significación, y con los datos observados, los cajeros no parecen ser igualmente eficaces. 304

© Ediciones Pirámide

Análisis de la varianza b) Para ver qué cajeros presentan diferencias significativas en cuanto a productividades medias, tendremos que realizar los siguientes contrastes: a)

⎧ H0 : μ1 − μ2 = 0 ⎨ ⎩ H1: μ1 − μ2 ≠ 0

b)

⎧ H0 : μ1 − μ3 = 0 ⎨ ⎩ H1: μ1 − μ3 ≠ 0

c)

⎧ H0 : μ 2 − μ 3 = 0 ⎨ ⎩ H1: μ2 − μ3 ≠ 0

y utilizaremos el método de Scheffé de comparaciones múltiples. Los estadísticos de prueba a utilizar serán: F=

( Xi − X j )2



SCD 1 1 + ( k − 1) n − k ni n j



H0

Ᏺ k − 1, n − k ≡ Ᏺ 2, 14

donde i = 1, 2, 3; j = 1, 2, 3 según se trate del contraste a), b) o c). Como la distribución de los estadísticos de prueba es la misma para todos los casos y, además, coincide con la del análisis de varianza, entonces la región crítica será la obtenida anteriormente. Calculamos los valores experimentales, teniendo en cuenta que: x1 = 15,5 (a) Fexp =

(b) Fexp =

(c) Fexp =

© Ediciones Pirámide

;

x2 = 16,5

x3 = 22,6

;

(15,5 − 16,5)2



124,199 1 1 2⋅ + 14 6 6



(15,5 − 22,6)2



124,199 1 1 2⋅ + 14 6 5



(16,5 − 22,6)2



124,199 1 1 + 2⋅ 14 6 5



= 0,17

= 7,75

= 5,72

305

Ejercicios de inferencia estadística y muestreo Situando estos valores en la región crítica:

Ᏺ2,14

0,05

0,95 F(a) exp

(b) 3,74 F(c) exp Fexp

Con lo cual, al 5 % de significación, presentan diferencias significativas los cajeros 1 y 3, y también los cajeros 2 y 3. Sin embargo, estos datos no indican evidencia suficiente para decir que las productividades medias de los cajeros 1 y 2 sean distintas. c)

Debemos realizar un contraste de homocedasticidad: H0 : σ 12 = σ 22 = σ 32 H1: σ i2 ≠ σ 2j para algún i ≠ j

y para ello utilizaremos el estadístico del test de Bartlett, utilizado anteriormente. Gráficamente, la región crítica se representa como:

χ2k – 1 ≡ χ22

0,95

= 0,05 χ22; 0,95 = 5,99

306

© Ediciones Pirámide

Análisis de la varianza Para calcular el valor experimental necesitamos las varianzas muestrales para cada grupo de observaciones: s12 = 2,7

;

s22 = 13,1

;

s32 = 11,3

Por tanto, como tenemos en el apartado a) que n = 17, k = 3, n1 = n2 = 6, n3 = 5 y CMD = 8,87: Bexp =

(17 − 3) ln 8,87 − [5 ⋅ ln 2,7 + 5 ln 13,1 + 4 ln 11,3]



1 1 1 1 1 1+ + + − 3(3 − 1) 5 5 4 14



= 2,76

Como: Bexp = 2,76 < 5,99 = χ 22; 0,95 entonces, al 5 % de significación, los datos muestrales no presentan evidencia suficiente para rechazar H0 y, por tanto, no indican que la hipótesis de homogeneidad de varianzas sea falsa. En unos cursos de posgrado se decidió aplicar tres métodos de enseñanza para explicar la asignatura de estadística. Las puntuaciones de los alumnos se clasificaron según la licenciatura que habían realizado y el método de enseñanza recibido, obteniéndose los siguientes resultados: Ejercicio 4.14

Método de enseñanza Clases magistrales teóricas B1

Teoría y trabajo práctico individual B2

Ejercicios y discusión en clase B3

Ingeniería A1

61 70

80 86

77 82

456

Economía A2

59 65

79 89

76 71

439

Biología A3

56 52

78 67

68 75

396

Empresariales A4

54 59

66 72

63 66

380

Otras A5

45 40

72 69

66 65

357

561

758

709

2.028

Licenciatura

Total

© Ediciones Pirámide

Total

307

Ejercicios de inferencia estadística y muestreo Suponiendo que se verifican las hipótesis de normalidad, independencia y homocedasticidad, compruebe si los datos presentan evidencia suficiente para afirmar que las puntuaciones medias son distintas en los grupos obtenidos al realizar la clasificación. Nivel de significación: 5 %.

Solución

Las hipótesis que se pretenden contrastar son: H0 : μ11 = … = μ53 H1: μij ≠ μ hk para algún (i, j ) ≠ (h, k )

es decir, se trata de comprobar la influencia del factor «licenciatura» (A), del factor «método de enseñanza» (B) y de la interacción entre ambos (AB). Para ello, los estadísticos de prueba a utilizar con la distribución seguida (siendo r = 5, s = 3, n = 2) son: F′ =

CM A CME

H 0′

F ′′ =

CM B CME

H 0′′

F ′′′ =

CM AB CME

Fr − 1, rs( n − 1) ≡ F4, 15 Fs − 1, rs ( n − 1) ≡ F2, 15

H 0′′′

F( r − 1)( s − 1), rs ( n − 1) ≡ F8, 15

y las regiones críticas para contrastar las distintas influencias son, al 5 % de significación: Factor A Ᏺ4, 15

0,95 0,05

F′4, 15; 0,95 = 3,06

308

© Ediciones Pirámide

Análisis de la varianza H0′ : α1 = … = α 5 = 0 H1′: ∃ i, α i ≠ 0 Factor B

Ᏺ2,15

0,05

0,95

F′′ 2,15; 0,95 = 3,68

H0′′: β1 = … = β3 = 0 H1′′: ∃ j, β j ≠ 0 Interacción (AB)

Ᏺ8, 15

0,95 0,05

F′′′ 8, 15; 0,95 = 2,64

H0′′′: (αβ )11 = … = (αβ )53 = 0 H1′′′: ∃ (i, j ), (αβ )ij ≠ 0 © Ediciones Pirámide

309

Ejercicios de inferencia estadística y muestreo Para calcular los valores experimentales construimos la tabla ANOVA, obteniendo previamente las sumas de cuadrados:

2 SCT = ∑ ∑ ∑ xijn −

T..2 2.0282 = 140.830 − = 3.737,2 rsn 30

2 SCE = ∑ ∑ ∑ xijk −

1 1 Tij2 = 140.830 − (1312 + 166 2 + 159 2 + 124 2 + 1682 + ∑ ∑ n i j 2

i

i

j

j

k

k

+ 1472 + 1082 + 1452 + 1432 + 1132 + 1382 + 129 2 + 852 + 1412 + 1312 ) = 297 SCA =

1 1 2.0282 T2 = 1.127,53 Ti.2 − .. = ( 456 2 + 439 2 + 396 2 + 380 2 + 3572 ) − ∑ 30 ns i rsn 6

SCB =

1 1 2.0282 T2 = 2.103,8 T. 2j − .. = (5612 + 7582 + 709 2 ) − ∑ 30 rn j rsn 10

SCAB = SCT − SCA − SCB − SCE = 3.737,2 − 1.127,53 − 2.103,8 − 297 = 208,87 Tabla ANOVA para una clasificación doble Suma de cuadrados

Grados de libertad

Factor A

1.127,53

r–1=4

281,88250

F¢exp = 14,24

Factor B

2.103,80

s–1=2

1.051,90000

Fexp ≤ = 53,13 F¢¢¢ exp = 1,32

Fuente de variación

Cuadrados medios

Factor AB (interacción)

208,87

(r – 1)(s – 1) = 8

26,10875

Error

297,00

rs(n – 1) = 15

19,80000

Total

3.737,20

F

rsn – 1 = 29

Como: Fexp ′ = 14,24 > 3,06 = F4′, 15; 0,95 ⇒ Rechazamos H0′ Fexp ′′ = 53,13 > 3,68 = F2′′, 15; 0,95 ⇒ Rechazamos H0′′ Fexp ′′′ = 1,32 < 2,64 = F8′′′ , 15; 0 , 95 ⇒ Aceptamos H0′′′ 310

© Ediciones Pirámide

Análisis de la varianza Entonces rechazamos H0 : m11 = L = m53, con lo cual podemos decir que existen diferencias entre las puntuaciones medias de los grupos, aunque no hay interacción entre los dos factores.

Un centro de investigación está realizando un estudio para observar el efecto de varios tipos de fertilizante en distintas variedades de manzanas. Para cada combinación se seleccionó una muestra aleatoria de tres árboles y se contabilizaron los kilogramos de manzanas recogidos: Ejercicio 4.15

Tipo de manzano

Fertilizante Total F1

F2

F3

M1

74 78 84

75 78 83

72 80 88

712

M2

79 75 69

80 90 84

85 77 76

715

M3

92 87 85

77 78 76

87 83 83

744

Total

723

721

731

2.175

Suponiendo que se verifican las hipótesis de normalidad, independencia y homocedasticidad, compruebe si existen diferencias significativas en las producciones medias. Nivel de significación: 10 %.

Solución

Sea Xij la variable aleatoria que representa la producción de manzanas (en kilogramos) recogidas de un árbol de tipo Mi al que se ha aplicado

fertilizante Fj: Xij → N ( μij , σ ),

i = 1, 2, 3,; j = 1, 2, 3

y, además, son independientes. © Ediciones Pirámide

311

Ejercicios de inferencia estadística y muestreo Deseamos comprobar la influencia en la producción del factor A (variedad de manzano), del factor B (tipo de fertilizante) y de su interacción, AB, si es que existe. Por tanto, hay que contrastar las hipótesis: H0 : μ11 = … = μ33 H1: μij ≠ μ hk para algún (i, j ) ≠ (h, k ) o equivalentemente: Efecto del factor A H0′ : α1 = α 2 = α 3 = 0 H1′: ∃ i, α i ≠ 0 Efecto del factor B H0′′: β1 = β 2 = β3 = 0 H1′′: ∃ j, β j ≠ 0 Efecto interacción (AB) H0′′′: (αβ )11 = … = (αβ )33 = 0 H1′′′: ∃ (i, j ), (αβ )ij ≠ 0 Como r = 3, s = 3 y n = 3, los estadísticos de prueba a utilizar para estos contrastes tienen las siguientes distribuciones:

312

F′ =

CM A CME

H 0′

F ′′ =

CM B CME

H 0′′

F ′′′ =

CM AB CME

Ᏺ r − 1, rs ( n − 1) ≡ Ᏺ 2, 18 Ᏺ s − 1, rs ( n − 1) ≡ Ᏺ 2, 18

H 0′′′

Ᏺ ( r − 1)( s − 1), rs ( n − 1) ≡ Ᏺ 4, 18 © Ediciones Pirámide

Análisis de la varianza y las regiones críticas, al 10 % de significación, son, respectivamente:

Ᏺ2,18

Ᏺ4,18

Ᏺ2,18

0,90 0,1

0,90

0,1

0,1

F′′ 2,18; 0,90 = 2,62

F′′′ 4, 18;0,90 = 2,29

0,90

F′2, 18;0,90 = 2,62

Necesitamos construir la tabla ANOVA para calcular los valores experimentales: 2 SCT = ∑ ∑ ∑ xijk − i

j

k

T..2 2.1752 = 176.049 − = 840,67 rsn 27

SCA =

1 T2 1 2.1752 Ti.2 − .. = (712 2 + 7152 + 7482 ) − = 88,67 ∑ ns i rsn 9 27

SCB =

2.1752 1 T2 1 T. 2j − .. = (7232 + 7212 + 7312 ) − = 6,22 ∑ rn j rsn 9 27

2 SCE = ∑ ∑ ∑ xijk − i

j

k

1 1 Tij2 = 176.049 − (236 2 + 236 2 + 240 2 + 2232 + ∑ ∑ 3 n i j

+ 254 + 2382 + 264 2 + 2312 + 2532 ) = 400 2

SCAB = SCT − SCA − SCB − SCE = 345,78 Tabla ANOVA para una clasificación doble Suma de cuadrados

Grados de libertad

Cuadrados medios

F

Factor A

88,67

r–1=2

44,335

F¢exp = 1,995

Factor B

6,22

s–1=2

3,110

F≤exp = 0,140 F¢¢¢ exp = 3,890

Fuente de variación

Factor AB (interacción)

345,78

(r – 1)(s – 1) = 4

86,445

Error aleatorio

400,00

rs(n – 1) = 18

22,222

Total

840,67

rsn – 1 = 26

© Ediciones Pirámide

313

Ejercicios de inferencia estadística y muestreo Como: Fexp ′ = 1,995 < 2,62 = F2′, 18; 0,90 ⇒ Aceptamos H0′ Fexp ′′ = 0,140 < 2,62 = F2′′, 18; 0,90 ⇒ Aceptamos H0′′ Fexp ′′′ = 3,89 > 2,29 = F4′′′, 18; 0,90 ⇒ Rechazamos H0′′′ Entonces, rechazamos H0 : m11 = L = m33; por tanto, existen diferencias significativas entre las producciones medias.

314

© Ediciones Pirámide

5

Muestreo en poblaciones finitas

Muestreo en poblaciones finitas

Los representantes de un determinado partido político desean obtener información de forma rápida y fiable sobre el número total de concejales que obtuvieron, en las pasadas elecciones, en los 300 municipios más pequeños de una región española. Para conseguir esta información, se decidió realizar un muestreo aleatorio simple de estos municipios, obteniéndose la siguiente distribución muestral: Ejercicio 5.1

Número de concejales obtenidos por municipio

Número de municipios

0 1 2 3 4 5 6 7 8 9

2 7 5 7 8 10 5 3 2 1

Con un 99 % de confianza: a) Obtenga la información requerida con estos datos muestrales indicando el error de muestreo cometido. b) Si se hubiera querido un error de muestreo inferior a 150 concejales, ¿cuántos municipios habrían sido necesarios seleccionar? a) Sea X la variable aleatoria que corresponde al número de concejales de este partido político en un municipio. Como se quiere conocer información sobre los 300 municipios más pequeños de la región (X1, ..., X300), a través de un muesSolución

© Ediciones Pirámide

315

Ejercicios de inferencia estadística y muestreo treo aleatorio simple, se ha seleccionado una muestra de n municipios, obteniéndose el número de concejales en cada uno de ellos, x1, ..., xn. El estimador puntual para el total poblacional es: Tˆ = N x siendo x– la media muestral y N el tamaño poblacional. El error de muestreo de este estimador se puede estimar mediante la fórmula: eT = zα / 2 N ( N − n)

S n

donde S es la desviación típica muestral, n el tamaño de muestra y za/2 el valor tal que, en una distribución N(0, 1), deja a su derecha una probabilidad de a/2, siendo 1 – a el nivel de confianza. En este caso: 1 − α = 0,99 ⇒ α / 2 = 0,005 P( Z  zα / 2 ) = 1 − α / 2 = 0,995 ⇒ zα / 2 = 2,575 Obtenemos ahora el valor de la media y varianza muestrales:

N = 300

316

;

xi2 ni

xi

ni

xi n i

0 1 2 3 4 5 6 7 8 9

2 7 5 7 8 10 5 3 2 1

0 7 10 21 32 50 30 21 16 9

0 7 20 63 128 250 180 147 128 81

n = 50

196

1.004

n = 50

x=

1 k 196 xi ni = = 3,92 ∑ n i =1 50

s2 =

1 = n −1

冤∑ xi2ni − k

i =1

( ∑ xi ) 2 1 196 2 = 1.004 − = 4,8098 49 50 n







© Ediciones Pirámide

Muestreo en poblaciones finitas y, por tanto, con un 99 % de confianza, la estimación del número de concejales obtenidos en los 300 municipios más pequeños de esa región durante la pasadas elecciones es de: Tˆ = N x = 300 ⋅ 3,92 = 1.176 concejales con un error de muestreo de: eT = zα / 2 N ( N − n)

s n

= 2,575 ⋅ 300(300 − 50)

4,8098 50

= 218,7189

b) Para estimar el total de concejales con un error de muestreo inferior a 150, el número de municipios que habría sido necesario seleccionar se calculará como1: n=

N 2 zα2 / 2 S 2 eT2 + Nzα2 / 2 S 2

n=

300 2 ⋅ 2,5752 ⋅ 4,8098 = 89,51 ≈ 90 municipios 150 2 + 300 ⋅ 2,5752 ⋅ 4,8098

Una compañía suministradora de material de oficina tiene que cobrar recibos pendientes correspondientes a 10.000 clientes. Para estimar la cantidad total que se le adeuda, selecciona una muestra aleatoria de 36 clientes, los cuales debían una cantidad media de 7.500 euros, con una desviación típica de 3.000 euros. a) Establezca un intervalo de confianza al 95 % de la cantidad total que se adeuda a esta compañía. b) ¿Cuántos clientes se debería haber seleccionado para estimar la cantidad anterior con un error de muestreo inferior a 2.500.000 euros? Ejercicio 5.2

Solución

a) Definimos la variable aleatoria X como la cantidad adeudada por un cliente. La cantidad total adeudada por los 10.000 clientes es: 10.000

T=



i =1

Xi

1 En este capítulo, las aproximaciones en el cálculo de tamaños muestrales se realizan por exceso para garantizar un error de muestreo inferior o igual al fijado.

© Ediciones Pirámide

317

Ejercicios de inferencia estadística y muestreo que se estimará mediante: N n Tˆ = N x = ∑ xi n i =1 con un error de muestreo estimado por: eT = zα / 2 N ( N − n)

S n

donde za/2 es tal que, para un nivel de confianza 1 – a = 0,95: P( Z  zα / 2 ) = α / 2 = 0,025 ⇒ zα / 2 = 1,96 Como en este caso: x = 7.500 s = 3.000 resulta que el intervalo de confianza para el total poblacional será:



IT = [ N x − eT ; N x + eT ] = 10.000 ⋅ 7.500 − 1,96 10.000(10.000 − 36) 10.000 ⋅ 7.500 + 1,96 10.000(10.000 − 36)

3.000 36

3.000 36

;

冥=

= [65.217.655,90; 84.782.344,10] b) Para conseguir una estimación de la cantidad total que se le adeuda, con un error inferior a eT = 2.500.000, se debería haber elegido una muestra de tamaño superior a: n= 318

N 2 zα2 / 2 s 2 10.000 2 ⋅ 1,96 2 ⋅ 3.000 2 = = 524,19 ≈ 525 clientes eT2 + Nzα2 / 2 s 2 (2.500.000)2 + 10.000 ⋅ 1,96 2 ⋅ 3.000 2 © Ediciones Pirámide

Muestreo en poblaciones finitas En un parque acuático se desea estimar la cantidad gastada por persona adulta en las instalaciones del parque (sin contar el precio de la entrada al recinto). Para ello, de entre las 500 entradas de adultos vendidas un día determinado, se seleccionó una muestra aleatoria simple de 100, y a la salida del parque se les preguntó la cantidad que habían gastado. De las respuestas dadas, se obtuvo la siguiente información: Ejercicio 5.3

100

∑ xi = 2.500 euros

i =1

100

;

∑ xi2 = 64.975 (euros)2

i =1

a) Obtenga el intervalo de confianza al 95 % para la cantidad media gastada por adulto en el recinto del parque. b) ¿A cuántas personas adultas se debería haber entrevistado para que, con la misma confianza, el error de la estimación anterior no superase los 75 céntimos de euro? c) Si se hubiera deseado estimar la proporción de personas adultas insatisfechas con los servicios prestados en el parque, con un error del 10 % y una confianza del 95 %, ¿cuántas de ellas deberían haber sido preguntadas?

Mediante X, representamos la variable aleatoria correspondiente a la cantidad gastada por una persona adulta en las instalaciones del parque acuático. Para estimar la cantidad media gastada por una persona adulta se ha seleccionado una muestra aleatoria simple de tamaño n = 100 extraída de una población con tamaño N = 500: Solución

a) El intervalo de confianza para la media poblacional es:



N−n S ; x + zα / 2 N n

Iμ = x − zα / 2

N−n S N n



siendo za/2 el cuantil 1 – a/2 de una distribución N(0, 1), es decir: P( Z  zα / 2 ) = 1 − α / 2 Para una confianza del 95 %: 1 − α = 0,95 ⇒ α / 2 = 0,025 ⇒ P( Z  zα / 2 ) = 0,975 zα / 2 = 1,96 © Ediciones Pirámide

319

Ejercicios de inferencia estadística y muestreo Calculamos la media y la varianza muestral: x=

1 n 2.500 xi = = 25 euros ∑ n i =1 100

s2 =

1 = n −1

s=

s2 =



n

∑ xi2 −

i =1

1 n

冢∑ x 冣 冥 = 991 冤64.975 − 1001 (2.500) 冥 = 25 n

i =1

2

2

i

25 = 5 euros

y así, el intervalo de confianza para el gasto medio por persona adulta es, en euros:



500 − 100 500

Iμ = 25 − 1,96

5 100

; 25 + 1,96

500 − 100 500

5 100

冥=

= [24,123; 25,877] b) Para un error en la estimación de la media de 75 céntimos de euro, el tamaño muestral necesario será de: n=

zα2 / 2 ⋅ N ⋅ S 2 eμ2 N + zα2 / 2 S 2

y sustituyendo la información muestral: n=

1,96 2 ⋅ 500 ⋅ 25 = 127,2761 ≈ 128 0,752 ⋅ 500 + 1,96 2 ⋅ 25

Por tanto, para que el error no supere los 75 céntimos de euro, debería haberse entrevistado al menos a 128 personas. Otra forma de obtener este valor sería calculando, en primer lugar, el tamaño muestral que correspondería a una población infinita y, luego, realizar la corrección por finitud si ésta fuera necesaria, es decir, si la fracción de muestreo obtenida con este tamaño superase el 1 %: n∞ = f = 320

zα2 / 2 s 2 1,96 2 ⋅ 25 = = 170,7378 ≈ 171 0,752 eμ2 n∞ 171 = = 0,342 > 0,01 N 500 © Ediciones Pirámide

Muestreo en poblaciones finitas con lo cual, debemos realizar la corrección por finitud: n=

n∞ 171 = = 127, 4218 ≈ 128 n∞ 1 + 0,342 1+ N

c) Si se desea estimar una proporción al 95 % de confianza y con un error de muestreo: eP  0,10 el tamaño muestral necesario puede obtenerse a partir de la fórmula2: n=

zα2 / 2 Npq eP2 ( N − 1) + zα2 / 2 pq

y como no se tiene información sobre el valor de p, se utilizará aquel que proporciona la máxima variabilidad, p = 0,5 = q: pq 1/4

0

0,5

1

p

2 Algunos autores prefieren utilizar el estimador de varianza Vâr[Pˆ ] en lugar de Var[Pˆ ] a la hora de calcular el error de muestreo; así:

eP = zα / 2 Vaˆ r [ Pˆ ] = zα / 2

N−n N

pq n −1

y, despejando de esta fórmula, quedaría: n=

N (eP2 + zα2 / 2 pq ) NeP2 + zα2 / 2 pq

y así: n=

500(0,10 2 + 1,96 2 ⋅ 0,5 ⋅ 0,5) = 81,4039 ≈ 82 500 ⋅ 0,10 2 + 1,96 2 ⋅ 0,5 ⋅ 0,5

presentándose un desfase de una unidad. © Ediciones Pirámide

321

Ejercicios de inferencia estadística y muestreo Por tanto, bastaría haber preguntado a: n=

1,96 2 ⋅ 500 ⋅ 0,5 ⋅ 0,5 = 80,7005 ≈ 81 personas 0,10 2 ⋅ 499 + 1,96 2 ⋅ 0,5 ⋅ 0,5

Del mismo modo que en el apartado anterior, también aquí podría haberse obtenido el tamaño muestral correspondiente a una población infinita, n • , y realizar, en caso necesario, la corrección por finitud: n∞ = f =

zα2 / 2 pq 1,96 2 ⋅ 0, 5 ⋅ 0, 5 = = 96,04 ≈ 97 0,10 2 eP2 97 n∞ = = 0,194 > 0,01 N 500

Entonces, con la corrección por finitud tendremos: n=

n∞ 97 = = 81,24 ≈ 82 personas n∞ 1 + 0,194 1+ N

El servicio informático de cierta universidad se está planteando la renovación o no del contrato de utilización de un determinado paquete estadístico. Antes de tomar esta decisión se necesitaría conocer la opinión de los profesores universitarios. Para obtener esta información, se pretende tomar una muestra aleatoria simple entre los 1.250 profesores y enviarles un cuestionario a través del cual manifiesten si son favorables a la renovación del contrato, teniendo en cuenta el coste que supondrá a la universidad y las condiciones del mismo. Ejercicio 5.4

a) ¿Cuál deberá ser el tamaño muestral apropiado para obtener una estimación sobre la proporción de profesores favorables a la renovación del contrato con un error de muestreo inferior al 12 % y una confianza del 90 %? b) De la encuesta realizada el año anterior se sabe que la proporción de profesores favorables a la renovación estará entre el 75 % y el 85 %. ¿Cuál debería ser en este caso el tamaño muestral necesario si se decide utilizar esta información? c) Si, finalmente, se decidió enviar los cuestionarios a 100 profesores, de los cuales tan sólo 35 no se manifestaron favorables a la renovación del contrato, estime la proporción de profesores favorables a la renovación del contrato indicando su error de muestreo. Nivel de confianza: 90 %. 322

© Ediciones Pirámide

Muestreo en poblaciones finitas a) Como se desea estimar una proporción poblacional realizando un muestreo aleatorio simple en una población de N = 1.250 profesores, con una confianza del 90 % y con un error de muestreo fijado en ep = 0,15, el tamaño muestral necesario se puede obtener mediante la fórmula3: Solución

n=

zα2 / 2 Npq eP2 ( N − 1) + zα2 / 2 pq

siendo za/2 el cuantil 1 – a/2 de una N (0, 1): 1 − α = 0,90 ⇒ α = 0,10 P( Z  zα / 2 ) = 1 −

α 0,10 = 1− = 0,95 2 2

zα / 2 = 1,645 y, si no se tiene información sobre p, se tomará el valor p = 1/2, pues proporciona la máxima variabilidad: pq = p(1 – p)

0 3

1/2

1

p

También se puede utilizar, según se ha explicado en el problema 5.3, la fórmula: n=

N (eP2 + zα2 / 2 pq ) NeP2 + zα2 / 2 pq

y así: n=

© Ediciones Pirámide

1.250(0,12 2 + 1,6452 ⋅ 0,5 ⋅ 0,5) = 45,5493 ≈ 46 1.250 ⋅ 0,12 2 + 1,96 2 ⋅ 0,5 ⋅ 0,5

323

Ejercicios de inferencia estadística y muestreo Por tanto: n=

1,6452 ⋅ 1.250 ⋅ 0,5 ⋅ 0,5 = 45,2968 ≈ 46 0,12 2 ⋅ 1.249 + 1,6452 ⋅ 0,5 ⋅ 0,5

y sería necesario seleccionar a 46 profesores para enviarles los cuestionarios. También podríamos haber obtenido esta cantidad calculando en primer lugar el tamaño muestral que correspondería a una población infinita, n • , y, si la fracción de muestreo no es suficientemente pequeña, realizando la corrección por finitud: n∞ =

zα2 / 2 pq 1,6452 ⋅ 0,5 ⋅ 0,5 = = 46,9796 ≈ 47 0,12 2 eP2

Como: f =

n∞ 47 = = 0,0376 > 0,01 N 1.250

entonces será necesario realizar la corrección por finitud: n=

n∞ 47 = = 45,2968 ≈ 46 n∞ 1 + 0,0376 1+ N

b) Si se estima que la proporción oscilará entre el 75 % y el 85 %, entonces, en la fórmula para obtener el tamaño muestral: n=

zα2 / 2 Npq eP2 ( N − 1) + zα2 / 2 pq

se utilizará el valor p = 0,75, pues es el que proporciona mayor variabilidad entre los posibles: pq = p(1 – p) 0,25 0,1875 0,1275

0,5

324

0,75 0,85 © Ediciones Pirámide

Muestreo en poblaciones finitas Así pues, como: n=

1,6452 ⋅ 1.250 ⋅ 0,75 ⋅ 0,25 = 34,2954 ≈ 35 0,12 2 ⋅ 1.249 + 1,6452 ⋅ 0,75 ⋅ 0,25

sería necesario enviar el cuestionario a una muestra aleatoria simple de 35 profesores4. Del mismo modo que en el apartado anterior, podríamos haber calculado: n∞ = f =

zα2 / 2 pq 1,6452 ⋅ 0,75 ⋅ 0,25 = = 35,2347 ≈ 36 0,12 2 eP2 36 n∞ = = 0,0288 > 0,01 N 1.250

y realizar la corrección por finitud: n=

c)

n∞ 36 = = 34,9922 ≈ 35 n∞ 1,0288 1+ N

El estimador puntual de la proporción poblacional es la proporción muestral: 1 n Pˆ = p = ∑ ai n i =1

siendo: ⎧1 si el profesor i -ésimo es favorable a la renovación ai = ⎨ ⎩0 en caso contrario Como de los 100 cuestionarios hay 35 que no se manifestaron favorables, entonces: n = 100 100

∑ ai = 100 − 35 = 65

i =1 4

Sustituyendo en la otra fórmula, quedaría: n=

© Ediciones Pirámide

N (eP2 + zα2 / 2 pq ) 1.250(0,12 2 + 1,6452 ⋅ 0,75 ⋅ 0,25) = = 35,2413 ≈ 36 1.250 ⋅ 0,12 2 + 1,6452 ⋅ 0,75 ⋅ 0,25 NeP2 + zα2 / 2 pq

325

Ejercicios de inferencia estadística y muestreo y la estimación puntual es: 65 Pˆ = p = = 0,65 100 con un error de muestreo5 eP = zα / 2

N−n N −1

pq 1.250 − 100 = 1,645 n 1.249

0,65 ⋅ 0,35 = 0,0753 100

Una compañía dedicada al envasado, fabricación y venta de productos lácteos pretende analizar el consumo anual de leche en una ciudad que cuenta con 110.000 habitantes. Para realizar el estudio, decide llevar a cabo una clasificación por edades de la población en tres estratos. Tomando muestras aleatorias simples en cada uno de ellos, se obtuvieron los siguientes datos: Ejercicio 5.5

Estratos

Tamaños poblacionales

Tamaños muestrales

Media muestral del consumo anual de leche (litros)

Varianza muestral (litros)2

Menores de 25 años Entre 25 y 50 años Más de 50 años

48.000 38.000 24.000

1.460 1.160 1.730

102,7 71,4 73,2

15.876 48.841 23.409

Utilizando un 95 % de confianza: a) Estime la cantidad total de leche consumida al año entre los menores de 25 años, indicando el error de muestreo cometido. b) Calcule el tamaño muestral necesario para estimar el consumo medio de leche al año entre los mayores de 50 años con un error de muestreo de cinco litros. c) Estime, mediante un intervalo de confianza, el consumo anual de leche por habitante. d) Para realizar un estudio similar, se va a permitir triplicar el tamaño de la muestra. Reparta la nueva muestra entre los tres estratos según los diferentes criterios, indicando qué reparto es el más eficiente. 5

O bien: eP = zα / 2 Vaˆ r [ Pˆ ] = zα / 2

326

N−n N

pq 1.250 − 100 = 1,645 n −1 1.250

0,65 ⋅ 0,35 = 0,0756 100 − 1 © Ediciones Pirámide

Muestreo en poblaciones finitas e)

Si se quiere estimar la proporción de personas entre 25 y 50 años que estarían dispuestas a comprar un producto lácteo de reciente aparición, ¿cuál sería el tamaño muestral necesario para que la estimación tuviera un error de muestreo inferior al 5 %? ¿Y si existe un estudio piloto que sugiere que dicha proporción será al menos del 60 %?

Sea X la cantidad de leche consumida anualmente por una persona. Para recoger información sobre esta variable, se ha realizado un muestreo aleatorio estratificado, utilizando como variable estratificadora la edad de la población. Solución

a) Deseamos estimar un total poblacional dentro del primer estrato, por tanto, su estimador es el correspondiente a un muestreo aleatorio simple: Tˆ1 = N1 x1 = 48.000 ⋅ 102,7 = 4.929.600 litros con un error de muestreo estimado en: eT1 = zα / 2 N1 ( N1 − n1 )

s1 n1

= 1,96 48.000( 48.000 − 1.460)

15.876 1.460

=

= 305.480,8545 litros pues, con una confianza de 1 – a = 0,95: P( Z  zα / 2 ) = 1 − α / 2 = 0,975 ⇒ zα / 2 = 1,96 b) Para estimar el consumo medio de leche en el tercer estrato, con un error de muestreo fijado en e m3 = 5 litros, será necesario un tamaño muestral igual a: n3 =

zα2 / 2 N3 s32 1,96 2 ⋅ 24.000 ⋅ 23.409 = 2 = 3.128,25 ≈ 3.129 personas 2 2 2 5 ⋅ 24.000 + 1,96 2 ⋅ 23.409 eμ3 N3 + zα / 2 s3

c) Para estimar el consumo medio anual por habitante en esta ciudad, utilizaremos el estimador de la media global en el muestreo estratificado y, por tanto, el intervalo de confianza será: Iμ = [ μˆ ST − eμ ; μˆ ST + eμ ] © Ediciones Pirámide

327

Ejercicios de inferencia estadística y muestreo siendo

μˆ ST =

L

∑ Wh xh =

h =1

1 N

L

∑ Nh xh

h =1

L

eμ = zα / 2

∑ Wh2 (1 − fh )

h =1

Sh2 nh

Así pues:

μˆ ST =

1 ( 48.000 ⋅ 102,7 + 38.000 ⋅ 71,4 + 24.000 ⋅ 73,2) = 85,451 litros 110.000

eμ = 1,96 +



1.460 15.876 38.000 1.160 48.841 48.000 ⋅ 冢1 − ⋅ +冢 ⋅ 冢1 − ⋅ + 冤冢110 冣 冣 冣 冣 48.000 1.460 110.000 38.000 1.160 .000 2

冣冢

2



24.000 2 1.730 23.409 ⋅ 1− ⋅ 110.000 24.000 1.730



1/ 2

= 5,35 litros

y, por tanto: Iμ = [85, 451 − 5,35 ; 85, 451 + 5,35] = [80,101 ; 90,801] d) El tamaño muestral actual es: 1.460  1.160  1.730  4.350 Si se triplica esta cantidad, el nuevo tamaño muestral sería de: n  3 · 4.350  13.050 personas Para repartir entre los distintos estratos, utilizaremos la expresión: nh  wh n  wh · 13.050

;

h  1, 2, 3

con wh dados según los distintos criterios de afijación. 328

© Ediciones Pirámide

Muestreo en poblaciones finitas Afijación uniforme wh =

1 1 = L 3

n1 = n2 = n3 =

,

h = 1, 2, 3

1 13.050 n= = 4.350 L 3

es decir, en cada estrato se tomaría una muestra aleatoria simple de 4.350 personas. Afijación proporcional Nh N

wh =

h = 1, 2, 3

,

n1 =

N1 48.000 n= 13.050 = 5.694,5455 ≈ 5.695 N 110.000

n2 =

N2 38.000 n= 13.050 = 4.508,1818 ≈ 4.508 N 110.000

n3 =

N3 24.000 n= 13.050 = 2.847,2727 ≈ 2.847 N 110.000

Afijación óptima de mínima varianza con coste fijo wh =

Nh Sh L

∑ Ni Si

,

h = 1, 2, 3

i =1 L

∑ Ni si = 48.000

15.876 + 38.000 48.841 + 24.000 23.409 = 18.118.000

i =1

n1 =

48.000 ⋅ 15.876 ⋅ 13.050 = 4.356,2424 ≈ 4.356 18.118.000

n2 =

38.000 ⋅ 48.841 ⋅ 13.050 = 6.048,8961 ≈ 6.049 18.118.000

n3 =

24.000 ⋅ 23.409 ⋅ 13.050 = 2.644,8615 ≈ 2.645 18.118.000

y este último es el reparto más eficiente entre los estratos, pues minimiza la varianza del estimador. © Ediciones Pirámide

329

Ejercicios de inferencia estadística y muestreo e) Al estimar una proporción mediante un muestreo aleatorio simple (pues se trata del interior del segundo estrato), el tamaño muestral necesario para conseguir un error inferior a eP2 = 0,05 será una cantidad superior o igual a la obtenida aplicando la fórmula6: n=

zα2 / 2 N2 p2 q2 eP22 ( N2 − 1) + zα2 / 2 p2 q2

Si no se tiene información sobre p2 o q2, tomamos p2 = q2 = 0,5, pues es la situación de máxima variabilidad: pq = p(1 – p) 0,25

0

0,5

1

p

Así: n=

1,96 2 ⋅ 38.000 ⋅ 0,5 ⋅ 0,5 = 380,3251 ≈ 381 personas 0,052 ⋅ (37.999) + 1,96 2 ⋅ 0,5 ⋅ 0,5

Si de la encuesta piloto se conoce que p2  0,6, entonces: pq = p(1 – p) 0,25 0,24

0 6

0,5 0,6

1

p

Si se utiliza la fórmula: n=

N (eP22 + zα2 / 2 p2 q2 ) NeP22 + zα2 / 2 p2 q2

se obtendría n = 381,3052 ≈ 382.

330

© Ediciones Pirámide

Muestreo en poblaciones finitas tomaremos p2 = 0,6 y q2 = 1 – 0,6 = 0,4 y tendremos que el tamaño muestral necesario será superior o igual a7: n=

1,96 2 ⋅ 38.000 ⋅ 0,6 ⋅ 0, 4 = 365,2583 ≈ 366 personas 0,052 ⋅ 37.999 + 1,96 2 ⋅ 0,6 ⋅ 0, 4

Una organización sindical está interesada en conocer la situación laboral de los 10.000 trabajadores que en el año 1997 pertenecían a cierto grupo industrial. Para realizar el informe, los trabajadores fueron clasificados en tres grupos de edad, seleccionándose una muestra aleatoria simple en cada uno de ellos. Algunos de los resultados obtenidos aparecen en la siguiente tabla: Ejercicio 5.6

Grupos de edad

Número total de trabajadores

Número de trabajadores seleccionados

Media muestral

Desviación típica muestral

Número de contratos inferiores a dos años

18-35 36-50 51-65

2.900 4.700 2.400

666 754 580

1.205 1.630 1.950

380 350 400

375 150 90

Salario mensual (euros)

Con una confianza del 99 %: a) Obtenga, mediante el correspondiente intervalo de confianza, la estimación de la cantidad total mensual repartida por este grupo industrial entre los salarios de los empleados más jóvenes. b) Calcule una estimación del salario mensual medio de los 10.000 trabajadores, así como su error de muestreo. c) Indique si el reparto muestral anterior en los distintos grupos de edad ha sido el más eficiente posible para estimar el salario mensual medio; en caso contrario, indique cuál sería éste. d) Estime la proporción de trabajadores de este grupo industrial cuyo contrato tiene una duración inferior a los dos años, indicando el error de muestreo cometido. e) Si se deseara estimar la proporción de trabajadores con más de 50 años que padecieron enfermedades por no cumplirse las normas de seguridad e higiene en sus puestos de trabajo, ¿cuántos trabajadores sería necesario seleccionar para que el error de muestreo no superase el 6 %? 7

Utilizando la fórmula de la nota anterior obtendríamos n = 366,24 ≈ 367.

© Ediciones Pirámide

331

Ejercicios de inferencia estadística y muestreo Definimos la variable X = «Salario mensual de un trabajador». El valor del salario mensual del i-ésimo trabajador seleccionado en el grupo h será representado por xih. Solución

a) Para estimar la cantidad total mensual repartida entre los trabajadores más jóvenes mediante un intervalo de confianza, utilizaremos la expresión correspondiente al muestreo aleatorio simple aplicada al primer estrato:



IT1 = N1 X1 − zα / 2 N1 ( N1 − n1 )

S1 n1

; N1 X1 + zα / 2 N1 ( N1 − n1 )

S1 n1



donde, para una confianza del 99 %, el valor za/2 es tal que: P( Z  zα / 2 ) = 1 − α / 2 = 1 − 0,005 = 0,995 ⇒ zα / 2 = 2,575 Por tanto:



IT1 = 2.900 ⋅ 1.205 − 2,575 2.900(2.900 − 666) 2.900 ⋅ 1.205 + 2,575 2.900(2.900 − 666)

380 666 380 666

;

冥=

= [3.397.991,78; 3.591.008,21] b) En este caso, al tratarse del salario medio global, deberemos aplicar el estimador del muestreo aleatorio estratificado:

μˆ ST =

L

∑ Wh xh

h =1

siendo Wh la ponderación del estrato h y x–h su media muestral: W1 =

N1 2.900 = = 0,29 N 10.000

W2 =

N2 4.700 = = 0, 47 N 10.000

W3 =

N3 2.400 = = 0,24 N 10.000

μˆ ST = 0,29 ⋅ 1.205 + 0, 47 ⋅ 1.630 + 0,24 ⋅ 1.950 = 1.583,55 euros 332

© Ediciones Pirámide

Muestreo en poblaciones finitas cuyo error de muestreo viene dado por: L

eμ = zα / 2

S2

∑ Wh2 (1 − fh ) nh

h =1

h

Sustituyendo en esta fórmula:



eμ = 2,575 0,29 2 1 −











666 380 2 754 350 2 580 400 2 + 0, 472 1 − + 0,24 2 1 − = 2.900 666 4.700 754 2.400 580

= 19,31 euros c) El reparto muestral más eficiente será el que se obtenga por medio del criterio de afijación óptima de mínima varianza. Veamos si los tamaños muestrales que tenemos en cada estrato coinciden con los que proporcionará este criterio: nh = wh n =

Nh Sh L

∑ Ni Si

⋅n

i =1

con n = 666 + 754 + 580 = 2.000 L

∑ Nh Sh = 2.900 ⋅ 380 + 4.700 ⋅ 350 + 2.400 ⋅ 400 = 3.707.000

i =1

n1 =

2.900 ⋅ 380 ⋅ 2.000 = 594,5508 ≈ 595 3.707.000

n2 =

4.700 ⋅ 350 ⋅ 2.000 = 887,5101 ≈ 887 3.707.000

n3 =

2.400 ⋅ 400 ⋅ 2.000 = 517,9390 ≈ 518 3.707.000

Por tanto, el reparto muestral del enunciado no es el más eficiente. © Ediciones Pirámide

333

Ejercicios de inferencia estadística y muestreo d) Debemos obtener la estimación de la proporción poblacional en un muestreo aleatorio estratificado:

PˆST = pST =

L

∑ Wh ph

h =1

Las proporciones muestrales en cada uno de los estratos son:

p1 =

375 = 0,5631 666

p2 =

150 = 0,1989 754

p3 =

90 = 0,1552 580

Por tanto, la estimación requerida es: PˆST = pST = 0,29 ⋅ 0,5631 + 0,47 ⋅ 0,1989 + 0,24 ⋅ 0,1552 = 0,2940 con un error de muestreo de8: L

eP = zα / 2

∑ Wh2

h =1

= 2,575 0,29 2

Nh − nh ph qh ⋅ = Nh − 1 nh

2.900 − 666 0,5631 ⋅ 0, 4369 4.700 − 754 0,1989 ⋅ 0,8011 2.400 − 580 0,1552 ⋅ 0,8448 ⋅ + 0, 472 ⋅ + 0,24 2 ⋅ = 2.899 666 4.699 754 2.399 580

= 0,022 8

Otros autores consideran: L

eP = zα / 2 Vaˆ r [ p] = zα / 2

∑ Wh2

h =1

Nh − nh ph qh ⋅ Nh nh − 1

con la que se obtiene un resultado similar.

334

© Ediciones Pirámide

Muestreo en poblaciones finitas e) Si se desea estimar una proporción en el tercer estrato con un error de muestreo del 6 %, necesitamos un tamaño muestral dado por la fórmula9:

n3 =

zα2 / 2 N3 p3q3 2,5752 ⋅ 2.400 ⋅ 0,5 ⋅ 0,5 = = 386, 4730 ≈ 387 eP23 ( N3 − 1) + zα2 / 2 p3q3 0,06 2 (2.399) + 2,5752 ⋅ 0,5 ⋅ 0,5

donde se ha utilizado como valor de p3 = 0,5, puesto que no se tiene información anterior sobre la proporción de trabajadores de más de 50 años que padecieron enfermedades por motivos laborales. Por tanto, para estimar esta proporción con un error de muestreo no superior al 6 % habrá que seleccionar al menos 387 trabajadores entre el grupo de los mayores de 50 años. Otra forma de llegar al mismo resultado es obteniendo primero el tamaño muestral que correspondería a una población infinita:

n∞ 3 =

zα2 / 2 p3q3 2,5752 ⋅ 0,5 ⋅ 0,5 = = 460, 46 ≈ 461 0,06 2 eP23

y como la fracción de muestreo supera el 1 %:

f3 =

461 n∞ 3 = = 0,1921 > 0,01 2.400 N3

habrá que realizar la corrección por finitud:

n3 =

9

n∞ 3 461 = = 386,7125 ≈ 387 n∞ 3 11921 , 1+ N3

O bien con la expresión:

n3 =

N3 (eP23 + zα2 / 2 p3q3 ) N3eP23 + zα2 / 2 p3q3

se obtendría n3 = 387,1769 ≈ 388. © Ediciones Pirámide

335

Ejercicios de inferencia estadística y muestreo La Consejería de Agricultura de una comunidad autónoma está realizando un estudio sobre el terreno agrícola. Para recoger la información necesaria se consideraron tres zonas según su localización geográfica, y en cada una de ellas, de forma independiente, se seleccionó, mediante un muestreo aleatorio simple, cierto número de fincas. Parte de la información recogida se resume en la siguiente tabla: Ejercicio 5.7

Zonas

Número total de fincas

Número de fincas seleccionadas

Superficie media muestral (Ha.)

Desviación típica muestral (Ha.)

Número de fincas barbecho

A B C

3.200 5.600 1.200

380 800 200

28 15 45

3,5 6,7 8,0

124 250 17

Utilizando un 99 % de confianza: a) Obtenga la superficie total del terreno agrícola en cada una de las zonas, estimando en cada caso su error de muestreo. b) ¿Qué tamaños muestrales habrían sido necesarios para realizar las estimaciones anteriores con unos errores de muestreo estimados inferiores a 1.000 hectáreas? c) Estime la superficie media de las fincas de la comunidad autónoma mediante el correspondiente intervalo de confianza. d) ¿Cuál sería el reparto más eficiente de la muestra anterior en las tres zonas para realizar la estimación de la superficie media? e) ¿Qué tamaño muestral y qué reparto por zona se debería haber realizado para estimar, del modo más eficiente posible, la superficie total del terreno agrícola de la comunidad autónoma con un error de muestreo no superior a 1.000 hectáreas? f) Calcule el porcentaje global de fincas en barbecho indicando su error de muestreo. Sea X = «Superficie de una finca de esta comunidad autónoma». Las fincas de esta comunidad han sido divididas en tres zonas o estratos, y en cada una de ellas se ha realizado un muestreo aleatorio simple de forma independiente entre ellas. Por tanto, los estimadores dentro de cada zona podrán obtenerse a través de las fórmulas de muestreo aleatorio simple, y los globales a partir de las del muestreo estratificado. Solución

a) Para cada zona estimaremos la superficie total y su error de muestreo utilizando las fórmulas: Tˆh = Nh xh eTh = zα / 2 Nh ( Nh − nh ) 336

Sh nh

,

h = 1, 2, 3 © Ediciones Pirámide

Muestreo en poblaciones finitas Como el nivel de confianza es del 99 %, entonces: P( Z  zα / 2 ) =

α 0,01 = = 0,005 ⇒ zα / 2 = 2,575 2 2

Zona A Tˆ1 = N1 x1 = 3.200 ⋅ 28 = 89.600 hectáreas eT1 = 2,575 3.200(3.200 − 380)

3,5 380

= 1.388,8426 hectáreas

Zona B Tˆ2 = N2 x2 = 5.600 ⋅ 15 = 84.000 hectáreas eT2 = 2,575 5.600(5.600 − 800)

6,7 800

= 3.162, 4355 hectáreas

Zona C Tˆ3 = N3 x3 = 1.200 ⋅ 45 = 54.000 hectáreas eT3 = 2,575 1.200(1.200 − 200)

8 200

= 1.595,6691 hectáreas

b) Si se pretende estimar la superficie total con la información de una muestra aleatoria simple con un error determinado, el tamaño que se necesitará es: nh =

Nh2 zα2 / 2 Sh2 eT2h + Nh zα2 / 2 Sh2

,

h = 1, 2, 3

Así pues, para las correspondientes zonas, tendremos: Zona A n1 = © Ediciones Pirámide

3.200 2 ⋅ 2,5752 ⋅ 3,52 = 660,1572 ≈ 661 1.000 2 + 3.200 ⋅ 2,5752 ⋅ 3,52 337

Ejercicios de inferencia estadística y muestreo Zona B n2 =

5.600 2 ⋅ 2,5752 ⋅ 6,72 = 3.500,1310 ≈ 3.501 1.000 2 + 5.600 ⋅ 2,5752 ⋅ 6,72

Zona C n3 =

1.200 2 ⋅ 2,5752 ⋅ 82 = 404,8936 ≈ 405 1.000 2 + 1.200 ⋅ 2,5752 ⋅ 82

c) Para estimar la superficie media global de las fincas de la región, tendremos en cuenta que se trata de un muestreo estratificado y, por tanto:

μˆ ST = x =

L

∑ Wh xh

h =1

L

eμ ST = zα / 2

S2

∑ Wh2 (1 − fh ) nh

h =1

h

siendo: xh = media muestral del estrato h. Wh = fh =

Nh = ponderación del estrato h. N nh = fracción de muestreo en el estrato h. Nh

Por tanto, sustituyendo la información que aparece en la tabla, tendremos: L

N=

∑ Nh = 3.200 + 5.600 + 1.200 = 10.000

h =1

338

W1 =

N1 3.200 = = 0,32 N 10.000

;

f1 =

n1 380 = = 0,1188 N1 3.200

W2 =

N2 5.600 = = 0,56 N 10.000

;

f2 =

n2 800 = = 0,1429 N2 5.600

W3 =

N3 1.200 = = 0,12 N 10.000

;

f3 =

n3 200 = = 0,1667 N3 1.200 © Ediciones Pirámide

Muestreo en poblaciones finitas Así:

μˆ ST = x = 0,32 ⋅ 28 + 0,56 ⋅ 15 + 0,12 ⋅ 45 = 22,76 hectáreas eμ ST = 2,575 0,32 2(1 − 0,1188) ⋅

3,52 6,72 82 + 0,56 2(1 − 0,1429) ⋅ + 0,12 2(1 − 0,1667) ⋅ = 380 800 200

= 0,3805 hectáreas y el intervalo de confianza al 99 % será: Iμ ST = [ μˆ ST − eμ ST ; μˆ ST + eμ ST ] = [22,76 − 0,3805; 22,76 + 0,3805] = [22,3795; 23,1405] d) El reparto más eficiente es el que se realiza a través del criterio de afijación óptima de mínima varianza, en el que el tamaño muestral del estrato h será: nh = wh n =

Nh Sh L

∑ Ni Si

⋅n

,

h = 1,..., L

i =1

Por tanto, como: L

∑ Ni Si = 3.200 ⋅ 3,5 + 5.600 ⋅ 6,7 + 1.200 ⋅ 8 = 58.320

i =1

los tamaños muestrales que corresponderían a cada estrato, teniendo en cuenta que el tamaño muestral global ha de ser: n  380  800  200  1.380 serán:

© Ediciones Pirámide

n1 =

3.200 ⋅ 3,5 ⋅ 1.380 = 265,0205 ≈ 265 58.320

n2 =

5.600 ⋅ 6,7 ⋅ 1.380 = 887,8189 ≈ 888 58.320

n3 =

1.200 ⋅ 8 ⋅ 1.380 = 227,1605 ≈ 227 58.320 339

Ejercicios de inferencia estadística y muestreo e) El tamaño muestral necesario para estimar el total con un error de muestreo no superior a 1.000 hectáreas, realizando un muestreo aleatorio estratificado, se obtiene como: L

Nh2 Sh2 ∑ h = 1 wh

n=

L eT2 + ∑ Nh Sh2 zα2 / 2 h = 1

donde las cantidades wh serán las correspondientes al criterio de afijación óptima de mínima varianza para que el reparto de la muestra por zonas sea el más eficiente posible: wh =

Nh Sh

,

L

∑ Nh Sh

h = 1,..., L

i =1

w1 =

3.200 ⋅ 3,5 = 0,1920 58.320

w2 =

5.600 ⋅ 6,7 = 0,6433 58.320

w3 =

1.200 ⋅ 8 = 0,1646 58.320

Entonces: 3.200 2 ⋅ 3,52 5.600 2 ⋅ 6,72 1.200 2 ⋅ 82 + + 0,1920 0,6433 0,1646 n= = 6.564,1970 ≈ 6.565 2 1.000 2 2 2 + [3.200 ⋅ 3,5 + 5.600 ⋅ 6,7 + 1.200 ⋅ 8 ] 2,5752 y los tamaños muestrales en cada zona se calcularán mediante la expresión: nh = wh ⋅ n

,

h = 1,..., L

n1 = 0,1920 ⋅ 6.565 = 1.260, 48 ≈ 1.261 n2 = 0,6433 ⋅ 6.565 = 4.223,26 ≈ 4.223 n3 = 0,1646 ⋅ 6.565 = 1.080,599 ≈ 1.081 340

© Ediciones Pirámide

Muestreo en poblaciones finitas f)

Para h = 1, 2, 3, definimos: ⎧1 si la finca i del estrato h se destina a barbecho aih = ⎨ ⎩0 en caso contrario

,

i = 1,..., Nh

Para estimar la proporción poblacional de fincas dedicadas al barbecho: L

P=

Nh Nh ∑ ∑ aih h =1 N i =1 L

N ∑ Nh Ph = h =1

utilizaremos el estimador del muestreo estratificado, cuya fórmula es: L

pST =

∑ Wh ph

h =1

siendo ph el estimador de la proporción en el estrato h. El error de muestreo de este estimador se puede aproximar mediante10 : L

∑ Wh2

eP = zα / 2 Var [ pST ] = zα / 2

h =1

Nh − nh ph qh ⋅ Nh − 1 nh

Así pues, como:

10

p1 =

1 n1 124 ∑ ai1 = 380 = 0,3263 n1 i = 1

p2 =

1 n2

p3 =

1 n3

n2

250

∑ ai 2 = 800

= 0,3125

i =1 n3

17

∑ ai3 = 200 = 0,085

i =1

Otros autores consideran: L

eP = zα / 2 Vaˆ r [ pST ] = zα / 2

© Ediciones Pirámide

∑ Wh2

h =1

Nh − nh ph qh ⋅ −1 Nh n

341

Ejercicios de inferencia estadística y muestreo la estimación de la proporción de fincas en barbecho es: pST = 0,32 ⋅

124 250 17 + 0,56 ⋅ + 0,12 ⋅ = 0,2896 380 800 200

con un error de muestreo de: eP = = 2,575 0,32 2

3.200 − 380 0,3263 ⋅ 0,6737 5.600 − 800 0,3125 ⋅ 0,6875 1.200 − 200 0,085 ⋅ 0,915 ⋅ + 0,56 2 ⋅ + 0,12 2 ⋅ = 3.200 − 1 380 5.600 − 1 800 1.200 − 1 200

= 0,0293

Es decir, un 28,96 % de las fincas de la región están en barbecho, siendo el error de muestreo11 de esta estimación de ± 2,93 %.

Una agencia inmobiliaria desea conocer la proporción de apartamentos de la playa de Costanova, que cuenta con un total de 10.000, cuyos dueños estarían dispuestos a alquilarlos al menos un mes al año. Para realizar el estudio, se selecciona en cada una de las tres urbanizaciones existentes una muestra aleatoria de apartamentos en número proporcional al total de apartamentos de la urbanización. La información recogida indica que, en la urbanización Soleares se seleccionaron 1.050 apartamentos, de los cuales habría 800 dispuestos a ser alquilados; en Vistabella se eligieron 900 apartamentos, estando disponibles para el alquiler 600 de ellos, y de los 1.700 seleccionados en Aguaclara, los dueños de 1.300 estarían dispuestos a alquilarlos al menos un mes al año. Estime, al 90 % de confianza, la proporción de apartamentos que estarían dispuestos a ser alquilados al menos una vez al año y el error de muestreo cometido. Ejercicio 5.8

Solución

Definimos:

⎧1 si el dueño del apartamento i de la urbanización h estaría dispuesto a alquilarlo aih = ⎨ ⎩0 en caso contrario 11 Puede comprobarse que utilizando la fórmula de la nota 10 se obtiene, aproximadamente, el mismo valor para el error de muestreo.

342

© Ediciones Pirámide

Muestreo en poblaciones finitas Se trata de estimar la proporción poblacional: L

P=

∑ Wh Ph

h =1

con Wh = Nh /N y Ph la proporción poblacional en el estrato h: Ph =

1 Nh

Nh

∑ aih

i =1

Para ello, utilizaremos el estimador puntual del muestreo aleatorio estratificado: PˆST = pST =

L

∑ Wh ph

h =1

cuyo error de muestreo se estima por12: L

eP = zα / 2 Var [ pST ] = zα / 2

∑ Wh2

h =1

Nh − nh ph qh ⋅ Nh − 1 nh

con ph las proporciones muestrales en los diferentes estratos:

12

p1 =

800 = 0,7619 1.050

p2 =

600 = 0,6667 900

p3 =

1.300 = 0,7647 1.700

Algunos autores prefieren, como ya se comentó en la nota 8: L

eP = zα / 2 Vaˆ r [ pST ] = zα / 2

© Ediciones Pirámide

∑ Wh2

h =1

Nh − nh ph qh ⋅ Nh nh − 1

343

Ejercicios de inferencia estadística y muestreo Como el tamaño muestral en cada urbanización es proporcional al número de apartamentos de la misma, entonces: n1 =

N1 N n ⋅ n ⇒ W1 = 1 = 1 N N n

n2 =

N2 N n ⋅ n ⇒ W2 = 2 = 2 N N n

n3 =

N3 N n ⋅ n ⇒ W3 = 3 = 3 N N n

donde: n = n1 + n2 + n3 = 1.050 + 900 + 1.700 = 3.650 N = 10.000 Por tanto: W1 =

N1 n1 1.050 1.050 = = ⇒ N1 = ⋅ 10.000 = 2.877 N n 3.650 3.650

W2 =

N2 n2 900 900 = = ⇒ N2 = ⋅ 10.000 = 2.466 N n 3.650 3.650

W3 =

1.700 N3 n3 1.700 = = ⇒ N3 = ⋅ 10.000 = 4.658 N n 3.650 3.650

y así: 1.050 800 900 600 1.700 1.300 ⋅ + ⋅ + ⋅ = 0,7397 PˆST = pST = 3.650 1.050 3.650 900 3.650 1.700 Por tanto, el 73,97 % de los apartamentos estarían disponibles para ser alquilados al menos un mes al año, con un error de muestreo estimado en13: 13

344

Utilizando la fórmula de la nota anterior se obtiene aproximadamente el mismo resultado. © Ediciones Pirámide

Muestreo en poblaciones finitas

eP = 1,645

冤冢



1.050 2 2.877 − 1.050 0,7619 ⋅ 0,2381 ⋅ ⋅ + 3.650 2.876 1.050

+

2.466 − 900 0,6667 ⋅ 0,3333 ⋅ ⋅ + 冢 3900 .650 冣 2.465 900

+

4.658 − 1.700 0,7647 ⋅ 0,2353 ⋅ ⋅ 冢13..700 冣 冥 650 4.657 1.700

2

1/ 2

2

= 0,00947

La Concejalía de Asuntos Sociales de un municipio pretende realizar un estudio sobre el consumo de drogas entre los jóvenes de Enseñanza Secundaria Obligatoria (ESO). De los 15 centros de ESO con que cuenta el municipio, se decidió seleccionar una muestra aleatoria simple de cinco, y en ellos se realizó una encuesta anónima a todos los estudiantes. Algunos datos de la encuesta se presentan a continuación: Ejercicio 5.9

Centro de ESO

Número de alumnos

Gasto semanal medio en tabaco (euros)

Número de alumnos que han probado drogas alguna vez (excluidos tabaco y alcohol)

A B C D E

2.000 1.531 1.897 2.535 1.400

12,00 9,0 8,50 13,15 11,00

480 225 238 300 128

a) Obtenga, con una confianza del 90 %, una estimación para el gasto semanal medio en tabaco entre los estudiantes de Enseñanza Secundaria Obligatoria del municipio, mediante el correspondiente intervalo de confianza. b) Estime, con la misma confianza anterior, el número total de alumnos de ESO que han consumido drogas alguna vez (excluyendo tabaco y alcohol) indicando el error de muestreo cometido. a) Sea X la variable aleatoria que representa el gasto semanal en tabaco de un alumno de ESO en este municipio. Para obtener información sobre esta variable, se ha realizado un muestreo por conglomerados eligiendo, mediante muestreo aleatorio simple, cinco centros de ESO (m = 5) entre los 15 (M = 15) con que cuenta el municipio, y en cada uno de ellos se ha encuestado a todos los alumnos. Denotaremos por xij el valor de la variable referida al alumno j-ésimo del i-ésimo centro seleccionado, con i = 1, ..., 5, j = 1, ..., Ni, siendo Ni el número total de alumnos en el centro de ESO i. Solución

© Ediciones Pirámide

345

Ejercicios de inferencia estadística y muestreo Para estimar el gasto medio semanal en tabaco, utilizaremos el intervalo de confianza: I μ = [ X c − e μ ; X c + eμ ] – siendo Xc y e m el estimador puntual y el error de muestreo correspondiente al muestreo por conglomerados: 1 m Ni 1 m 1 m xij = ∑ ti = ∑ Ni Xi ∑ ∑ n i =1 j =1 n i =1 n i =1

μˆ c = Xc = m

n=

∑ Ni

i =1

eμ = zα / 2 Vaˆ r [ Xc ] = zα / 2 St2 =

m n2





M−m 2 St M

1 m 2 ∑ Ni ( Xi − Xc )2 m − 1 i =1

Por tanto: n = 2.000 + 1.531 + 1.897 + 2.535 + 1.400 = 9.363 Xc =

1 [2.000 ⋅ 12 + 1.531 ⋅ 9 + 1.897 ⋅ 8,50 + 2.535 ⋅ 13,50 + 1.400 ⋅ 11] = 11,06 euros 9.363 Ni

– Xi

– – Xi – Xc

2.000 1.531 1.897 2.535 1.400

12,00 9,0 8,50 13,50 11,00

0,94 –2,06 –2,56 2,44 –0,06

9.363

St2 =

1 [2.000 2 (0,94)2 + 1.5312 ( − 2,06)2 + 1.8972 ( − 2,56)2 + 2.5352 (2,44)2 + 5 −1

+ 1.400 2 ( − 0,06)2 ] = 18.832.826,5 346

© Ediciones Pirámide

Muestreo en poblaciones finitas Con una confianza del 90 % (1 – a = 0,90), tendremos que: za/2 = 1,645 y, por tanto: eμ = 1,645

5 15 − 5 ⋅ ⋅ 18.832.826,5 = 1,39 euros 2 9.363 15

y el intervalo de confianza pedido es: Iμ = [11,06 − 1,39; 11,06 + 1,39] = [9,67; 12, 45] b) Definimos Y como aquella variable que toma el valor 1 si un alumno de ESO ha consumido drogas algunas vez (excluyendo tabaco y alcohol) y el valor 0 en caso contrario. Para estimar el total de alumnos que han consumido drogas alguna vez, mediante un muestreo por conglomerados, utilizaremos como estimador: M m Tˆc = Mt = ∑ ti m i =1 siendo ti el total del conglomerado i, es decir: ti =

Ni

∑ yij j =1

y el error de muestreo cometido se estima como:





M − m St2 eT = zα / 2 Vaˆ r (Tˆc ) = zα / 2 M 2 ⋅ M m donde: St2 = © Ediciones Pirámide

1 m 1 ( ti − t ) 2 = ∑ m − 1 i =1 m −1

冤∑ ti2 − m 冢∑ ti 冣 冥 m

i =1

1

m

2

i =1

347

Ejercicios de inferencia estadística y muestreo Por tanto, sustituyendo la información disponible en estas fórmulas y haciendo los cálculos necesarios, se tiene: ti

ti2

480 225 238 300 128

230.400 50.625 56.644 90.000 16.384

1.371

444.053

15 ⋅ 1.371 = 4.113 alumnos Tˆc = 5 st2 =





1 1 444.053 − (1.371)2 = 17.031,2 5 −1 5

eT = 1,645 152 ⋅

15 − 5 17.031,2 ⋅ = 1.175,8425 15 5

En una ciudad se pretende realizar un estudio sobre el equipamiento informático de los institutos públicos. Para realizar este estudio, se seleccionan, mediante un muestreo aleatorio simple, cuatro de los 10 distritos urbanos, y en cada uno de ellos se envían cuestionarios a todos los institutos. La información obtenida es la siguiente: Ejercicio 5.10

Distrito

Número de institutos

Número total de ordenadores

Número de institutos en los que los alumnos tienen acceso a Internet

III III III IV

15 10 13 20

666 525 585 1.160

12 6 9 19

Con un nivel de confianza del 95 %, estime el número medio de ordenadores por instituto y la proporción de institutos en los que los alumnos tienen acceso a Internet, e indique sus correspondientes errores de muestreo. 348

© Ediciones Pirámide

Muestreo en poblaciones finitas a) Llamamos X a la variable que representa el número de ordenadores de un instituto, y xij es el valor de esta variable correspondiente al instituto j del distrito i. Como se ha realizado un muestreo aleatorio por conglomerados, seleccionando m = 4 distritos entre los M = 10 de la ciudad, para estimar el número medio de ordenadores por instituto utilizaremos el estimador: Solución

μˆ c = Xc =

1 m ∑ ti n i =1

m

n=

∑ Ni = 15 + 10 + 13 + 20 = 58

i =1

cuyo error de muestreo será: eμ = zα / 2 Vaˆ r [ Xc ] = zα / 2 St2 =

m M−m 2 ⋅ ⋅ St n2 M

1 m 2 ∑ Ni ( Xi − Xc )2 m − 1 i =1

Por tanto:

μˆ c = Xc =

1 (666 + 525 + 585 + 1.160) = 50,62 58

Ni

ti

– Xi = ti /Ni

– – Xi – Xc

15 10 13 20

666 525 585 1.160

44,4 52,5 45,0 58,0

–6,22 1,88 –5,62 7,38

2.936

st2 =

1 [152 ( − 6,22)2 + 10 2 (1,88)2 + 132 ( − 5,62)2 + 20 2 (7,38)2 ] = 12.060,6179 4 −1

Para una confianza del 95 %, tenemos que: P( Z  zα / 2 ) = 1 − α / 2 = 0,025 ⇒ zα / 2 = 1,96 eμ = 1,96 © Ediciones Pirámide

4 10 − 4 ⋅ ⋅ 12.060,6179 = 5,7493 582 10 349

Ejercicios de inferencia estadística y muestreo Así pues, la estimación del número medio de ordenadores por instituto es de 50,62 con un error de muestreo de ± 5,7493. b) Sea ahora la variable aleatoria Y la que toma el valor 1 si en un instituto los alumnos tienen acceso a Internet, y 0 en otro caso. Se trata de estimar la proporción poblacional mediante la información proporcionada por una muestra obtenida mediante un muestreo aleatorio por conglomerados. Entonces, el estimador puntual y el error de muestreo cometido serán: 1 m Pˆc = ∑ Ni Pi n i =1 eP = zα / 2

m n2





M−m 2 S pˆ M

siendo: m

n=

∑ Ni

i =1

S p2ˆ =

1 m 2 Ni ( Pi − Pˆc )2 ∑ m − 1 i =1

Por tanto: Ni

Ni

∑ yij

pˆi

Pi – Pˆc

12 6 9 19

0,80 0,60 0,69 0,95

0,01 – 0,19 – 0,10 0,16

j =1

15 10 13 20 n = 58

1 Pˆc = [15 ⋅ 0,8 + 10 ⋅ 0,6 + 13 ⋅ 0,69 + 20 ⋅ 0,95] = 0,79 58 s 2pˆ =

1 [152 (0,01)2 + 10 2 ( − 0,19)2 + 132 ( − 0,1)2 + 20 2 (0,16)2 ] = 5,1875 4 −1

eP = 1,96 350

4 10 − 4 ⋅ ⋅ 5,1875 = 0,1192 582 10 © Ediciones Pirámide

Muestreo en poblaciones finitas Es decir, aproximadamente en el 79 % de los institutos, los alumnos tienen acceso a Internet con un error de muestreo estimado de ± 11,92 %. En una urbanización, el administrador general dispone de un listado ordenado de las viviendas que consta de 15 bloques con 10 viviendas cada uno. Además de la identificación de las viviendas, en el listado aparece su gasto anual en agua caliente. Con el fin de estimar el gasto anual en agua caliente de la comunidad, se seleccionó una vivienda al azar en el primer bloque, resultando elegida la segunda del listado. Una vez hecho esto, se decidió investigar, además de ésta, las viviendas que ocupan los lugares 12, 22, etc. El gasto total de las 15 viviendas así elegidas fue de 18.000 litros, y la suma de los cuadrados de estos gastos alcanzó los 263,12 (miles de litros). Estime, indicando el error de muestreo cometido, el gasto total anual de agua caliente de los vecinos de esta comunidad. Nivel de confianza: 95 %. Ejercicio 5.11

Representamos con X la variable aleatoria que recoge el gasto anual en agua caliente de una vivienda. La urbanización consta de un total de 10 · 15 = 150 viviendas y la muestra extraída ha sido de 15 (una por bloque); éstas han sido seleccionadas mediante un muestreo sistemático en el que el intervalo de muestreo utilizado fue: Solución

k=

N 150 = = 10 n 15

Por tanto, el estimador del gasto total anual y el error de muestreo aproximado14 cometido serán: 15

Tˆ = k ∑ xi i =1

eT = zα / 2

N 2 (1 − f ) 2 S n

siendo: S2 =

1 n 1 ( xi − x ) 2 = ∑ n − 1 i =1 n −1

冤∑ xi2 − n 冢∑ xi 冣 冥 n

1

i =1

n

2

i =1

P( Z  zα / 2 ) = 1 − α / 2 siendo Z una normal estándar. 14

En el muestreo sistemático no existe un estimador insesgado para Var [Tˆ ].

© Ediciones Pirámide

351

Ejercicios de inferencia estadística y muestreo Con un 95 % de confianza, se tiene: P( Z  zα / 2 ) = 1 −

0,05 = 0,975 2

y, por tanto, utilizando la tabla 7: zα / 2 = 1,96 La información muestral de las 15 viviendas seleccionadas se puede resumir en: 15

∑ xi = 18 miles de litros

i =1 15

∑ xi2 = 263,1 (miles de litros)2

i =1

Así pues: 15

Tˆ = k ∑ xi = 10 ⋅ 18 = 180 miles de litros i =1

s2 =





1 1 263,1 − (18)2 = 17,25 (miles de litros)2 14 15



eT = 1,96 150 1 −



15 17,25 = 24, 42 miles de litros 150 15

Es decir, el gasto anual en agua caliente de la comunidad se estima en 180 miles de litros con un error aproximado de ± 24,42 miles de litros (nivel de confianza: 95 %).

La publicación de las calificaciones de estadística ha sido realizada en 10 páginas con 30 alumnos en cada una de ellas, estando éstos ordenados alfabéticamente. El representante de los alumnos desea conocer cuál ha sido la nota media obtenida, pero no quiere copiar las calificaciones de los 300 alumnos. Por ello, decidió seleccionar un alumno al azar entre los que figuraban en la primera hoja, Ejercicio 5.12

352

© Ediciones Pirámide

Muestreo en poblaciones finitas y recoger su calificación y la de los alumnos que, en el resto de las hojas, ocupaban la misma posición que éste. Si de las calificaciones recogidas se ha obtenido que: 10

10

∑ xi = 65

∑ xi2 = 532,75

;

i =1

i =1

obtenga la calificación media de la asignatura y su error de muestreo aproximado. Nivel de confianza: 95 %.

Sea X = «Calificación obtenida por un alumno». Para obtener información sobre la calificación media de los 300 alumnos (media poblacional) el representante estudiantil ha realizado un muestreo sistemático seleccionando 10 calificaciones con intervalo de muestreo: Solución

k=

N 300 = = 30 n 10

pues elige un alumno de cada hoja (n = 10). Para estimar la media poblacional utilizaremos la media muestral:

μˆ = x =

1 n ∑ xi n i =1

Para calcular el error aproximado15 de la estimación, utilizaremos la expresión:

eμ = zα / 2 (1 − f )

S2 n

siendo S2 la varianza muestral. Por tanto, sustituyendo en estas fórmulas la información disponible, tenemos:

μˆ = 15

65 = 6,5 10

Recordemos que en el muestreo sistemático no existe un estimador insesgado para Var [x–].

© Ediciones Pirámide

353

Ejercicios de inferencia estadística y muestreo

s2 =







10 12,25 ⋅ = 2,13 300 10

1 652 532,75 − = 12,25 10 − 1 10

eμ = 1,96

1−



donde za/2 = 1,96 ha sido obtenido a partir de la tabla 7, teniendo en cuenta que: P( Z  zα / 2 ) = 1 − α / 2 = 1 − 0,025 = 0,975

Los alumnos matriculados en un centro de enseñanza son 1.200. Se ha realizado una encuesta a 10 de ellos seleccionándolos al azar mediante muestreo aleatorio simple. En una de las preguntas de la encuesta se solicitaba información sobre el gasto aproximado diario de estos alumnos (en euros). Las respuestas fueron: Ejercicio 5.13

14 30

17 8

10

23

6

19

15

12

Con una confianza del 95 %: a) ¿Entre qué valores se situaría el gasto medio de los alumnos de ese centro de enseñanza? b) ¿Qué porcentaje de alumnos gastan como mucho 15 euros diarios? ¿Cuál es el error de muestreo cometido? c) Si se considera la información anterior como el resultado de una muestra piloto y se desea realizar un nuevo estudio más amplio para estimar el gasto medio anterior con un error de muestreo de ± 2 euros, ¿cuántos alumnos seleccionaría usted para la muestra?, ¿y cuántos seleccionaría si quiere estimar, con un error máximo del 10 %, la proporción de los que van al cine más de una vez a la semana?

a) Puesto que se trata de un muestreo aleatorio simple con N = 1.200, n = 10 y se pretende estimar el gasto medio, utilizaremos el intervalo de confianza para la media poblacional: Solución



Iμ = x − zα / 2 354

N−n S ; x + zα / 2 N n

N−n S N n

冥 © Ediciones Pirámide

Muestreo en poblaciones finitas siendo za/2 el cuantil 1 – a/2 en una distribución normal estándar: P( Z  zα / 2 ) = 1 − α / 2 Para una confianza del 95 %, se tiene 1 – a = 0,95, y así: P( Z  zα / 2 ) = 0,975 ⇒ zα / 2 = 1,96 Con la información muestral calculamos la media y la varianza muestrales: X =

1 n 154 xi = = 15, 4 euros ∑ n i =1 10

S2 =

1 n −1

冤∑ xi2 − n 冢∑ xi 冣 冥 = 9 冤2.844 − n

i =1

1

n

2

1

i =1



154 2 = 52, 49 (euros)2 10

S = + 52, 49 = 7,24 euros Sustituyendo en el intervalo anterior para evaluar el gasto medio diario de los alumnos de este centro, tenemos:



Iμ = 15, 4 − 1,96



1.200 − 10 7,24 1.200 − 10 7,24 ; 15, 4 + 1,96 = 1.200 1.200 10 10

= [15, 4 − 4, 47; 15, 4 + 4, 47] = [10,93; 19,87] Definimos: ⎧1 si el alumno i -ésimo gasta como mucho 15 euros diarios ai = ⎨ ⎩0 en caso contrario Para estimar una proporción poblacional utilizamos el estimador proporción muestral: 1 n Pˆ = p = ∑ ai n i =1 © Ediciones Pirámide

355

Ejercicios de inferencia estadística y muestreo b) Puesto que de los 10 encuestados hay seis que gastan una cantidad inferior o igual a 15 euros, entonces S ai = 6 y: p=

6 = 0,6 ⇒ 60 % 10

Para evaluar el error de muestreo cometido: e p = zα / 2

N−n N −1

pq 1.200 − 10 = 1,96 n 1.199

0,6 ⋅ 0, 4 = 10

= 0,3025 ⇒ 30,25 % c) El tamaño muestral necesario para estimar el gasto medio con un error de muestreo de ± 2 euros se obtiene mediante la expresión: n=

zα2 / 2 ⋅ N ⋅ S 2 eμ2 N + zα2 / 2 S 2

Con la información de la muestra piloto anterior, S2 = 52,49, y el valor del error de muestreo e m = 2 euros, tenemos: n=

1,96 2 ⋅ 1.200 ⋅ 52, 49 = 48,37 ≈ 49 alumnos 2 2 ⋅ 1.200 + 1,96 2 ⋅ 52, 49

Respecto a la segunda cuestión planteada, para estimar una proporción poblacional teniendo un error de muestreo fijado previamente, tendremos que utilizar la expresión: n=

zα2 / 2 Npq e 2p ( N − 1) + zα2 / 2 pq

y si, como es el caso, no se dispone de ninguna información sobre la proporción, p, de los que van al cine más de una vez a la semana, se utilizará aquel valor de p que proporciona la máxima variabilidad: p = 0,5 = q. Por tanto16: 16

Alternativamente, según se indica en el ejercicio 5.3, se podría utilizar la expresión: n=

N (eP2 + zα2 / 2 pq ) 1.200(0,10 2 + 1,96 2 ⋅ 0,5 ⋅ 0,5 = = 89,84 ≈ 90 NeP2 + zα2 / 2 pq 1.200 ⋅ 0,10 2 + 1,96 2 ⋅ 0,5 ⋅ 0,5

presentándose un desfase de una unidad muestral.

356

© Ediciones Pirámide

Muestreo en poblaciones finitas n=

1,96 2 ⋅ 1.200 ⋅ 0,5 ⋅ 0,5 = 88,99 ≈ 89 alumnos 0,10 2 (1.199) + 1,96 2 ⋅ 0,5 ⋅ 0,5

Para que el error en la estimación sea como máximo del 10 % habría que entrevistar al menos a 89 alumnos de este centro.

Una compañía de seguros ha analizado aleatoriamente 200 de sus 10.000 expedientes para estudiar las cuantías y características de las indemnizaciones que paga por los accidentes de tráfico cubiertos por sus pólizas. De la información obtenida se deduce que: Ejercicio 5.14

200

∑ xi = 30,25 miles de euros

i =1

200

;

∑ xi2 = 112,3 (miles de euros)2

i =1

donde la variable representa las indemnizaciones anuales pagadas en el expediente correspondiente. Con una confianza del 95 %: a) Estime la cuantía total anual pagada por la compañía mediante el correspondiente intervalo de confianza. b) Si se hubiera deseado estimar la proporción de expedientes que han dado menos de dos partes de siniestro en el año, ¿qué tamaño muestral tendría que utilizarse para conseguir la estimación con un error de muestreo inferior al 12 %?

Llamamos X a la variable aleatoria que representa la cantidad pagada por la aseguradora anualmente y que consta en el expediente del asegurado (la variable viene expresada en miles de euros). Solución

a) La cantidad total pagada por la compañía será: 10.000

T=



i =1

Xi

que se estimará mediante el intervalo de confianza: IT = [Tˆ − eT ; Tˆ + eT ] © Ediciones Pirámide

357

Ejercicios de inferencia estadística y muestreo siendo: N n Tˆ = N x = ∑ xi n i =1 eT = zα / 2 N ( N − n)

S n

y za/2 es el percentil 1 – a/2 de una N(0, 1). Para un nivel de confianza 1 – a = 0,95: P( Z  zα / 2 ) = 1 − α / 2 = 0,975 ⇒ zα / 2 = 1,96 Particularizando con los datos del enunciado: 200

∑ xi = 30,25

i =1

10.000 ⇒ Tˆ = ⋅ 30,25 = 1.512,5 200

calculamos la varianza muestral:

s2 =

1 n −1

冤∑ xi2 − n

i =1

( ∑ xi ) 2 1 30,252 = 112,3 − = 0,5413 n 199 200







Entonces:

eT = 1,96 10.000(10.000 − 200)

0,5413 200

= 1.009, 42

Así, el intervalo de confianza quedará como: IT = [Tˆ − eT ; Tˆ + eT ] = [1.512,5 − 1.009, 42; 1.512,5 + 1.009, 42] = = [503,08; 2.521,92] expresado en miles de euros. 358

© Ediciones Pirámide

Muestreo en poblaciones finitas b) Para obtener el tamaño muestral necesario para estimar una proporción con un error de muestreo fijado (ep = 0,12) podemos utilizar la expresión: np =

zα2 / 2 Npq e 2p ( N − 1) + zα2 / 2 pq

Puesto que no se indica ninguna información previa sobre la verdadera proporción de expedientes que han tenido menos de dos partes de siniestro en el año, debemos tomar la situación de mayor variabilidad (p = q = 0,5). Así, obtendremos: np =

1,96 2 ⋅ 10.000 ⋅ 0,5 ⋅ 0,5 = 66,26 ≈ 67 expedientes 0,12 2 ⋅ 9.999 + 1,96 2 ⋅ 0,5 ⋅ 0,5

La Asociación de Defensa del Ciudadano pretende elaborar un informe de evaluación de las características de las multas de tráfico impuestas en una determinada región. Ante la imposibilidad de revisar todos los expedientes, se decidió dividir la región en tres zonas y seleccionar una muestra aleatoria simple de expedientes sancionadores en cada una de ellas. Algunos de los resultados recogidos se resumen en la siguiente tabla: Ejercicio 5.15

Zona

Número total de expedientes sancionadores

Número de expedientes sancionadores seleccionados

Media muestral

Desviación típica muestral

Número de expedientes con defecto de forma*

A B C

5.200 1.800 3.000

520 180 300

75 150 90

10 25 15

130 20 50

Importe de la sanción

* Entre los investigados.

Con una confianza del 95 %: a) ¿Cuántas multas habría que haber seleccionado en la zona A si se quisiera estimar el porcentaje de ellas que han sido recurridas por los sancionados admitiendo un error de muestreo del 2 %?, ¿y si se tuvieran motivos para pensar que este porcentaje oscila entre el 55 % y el 65 %? b) Estime la proporción de multas que presentan defecto de forma en la zona C indicando el error de muestreo cometido. c) Estime, mediante el correspondiente intervalo de confianza, el importe medio de las sanciones en esta región. © Ediciones Pirámide

359

Ejercicios de inferencia estadística y muestreo d) ¿Cuál hubiera sido el reparto muestral más eficiente entre las distintas zonas para evaluar el importe medio de las sanciones?

Los expedientes sancionadores de esta región pueden considerarse divididos en tres zonas o estratos (A, B y C). En cada una de ellas, los expedientes han sido seleccionados mediante un muestreo aleatorio simple de forma independiente en cada zona. Por tanto, los estimadores dentro de cada zona podrán obtenerse a través de las fórmulas del muestreo aleatorio simple y los globales a partir de las del muestreo estratificado. Solución

a) Para determinar cuántas multas se tendrían que haber seleccionado en la zona A para estimar el porcentaje de las recurridas, admitiendo un error de muestreo del 2 %, utilizaremos la expresión: nA =

zα2 / 2 N A pA q A e 2pA ( N A − 1) + zα2 / 2 pA q A

Puesto que el nivel del confianza es del 95 %, el valor za/2, tal que: P( Z  zα / 2 ) = 1 − α / 2 = 1 −

0,05 = 0,975 2

es za/2 = 1,96. Al no disponerse de ninguna información sobre la proporción de multas recurridas en la zona A, tomaremos los valores pA = 0,5 = qA. Por tanto: nA =

1,96 2 ⋅ 5.200 ⋅ 0,5 ⋅ 0,5 = 1.642,79 ≈ 1.643 multas (0,02)2 ⋅ 5.199 + 1,96 2 ⋅ 0,5 ⋅ 0,5

Si puede suponerse que el porcentaje anterior oscila entre el 55 % y el 65 %, entonces el valor de pA que maximiza pAqA es: pA = 0,55 y, por tanto: qA = 0,45 360

© Ediciones Pirámide

Muestreo en poblaciones finitas Con esta información, el tamaño muestral quedaría algo más reducido: nA =

1,96 2 ⋅ 5.200 ⋅ 0,55 ⋅ 0, 45 = 1.631,52 ≈ 1.632 multas (0,02)2 ⋅ 5.199 + 1,96 2 ⋅ 0,55 ⋅ 0, 45

b) El estimador para la proporción de multas con defecto de forma en la zona C es la proporción muestral: 50 = 0,17 PˆC = 300 Su error de muestreo se estima con: NC − nC NC − 1

e pC = zα / 2

pC qC 3.000 − 300 = 1,96 nC 2.999

0,17 ⋅ 0,83 = 300

= 0,0403 Luego el error de muestreo para estimar la proporción de multas con defecto de forma en la zona C será del 4,03 %. c) Sea X la variable que representa el importe de una sanción. El intervalo de confianza para la media poblacional, m, de esta variable es: Iμ ST = [ μˆ ST − eμ ST ; μˆ ST + eμ ST ] siendo:

μˆ ST =

L

L

Nh 5.200 1.800 3.000 xh = ⋅ 75 + ⋅ 150 + ⋅ 90 = 10.000 10.000 10.000 h =1 N

∑ Wh xh = ∑

h =1

= 0,52 ⋅ 75 + 0,18 ⋅ 150 + 0,30 ⋅ 90 = 93 euros eμ ST = zα / 2 Vaˆ r [ μˆ ST ] Vaˆ r [ μˆ ST ] = © Ediciones Pirámide

L

S2

∑ Wh2 (1 − fh ) nh

h =1

h

361

Ejercicios de inferencia estadística y muestreo Las ponderaciones de los respectivos estratos son: W1 =

5.200 = 0,52 10.000

W2 =

;

1.800 = 0,18 10.000

;

W3 =

3.000 = 0,3 10.000

Las fracciones de muestreo correspondientes son: fh = f1 =

520 = 0,1 5.200

;

f2 =

nh Nh

180 = 0,1 1.800

;

f3 =

300 = 0,1 3.000

Así: Vaˆ r [ μˆ ST ] = 0,52 2 (1 − 0,1) ⋅

10 2 252 152 + 0,182 (1 − 0,1) ⋅ + 0,32 (1 − 0,1) ⋅ = 520 180 300

= 0,2088 y el error de muestreo será: eμ ST = 1,96 0,2088 = 0,8956 euros Por tanto, el intervalo de confianza para el importe medio de las sanciones será: Iμ ST = [93 − 0,8956; 93 + 0,8956] = [92,1044; 93,8956] d) El reparto muestral más eficiente es el que se consigue mediante el criterio de afijación óptima de mínima varianza: nh = wh n;

h = 1,..., L = 3

donde n = n1 + n2 + n3 = 1.000 wh =

Nh Sh L

∑ Ni Si

i =1

362

© Ediciones Pirámide

Muestreo en poblaciones finitas Puesto que: Nh

Sh

Nh S h

wh

5.200 1.800 3.000

10 25 15

52.000 45.000 45.000

0,366 0,317 0,317

142.000

entonces tendremos: nh = wh n = wh ⋅ 1.000 n1 = 0,366 ⋅ 1.000 = 366 expedientes sancionadores n2 = 0,317 ⋅ 1.000 = 317 expedientes sancionadores n3 = 0,317 ⋅ 1.000 = 317 expedientes sancionadores

© Ediciones Pirámide

363

6

Teoría de la decisión

Teoría de la decisión

La afluencia de turistas a un país durante el verano depende del clima de estabilidad social y política de los meses precedentes a esta estación. Una empresa ubicada en el país debe decidir el volumen de producción de un determinado producto típico con caducidad anual, para poder ir planificando su actividad. En tres escenarios sociopolíticos distintos, se estiman los beneficios medios que tendría la empresa si produjeran 10.000, 20.000 o 30.000 unidades, que son las opciones que se plantea el departamento de producción. Ejercicio 6.1

Escenarios sociopolíticos

Producción (número de unidades)

Estabilidad

Conflictividad baja

Conflictividad alta

10.000 20.000 30.000

10 25 40

10 5 –5

2 – 10 – 20

Nota: Los beneficios/pérdidas se expresan en millones de euros. Según las opiniones de un grupo de expertos, se estiman las probabilidades de que se presenten cada uno de los escenarios mencionados, obteniéndose los siguientes resultados: — Probabilidad de que se presente «Estabilidad»: 0,6. — Probabilidad de que se presente «Baja conflictividad»: 0,3. — Probabilidad de que se presente «Alta conflictividad»: 0,1. a) ¿Qué decisión debe adoptar la empresa? b) ¿Cuánto estaría dispuesta a pagar la empresa por la elaboración de un informe especializado sobre la futura situación sociopolítica del país? © Ediciones Pirámide

365

Ejercicios de inferencia estadística y muestreo a) En situaciones de decisiones bajo riesgo, como en este caso, donde se conocen o pueden estimarse las probabilidades asociadas a cada uno de los diferentes estados de la naturaleza, se determina el Valor Monetario Esperado (VME) para cada alternativa y se elige aquella que haga máximo este valor. Por tanto, a partir de la definición de VME: Solución

m

VME( ai ) =

∑ rij ⋅ P(θ j ) j =1

y llamando: a1: a2: a3: q1: q2: q3:

«Producir 10.000 unidades». «Producir 20.000 unidades». «Producir 30.000 unidades». «Estabilidad». «Baja conflictividad». «Alta conflictividad».

tenemos: P(θ1 ) = 0,6 P(θ 2 ) = 0,3 P(θ 3 ) = 0,1 y así: 3

VME( a1 ) =

∑ r1 j ⋅ P(θ j ) = 10 ⋅ 0,6 + 10 ⋅ 0,3 + 2 ⋅ 0,1 = 9,2 millones de euros j =1 3

VME( a2 ) =

∑ r2 j ⋅ P(θ j ) = 25 ⋅ 0,6 + 5 ⋅ 0,3 − 10 ⋅ 0,1 = 15,5 millones de euros

VME( a3 ) =

∑ r3 j ⋅ P(θ j ) = 40 ⋅ 0,6 − 5 ⋅ 0,3 − 20 ⋅ 0,1 = 20,5 millones de euros

j =1 3

j =1

Como: VME( a*) = máx VME( ai ) = 20,5 = VME( a3 ) i

366

© Ediciones Pirámide

Teoría de la decisión entonces: a* = a3 y la empresa debería producir 30.000 unidades del producto. b) Como máximo, la empresa estaría dispuesta a pagar por el informe el valor de la información que le permitiría estar segura de elegir la alternativa correcta, es decir, el Valor Esperado de la Información Perfecta (VEIP), que se obtiene de la siguiente forma: VEIP = ( Valor monetario esperado con información perfecta) − − ( Máximo valor monetario esperado) El valor monetario esperado con información perfecta (VMEIP) será: 3

VMEIP =

∑ V *(θ j ) ⋅ P(θ j ) j =1

donde V*(qj) = máx rij = Resultado óptimo bajo el estado qj. En este caso: i

V *(θ1 ) = máx ri1 = máx{10, 25, 40} = 40 i

V *(θ 2 ) = 10 V *(θ 3 ) = 2 con lo cual: VMEIP = 40 ⋅ 0,6 + 10 ⋅ 0,3 + 2 ⋅ 0,1 = 27,2 millones de euros Como el valor monetario esperado máximo era el de a3, 20,5 millones de euros, se tiene que: VEIP = VMEIP − VME( a*) = 27,2 − 20,5 = 6,7 millones de euros siendo ésta la cantidad que estaría dispuesta a pagar, como máximo, la empresa por el informe sobre la futura situación del país. © Ediciones Pirámide

367

Ejercicios de inferencia estadística y muestreo A las mismas conclusiones sobre los apartados a) y b) se podría haber llegado utilizando el criterio de la Pérdida de Oportunidad Esperada (POE), que también se aplica en situaciones bajo riesgo. Para aplicar este criterio, calculamos las pérdidas relativas asociadas a cada alternativa y estado de la naturaleza: R( ai , θ j ) = Rij = V *(θ j ) − rij Con estos valores obtenemos la matriz de pérdidas de oportunidad o matriz Regret: R(ai, qj)

q1

q2

q3

a1 a2 a3

30 15 0

0 5 15

0 12 22

P(qj)

0,6

0,3

0,1

donde: R( a1 , θ1 ) = V *(θ1 ) − r11 = 40 − 10 = 30 R( a2 , θ1 ) = V *(θ1 ) − r21 = 40 − 25 = 15 R( a3 , θ1 ) = V *(θ1 ) − r31 = 40 − 40 = 0 y así sucesivamente. A partir de esta tabla calculamos las pérdidas de oportunidad esperadas asociadas a cada alternativa: m

POE( ai ) =

∑ R(ai , θ j ) ⋅ P(θ j ) j =1 3

POE( a1 ) =

∑ R(a1, θ j ) ⋅ P(θ j ) = 30 ⋅ 0,6 + 0 ⋅ 0,3 + 0 ⋅ 0,1 = 18 millones de euros j =1

POE( a2 ) = 15 ⋅ 0,6 + 5 ⋅ 0,3 + 12 ⋅ 0,1 = 11,7 millones de euros POE( a3 ) = 0 ⋅ 0,6 + 15 ⋅ 0,3 + 22 ⋅ 0,1 = 6,7 millones de euros 368

© Ediciones Pirámide

Teoría de la decisión y se elige como alternativa óptima, a*, aquella, tal que: POE( a*) = mín POE( ai ) = 6,7 = POE( a3 ) i

es decir: a* = a3 = «Producir 30.000 unidades» La cantidad máxima que la empresa estaría dispuesta a pagar por el informe será de nuevo el valor esperado de la información perfecta, que ahora se puede obtener como: VEIP = POE( a*) = 6,7 millones de euros

Resuelva el apartado a) del problema anterior mediante un árbol de decisión.

Ejercicio 6.2

Solución

Trasladamos la información del problema al siguiente árbol de decisión:

es

A

d ida

Confli

ctivida

n 0u

I

d alta (

0,1)

.00

10

u

od

Pr

cir

R1 = 10 ,6) idad (0 Estabil Conflictividad baja (0,3) R2 = 10

Producir 20.000 unidades B Pr od uc ir 3 0.0 00 un ida de s C

R4 = 25 ,6) idad (0 Estabil Conflictividad baja (0,3) R5 = 5 Confli

ctivida

d alta (

0,1)

R6 = –10

R7 = 40 ,6) idad (0 Estabil Conflictividad baja (0,3) R8 = –5 Confli

ctivida

© Ediciones Pirámide

R3 = 2

d alta (

0,1)

R9 = –20

369

Ejercicios de inferencia estadística y muestreo En el único punto de decisión (I) del árbol, debemos elegir la alternativa que dé lugar al beneficio esperado máximo; por esta razón habrá que calcular el valor esperado de los nodos de acontecimientos A, B y C: E[ A] = VME( A) = 10 ⋅ 0,6 + 10 ⋅ 0,3 + 2 ⋅ 0,1 = 9,2 E[ B] = VME( B) = 25 ⋅ 0,6 + 5 ⋅ 0,3 − 10 ⋅ 0,1 = 15,5 E[C ] = VME(C ) = 40 ⋅ 0,6 − 5 ⋅ 0,3 − 20 ⋅ 0,1 = 20,5 El valor monetario asociado al punto de decisión I es el máximo de los valores monetarios esperados en las tres ramas o alternativas: VME( I ) = máx{9,2; 15,5; 20,5} = 20,5 millones de euros que corresponde a la alternativa a3, «producir 30.000 unidades». Esta alternativa coincide con la del problema anterior que se había obtenido por el criterio del máximo valor monetario esperado.

La compañía petrolífera BRD se está planteando la elección del tipo de plataforma que va a instalar en una zona costera. Por los primeros sondeos realizados, se conoce la existencia de crudo en el área seleccionada, pero se ignora la cantidad del mismo. Los expertos del servicio de prospecciones estiman unas probabilidades a priori sobre la dimensión de la bolsa de petróleo y, junto con el servicio de proyectos y planificación, elabora la siguiente tabla, en la que se incluyen los beneficios que se obtendrían con cada tipo de plataforma, bajo los posibles estados de la naturaleza. Ejercicio 6.3

Dimensión del yacimiento Tipo de plataforma

Plataforma tipo A Plataforma tipo B Probabilidades a priori

Reducido

Medio

Grande

1.200 millones de $ – 100 millones de $

1.700 millones de $ 1.000 millones de $

3.900 millones de $ 5.000 millones de $

0,4

0,2

0,4

La compañía puede pedir un informe a ALPROSP, una de las mejores empresas de prospecciones de Estados Unidos, cuyo coste es de 200 millones de dólares. Con el fin de comprobar el grado de fiabilidad de esta empresa, BRD analiza una muestra de 100 informes de predicción realizados por ALPROSP, de la que se extraen los siguientes datos: 370

© Ediciones Pirámide

Teoría de la decisión Resultado final Predicción

Reducido Medio Grande

Reducido

Medio

Grande

15 2 0

10 25 10

1 9 28

Se pide que: a) Analice si BRD debe pedir el informe e indique, en cualquier caso, la secuencia de decisiones que debe seguir. b) Determine la cantidad máxima que BRD estaría dispuesta a pagar por el informe.

a) Se trata de un problema de decisión bajo riesgo con decisiones secuenciales, por tanto, construiremos un árbol de decisión. En primer lugar, la compañía BRD deberá elegir entre las siguientes alternativas: Solución

— Solicitar el informe a ALPROSP. — No solicitar el informe a ALPROSP. Es decir: rme

info

ar licit

So

I No

soli

cita

r inf

orm

e

Posteriormente, según la información que suministre el informe, en caso de que fuera solicitado, habrá que decidir el tipo de plataforma a instalar: A o B. Definimos los siguientes sucesos, que representan los estados de la naturaleza: R = «El M = «El G = «El PR = «El PM = «El PG = «El

yacimiento es de dimensiones reducidas». yacimiento es de dimensiones medias». yacimiento es de gran dimensión». informe predice yacimiento reducido». informe predice yacimiento medio». informe predice yacimiento grande».

© Ediciones Pirámide

371

Ejercicios de inferencia estadística y muestreo Conocemos las siguientes probabilidades a priori: P( R) = 0, 4 P( M ) = 0,2 P(G) = 0, 4 Nos serán útiles las probabilidades de aciertos y fallos de ALPROSP al emitir este tipo de informes. Éstas son las siguientes:

P( PR / R) =

15 17

P( PR / M ) =

10 25 ; P( PM/ M ) = ; 45 45

P( PG / M ) =

10 45

P( PR / G) =

1 38

P( PG / G) =

28 38

;

;

P( PM/ R) =

P( PM/ G) =

2 17

9 38

; P( PG / R) =

;

0 =0 17

Además, por medio del teorema de la probabilidad total y del teorema de Bayes, podemos obtener las probabilidades a posteriori, que servirán para calcular los valores esperados de cada nodo de decisión del árbol que se construirá. Así, obtenemos las siguientes probabilidades a partir del teorema de la probabilidad total: P( PR) = P( PR / R) ⋅ P( R) + P( PR / M ) ⋅ P( M ) + P( PR / G) ⋅ P(G) = =

15 10 1 ⋅ 0, 4 + ⋅ 0,2 + ⋅ 0, 4 = 0, 408 45 38 17

P( PM ) = P( PM/ R) ⋅ P( R) + P( PM/ M ) ⋅ P( M ) + P( PM/ G) ⋅ P(G) = =

9 2 25 ⋅ 0,2 + ⋅ 0, 4 = 0,253 ⋅ 0, 4 + 45 38 17

P( PG) = P( PG / R) ⋅ P( R) + P( PG / M ) ⋅ P( M ) + P( PG / G) ⋅ P(G) = = 0 ⋅ 0, 4 + 372

10 28 ⋅ 0,2 + ⋅ 0, 4 = 0,339 45 38 © Ediciones Pirámide

Teoría de la decisión o bien: P( PG) = 1 − P( PR) − P( PM ) = 0,339 y, mediante el teorema de Bayes, calculamos las probabilidades a posteriori: 15 ⋅ 0, 4 P( PR / R) ⋅ P( R) 17 = = 0,865 P( R / PR) = P( PR) 0, 408 10 ⋅ 0,2 P( PR / M ) ⋅ P( M ) 45 = = 0,109 P( M/ PR) = P( PR) 0, 408 P(G/ PR) = 1 − 0,865 − 0,109 = 0,026 2 ⋅ 0, 4 P( PM/ R) ⋅ P( R) 17 = P( R / PM ) = = 0,186 P( PM ) 0,253 25 ⋅ 0,2 P( PM/ M ) ⋅ P( M ) 45 P( M/ PM ) = = = 0, 439 P( PM ) 0,253 P(G/ PM ) = 1 − 0,186 − 0, 439 = 0,375 P( R / PG ) =

P( PG / R) ⋅ P( R) 0 ⋅ 0, 4 = =0 P( PG ) 0,339

10 ⋅ 0,2 P( PG / M ) ⋅ P( M ) 45 P( M / PG ) = = = 0,131 P( PG) 0,339 P(G/ PG) = 1 − 0 − 0,131 = 0,869 La representación gráfica del árbol de decisión, incluyendo las probabilidades calculadas, queda como sigue: © Ediciones Pirámide

373

A 1.324,7

II o

cid

u red

1.324,7

Plata

form

aB

to ien 8 m i 40 c ya = 0, n ) ó i R icc P(P red

152,5

P

Predicción yacimiento medio P(PM) = 0,253 Pre 2.673,1376 dic ció n P( yaci m PG ) = ient 0,3 o gr an 39 de

So

lic

ita

ri

nf

or

m

e

A′

aA

form

Plata

C 2.432

III 2.432

Plata

form

aB

D 2.295,4

aA

form

Plata

I

B

No

Plata

so

form

aB

026

R5 = 1.000

P(G/PR) = 0,

026

R8 = 1.700

P(G/PR) = 0,

375

lic ita ri nf or m

R11 = 1.000

P(G/PR) = 0,

375

R14 = 1.700

P(G/PR) = 0,

869

© Ediciones Pirámide

V 2.380

R17 = 1.000

P(G/PR) = 0,

aB

H 2.160

869

P(G) = 0,4

R18 = 5.000 R19 = 1.200

P(M) = 0,2

P(G) = 0,4

P(R) = 0,4

Plataform

R15 = 3.900

R16 = –100 P(R/PR) = 0 P(M/PR) = 0,131

G 2.380

R12 = 5.000

R13 = 1.200 P(R/PR) = 0 P(M/PR) = 0,131

e

aA

R9 = 3.900

186 R10 = –100 P(R/PR) = 0, P(M/PR) = 0,439

P(R) = 0,4 Plataform

R6 = 5.000

186 R7 = 1.200 P(R/PR) = 0, P(M/PR) = 0,439

F 4.476

R3 = 3.900

865 R4 = –100 P(R/PR) = 0, P(M/PR) = 0,109

E 3.611,8

IV 4.476

R2 = 1.700

P(G/PR) = 0,

R20 = 1.700 R21 = 3.900 R22 = –100

P(M) = 0,2

R23 = 1.000 R24 = 5.000

Ejercicios de inferencia estadística y muestreo

374 aA

form

Plata

865 R1 = 1.200 P(R/PR) = 0, P(M/PR) = 0,109

Teoría de la decisión Con las probabilidades calculadas obtenemos los valores monetarios esperados en cada uno de los nodos, cantidades que también se incorporan al árbol de decisión: VME( A) = 1.200 ⋅ 0,865 + 1.700 ⋅ 0,109 + 3.900 ⋅ 0,026 = 1.324,7 VME( B) = − 100 ⋅ 0,865 + 1.000 ⋅ 0,109 + 5.000 ⋅ 0,026 = 152,5 VME(C ) = 1.200 ⋅ 0,186 + 1.700 ⋅ 0, 439 + 3.900 ⋅ 0,375 = 2.432 VME( D) = − 100 ⋅ 0,186 + 1.000 ⋅ 0,, 439 + 5.000 ⋅ 0,375 = 2.295, 4 VME( E ) = 1.200 ⋅ 0 + 1.700 ⋅ 0,131 + 3.900 ⋅ 0,869 = 3.611,8 VME( F ) = − 100 ⋅ 0 + 1.000 ⋅ 0,131 + 5.000 ⋅ 0,869 = 4.476 VME(G) = 1.200 ⋅ 0, 4 + 1.700 ⋅ 0,2 + 3.900 ⋅ 0, 4 = 2.380 VME( H ) = − 100 ⋅ 0, 4 + 1.000 ⋅ 0,2 + 5.000 ⋅ 0, 4 = 2.160 A continuación, resolvemos en cada punto de decisión, comenzando por los más alejados en el tiempo: VME( II ) = máx{VME( A), VME( B)} = 1.324,7 VME( III ) = máx{VME(C ), VME( D)} = 2.432 VME( IV ) = máx{VME ( E ), VME ( F )} = 4.476 VME (V ) = máx{VME (G ), VME ( H )} = 2.380 Antes de poder tomar la decisión en I, necesitamos obtener: VME( A′ ) = 1.324,7 ⋅ 0, 408 + 2.432 ⋅ 0,253 + 4.476 ⋅ 0,339 = 2.673,1376 Si a este valor le restamos el coste del informe, tendremos que: VME( A′ ) − Coste informe = 2.673,1376 − 200 = 2.473,1376 que es una cantidad superior al VME(V): VME( A′ ) − Coste informe = 2.473,1376 > 2.380 = VME(V ) © Ediciones Pirámide

375

Ejercicios de inferencia estadística y muestreo Por tanto, la secuencia de decisiones que se debe seguir será: 1. Encargar el informe a ALPROSP. 2. Si el informe predice «yacimiento de dimensiones reducidas», se debería optar por el tipo de plataforma A, pues: VME(II) = 1.324,7 = VME(A) Si el informe predice «yacimiento de dimensión media», de nuevo se debería optar por la plataforma A. Si el informe predice «yacimiento de dimensión grande», se debe elegir el tipo de plataforma B. b) La cantidad máxima que la compañía BRD estaría dispuesta a pagar por el informe será el valor esperado de la información muestral: VEIM = ( Valor esperado de la decisión óptima con información muestral, sin tener en cuenta el coste de la información muestral) − − ( Valor esperado de la decisión óptima sin información muestral) = = 2.673,1376 − 2.380 = 293,1376 millones de dólares

Ejercicio 6.4

Una empresa puede adquirir materias primas necesarias para su proceso de producción en cantidad suficiente para un mes o dos meses de acti-

vidad. Según la evolución del mercado internacional de esta materia prima, en el próximo mes, su precio puede aumentar en un 10 % con probabilidad 0,4, o puede disminuir en un 10 % con probabilidad 0,6. Las materias primas necesarias para un mes tienen actualmente un coste de 356 miles de euros. La empresa puede consultar con un equipo de predicción de una universidad, que facilita información sobre la evolución del mercado, con acierto en el 90 % de los casos. Este equipo cobra cada consulta a un precio que negocia con el cliente. a) ¿En qué caso será conveniente solicitar el informe? b) ¿Qué decisiones debe tomar la empresa en cuanto a la solicitud o no del informe y a la adquisición de materias primas a corto plazo? Para analizar la conveniencia de solicitar el informe, debemos obtener el valor monetario esperado, que en este caso será un coste, de esta alternativa frente a la contraria y, a continuación, comparar los costes esperados. Para sistematizar el proceso construimos un árbol de decisión secuencial, en el que tendremos como primeras alternativas: Solución

376

© Ediciones Pirámide

Teoría de la decisión

ar

sult

Con

I No

con

sult

ar

En caso de que se decidiera no consultar al equipo de predicción, la empresa se plantearía si adquirir las materias primas para un mes o para dos. Si el equipo de predicción es consultado, la empresa volvería a plantearse la misma cuestión, pero teniendo en cuenta los resultados del informe en este equipo, que pueden predecir una subida del precio de las materias primas o una bajada. La secuencia de decisiones queda reflejada en el gráfico siguiente: El precio sube un 10% Comprar para un mes

A 737,4184

Co ns

ult

ar

D

II

Predice subida de precios ,42 =0 ) PS P(

Com

prar

712

) P(S/PS

para

7

= 0,85

P(B/P

S) = 0,1

El precio baja un 10%

43

dos meses

Comprar para un mes

B 681,3128

III 681,3128

Com

prar

para

I

R2 = 676,4

R3 = 712

El precio sube un 10%

Predice bajada 694,2014 de precios P( PB )= 0,5 8

R1 = 747,6

69 ) = 0,0 P(S/PB P(B/P B) = 0 ,931

El precio baja un 10%

dos meses

R4 = 747,6

R5 = 676,4

R6 = 712

694,2014

No co ult ns ar 704,88

Com

prar

P(S) = 0,4

R7 = 747,6

C 704,88

IV

© Ediciones Pirámide

be un 10 %

El precio su

Comprar para un mes

para

dos meses

El precio ba

ja un 10 %

P(B) = 0,6

R8 = 676,4

R9 = 712

377

Ejercicios de inferencia estadística y muestreo Si se decide comprar para un mes y el precio sube un 10 %, el coste total, al final del segundo mes, habrá sido de: 356 + 356 · 1,10 = 747,6 miles de euros Por el contrario, si el precio bajara, este coste sería de: 356 + 356 · 0,90 = 676,4 miles de euros En el caso en que se decidiera comprar para los dos meses, el coste sería: 356 · 2 = 712 miles de euros Por la evolución del mercado internacional de esta materia prima, se sabe que, en el próximo mes: P( S ) = 0, 4 P( B) = 0,6 donde S y B son los sucesos o estados de la naturaleza que corresponden, respectivamente, a la subida o bajada del precio de la materia prima un 10 %. Como el equipo al que se quiere consultar acierta en el 90 % de los casos, definiendo los sucesos: PS: El equipo predice subida de precios. PB = PS: El equipo predice bajada de precios. se tendrá que: P( PS /S ) = 0,90 ⇒ P( PB / S ) = 0,10 P( PB / B) = 0,90 ⇒ P( PS / B) = 0,10 A partir de los datos anteriores, y utilizando el teorema de la probabilidad total, obtenemos las probabilidades correspondientes a cada una de las predicciones: P( PS ) = P( PS /S ) ⋅ P( S ) + P( PS / B) ⋅ P( B) = 0,90 ⋅ 0, 4 + 0,10 ⋅ 0,6 = 0, 42 P( PB) = P( PB /S ) ⋅ P( S ) + P( PB / B) ⋅ P( B) = 0,10 ⋅ 0, 4 + 0,90 ⋅ 0,6 = 0,58 378

© Ediciones Pirámide

Teoría de la decisión Aplicando ahora el teorema de Bayes, podemos calcular las probabilidades a posteriori:

P( S / PS ) =

P( PS /S ) ⋅ P( S ) 0,90 ⋅ 0, 4 = = 0,857 0, 42 P( PS )

P( B / PS ) = 1 − 0,857 = 0,143 P( S / PB) =

P( PB /S ) ⋅ P( S ) 0,10 ⋅ 0,4 = = 0,069 P( PB) 0,58

P( B / PB) =

P( PB / B) ⋅ P( B) 0,90 ⋅ 0,6 = = 0,931 P( PB) 0,58

o bien: P( B / PB) = 1 − P( S / PB) = 1 − 0,069 = 0,931 Para determinar la secuencia de alternativas a elegir, debemos conocer el valor monetario de cada opción representada en los distintos nodos: VME( A) = 747,6 ⋅ 0,857 + 676, 4 ⋅ 0,143 = 737,4184 VME( B) = 747,6 ⋅ 0,069 + 676, 4 ⋅ 0,931 = 681,3128 VME(C ) = 747,6 ⋅ 0,4 + 676,4 ⋅ 0,6 = 704,88 y, como los resultados son costes, en los nodos de decisión habrá que obtener el mínimo valor de sus ramas: VME( II ) = mín{VME( A), 712} = 712 VME( III ) = mín{VME( B), 712} = VME( B) = 681,3128 VME( IV ) = mín{VME (C ), 712} = VME (C ) = 704,88 VME( D) = VME ( II ) ⋅ 0, 42 + VME ( III ) ⋅ 0,58 = 712 ⋅ 0, 42 + 681,3128 ⋅ 0,58 = 694,2014 VME( I ) = mín{VME( D), VME ( IV )} = VME( D) = 694,2014 © Ediciones Pirámide

379

Ejercicios de inferencia estadística y muestreo a) Según los resultados obtenidos, en el árbol de decisión tenemos, finalmente: VME = 694,2014 r

lta nsu

Co

I

No

con

sult

ar

VME = 704,88

luego se solicitará el informe al equipo de predicción si se consigue negociar un precio que sea, como máximo, de: 704,88 – 694,2014 = 10,6786 miles de euros cantidad que corresponde a lo que la empresa se podría ahorrar con respecto al resultado que obtendría sin consultar al laboratorio. Esta cantidad de 10,6786 miles de euros coincide con el concepto de VEIM, pero aplicado para un caso en el que los resultados son costes: VEIM = (Valor esperado de la decisión óptima con información sin tener en cuenta el coste de la información) – – (Valor esperado de la decisión óptima sin información adicional) que ahora se convertirá en un coste: CEIM = (Coste esperado de la decisión óptima sin información del equipo de predicción) – (Coste esperado de la decisión óptima con información) b) La secuencia de decisiones a tomar será la siguiente: 1.

2.

Si el precio de la consulta supera los 10,6786 miles de euros, la empresa no debería consultar al equipo de predicción y directamente debería adquirir sus materias primas para un mes. Si el precio de la consulta no supera los 10,6786 miles de euros, la empresa debería realizar dicha consulta y decidir en función de los resultados: — Si se predice subida de precios, entonces se deberían adquirir materias primas para dos meses. — Si se predice bajada de precios, entonces se deberían adquirir materias primas para un mes solamente.

380

© Ediciones Pirámide

Teoría de la decisión Una empresa española consigue la adjudicación de las obras de construcción de un aeropuerto en una ciudad centroafricana, pues presentó la oferta más ventajosa por un importe de 500 millones de euros. El plazo de ejecución de la obra es de ocho meses. La forma de realización de la obras, que la empresa debe decidir, depende de las condiciones meteorológicas que se presenten en este período. Si hay menos de un 10 % de días laborables lluviosos, la empresa puede terminar la obra en el plazo fijado, contratando a 5.000 trabajadores y con un parque de 10 máquinas. Si los días lluviosos representan entre un 10 % y un 20 % de los días laborables, la empresa debería contratar 7.500 trabajadores y un parque de 15 máquinas para terminar la obra a tiempo. Si los días lluviosos suponen más de un 20 % de los laborables, la empresa debería disponer de 10.000 empleados y un parque de 25 máquinas para ajustarse al plazo fijado. Para estimar la probabilidad de cada una de estas situaciones, la empresa dispone de la siguiente información, facilitada por un centro meteorológico sobre la pluviosidad de la zona en este período: Ejercicio 6.5

Porcentaje de días lluviosos en el período considerado

Número de períodos en los últimos 20 años

Menos de un 10 % Entre un 10 % y un 20 % Más de un 20 %

14 4 2

Los gastos a los que tendrá que hacer frente la empresa son los siguientes: — Salario bruto mensual medio por empleado: 1.500 euros. — Alquiler mensual medio por máquina: 160.000 euros. — Coste de materiales: 75.800.000 euros. En caso de no terminar la obra en el plazo fijado, la empresa deberá paralizar la ejecución, pagar una indemnización de 25 millones de euros, y sólo se le reembolsará el coste de los materiales. Según un acuerdo fijado entre las partes, independientemente de la finalización de la obra, el tiempo mínimo que la empresa debe contratar a los trabajadores y alquilar la maquinaria es de ocho meses. a) ¿De qué forma debe plantear la empresa la construcción del aeropuerto? b) ¿Le interesaría a esta empresa un estudio más riguroso sobre las condiciones meteorológicas en la zona cuyo coste fuera de un millón y medio de euros? © Ediciones Pirámide

381

Ejercicios de inferencia estadística y muestreo c)

¿Qué decisión se habría adoptado bajo un criterio optimista si no se hubiera conocido ninguna información sobre la probabilidad de los estados de la naturaleza que se pueden presentar? ¿Y bajo el criterio pesimista o de Wald?

a) Para elegir la forma de realización de la obra, debemos utilizar las herramientas de la teoría de decisión bajo riesgo, pues con la información facilitada por el centro meteorológico la probabilidad de cada uno de los estados de la naturaleza puede estimarse como: Solución

P(θ1 ) =

14 = 0,7 20

P(θ 2 ) =

4 = 0,2 20

P(θ 3 ) =

2 = 0,1 20

donde q1, q2 y q3 son los estados de la naturaleza correspondientes, respectivamente, a que haya menos de un 10 % de días lluviosos, entre un 10 % y un 20 % y más de un 20 %. Para utilizar los criterios de decisión bajo riesgo, debemos obtener, en primer lugar, la matriz de resultados correspondientes a cada combinación de alternativas y estados de la naturaleza: ( a1 , θ1 ) ⇒ r11 s a1: «Contratar 5.000 trabajadores y un parque de 10 máquinas». q1: «Menos de un 10 % de días lluviosos». Ingresos: 500 millones de euros Gastos: Salarios: Máquinas: Materiales:

5.000 · 1.500 · 8 = 10 · 160.000 · 8 =

60.000.000 euros 12.800.000 euros 75.800.000 euros 148.600.000 euros

r11 = 500 – 148,6 = 351,4 millones de euros 382

© Ediciones Pirámide

Teoría de la decisión q2: «Entre un 10 % y un 20 % de días lluviosos». Ingresos: 75,8 millones de euros Gastos: Salarios: Máquinas: Materiales: Indemnización:

60.000.000 euros 12.800.000 euros 75.800.000 euros 25.000.000 euros 173.600.000 euros

r12 = 75,8 – 173,6 = – 97,8 millones de euros q3: «Más de un 20 % de días lluviosos». En este caso, con los 5.000 trabajadores y las 10 máquinas, tampoco se acaba la obra en el plazo fijado si hay más de un 20 % de días lluviosos; por tanto, nos encontramos en la situación anterior, y así, r13 = – 97,8 millones de euros. s a 2: «Contratar 7.500 trabajadores y un parque de 15 máquinas». q1: Ingresos: 500 millones de euros Gastos: Salarios: Máquinas: Materiales:

7.500 · 1.500 · 8 = 15 · 160.000 · 8 =

90.000.000 euros 19.200.000 euros 75.800.000 euros 185.000.000 euros

r 21 = 500 – 185 = 315 millones de euros q2 : Con 7.500 trabajadores y 15 máquinas la obra se terminará en el plazo fijado, aunque los días lluviosos oscilen entre el 10 % y el 20 %; por tanto, r 22 = r 21 = 315 millones de euros. © Ediciones Pirámide

383

Ejercicios de inferencia estadística y muestreo q3 : Ingresos: 75,8 millones de euros Gastos: Salarios: Máquinas: Materiales: Indemnización:

90.000.000 euros 19.200.000 euros 75.800.000 euros 25.000.000 euros 210.000.000 euros

r 23 = 75,8 – 210 = – 134,2 millones de euros s a 3: «Contratar 10.000 trabajadores y un parque de 25 máquinas». En este caso, las obras finalizarían en el plazo fijado con cualquier estado de la naturaleza (q1, q2, q3) que se presente; por tanto, r 31 = r 32 = r 33. Ingresos: 500 millones de euros Gastos: Salarios: Máquinas: Materiales:

10.000 · 1.500 · 8 = 120.000.000 euros 25 · 160.000 · 8 = 32.000.000 euros 75.800.000 euros 227.800.000 euros

r 31 = r 32 = r 33 = 500 – 227,8 = 272,2 millones de euros Así, la tabla de resultados, en millones de euros, quedaría como: Estados de la naturaleza q1 Menos de 10 % días lluviosos

q2 Entre 10 % y 20 % días lluviosos

q3 Más de 20 % días lluviosos

a1: 5.000 trabajadores 10 máquinas

351,4

– 97,8

– 97,8

a2: 7.500 trabajadores 15 máquinas

315,0

3150

– 134,2

a3: 10.000 trabajadores 25 máquinas

272,2

272,2

272,2

0,7

0,2

0,1

Alternativas

Probabilidades

384

© Ediciones Pirámide

Teoría de la decisión Según el criterio del valor monetario esperado, para cada alternativa calculamos: m

VME( ai ) =

∑ rij ⋅ P(θ j ) j =1

y elegimos como óptima, a*, aquella alternativa, tal que: VME( a*) = máx VME( ai ) i

3

VME( a1 ) =

∑ r1 j ⋅ P(θ j ) = 351,4 ⋅ 0,7 + ( − 97,8) ⋅ 0,2 + ( − 97,8) ⋅ 0,1 = 216,64 j =1 3

VME( a2 ) =

∑ r2 j ⋅ P(θ j ) = 351 ⋅ 0,7 + 315 ⋅ 0,2 − 134,2 ⋅ 0,1 = 270,08

VME( a3 ) =

∑ r3 j ⋅ P(θ j ) = 272,2 ⋅ 0,7 − 272,2 ⋅ 0,2 − 272,2 ⋅ 0,1 = 272,2

j =1 3

j =1

Como el máximo valor monetario esperado corresponde a: VME( a3 ) = 272,2 entonces a* = a3, es decir, la alternativa elegida por la empresa debería ser comenzar la obra con 10.000 trabajadores y un parque de 25 máquinas. A la misma conclusión se llegaría utilizando el criterio de la pérdida de oportunidad esperada. Para ello, obtenemos la tabla Regret de pérdidas de oportunidad: R( ai , θ j ) = V *(θ j ) − rij siendo: V *(θ j ) = máx rij i

En este caso: V *(θ1 ) = máx ri1 = máx{351, 4; 315; 272,2} = 351,4 i

V *(θ 2 ) = 315 V *(θ 3 ) = 272,2 © Ediciones Pirámide

385

Ejercicios de inferencia estadística y muestreo y así, la matriz Regret, en millones de euros, será: R(ai, qj)

q1

q2

q3

a1 a2 a3

0, 36,4 79,2

412,8 0 42,8

370,0 406,4 0

P(qj)

0,7

0,2

0,1

donde: R( a1 , θ1 ) = V *(θ1 ) − r11 = 351, 4 − 351, 4 = 0 R( a2 , θ1 ) = V *(θ1 ) − r21 = 351, 4 − 315 = 36, 4 R( a3 , θ1 ) = V *(θ1 ) − r31 = 351, 4 − 272,2 = 79,2 y así sucesivamente. Ahora calculamos la pérdida de oportunidad esperada asociada a cada una de las alternativas: m

POE( ai ) =

∑ R(ai , θ j ) ⋅ P(θ j ) j =1

POE( a1 ) = 0 ⋅ 0,7 + 412,8 ⋅ 0,2 + 370 ⋅ 0,1 = 119,56 POE( a2 ) = 36, 4 ⋅ 0,7 + 0 ⋅ 0,2 + 406, 4 ⋅ 0,1 = 66,12 POE( a3 ) = 79,2 ⋅ 0,7 + 42,8 ⋅ 0,2 + 0 ⋅ 0,1 = 64 Como: POE( a*) = mín POE( ai ) = 64 = POE( a3 ) i

entonces la alternativa óptima será: a* = a3 386

© Ediciones Pirámide

Teoría de la decisión b) Para ver si le interesaría el estudio, obtenemos el valor esperado de la información perfecta: VEIP = VMEIP = máx VME( a1 ) = VMEIP − VME( a*) i

donde: m

VMEIP =

∑ V *(θ j ) ⋅ p(θ j ) = 351,4 ⋅ 0,7 + 315 ⋅ 0,2 + 272,2 ⋅ 0,1 = 336,2 j =1

y, por tanto: VEIP = 336,2 − VME( a3 ) = 336,2 − 272,2 = 64 Es decir, la empresa estaría dispuesta a pagar hasta 64 millones de euros; por tanto, si el estudio cuesta 1,5 millones, sí le interesaría realizarlo. c) Si no se conoce información sobre las probabilidades de los estados de la naturaleza, se tratará de un problema de decisión bajo incertidumbre. Si pretendemos utilizar un criterio optimista, éste será el criterio maximax. A cada alternativa se le asocia: k ( ai ) = máx rij j

y se elige como óptima, a*, tal que: k ( a*) = máx k ( ai ) = máx máx rij i

i

j

Alternativas

k(ai) = máx rij

a1 a2 a3

351,4 315,0 272,2

j

Se elegiría entonces a1: «Contratar 5.000 trabajadores y 10 máquinas». © Ediciones Pirámide

387

Ejercicios de inferencia estadística y muestreo Si adoptamos el criterio pesimista maximin, o de Wald, entonces calculamos para cada alternativa el valor: k ( ai ) = mín rij j

es decir, el peor de los resultados posibles para ai, y la alternativa óptima, a*, verificará: k ( a*) = máx k ( ai ) = máx mín rij i

i

j

Alternativas

k(ai) = mín rij

a1 a2 a3

– 97,8 – 134,2 272,2

j

con lo cual se elegiría a3: «Contratar 10.000 trabajadores y alquilar 25 máquinas». La casa discográfica a la que pertenece un famoso cantante ha decidido realizar una gira mundial para promocionar su nuevo disco. En una de las ciudades en las que se tiene previsto realizar un concierto, existe la posibilidad de alquilar la plaza de toros de la localidad, que cuenta con una capacidad de 5.000 personas, o el auditorio municipal, que es un local cerrado con capacidad para 3.000 personas. El empresario encargado de realizar las gestiones ha conseguido negociar el alquiler de la plaza de toros en 75.000 euros y el del auditorio en 50.000 euros; en ambos casos, el precio de cada entrada sería de 45 euros. Debido a la fama mundial del cantante, la venta de la totalidad de las entradas para el concierto está prácticamente asegurada en cualquiera de los dos emplazamientos, pero se debe tener en cuenta que, si el concierto se realizara en la plaza de toros y lloviera, éste habría de ser suspendido; en este caso se devolvería la mitad del precio de la entrada a cada uno de los espectadores y se les entregaría como obsequio un disco firmado por el propio cantante, cuyo coste para la compañía es de 12 euros. Ejercicio 6.6

a) Indique el lugar aconsejado para celebrar el concierto según los distintos criterios de decisión. b) Si la probabilidad de lluvia se puede estimar en un 30 %, ¿qué decisión debería tomar el empresario? c) ¿Qué probabilidad debería asociarse al estado de la naturaleza «lluvia» para que el empresario se mostrara indiferente ante los dos posibles lugares de celebración del concierto? 388

© Ediciones Pirámide

Teoría de la decisión Construimos en primer lugar la tabla o matriz de resultados o consecuencias para este problema de decisión. Las alternativas que se plantean son:

Solución

a1 = «Alquilar la plaza de toros». a2 = «Alquilar el auditorio municipal». y los estados de la naturaleza considerados son: q1 = «El día del concierto llueve». q2 = «El día del concierto no llueve». Si se decide alquilar el auditorio municipal para la celebración del concierto (a2), entonces los resultados no dependerán de si llueve o no, porque se trata de un local cerrado. Los beneficios en este caso se calculan teniendo en cuenta que: Gastos: Ingresos por venta de entradas: Beneficios:

Alquiler del auditorio = 50.000 euros 45 · 3.000 = 135.000 euros 135.000 – 50.000 = 85.000 euros

Si se alquila la plaza de toros y no llueve, entonces: Alquiler de la plaza de toros = 75.000 euros Gastos: 45 · 5.000 = 225.000 euros Ingresos por venta de entradas: 225.000 – 75.000 = 150.000 euros Beneficios: Si se alquila la plaza de toros y llueve, tenemos: Ingresos por venta de entradas: Gastos: Alquiler de la plaza de toros Devolución mitad de la entrada: Discos-obsequio firmados:

45 · 5.000 = 225.000 euros = 75.000 euros 22,50 · 5.000 = 112.500 euros 12 · 5.000 = 60.000 euros

Total gastos:

247.500 euros

Beneficios = 225.000 – 247.500 = – 22.500 euros © Ediciones Pirámide

389

Ejercicios de inferencia estadística y muestreo Por tanto, la matriz de resultados o consecuencias quedará como: q1: llueve

q2: no llueve

– 2,25 8,5

15,0 8,5

a1: alquilar la plaza de toros a2: alquilar el auditorio

donde los resultados representan beneficios en decenas de miles de euros. a) En este caso, no se indican las probabilidades asociadas a los estados de la naturaleza, por tanto, se tratará de un problema de decisión bajo incertidumbre.

Criterio maximax (optimista) Asociamos a cada alternativa ai la cantidad: k ( ai ) = máx rij j

y se elige como óptima aquella alternativa a*, tal que: k ( a*) = máx k ( ai ) = máx máx rij i

i

j

Por tanto: ai

k ( ai ) = máx rij

a1 a2

k(a1) = máx {– 2,25; 15} = 15 k(a2) = máx {8,5; 8,5} = 8,5

j

k ( a*) = máx k ( ai ) = 15 = k ( a1 ) i

y entonces la alternativa óptima según este criterio será a* = a1 = «Alquilar la plaza de toros». 390

© Ediciones Pirámide

Teoría de la decisión Criterio maximin o de Wald (pesimista) Para cada alternativa ai, se calcula: k ( ai ) = mín rij j

y la alternativa óptima, a*, será aquella que verifique: k ( a*) = máx k ( ai ) = máx mín rij i

i

j

Así, en este caso: ai

k ( ai ) = mín rij

a1 a2

k(a1) = mín {– 2,25; 15} = – 2,25 k(a2) = 8,5

j

y, por tanto, la alternativa óptima del criterio de Wald es: a* = a2 = «Alquilar el auditorio» Criterio de Hurwicz Representamos con a (0  a  1) el coeficiente de pesimismo del decisor y asociamos a cada alternativa la combinación convexa: k ( ai , α ) = α mín rij + (1 − α ) máx rij j

j

pues los resultados rij son, en este caso, beneficios. La alternativa óptima, a*, para un valor de a fijo sería tal que: k ( a*, α ) = máx k ( ai , α ) i

Como en este caso a no está fijado, realizaremos la representación gráfica de las rectas k(ai, a) buscando los segmentos de dominancia: ai

mín rij

máx rij

a1 a2

– 2,25 8,5

15,0 8,5

© Ediciones Pirámide

j

j

k(ai, a) = a mín rij + (1 – a) máx rij j

j

k(a1, a) = – 2,25a + 15(1 – a) k(a2, a) = 8,5

391

Ejercicios de inferencia estadística y muestreo El punto de corte de estas rectas es: k ( a1 , α ) = k ( a2 , α ) − 2,25 + 15(1 − α ) = 8,5 − 17,25α = − 6,5

α=

65 = 0,3768 172,5

y su representación gráfica: k(ai, ) 15

10 8,5 k(a1, ) k(a2, )

5

0

α

0,3768

– 2,25

1

Por tanto, según el grado de pesimismo del decisor (criterio de Hurwicz), la ordenación de las alternativas por preferencia será: Si 0  a  0,3768 ⇒ a* = a1 Ɑ a2 se elegiría, por tanto, celebrar el concierto en la plaza de toros. Si a = 0,3768

a* = a1 ~ a2

las dos opciones serían indiferentes. Si 0,3768 < a  1

a* = a2 Ɑ a1

el concierto se celebraría en el auditorio municipal. 392

© Ediciones Pirámide

Teoría de la decisión Criterio de Laplace o de equiprobabilidad Se supone que todos los estados de la naturaleza son equiprobables, es decir: P(θ j ) =

1 m

,

j = 1, 2,..., m

y se asocia a cada alternativa su valor monetario esperado, eligiéndose como óptima la que presente el máximo. Por tanto, en este caso, como m = 2, las probabilidades son: P(θ1 ) = P(θ 2 ) =

1 2

y 2

1

VME( a1 ) =

∑ r1 j ⋅ P(θ j ) = 2 ( − 2,25 + 15) = 6,375

VME( a2 ) =

∑ r2 j ⋅ P(θ j ) = 2 (8,5 + 8,5) = 8,5

j =1 2

1

j =1

como: VME( a2 ) > VME( a1 ) entonces a* = a2 = «Celebrar el concierto en el auditorio». Criterio de Savage Calculamos la matriz de pérdidas de oportunidad relativas o matriz Regret: Rij = R( ai , θ j ) = V *(θ j ) − V ( ai , θ j ) = V *(θ j ) − rij con V *(θ j ) = máx rij = Máximo resultado asociado a θ j i

© Ediciones Pirámide

393

Ejercicios de inferencia estadística y muestreo Así: V *(θ1 ) = máx{− 2,25; 8,5} = 8,5 V *(θ 2 ) = máx{15; 8,5} = 15 Rij

q1

q2

a1 a2

8,5 – (– 2,25) = 10,75 8,5 – 8,5 = 0

15 – 15 = 00 15 – 8,5 = 6,5

y se asocia a cada alternativa, ai, la cantidad: k ( ai ) = máx Rij i

eligiéndose a* mediante un criterio pesimista (minimax) para la matriz de pérdidas anterior: k ( a*) = mín k ( ai ) = mín máx Rij i

i

j

ai

k ( ai ) = máx Rij

a1 a2

10,75 6,5

i

k ( a*) = mín k ( ai ) = 6,25 = k ( a2 ) i

Entonces: a* = a2 = «Celebrar el concierto en el auditorio» b) Como en este caso se tiene que: P(θ1 ) = 0,30 P(θ 2 ) = 1 − 0,30 = 0,70 394

© Ediciones Pirámide

Teoría de la decisión se trata de un problema de decisión bajo riesgo que puede ser resuelto mediante el criterio del Valor Monetario Esperado (VME) o el criterio de la Pérdida de Oportunidad Esperada (POE). Criterio del valor monetario esperado

a1: alquilar la plaza de toros a2: alquilar el auditorio Probabilidades

q1: llueve

q2: no llueve

– 2,25 8,5

15,0 8,5

0,30

0,70

Calculamos los valores monetarios esperados asociados a cada alternativa: 2

VME( a1 ) =

∑ r1 j ⋅ P(θ j ) = − 2,25 ⋅ 0,30 + 15 ⋅ 0,70 = 9,825

VME( a2 ) =

∑ r2 j ⋅ P(θ j ) = 8,5 ⋅ 0,30 + 8,5 ⋅ 0,70 = 8,5

j =1 2

j =1

VME( a*) = máx VME( ai ) = 9,825 = VME( a1 ) i

con lo cual la alternativa óptima será a1, es decir, celebrar el concierto en la plaza de toros. Criterio de la pérdida de oportunidad esperada La matriz de pérdidas relativas ya ha sido calculada para aplicar el criterio de Savage en el apartado anterior. Ésta quedaba como:

© Ediciones Pirámide

R(ai, qj)

q1

q2

a1 a2

10,75 0,0

0,0 6,5

P(qj)

0,3

0,7 395

Ejercicios de inferencia estadística y muestreo Ahora asociamos a cada alternativa su pérdida de oportunidad esperada: 2

POE( a1 ) =

∑ R(a1, θ j ) ⋅ P(θ j ) = 10,75 ⋅ 0,3 + 0 ⋅ 0,7 = 3,225 j =1 2

POE( a2 ) =

∑ R(a2 , θ j ) ⋅ P(θ j ) = 0 ⋅ 0,3 + 6,5 ⋅ 0,7 = 4,55 j =1

POE( a*) = mín POE( ai ) = 3,225 = POE( a1 ) i

Por tanto: a* = a1 que, como vemos, coincide con la alternativa óptima encontrada según el criterio del valor monetario esperado, pues estos dos son equivalentes. c)

Sea p la probabilidad asociada al estado de la naturaleza lluvia: P(θ1 ) = p P(θ 2 ) = 1 − p

Entonces, la matriz de resultados será: q1

q2

a1 a2

– 2,25 8,5

15,0 8,5

P(qj)

p

1–p

Para que a1 y a2 fueran indiferentes al empresario tendría que ocurrir que sus valores monetarios esperados fueran iguales: VME( a1 ) = VME( a2 ) 396

© Ediciones Pirámide

Teoría de la decisión es decir, que: − 2,25 p + 15(1 − p) = 8,5 p + 8,5(1 − p) − 17,25 p = 8,5 − 15 = − 6,5 p=

6,5 650 26 = = 17,25 1.725 69

Ante la próxima construcción de una urbanización en un pueblo de la sierra de Madrid, una empresa se plantea la instalación de diversos establecimientos hosteleros; así, se contemplan en principio tres alternativas: Ejercicio 6.7

a) Construir un restaurante de lujo. b) Construir un hotel con servicio de restaurante abierto al público. c) Construir un complejo integrado por un restaurante, una discoteca, una piscina y otras instalaciones deportivas. El proyecto de urbanización consta de tres fases de 200 chalets que se acometerán según la respuesta de los potenciales clientes. Los técnicos de la empresa estiman los beneficios medios o pérdidas medias anuales asociados a cada alternativa según se acometan una, dos o las tres fases de la urbanización. Estos resultados, expresados en millones de euros, aparecen en la siguiente tabla: Estados de la naturaleza Alternativas

Restaurante de lujo Hotel-restaurante Complejo

Construcción de la primera fase

Construcción de la segunda fase

Construcción de la tercera fase

12 30 – 10

35 25 8

56 38 120

Obtenga la decisión óptima que debe adoptar la empresa según los diferentes criterios de decisión.

Se trata de un problema de decisión bajo incertidumbre, pues desconocemos las probabilidades asociadas a cada estado de la naturaleza; por tanto, utilizaremos los siguientes criterios aplicables a este contexto de incertidumbre: Solución

© Ediciones Pirámide

397

Ejercicios de inferencia estadística y muestreo Criterio maximax (criterio optimista) Elegimos como alternativa óptima la que proporcione el máximo de los resultados posibles. Así, para cada ai definimos: k ( ai ) = máx rij j

y la alternativa óptima, a*, será aquella tal que: k ( a*) = máx k ( ai ) = máx máx rij i

i

j

Por tanto, si a1, a2 y a3 representan, respectivamente, a las alternativas «construir un restaurante de lujo», «construir un hotel-restaurante» y «construir un complejo hotelero», se tiene que:

Alternativas

Beneficios máximos k ( ai ) = máx rij j

a1 a2 a3

k(a1) = máx {12, 35, 56} = 56 k(a2) = 38 k(a3) = 120

Luego como: k ( a*) = máx k ( ai ) = máx máx rij = 120 = k ( a3 ) i

i

j

a* = a3 y se elegiría como óptima la alternativa a3, que nos podría proporcionar los mayores beneficios: 120 millones de euros anuales. Así pues, desde el punto de vista del criterio maximax, la empresa construiría un complejo integrado por restaurante, discoteca e instalaciones deportivas. 398

© Ediciones Pirámide

Teoría de la decisión Criterio maximin o de Wald (criterio pesimista) Según este criterio, la empresa debería elegir la alternativa que le proporcione la mejor situación posible entre las peores que pudieran presentarse; es decir, a cada alternativa ai se le asocia la cantidad: k ( ai ) = mín rij j

y la alternativa óptima, a*, será aquella, tal que: k ( a*) = máx k ( ai ) = máx mín rij i

j

i

Así: Beneficios mínimos k ( ai ) = mín rij

Alternativas

j

a1 a2 a3

k(a1) = mín {12, 35, 56} = 12 k(a2) = 25 k(a3) = – 10

y, por tanto; k ( a*) = máx k ( ai ) = máx mín rij = 25 = k ( a2 ) i

i

j

a* = a2 Con lo cual, según el criterio maximin, la empresa debería elegir la alternativa a2, es decir, construir un hotel con servicio de restaurante. Criterio de Hurwicz Este criterio pondera los resultados extremos de tal manera que los coeficientes de ponderación reflejen el nivel de optimismo o pesimismo del decisor. Si con a representamos el coeficiente de pesimismo relativo (0  a  1), para cada alternativa calcularemos la combinación convexa: k ( ai , α ) = α mín rij + (1 − α ) máx rij j

© Ediciones Pirámide

j

399

Ejercicios de inferencia estadística y muestreo y la alternativa óptima, a*, para un a fijado, sería aquella, tal que: k ( a*, α ) = máx k ( ai , α ) i

ai

mín rij

máx rij

a1 a2 a3

12 25 – 10

56 38 120

j

j

k(ai, a) = a mín rij + (1 – a) máx rij j

j

k(a1, a) = 12a + (1 – a)56 k(a2, a) = 25a + (1 – a)38 k(a3, a) = – 10a + (1 – a)120

Como el valor de a no está fijado, representamos gráficamente las rectas k(ai, a) para poder indicar la alternativa óptima según las diferentes posibilidades para a. Calculamos, en primer lugar, los puntos de corte de cada una de las combinaciones: k ( a1 , α ) = k ( a2 , α ) 12α + (1 − α )56 = 25α + (1 − α )38 − 31α = − 18

α =

18 = 0,581 31

k ( a1 , α ) = k ( a3 , α ) 12α + (1 − α )56 = − 10α + (1 − α )120 86α = 64

α =

64 = 0,744 86

k ( a2 , α ) = k ( a3 , α ) 25α + (1 − α )38 = − 10α + (1 − α )120 117α = 82

α =

82 = 0,701 117

La representación gráfica de estas tres rectas para valores de a comprendidos entre 0 y 1 es: 400

© Ediciones Pirámide

Teoría de la decisión k(ai, ) 120 100 80 60 40 k(a2, )

20

k(a1, ) 1

0

0,581 0,701 0,744

α

k(a3, )

– 20

Por tanto, las alternativas que se elegirán según los valores de a, serán: Si 0  a < 0,701

a* = a3

Si 0  a < 0,581

a* = a3 Ɑ a1 Ɑ a2

Si a = 0,581

a* = a3 Ɑ a1 ~ a2

Si 0,581 < a < 0,701 Si a = 0,701

a* = a3 ~ a2 Ɑ a1

Si 0,701 < a  1

a* = a2

Si 0,701 < a < 0,744 Si a = 0,744

a* = a3 Ɑ a2 Ɑ a1

a* = a2 Ɑ a3 Ɑ a1

a* = a2 Ɑ a1 ~ a3

Si 0,744 < a  1

a* = a2 Ɑ a1 Ɑ a3

Resumiendo, la decisión óptima de la empresa según el criterio de Hurwicz, será: Si 0  a < 0,701 Si a = 0,701

la empresa se mostrará indiferente entre a2 y a3.

Si 0,701 < a  1 © Ediciones Pirámide

la empresa preferirá a3. la empresa elegirá a2. 401

Ejercicios de inferencia estadística y muestreo Criterio de Laplace o de equiprobabilidad Calculamos el Valor Monetario Esperado (VME) para cada alternativa suponiendo que todos los estados de la naturaleza son igualmente probables y, por tanto: P(θ j ) =

1 3

∀ j = 1, 2, 3

,

Así: 3

1

VME( a1 ) =

∑ r1 j ⋅ P(θ j ) = 3 (12 + 35 + 56) = 34,333

VME( a2 ) =

∑ r2 j ⋅ P(θ j ) = 3 (30 + 25 + 38) = 31

j =1 3

1

j =1 3

VME( a3 ) =

1

∑ r3 j ⋅ P(θ j ) = 3 (− 10 + 8 + 120) = 39,333 j =1

Ordenando los correspondientes VME, tendremos que: VME( a3 ) > VME( a1 ) > VME( a2 ) entonces: a3 Ɑ a1 Ɑ a2 Luego la alternativa óptima será a*, tal que: VME( a*) = máx VME( ai ) = 39,333 = VME( a3 ) i

a* = a3 Por tanto, la empresa elegiría construir el complejo hotelero. Criterio de Savage Este criterio se aplica a la matriz Regret o de pérdidas relativas: Rij = R( ai , θ j ) = V *(θ j ) − V ( ai , θ j ) = máx rij − rij i

402

© Ediciones Pirámide

Teoría de la decisión En este caso: V *(θ1 ) = máx ri1 = máx{12, 30, − 10} = 30 i

V *(θ 2 ) = máx ri 2 = 35 i

V *(θ 3 ) = máx ri 3 = 120 i

y, por tanto: Rij

q1

q2

q3

a1 a2 a3

18 0 40

0 10 27

64 82 0

donde: R11 = V *(θ1 ) − r11 = 30 − 12 = 18 R21 = V *(θ1 ) − r21 = 30 − 30 = 0 R31 = V *(θ1 ) − r31 = 30 − ( − 10) = 40 … Para obtener la alternativa óptima, a*, aplicamos el criterio pesimista (minimax) a esta matriz de pérdidas de oportunidad, es decir: k ( ai ) = máx Rij j

y a*, tal que: k ( a*) = mín k ( ai ) = mín máx Rij i

© Ediciones Pirámide

i

j

ai

k ( ai ) = máx Rij

a1 a2 a3

k(a1) = 64 k(a2) = 82 k(a3) = 40

j

403

Ejercicios de inferencia estadística y muestreo y la decisión óptima será a* = 40, ya que: mín k ( ai ) = 40 = k ( a3 ) i

Un asesor financiero debe aconsejar a una empresa cliente sobre la compra de un paquete formado por diferentes tipos de acciones. La inversión se realizará por un plazo de un año, en el que el mercado puede presentar cuatro situaciones diferentes. El asesor calcula los posibles rendimientos de las cuatro mejores alternativas de inversión que se le presentan según cada una de las situaciones posibles del mercado, obteniendo los siguientes resultados, expresados en miles de euros: Ejercicio 6.8

Estados de la naturaleza Alternativas

a1 a2 a3 a4

q1

q2

q3

q4

10 –5 –5 – 10

– 30 5 – 20 –5

15 10 20 50

40 30 40 70

¿Qué alternativa debe recomendar a la empresa según el grado de pesimismo ante la evolución del mercado financiero?

Para resolver este ejercicio de decisión bajo incertidumbre, utilizaremos el criterio de Hurwicz, que permite obtener la decisión óptima según el grado de pesimismo (a) del decisor. Para cada una de las alternativas, obtenemos la combinación convexa de resultados extremos, equivalente a un beneficio medio ponderado: Solución

k ( ai , α ) = α mín rij + (1 − α ) máx rij i

404

ai

mín rij

máx rij

a1 a2 a3 a4

– 30 –5 – 20 – 10

40 30 40 70

i

i

i

k(ai, a)

k(a1, a) = – 30a + 40(1 – a) k(a2, a) = – 5a + 30(1 – a) k(a3, a) = – 20a + 40(1 – a) k(a4, a) = – 10a + 70(1 – a)

© Ediciones Pirámide

Teoría de la decisión Mediante la representación gráfica de las rectas k(ai, a) en función de a, podremos apreciar, en cada caso, qué decisión será la óptima. Para ello, calculamos, en primer lugar, los puntos de corte: k ( a1 , α ) = k ( a2 , α ) − 30α + 40(1 − α ) = − 5α + 30(1 − α )

α =

10 = 0,29 35

k ( a1 , α ) = k ( a3 , α ) − 30α + 40(1 − α ) = − 20α + 40(1 − α )

α =0 k ( a1 , α ) = k ( a4 , α ) − 30α + 40(1 − α ) = − 10α + 70(1 − α )

α =

30 = 3 ∉ [0, 1] 10

k ( a2 , α ) = k ( a3 , α ) − 5α + 30(1 − α ) = − 20α + 40(1 − α )

α =

10 = 0, 4 25

k ( a2 , α ) = k ( a4 , α ) − 5α + 30(1 − α ) = − 10α + 70(1 − α )

α =

40 8 = = 0,89 45 9

k ( a3 , α ) = k(( a4 , α ) − 20α + 40(1 − α ) = − 10α + 70(1 − α )

α = © Ediciones Pirámide

30 = 1,5 ∉ [0, 1] 20 405

Ejercicios de inferencia estadística y muestreo

70 60 50 k(a1, )

40

k(a2, )

30

k(a3, ) k(a4, )

20 10 0 0,29

0,4

0,89

1

α

– 10 – 20 – 30

Por tanto: 8 = 0,89 , el asesor recomendará comprar el paquete de acciones corres9 pondiente a la cuarta alternativa (a4). Si 0  α
Dn1 , n2 ; α ) = α N2 = máx (n1 , n2 )

Es válido para contrastes unilaterales y bilaterales.

498

© Ediciones Pirámide

Tablas estadísticas TABLA 18 (continuación) Dn1 , n2 = máx 兩Fn1 ( x ) − Gn2 ( x )兩 x

N1 = mín (n1 , n2 )

,

;

P( Dn1 , n2 > Dn1 , n2 ; α ) = α N2 = máx (n1 , n2 )

Fuente: «Distribution table for the deviation between two samples cumulatives», Ann. Math. Statist., 23: 435-441 (1952).

© Ediciones Pirámide

499

Tablas estadísticas TABLA 19 Valores críticos del test de Kolmogorov-Smirnov para dos muestras del mismo tamaño, n1 = n2 = n Esta tabla contiene los valores críticos Dn, n; a del test de Kolmogorov-Smirnov: Dn, n = máx 兩Fn ( x ) − Gn ( x )兩 x

;

P( Dn, n > Dn, n; α ) = α

Fuente: «Small sample distribution for multisample statistics of the Smirnov type», Ann. Math. Statist., 31: 710-720 (1960).

500

© Ediciones Pirámide

© Ediciones Pirámide

TABLA 20 Distribución de probabilidades para el test de rachas de aleatoriedad Esta tabla contiene la función de distribución del número total de rachas R; P(R  r) en una muestra de tamaño n = n1 + n2, para el test de rachas de aleatoriedad de Wald-Wolfowitz:

Tablas estadísticas

501

TABLA 20 (continuación)

Tablas estadísticas

502

© Ediciones Pirámide

Tablas estadísticas

TABLA 21 Valores críticos para el test de rangos-signos de Wilcoxon Esta tabla contiene los valores críticos k a del estadístico de rangos-signos de Wilcoxon: T+ =

n

∑ Zi ⋅ r(兩Di 兩)

i =1

para los diferentes valores de n y a.

1 El valor de a no tiene por qué coincidir con el nivel de significación. Fuente: Kraft, C. H., y Van Eeden, A. Nonparametric Introduction to Statistics, Macmillan Publishing, 1968.

© Ediciones Pirámide

503

Tablas estadísticas TABLA 22 Función de distribución del estadístico U de Mann-Whitney Esta tabla contiene las probabilidades: P(U  U0 ) = α

504

para

n1  n2

y

n2 = 3,..., 10

© Ediciones Pirámide

Tablas estadísticas TABLA 22 (continuación)

© Ediciones Pirámide

505

Tablas estadísticas TABLA 22 (continuación)

506

© Ediciones Pirámide

Tablas estadísticas TABLA 22 (continuación)

© Ediciones Pirámide

507

Tablas estadísticas TABLA 22 (continuación)

Fuente: Mann, H., y Whitney, D. R.: «On a test of whether one of two random variables is stochastically larger than the other», Annals of Mathematical Statistics, Vol. 18, 1947.

508

© Ediciones Pirámide

Tablas estadísticas TABLA 23 Valores críticos para el test de Kruskal-Wallis2 para k = 3 Esta tabla contiene los valores críticos h a, tales que: P( H  hα ) = α de manera que si el estadístico H que se calcula a partir de las observaciones muestrales es mayor que h a, se rechaza la hipótesis nula H0 al nivel de significación a.

2 Esta tabla fue elaborada inicialmente por Kruskal y Walllis en 1952 en su trabajo «Use of ranks in one-criterion variance analysis», JASA, vol. 47, p. 614, y un año más tarde hicieron algunas correcciones, JASA, vol. 48, p. 910; correcciones que ya aparecen recogidas aquí.

© Ediciones Pirámide

509

Tablas estadísticas TABLA 23 (continuación)

510

© Ediciones Pirámide

Tablas estadísticas TABLA 24 Valores críticos para el test de Kruskal-Wallis3 para diferentes valores de k Esta tabla contiene los valores críticos h a, tales que: P( H  hα ) = α para distintos tamaños muestrales y niveles de significación 0,05 y 0,01.

3

Esta tabla es análoga a la anterior, pero introduce valores de k = 4 y k = 5.

© Ediciones Pirámide

511

Bibliografía

Bibliografía Aranda, J., y Gómez, J.: Fundamentos de estadística para la economía y administración de empresas, DM-PPU, 1992. Aranda, J., Gómez, J., Faura, U., y Molera, L.: Problemas de estadística para economía y administración de empresas, DM-PPU, 1994. Arnaiz, G.: Introducción a la estadística teórica, Lex Nova, 1986. Baró, J.: Cálculo de probabilidades: aplicaciones económico-empresariales, Parramón, 1985. Baró, J.: Estadística descriptiva, Parramón, 1985. Baró, J.: Estadística descriptiva. Aplicaciones económico-empresariales, Parramón, 1985. Baró, J.: Inferencia estadística: aplicaciones económico-empresariales, Parramón, 1993. Cacoullos, T.: Exercises in Probability, Springer-Verlag, 1989. Calot, G.: Exercises de Calcul des Probabilités, Dunod, 1976. Calot, G.: Curso de estadística descriptiva, Paraninfo, 1982. Canavos, G. C.: Probabilidad y estadística: aplicaciones y métodos, McGraw-Hill, 1992. Casa Aruta, E.: 200 problemas de estadística descriptiva, Vicens Vives, 1990. Casas, J. M.: Inferencia estadística, 2.a ed., CERA, 1997. Casas, J. M.: Estadística I. Probabilidad y distribuciones, CERA, 2000. Casas, J. M.: Fórmulas y tablas estadísticas, CERA, 2004. Casas, J. M., y Santos, J.: Estadística empresarial, CERA, 1999. Casas, J. M., y Santos, J.: Introducción a la estadística para economía, 2.a ed., CERA, 2002. Casas, J. M., y Santos, J.: Introducción a la estadística para la administración y dirección de empresas, 2.a ed., CERA, 2002. Casas, J. M., Callealta, J., Núñez, J., Toledo, I., y Ureña, C.: Curso básico de estadística descriptiva, Instituto Nacional de Administración Pública, 1986. Cuadras, C. M.: Problemas de probabilidades y estadística, vols. I y II, PPU, 1991. Degroot, M. H.: Probabilidad y estadística, Addison-Wesley, 1988. © Ediciones Pirámide

513

Bibliografía Feller, W.: Introducción a la teoría de probabilidades y sus aplicaciones, vols. I y II, Limusa, 1973 y 1978. Fernández-Abascal, H. y otros: Cálculo de probabilidades y estadística, Ariel, 1994. Fernández, H., Guijarro, M., Rojo, J. L., y Sanz, J. A.: Cálculo de probabilidades y estadística, Ariel, 1994. García Barbancho, A.: Ejercicios de estadística descriptiva para economistas, Ariel, 1975. Gnedenko, B. V.: The Theory of Probability, Mir, 1978. INE: Índice de precios de consumo, Base, 1992. Metodología. Kazmier-Díaz, M.: Estadística aplicada en administración y economía, McGraw-Hill, 1992. López de la Manzanara, J.: Problemas de estadística, Pirámide, 1982. López Ortega, J.: Problemas de estadística para ciencias económicas y empresariales: cálculo de probabilidades, Tébar, 1994. Martín Pliego, F. J.: Introducción a la estadística económica y empresarial, AC, 1994. Martín Pliego, F. J., y Ruiz-Maya, L.: Estadística I. Probabilidad, AC, 1995. Mendenhall, W.: Estadística matemática con aplicaciones, Editorial Iberoamérica, 1993. Montero, J., Pardo, L., Morales, D., y Quesada, V.: Ejercicios y problemas de cálculo de probabilidades, Díaz de Santos, 1988. Montiel, A. M., Rius, F., y Barón, F. J.: Elementos básicos de estadística económica y empresarial, Prentice-Hall, 1997. Mood, A., y Graybill, F.: Introducción a la teoría de la estadística, Aguilar, 1978. Muñoz Vázquez, A. y otros: Problemas de estadística descriptiva, 1992. Murgui, J. S., Aybar, C. y otros: Estadística para economía y administración de empresas: aplicaciones y ejercicios, Puchades, 1992. Newbold, P.: Estadística para los negocios y la economía, 4.a ed., Prentice-Hall, 1996. Peña, D.: Estadística. Modelos y métodos, vol. I, Alianza Universidad, 1991. Quesada, V., Isidoro, A., y López, L. J.: Curso y ejercicios de estadística, Alhambra, 1983. Rohatgi, V.: An Introduction to Probability Theory and Mathematical Statistics, John Wiley, 1977. Ruiz-Maya, L.: Problemas de estadística, AC, 1989. Sierra, M.: Ejercicios resueltos de estadística, CEURA, 1987. Toledo, I., y Arnaiz, G.: Problemas de estadística, Lex Nova, 1989. Tussel, F., y Garín, A.: Problemas de probabilidad e inferencia estadística, Tébar Flores, 1991. Uriel, E., y Muñiz, M.: Estadística económica y empresarial, AC, 1988.

514

© Ediciones Pirámide

Índice por materias A Análisis de la varianza para una clasificación doble, 4.9; 4.10; 4.11; 4.14; 4.15. Análisis de la varianza para una clasificación simple, 4.1; 4.2; 4.3; 4.4; 4.6; 4.7; 4.8; 4.12; 4.13. Árboles de decisión, 6.2; 6.3; 6.4.

C Características de las variables aleatorias: momentos, función generatriz de momentos, cuantiles y otras medidas, 1.1; 1.2; 1.3; 1.21. Consistencia, 1.1; 1.2; 1.3; 1.6. Contraste de aleatoriedad, 3.13; 3.14; 3.15; 3.19; 3.20. Contraste de bondad de ajuste, 3.1; 3.2; 3.3; 3.4; 3.5; 3.6; 3.7; 3.8; 3.13; 3.25. Contraste de Kolmogorov-Smirnov para dos muestras, 3.20; 3.21; 3.24; 3.28. © Ediciones Pirámide

Contraste de Kolmogorov-Smirnov para una muestra, 3.7; 3.25. Contraste de Kruskal-Wallis, 3.6; 3.22; 3.23; 3.27. Contraste de la mediana, 3.20; 3.21. Contraste de la U de Wilcoxon-Mann-Whitney, 3.20; 3.21. Contraste de normalidad de Lilliefors, 3.6; 3.13. Contraste de normalidad de Shapiro-Wilks, 3.6; 3.13. Contraste de rachas de Wald-Wolfowitz, 3.13; 3.14; 3.15; 3.19; 3.20. Contraste de rangos-signos de Wilcoxon, 3.16; 3.17; 3.19; 3.20; 3.28. Contraste de Siegel-Tukey, 3.24; 3.26. Contraste de signos de la mediana, 3.16; 3.17; 3.18; 3.19; 3.28. Contraste c2 de Pearson, 3.1; 3.2; 3.3; 3.4; 3.5. Contrastes de comparación de poblaciones, 2.9; 2.10; 2.11; 2.12; 2.13; 2.14; 2.15; 2.16; 2.17; 3.6; 3.20; 3.21; 3.22; 3.23; 3.24; 3.26; 3.27. Contrastes de homogeneidad, 3.11; 3.12.

515

Índice por materias Contrastes de independencia, 3.8; 3.9; 3.10. Contrastes de localización, 3.16; 3.17; 3.18; 3.19; 3.20. Contrastes en poblaciones normales, 2.4; 2.5; 2.6; 2.7; 2.9; 2.10; 2.11; 2.12; 2.13; 2.14; 2.15; 3.19. Contrastes para la media en poblaciones normales, 2.4; 2.5; 2.6; 2.7; 2.10; 2.14; 3.19. Contrastes para la varianza en poblaciones normales, 2.6; 2.7. Contrastes sobre medias de dos poblaciones normales, 2.9; 2.10; 2.11; 2.12; 2.13; 2.14; 2.15; 2.19; 2.20. Contrastes sobre proporciones, 2.8; 2.16; 2.17; 2.18. Contrastes sobre varianzas de dos poblaciones normales, 2.14; 2.15. Criterio de Hurwicz, 6.6; 6.7; 6.8; 6.9; 6.10; 6.13; 6.15. Criterio de la pérdida de oportunidad esperada, 6.1; 6.5; 6.6; 6.9; 6.11; 6.12. Criterio de Laplace, 6.6; 6.7; 6.9; 6.14. Criterio de Savage, 6.6; 6.7; 6.9; 6.15. Criterio del valor monetario esperado, 6.1; 6.5; 6.6; 6.9; 6.11; 6.12. Criterio maximax, 6.5; 6.6; 6.7; 6.9. Criterio maximin o de Wald, 6.5; 6.6; 6.7; 6.9.

D Decisión bajo incertidumbre, 6.5; 6.6; 6.7; 6.8; 6.9; 6.10; 6.13; 6.14; 6.15. Decisión bajo riesgo, 6.1; 6.2; 6.3; 6.4; 6.5; 6.6; 6.11; 6.12. Decisiones secuenciales, 6.2; 6.3; 6.4. Determinación del tamaño muestral, 1.13; 1.14; 1.15; 1.16; 1.17; 1.18; 1.22; 2.2; 2.4; 2.5; 2.17. Distribuciones en el muestreo, 1.7; 1.17; 1.23; 1.24; 1.25.

516

E Eficiencia de un estimador, 1.4; 1.5. Estimación por intervalos de confianza, 1.10; 1.11; 1.12; 1.13; 1.14; 1.15; 1.17; 1.18; 1.20; 2.4; 2.10; 2.11. Estimación puntual, 1.1; 1.4; 1.5; 1.6; 1.7; 1.8; 1.9; 1.10; 1.12. F Función de potencia y tipos de errores, 2.1; 2.2. I Insesgadez de un estimador, 1.1; 1.4. M Método de Dunn de comparaciones múltiples, 3.22; 3.27. Método de los momentos, 1.5; 1.7; 1.21. Método de máxima verosimilitud, 1.5; 1.6; 1.7; 1.8; 1.21. Método de Scheffé de comparaciones múltiples, 4.5; 4.6; 4.8; 4.13. Métodos de construcción de estimadores, 1.5; 1.6; 1.7; 1.8; 1.21. Muestreo aleatorio simple, 5.1; 5.2; 5.3; 5.4; 5.6; 5.7; 5.13; 5.14; 5.15. Muestreo estratificado, 5.5; 5.6; 5.7; 5.8; 5.15. Muestreo estratificado, tipos de afijación y determinación del tamaño muestral, 5.5; 5.6; 5.7; 5.15. Muestreo por conglomerados, 5.9; 5.10. Muestreo sistemático, 5.11; 5.12. P Propiedades de los estimadores, 1.1; 1.2; 1.3; 1.4; 1.5; 1.6. © Ediciones Pirámide

Índice por materias R

Test de Bartlett de homocedasticidad, 4.2; 4.3; 4.7; 4.8; 4.13.

Región crítica y región de aceptación, 2.1; 2.2; 2.3. V T Tablas de contingencia, 3.8; 3.9; 3.10; 3.11; 3.12.

© Ediciones Pirámide

Valor esperado de la información muestral, 6.3; 6.4. Valor esperado de la información perfecta, 6.1; 6.5; 6.12.

517

TÍTULOS RELACIONADOS Análisis cuantitativo de la actividad turística, J. Alegre Martín, M. Cladera Munar, C. N. Juaneda Sampol. Análisis de datos económicos II. Métodos inferenciales, R. Pérez Suárez y A. J. López Méndez. Análisis y adopción de decisiones, M. López Cachero. Cien ejercicios de econometría, J. B. Pena Trapero, J. A. Estavillo Dorado, M.ª E. Galindo Frutos, M.ª J. Leceta Rey y M.ª del M. Zamora Sanz. Curso básico de matemáticas para la economía y dirección de empresas I, M. López Cachero y A. Vegas Pérez. Curso básico de matemáticas para la economía y dirección de empresas II, M. López Cachero y A. Vegas Pérez. Curso de matemática financiera, M.ª J. Vázquez Cueto. Decisiones empresariales con criterios múltiples. Ayudas prácticas para la dirección, A. Leal Millán, M. Sánchez-Apellániz García, J. L. Roldán Salgueiro y A. E. Vázquez Sánchez. Econometría. M.ª M. Díaz Fernández y M.ª del M. Llorente Marrón. Ejercicios de econometría I y II. A. Aznar Grasa, A. García Ferrer y A. Martín Arroyo. Ejercicios de estadística descriptiva y probabilidad para economía y administración de empresas. J. M. Casas Sánchez, C. García Pérez, L. F. Rivera Galicia y A. I. Zamora Sanz. Ejercicios de inferencia estadística y muestreo para economía y administración de empresas. J. M. Casas Sánchez, C. García Pérez, L. F. Rivera Galicia y A. I. Zamora Sanz. Estadística. Problemas resueltos, M.ª J. Peralta Astudillo, A. Rúa Vieytes, R. Redondo Palomo y C. del Campo Campos. Estadística aplicada a la historia y a las ciencias sociales. S. Coll Martínez y M. Guijarro Garvi. Estadística aplicada para ordenadores personales. A. Pulido San Román y J. Santos Peñas. Fundamentos y métodos de estadística. M. López Cachero. Grafos neuronales para la economía y la gestión de empresas. A. Kaufmann y J. Gil Aluja. Informática aplicada al turismo. A. Guevara Plaza (coord.). Introducción a la econometría. F. J. Trívez Bielsa. Introducción a las matemáticas financieras. S. Cruz Rambaud y M.ª del C. Valls Martínez. Introducción a las matemáticas financieras. Problemas resueltos, M.ª del C. Valls Martínez y S. Cruz Rambaud. Invertir en la incertidumbre. J. Gil Aluja. Manual de álgebra lineal para la economía y la empresa. F. M.ª Guerrero Casas y M.ª J. Vázquez Cueto (coords.). Manual de cálculo diferencial e integral para la economía y la empresa. F. M.ª Guerrero Casas y M.ª J. Vázquez Cueto (coords.). Matemática de los seguros de vida. R. Moreno Ruiz, O. Gómez Pérez-Cacho y E. Trigo Martínez. Matemáticas aplicadas a la economía y a la empresa. 434 ejercicios resueltos y comentados, R. E. Caballero Fernández, A. C. González Pareja, S. Calderón Montero, M.ª L. Rey Borrego, T. P. Galache Laza y F. Ruiz de la Rúa. Métodos de valoración de empresas. V. Caballer Mellado. Métodos operativos de gestión empresarial. M. Martín Dávila. Microeconometría y decisión. B. Cabrer Borrás, A. Sancho Pérez y G. Serrano Domingo. Modelos econométricos. A. Pulido San Román y J. Pérez García. Predicción y simulación aplicada a la economía y gestión de empresas. A. Pulido San Román y A. M.ª López García. Problemas de estadística. J. López de la Manzanara Barbero. Problemas de matemáticas financieras. E. Camacho Peñalosa, D. Gómez Domínguez, M. A. Hinojosa Ramos, V. Rubiales Caballero y M.ª J. Vázquez Cueto. Técnicas de programación y control de proyectos. C. Romero López.

Si lo desea, en nuestra página web puede consultar el catálogo completo o descargarlo:

www.edicionespiramide.es