ESTADÍSTICA APLICADA [3 ed.]
 8479785543, 9788479785543

Table of contents :
Estadística aplicada (3a. ed.)
Página legal
Indice
Prefacio
Prefacio a la tercera edición
1 Estadística descriptiva de una variable
2 Estadística descriptiva de dos variables
3 Probabilidad
4 Variables aleatorias
5 Vectores aleatorios
6 Modelos de probabilidad / mas conunes
7 Muestreo aleatorio
8 Estimación puntual
9 Estimación por intervalos de confianza
10 Contraste de hipótesis parametricas
11 Contrastes
12 Regresión y diseño de experimentos
Soluciones de los ejercicios
Tablas
Indice analítico

Citation preview

JULIAN DE LA HORRA NAVARRO

ESTADÍSTICA APLICADA

Julián de la Horra Navarro Catedrático de Estadística e Investigación Operativa Departamento de Matemáticas Universidad Autónoma de Madrid

ESTADÍSTICA APLICADA Tercera edición

,1

D~

·"'

ros

Primera edición, 1995 Segunda edición, 2001 Tercera edición, 2003

© Julián de la Horra, 2003 (Versión papel) © Julián de la Horra, 2018 (Versión electrónica)

Reservados todos los derechos. Queda prohibida, salvo excepción prevista en la ley ,cualquier forma de reproducción, distribución, comunicación pública y transformación de esta obra sin contar con la autorización de los titulares de propiedad intelectual. La infracción de los derechos mencionados puede ser constitutiva de delito contra la propiedad intelectual (art.270 y siguientes del Código Penal). El Centro Español de Derechos Reprográficos (CEDRO) vela por el respeto de los citados derechos. Ediciones Díaz de Santos Email:[email protected] www.editdiazdesantos.com

ISBN: 978-84-9052-131-1 (Libro electrónico) ISBN:978-84-7978-554-3 (Libro en papel)

A mis padres, Julián y Milagros.

,

Indice

XIII

Prefacio Prefacio a la tercera edición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

XV

l. ESTADÍSTICA DESCRIPTIVA DE UNA VARIABLE l. 2. 3. 4. 5. 6. 7.

Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Variables cualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Varibles cuantitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diagramas de tallos y hojas . . . . . . . . . . . . . . . . . . . . . . . . . . Medidas de centralización . . . . . . . . . . . . . . . . . . . . . . . . . . . Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1 1 2 3 4 5 8

2. ESTADÍSTICA DESCRIPTIVA DE DOS VARIABLES 1.

2. 3. 4. 5.

Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conceptos básicos y planteamiento . . . . . . . . . . . . . . . . . . . . Modelo de regresión lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . Aplicaciones del modelo de regresión lineal . . . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11 11 13 16 17

3. PROBABILIDAD l. 2. 3. 4. 5. 6. 7.

Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espacios muestrales discretos . . . . . . . . . . . . . . . . . . . . . . . . . Probabilidad condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . . Sucesos independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Regla útiles para calcular probabilidades . . . . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25 25 27 28 29 30 33

ÍNDICE

X

4. VARIABLES ALEATORIAS l.

2. 3. 4. 5.

Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conceptos básico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Variables aleatorias discretas . . . . . . . . . . . . . . . . . . . . . . . . . Variables aleatoria continuas . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . . . .

41 41 43 45 48

5. VECTORES ALEATORIOS l.

2. 3. 4. 5. 6.

Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Vectores aleatorios discretos . . . . . . . . . . . . . . . . . . . . . . . . . . Vectores aleatorios continuos . . . . . . . . . . . . . . . . . . . . . . . . . Algunas propiedades útiles . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55 55 56 61 65 67

6. MODELOS DE PROBABILIDAD MÁS COMUNES

Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pruebas de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribución binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Otros modelos basados en pruebas de Bernoulli . . . . . . . . . 5. Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6. Distribución hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . 7. Di tribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8. Distribuciones asociada a Ja normal . . . . . . . . . . . . . . . . . . 9. Distribución normal muJtivariante . . . . . . . . . . . . . . . . . . . . 10. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . l.

2. 3. 4.

73 73 74 75 76 78 79 81 82 84

7. MUESTREO ALEATORIO l. Introducción . . . . . . . . . . . . . . . . 2. Conceptos básicos . . . . . . . . . . . . 3. Inferencia paramétrica . . . . . . . . 4. Estadísticos suficientes . . . . . . . .

............ ............ ............ ............

.......... .......... .......... ..........

95 95 98 98

Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Error cuadrático medio. E timadores in e gados . . . . . . . . . . Estimadores consi tentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Métodos de construcción de estimadores . . . . . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

101 101 102 103 104 106

8. ESTIMACIÓN PUNTUAL l.

2. 3. 4. 5. 6.

XI

ÍNDICE

9. ESTIMACIÓN POR INTERVALOS DE CONFIANZA l. 2. 3. 4. 5. 6. 7. 8.

Introducción .......................... _. . . . . . . . . . . . Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cantidades pivotales en poblaciones normales . . . . . . . . . . . . Intervalos de confianza en poblaciones normales . . . . . . . . . . Otros intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . Mínimo tamaño muestra} . . . . . . . . . . . . . . . . . . . . . . . . . . . . Intervalos de confianza más frecuentes . . . . . . . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

113 113 114 116

118 119 120 122

10. CONTRASTE DE lllPÓTESIS PARAMÉTRICAS l. 2. 3. 4. 5. 6. 7.

Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . Concepto básicos . . . . . . . . . . . . . . . . . . . . . . . . Test de razón de verosimilitudes . . . . . . . . . . . . Algunas consideraciones adicionales . . . . . . . . . . Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Te t de hipótesis más frecuentes . . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11. CONTRASTES

.......... .......... .......... .......... .......... .......... ..........

127

127 128

132 134 136 139

x2

l. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Contraste de la bondad del ajuste (primer caso) . . . . . . . . . . 3. Contraste de la bondad del ajuste (segundo caso) ...... . .. . 4. Contraste de homogeneidad de poblaciones . . . . . . . . . . . . . . 5. Contraste de independencia . . . . . . . . . . . . . . . . . . . . . . . . . . 6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

147 147

148 149 152 153

12. REGRESIÓN Y DISEÑO DE EXPERIMENTOS l. 2. 3.

4.

Introducción . . . . . . . . . . . . . . Regresión lineal simple . . . . . . Diseño de experimentos con un Ejercicios . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . 161 . . . . . . . . . . . . . . . . . . . . . . . . 161 factor . . . . . . . . . . . . . . . . . . 165 . . . . . . . . . . . . . . . . . . . . . . . . 168

SOLUCIONES DE LOS EJERCICIOS . . . . . . . . . . . . . . . . . . . . . . . . . 173

l. 2. 3. 4.

5. 6. 7.

8.

Estadística de criptiva de una variable . . . . . . . . . . . . . . . . . . . . E tadistica descriptiva de dos variables . . . . . . . . . . . . . . . . . . . Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Vectores aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modelos de probabilidad má comunes . . . . . . . . . . . . . . . . . . . E timación puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . E timación por intervalos de confianza . . . . . . . . . . . . . . . . . . .

173 178 184 196

205 216

243 257

ÍNDICE

XII

9. 10. 11.

Contraste de hipótesis paramétricas . . . . . . . . . . . . . . . . . . . . . . 268 Contra te X2 • • . • • . • • . • • • • • • • . • . • • • • . . • • • . • . . . • . . • • . 296 Regresión y diseño de experimentos . . . . . . . . . . . . . . . . . . . . . 324

TABLAS ................................................... 343 ÍNDICE ANALÍTICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357

Prefacio

Este libro trata de exponer, de manera razonada, aquellos conceptos y métodos de la Estadística que se consideran bá icos e imprescindibles para u posterior aplicación en cualquier campo. Puede ser adecuado para cursos bien fundamentados de Estadística para Biología, Medicina, Economía, Ingeniería, etcétera. No es un libro con teoremas y demos.traciones (ya que no va dirigido a estudiante de Matemáticas), pero es un libro riguroso, en el sentido de que las propiedades se comprueban y los conceptos se plantean y desarrollan matemáticamente, siempre que se considera razonable. De manera intencionada, se han incluido sólo aquellos métodos estadísticos que pueden ser de aplicación en cualquier rama, de modo que, según el campo específico de aplicación, se puede complementar con otros libros más específicos. También, de forma intencionada, se han excluido todos aquellos conceptos que, desde el punto de vista matemático, pueden ser muy intere antes, pero que, desde el punto de vista aplicado, suelen contribuir a generar confusión: álgebras y a-álgebras de sucesos, momentos de cualquier orden, función generatriz de momentos, etc. El resultado final de todo esto debería er un libro de Estadística corto en extensión claro en lo básico y riguroso en lo posible. E te libro no habría sido posible sin la colaboración de lo profesores de E tadí tica del Departamento de Matemáticas de la Universidad Autónoma de Madrid y, muy especialmente, de Carmen Ruiz-Rivas. Para ellos, mi más profundo agradecimiento.

Prefacio a la tercera edición

La buena acogida que han tenido las dos primeras ediciones de este libro me ha animado a abordar una tercera edición. Esta tercera edición respeta la estructura de las dos anteriores. Su principal novedad es que, al final del libro, se incluye la solución detallada de los doscientos cincuenta ejercicios propuestos en los diferentes capítulos. Espero que esta modificación contribuya a completar y mejorar el resultado final. Finalmente, deseo agradecer a la Editorial Díaz de Santos las facilidades que siempre me ha brindado.

1

Estadística descriptiva de una variable l. Introducción Si estamos interesados en estudiar alguna característica de una población (peso, distribución de la renta, etc.) lo más completo es, evidentemente, estudiar la población entera. Pero esto suele requerir demasiado tiempo y demasiado dinero. Otras veces, el estudio de un elemento es destructivo, con lo cual es imposible hacer un análisis de toda la población (nos quedaríamos sin población). Por tanto, normalmente, nos conformaremos con un conocimiento parcial de la población. Esto lo conseguiremos observando uno cuantos elementos y viendo cómo es o cuánto vale en ellos esa característica que nos interesa. Este conjunto de elementos que observamos es lo que llamaremos una muestra de la población. Por upue to, una muestras representarán mejor a la població"n que otras y esta idea habrá que formalizarla más adelante. Pero, de momento, no quedaremos, simplemente, con Ja idea de que una muestra deberá obtener e de tal forma que represente «más o menos bien», al conjunto de la población. El objetivo básico de la Estadística Descriptiva es hacer una descripción lo más sencilla posible de los resul tado obtenidos en la muestra. Esta descripción se hará mediante representaciones gráficas y mediante representaciones numérica . En e tas representaciones hay una idea implícita: lo que ocurre en toda la población eguramente, e ba ta.nte parecido a lo que ocurre en la mue tra. Pero, insistimos en que esto se formalizará más adelante. Este capítulo está dedicado solamente a hacer un estudio de criptivo de Jo obtenido en una muestra concreta cuando nos interesamos en una sola caracterí tica, es decir en una ola variable estadística Estas variable p ueden ser de dos tipos: cualitativas y cuantitativas.

2.

Variables cualitativas

Una variable estadística es cualitativa cuando sólo puede clasificarse en categorías no numéricas. Ejemplos de variables cualitativas son el color de los ojos

2

ESTADÍSTICA APLICADA

de las personas de una ciudad, la Facultad o Escuela en la que están matriculados los estudiantes de una Universidad, etc. En este caso sólo podemos hacer representaciones gráficas. Su objetivo es dar una idea visual sencilla de la muestra obtenida. Naturalmente, hay una gran variedad de representaciones gráficas. A continuación, vemos algunas de ellas en un ejemplo. EJ~MPLO: clasificamos una muestra de 100 personas según su grupo sanguineo:

Grupo Grupo Grupo Grupo

A: 42 personas. B: 12 personas. AB: 5 personas. O: 41 personas.

Estos datos pueden representarse gráficamente mediante un diagrama de rectángulos y un diagrama de sectores (por ejemplo). Ver Fig. 1.1.

A

A

B

AB

o Fig. 1.1

El ignificado de estas y otras representaciones similares es obvio.

3.

Variables cuantitativas

Una variable estadí tica X es cuantitativa cuando toma valores numéricos. Son las má interesantes, ya que con ellas podemos hacer representaciones numéricas que no tenían sentido para las variables cualitativas. Es muy habitual distinguir dos tipos de variables cuantitativas que indicamos a continuación: Di cretas: ólo pueden tomar un conjunto finito o numerable de valores (generalmente valores enteros). Continua : pueden tornar cualquier valor en un intervalo (finito o infinito).

ESTADÍSTICA DESCRIPTIVA DE UNA VARIABLE

3

Sin embargo, es conveniente resaltar que, para ]a mayoría de las cosas, es irrelevante si la variable es discreta o continua. Utilizaremos la siguiente notación, tanto para variables discretas como para continuas: n: tamaño de la muestra= número de elementos observados.

x 1, ... , xn: representan los n valores de la variable estadística obtenidos en la muestra (puede haber repeticiones). A veces, aJ estudiar variables continuas, no disponemos de los datos originales, sino que nos dan ]os datos agrupados en una serie de clases A 1 , ... , Ak. En este caso, la notación sería:

n: tamaño de la muestra=número de elementos observados.

x 1, . . . , xk: representantes de Jas clases A 1 , .. . , Ak (generalmente los puntos medios de los intervalos). n1, ... , nk: número de ob ervaciones dentro de cada clase (frecuencias absolutas). f 1 , ... ,!"-: frecuencias relativas dentro de cada clase (J;=nJn). Por supuesto, es preferible utilizar los datos originales a usar los datos agrupados en unas clases artificiales. Intuitivamente, los datos originales contienen más información que los datos agrupados.

4.

Diagramas de tallos y hojas

Se pueden hacer di tintas representaciones gráficas con los datos de una variable cuantitativa X: diagramas de barras para variables discretas histogramas para variables continuas, etc. Todas estas representaciones son muy sencillas y fácile de comprender. A modo de ejemplo, vamos a indicar aquí una representación muy interesante (por su sencillez) para variables cuantitativas continuas: los diagramas de tallo y hojas. El procedimiento es como sigue: a)

Redondear lo datos a un número conveniente de cifras significativas (generalmente, dos o tres). b) Colocarlo en una tabla con dos columnas separadas por una línea, de la siguiente forma: Toda las cifras menos la última se escriben a la izqüierda de la línea (forman el tallo). La última cifra se escribe a Ja derecha (forma la boja). e) Cada tallo define una cla e y se escribe sólo una vez. El número de hojas representa la frecuencia de dicha clase.

ESTADÍSTICA APLICADA

4

EJEMPLO: representar mediante un diagrama de tallos y hojas los siguientes datos expresados en cm.:

11,357 12542 11,384 12,431 14,212 15,213 13,300 11,300 17,206 12,710 13455 16,143 12162 12 72113420 14,698 a) Los expresamos en mm. (,·edondeamos a tres cifras):

114 125 114 124 142 152 133 113 172 127 135 161122 127 134 147 b) y c)

11 443 12 54727

13 354 14 27 15 2

16 1 17 2 De esta manera, los propios datos nos dan una idea visual de la zona con mayor frecuencia de observaciones.

5.

Medidas de centralización

La misión de las medidas de centralización es dar una idea del valor central, alrededor del cual se reparten los valore de la muestra obtenida. Solamente definiremos las más habituales e interesante . DEFJNJ IÓ : la media muestra{ se define como:

1

/1

n

i= l

x= - ¿



(Cuando se trate de una variable continua con los datos agrupados, usaremos: x=(l/n) :rf=i n¡x¡=:rf=i J;x¡; es decir, es como si el valor X¡ hubiera aparecido n; vece . Pero in i timos en que, si los datos están sin agrupar, no tiene mucho sentido agruparlo ). DEFINICIÓ : la idea de la mediana muestra/ es la siguiente:

Es el valor de la mue tra que deja a izquierda y derecha el mismo número de observaciones, una vez ordenadas. Por tanto, para hallar la mediana de una muestra ordenamos las observaciones de menor a mayor y tenemos dos posibilidades:

ESTAD[STICA DESCRIPTIVA DE UNA VARIABLE

5

Si el número de observaciones es impar, la mediana es el valor central. Si el número de observaciones es par, la mediana es el punto medio de los dos valores centrales. (Si se trata de una variable continua con Los datos agrupados, lo más que se puede hallar, generalmente, es el intervalo mediana; es decir, la clase en la que se encuentra la mediana. Pero no hay forma de saber cuánto vale exactamente la mediana. En algunos textos se recurre a hacer una interpolación; pero eso equivale a suponer que los datos se reparten de una manera uniforme dentro de cada clase, cosa que, en realidad, no sabemos, y que, posiblemente, no es cierta.) DEFINICIÓN: la moda de una muestra de una variable estadística discreta es el valor que aparece más repetido en la muestra.

La moda no tiene mucho interés como medida de centralización por varias razones: no tiene sentido para variables estadísticas continuas (habría que agrupar), puede no ser un valor central, puede haber una moda en cada extremo, etc.

6.

Medidas de dispersión

Las medidas de centralización, por sí solas, son claramente insuficientes para re u.mir toda una muestra. Por ejemplo, las muestras de la Fig. 1.2 tendrían lo mismos valores de media muestral y mediana muestral y, sin embargo, son muestra muy diferentes:

xx

x xxex xxxx

XXXXX;ie>. El titular del periódico dice: «el profesor Cruz dijo que los buenos investigadores tienden a ser malos profesores». Explica por qué el titular del periódico no refleja el sentido de las palabras · del profesor Cruz. Expresa en un lenguaje sencillo (no utilices la palabra «correlación») lo que quería decir el profesor Cruz. 8. Los corredores buenos dan más pasos por segundo a medida que aumentan la velocidad. He aquí el promedio de pasos por segundo de un grupo de corredoras dé elite a distintas velocidades. La velocidad se expre a en metros por segundo. Velocidad (m/s) Pasos por segundo

4,83 5,14 5 33 5,67 6,08 6,42 6,74 3,05 3,12 3,17 3,25 3,36 3,46 3,55

Quieres predecir el número de pasos por segundo a partir de la velocidad. Para ello, dibuja un diagrama de dispersión. b) De cribe la relación existente y halla la correlación. e) Halla la recta de regresión del número de pasos por segundo con relación a la velocidad. Traza dicha recta en eJ diagrama de dispersión.

a)

20

9.

ESTADÍSTICA APLICADA

La tabla siguiente presenta tres conjuntos de datos preparados por el estadístico Frank An combe para ilu trar los peligro de hacer cálculos in ante repre entar lo dato . Los tres conjuntos de datos tienen la misma correlación y la misma recta de regresión. Conjunto de datos A: X

y

10 8 1J 9 8,04 6,95 7,58 8,81

11 . 14 6 4 12 7 5 8,33 9,96 7,24 4,26 10,84 4,82 5,68

Conjunto de datos B: X

y

10 8 13 9 11 14 6 9,14 8,14 8,74 8,77 9,26 8,10 6,13

4 12 7 5 3,10 9 13 7,26 4,74

Conjunto de datos C: X

y

a)

b)

e)

8 8 8 8 8 8 8 8 8 19 6 58 5,76 7,71 8,84 8,47 7,04 5,25 5,56 7,91 6,89 12,50

Calcula la correlación y la recta de regresión para los tres conjuntos de dato y comprueba que son iguales. Dibuja un diagrama de dispersión para cada uno de los conjuntos de datos con las rectas de regresión correspondiente . ¿En cuál de los tres casos utilizarías la recta de regresión para prededir y dado x = 14. Justifica, en cada caso, tu re puesta. La conclu ión: REPRESENTA !EMPRE T s DATOS.

10.

En un estuctio para relacionar las variables X = «Número de emanas de ge tación» con Y= «Pe o en gramos del niño al nacer», e obtuvieron los siguiente resultados: n= 5

¿ X¡= 197

r yt = 49.193.521

¿ y¡ = 15.555 ¿xt = 7.785 ¿ X¡y;=617.055

Hallar la recta de regresión de Y sobre X y utilizarla para predecir el peso de un niño con 40 emanas de gestación. ¿Es bueno el aju te realizado con e ta recta de regresión. 11.

Al analizar lo datos a veces conviene hacer una transformación que simplifique u a pecto general. A continuación se pre enta un ejemplo de cómo trao formando la variable respuesta se puede simplificar el aspecto del ctiagrama de dispersión. La población europea entrre lo años 1750 y 1950 creció de la siguiente manera:

21

ESTADÍSTICA DESCRIPTIVA DE DOS VARIABLES

1750 125

Año

Población (millones)

1800 187

1850 274

1900 423

1950 594

Dibuja el diagrama de dispersión correspondiente a estos datos. Describe brevemente el tipo de crecimiento en el período señalado. b) Calcula los logaritmos de la población de cada uno de los años. Dibuja el nuevo diagrama de dispersión con la variable población transformada. ¿Qué tipo de crecimiento e observa ahora?

a)

12. El muestreo de áreas contiguas se utiliza en Ecología para contar el número de especies distintas de plantas por área. El recuento se realiza de manera que cada siguiente área contigua tiene el doble de superficie empezando por un área de 1 m2 , según el siguiente esquema:

1

4

2

8 El modelo que relaciona Y= n.º de especies con X= superficie en m 2 es Y= a log X+ b (a= índice de diversidad, b = n. 0 de especies por unidad de área). Ajustar dicho modelo a los datos: X: Y:

1 2 4 2 4 7

8 16 11 16

32 64 19 21

m2 e pecies distintas

13. En un estudio sobre la resistencia a baja temperaturas del bacilo de la fiebre tifoidea, se expusieron cultivos del bacilo durante diferentes períodos de tiempo a - 5 ºC. Los siguientes datos representan:

X= tiempo de exposición (en semanas). Y = porcentaje de bacilos supervivientes. X: Y:

o

0,5 100 42

1 2 14 7,5

¿ X¡=35,5 ¿ log y¡=0,664 ¿y¡= 12.016,42

¿ X¡y¡=5223

3 5 0,4 0,11

9 0,05

15 0,002

¿ y¡ = 164,062 ¿ xr=345,25 ¿ (log y¡)2 = 99,52 ¿ X¡ log y¡= - 125,394

Ajustar una recta y una exponencial a los dato . Interpretar los resultados.

22

14.

ESTADISTICA APLICADA

Los siguientes datos corresponden a la evolución del peso celular (en mgr./ ml.) y la cantidad de nitrato en un cultivo de algas durante 3 días (mecticiones cada 24 hora ).

a) b) e)

15.

Tiempo (T)

Peso (X)

Cantidad de nitrato (Y)

Inicio 1 día 2 días 3 día

0,07 0,19 0,52 1,07

12 5 104

7,8 4,5

Ajustar una recta y una exponencial a los datos «peso» (X) y «cantidad de nitrato» (Y). Ajustar una curva a la evolución temporal del peso. Mediante lo obtenido en a) y b) estimar la cantidad de nitrato que había en el cultivo al cabo de 36 hora .

Se obtienen 5 pares de observaciones de las caracterí tica X e Y. A la vista del a pecto que tiene la nube de puntos, y

---t--------------- X elegir razonadamente una regresión exponencial o una logarítmica de Y obre X (la que sea más adecuada), utlizando Los siguientes dato :

¿ x, = 15 ¿ x¡=55 ¿ y¡=2,98 ¿ y¡ = 261 ¿ x¡y, = 1171

16.

¿ lag x,=479

¿ (log x;)2 = 6 20

I

I

10g y¡= -3 84

c1og y/= 5,59

¿ y¡ lag X¡= 3,87 ¿ x 1log y¡= - 640

En un estudio de laboratorio se han mectido, en una cierta especie canina, las variables pe o {X) y concentración en sangre (Y) de una cierta ustancia. Los datos re umidos on lo iguientes:

23

ESTADÍSTICA DESCRIPTIVA DE DOS VARIABLES

I,x-=135 r ,

¿x'.2 = 26 75

¿y¡=ll,7

¿yt= 19,83

¿x¡y;= 22,23

I. -X¡1 =3,7281

1 I. -2= 20374 '

¿ y¡ =6,3206

n= 7

a) b)

1



'



Calcular el coeficiente de correlación entre X e Y. Ajustar una curva de ecuación Y= a + b-} a los datos.

17. Dispooemo de los siguientes datos referentes a 5 pares de observaciones de dos variables X e Y :

¿x;=20

¿xf =90

¿X¡Y1=69,70

¿y¡= 15,70

¿yt = 55,89

¿x;(log yJ = 29,0250

I, (log

xJ = 6,5792

¿ (log

xJ 2 = 9,4099

¿y¡(log xJ=22,6926

Expresar Y en función de X mediante un modelo de la forma Y= a+ b log X . b) Utilizando el modelo hallado, dar una estimación del valor de Y, cuando X = 3,5.

a)

18. Una variable Y se mide en 8 días sucesivos con lo siguientes resultados:

1 Y 0,9 T

2 3,6

3 4 5,8 6,8

5 7,1

6 7,3

7 8 7,2 7,4

Representar la nube de puntos y aju tar a los datos obtenidos un modelo de la forma Y = a + b log T. Utilizando el modelo logarítmico que se ha obtenido, dar una estimación de lo que valía la variable Y, cuando habían transcurrido dos días y medio. Para no perder el tiempo, se dan, a continuación una serie de cálculos que se pueden necesitar: ¿y; = 46,10

¿t¡ = 36

¿ yf = 303 95

¿ tf = 204

¿ y¡t¡= 241,60

¿ y¡ log t¡ = 72 20

¿ log t¡ = 10,60 ¿(log

tJ2 = 17,52

3 Probabilidad

1.

Introducción

Como hemos visto, el objetivo de la Estadística Descriptiva es simplemente hacer una descripción sencilla de los datos correspondientes a la muestra obtenida. Pero habitualmente, vamos a pretender más: el objetivo fundamental de la E tadística es inferir las propiedades de la población a partir de las propiedades de la muestra. Para esto necesitaremos un puente de unión entre la población y la muestra. Este puente lo formarán los modelos de probabilidad. Cuando consideramos un experimento o fenómeno aleatorio (como el lanzamiento de un dado o la observación de una persona al azar para obtener su altura), no sabemos de antemano cuál es el resultado que vamo a obtener. Pero normalmente tenemos cierto conocimiento sobre la mayor o menor posibilidad de aparición de los diferentes resultados. Este conocimiento es el que e trata de recoger y formalizar en el concepto de probabilidad. Va a ir unido, en muchas ocasiones, a la idea de frecuencia relativa de aparición de ese resultado cuando se repite muchas veces el experimento aleatorio en las mismas condiciones.

2.

Conceptos básicos

D EFINICIÓ : el espacio muestral Q de un experimento aleatorio es el conjunto de resultados elementales que pueden obtenerse en dicho experimento.

Así en el lanzamiento de una moneda, el espacio muestra! e Q= {Cara Cruz}· en el lanzamiento de un dado, Q = {l , 2, 3, 4, 5, 6}; i el experimento aleatorio es la elección al azar de una persona adulta de una población para medir u altura, O erá un intervalo que recoja la alturas que, razonablemente, pueden obtener e (por ejemplo, el intervalo (150· 2,10); aunque, también, podemos curarnos en alud y tomar el intervalo (O; oo)). 25

26

ESTADÍSTICA APLICADA

D EFINICIÓN: un uceso es un subconjunto del espacio muestral Q. (En realidad, esta definición no es rigurosa desde el punto de vista matemático, ya que, en ciertas situaciones, no todos los subconjuntos serán sucesos; pero, para una definición rigurosa, necesitaríamos el concepto de álgebra ( o a-álgebra) que, a este nivel, lo único que hace es crear coefusión).

A í en el lanzamiento de un dado, un suceso sería, por ejemplo, obtener un número par, es decir, {2, 4, 6}; en la obtención de alturas de una población adulta, un suceso sería, por ejemplo, que la altura estuviese dentro del intervalo (1,70; 1,80). DEFINICIÓ : un modelo o función de probabilidad es una función P, que a cada

suceso A le hace corresponder un número P(A) entre O y 1, verificando:

a) P(Q)= l. b) Si A 1 , .•• , A,., ... son sucesos disjuntos (o incompatibles): P(U11 A 11)=l::11 P(A11).

Esta definición de modelo de probabilidad está sugerida por las propiedades de las frecuencias relativas. Por supue to, la definición no resuelve el problema de asignar probabilidades a diferentes sucesos en una situación determinada; lo único que hace la definición anterior es imponer ciertas condiciones de coherencia a cualquier modelo de probabilidad. A partir de e tas condicione mínimas de coherencia se pueden obtener, sin embargo, mucha propiedades que serán muy útiles, en diferentes ituaciones, para efectuar el cálculo de la probabilidad de sucesos complicados.

PROPI DADES DE UN MODELO DE PROBABILIDAD

a)

Para cualquier suceso A: P(Ac) = 1- P(A) ( donde Aº es el suceso complementario de A en Q).

b)

P(0) = 0 (donde 0 es el suceso vacío).

c) Si A c::.B: P(A) ~ P(B) y P(B - A) = P(B) - P(A) d)

P(A UB) = P(A)+ P(B) - P(AnB).

e) P(Uí'- 1 A¡) = kf- 1 P(A;) - L iO en el resto

0

Calcular el tiempo medio transcurrido ha ta el fallo. Si una pieza sigue funcionando despué de 5.000 horas, ¿cuál es la probabilidad de que siga funcionando después de 10.000 hora ?

10. En un pue to de feria se ofrece la po ibilidad de lanzar a ciegas un dardo a uno globo . Si se consigue reventar un globo, se recibe un premio igual a una cantidad oculta tras el globo. Supongamos que la probabilidad de acertar con algún globo es 1/ 3. Los premios se distribuyen de la siguiente manera: 40 % 30 % 20 % 10 %

de de de de

premios premios premios premios

de de de de

O50 1 2 6

euros euro euros euros

Si cada lanzamiento cue ta 1 euro, ¿cuál es la «ganancia» e perada del dueño del puesto en cada lanzamiento? 11.

El tiempo de vida (en año ) de cierta especie es una variable aleatoria T con función de densidad:

VARIABLES ALEATORIAS

51

si tE(Ü, 1) en el resto a) Hallar el valor de k. b) Hallar la esperanza de vida. e) Probabilidad de que un ejemplar de esta especie viva menos de 9 meses.

12. Una variable aleatoria continua X tiene la siguiente función de densidad:

kx { f(x)= i~t

si O~x< 1 si 1 ~xO en el resto

Tiempo medio transcurrido entre las llegadas de dos coches consecutivos. b) ¿Cuál es la probabilidad de que el tiempo transcurrido entre dos llegadas sea inferior al minuto si sabemos que al cabo de 30 segundo todavía no ha llegado el segundo coche?

a)

14. EJ tiempo (en horas) que una máquina de un cierto tipo tarda en averiarse e una variable aleatoria T con función de densidad: r

f(t)= { 1

50 e; 100

si t>O en el resto

En un taller hay tres máquinas de este tipo funcionando independientemente.

52

ESTADÍSTICA APLICADA

a) Probabilidad de que la máquina número 1 falle en la 100 primera horas. b) Probabilidad de que falle al meno una de las máquinas en las 100 primeras horas. e) Sabiendo que en las 100 primeras horas ha fallado al menos una de las máquinas, ¿cuál es la probabilidad de que en e te período se haya averiado la máquina número 1? 15.

La velocidad (en Km./h.) de los coches que pasan por determinado punto kilométrico de una carretera es una variable aleatoria con función de densidad:

{ ~

f(x)= a) b)

r8~ob

si 0 O), que representaremos abreviadamente por N(µ; (J), es el modelo de probabilidad caracterizado por la función de densidad:

80

ESTADÍSTICA APLICADA

(x-µ)

f(x)= -1- exp [ - -1 - afln 2 a

2

para todo xe~

]

(Laforma de la/unción de den idad puede verse en la Fig. 6.1.) f(x)

µ-o

µ

µ+o

X

Fig. 6.1

Hay una erie de propiedades básicas que conviene aber obre la distribución normal: E[X] = µ. b) V(X)=a 2 . e) Es una den idad imétrica con re pecto a la media µ. Una consecuencia de esto es que, por ejemplo

a)

P(X µ+ 1) d)

Si una variable aleatoria X tiene distribución N(µ· O. Tenemos:

- 1 - 5 X - 5 7 - 5) ~ -- ~ 4 4 4 =P( - 1,5~Z ~0,5) = P(Z ~ - 1,5) - P(Z ~ 0,5) = P(Z ~ 1,5) - P(Z ~ 0,5) = 1-P(Z~ 1,5) - P(Z~0,5) = 1 - 0,0668 - O3085 = 0,6247

P(-l~X~7)=P (

8.

( por la propiedad d)) ( por la propiedad c)) ( utilizando las tablas)

Distribuciones asociadas a la normal

Las distribuciones que vamos a definir en esta sección son distribuciones que aparecen de modo natural en el muestreo de poblaciones normales y, en consecuencia, tienen una gran aplicación en E tadística. DEFINICIÓN: sean X 1 ,

Xn variables aleatorias independientes, todas con distribución N(O; 1). La distribución x2 de Pearson con n grados de libertad ( abreviadamente x;) es la distribución de la variable aleatoria ... ,

n

LX¡ i= 1

DEFINICIÓN: sean Y X 1 ... , X n variables aleatorias independientes todas ellas con distribución N(O; 1). La distribución t de Student con n grados de libertad ( abreviadamente tn) es la di tribución de la variable aleatoria

ESTADISTICA APLICADA

82

y

J+, :Ef- 1X¡ DEFINICIÓN: sean X 1 , ••• , X m• Y L• ••• , Yn variables aleatorias independientes, todas con distribución N(O; 1). La distribución F de Fisher-Snedecor con m y n grados de libertad ( abreviadamente F"' .") es la distribución de la variable aleatoria

; :E:". 1 X¡ f.- :E\'=1 Y?

9.

Distribución normal moltivariante

La clistribución normal multivariante es el modelo de probabilidad más importante para vectores aleatorios de tipo continuo. Naturalmente, constituye una generalización del modelo normal en una dimensión que ya hemos visto. Vamos a dedicar especiaJ atención a la distribución normaJ bivariante, ya que los resultados que se obtienen son más fácile de de cribir y de entender. Por tanto, la siguiente definición se refiere a un vector aleatorio (X, Y): DEFINICIÓN: la distribución normal bivariante con vector de medias µ = (µ 1 , µ 2 ) y matriz de varianzas y covarianzas

:E - (

at Cov(X, Y)

Cov(X, a~

Y))

(que representaremos abreviadamente por N(µ; :E)) es el modelo de probabilidad para (X, Y) caracterizado por la función de den idad:

Es interesante saber cómo son las distribuciones marginaJe y condicionadas que se obtienen a partir de una distribución normal bivariante. E to es, básicamente, lo que se recoge en las siguientes propiedade : a) La distribución marginal de X es N(µ = µ 1 ; a = a 1). b) La distribución margioaJ de Y es N(µ = µ 2 ; a= cr 2). c) La distribución de la variable aleatoria Y condicionada por X = x es

MODELOS DE PROBABILIDAD MÁS COMUNES

83

siendo p el coeficiente de correlación, que se define de manera análoga al coeficiente de correlación muestra) r: p=

Cov(X, Y)

Es intere ante destacar que los valores de la esperanza de esta distribución condicionada (para los diferentes valores de xe9t) forman una recta, cuya ecuación es _

y-µ2+

Cov(X, Y) ( _

X µ1

2

)

CT 1

Resulta evidente la similitud de esta recta con la recta de regresión de Y sobre X que se obtenía en Estadística Descriptiva. Además, la varianza de esta distribución condicionada es a~(l - p 2 ), y también es evidente su similitud con la varianza residual o error cuadrático medio de la recta de regresión de Y sobre X. d) Si el vector aleatorio (X, Y) tiene di tribución N(µ; I:) y Cov(X, Y)= O, entonces, X e Y son independientes. En efecto, si Cov(X, Y)= O, la matriz de varianzas y covarianzas I: es de la forma I:=

(ª¡o o) (1~

y la función de densidad conjunta queda de la siguiente forma

=

1

Cfo)

2 a1ª2

exp ( - -1 2

1/:~) (: =:~)) __)2]) [(x-µ)2 + (y-µ _ _1 ª1

2

ª2

= f(x)J(y) Por tanto, X e Y son independientes. Al estudiar la independencia de variables aleatorias vimos que i X e Y eran independientes, entonces, Cov(X, Y)= O. La propiedad que acabamos de comprobar nos dice que si (X, Y) tiene distribución normal, entonces el hecho de que X e Y sean independientes e equivalente a que Cov(X Y) = O. Veamos, finalmente, cuál es la den idad normal multivariante para un vector aleatorio (Xi, ... , X"):

84

ESTADÍSTICA APLICADA

DEF

ICIO : la distribución normal multivariante con vector de medias

µ=(µ 1 ,

... ,µ,,)y

matriz de varianzas y covarianzas

crr i:=

( Cov(~ ~, X

Cov(X 1 , X 2)

2)

~~

... .. .

Cov(~:- XJ)

Cov(X 1 , X,J

CT,,

(que representaremos abreviadamente por N(µ:, I:)) es el modelo de probabilidad para (X 1 , .. . , X J caracterizado por la función de densidad:

f(x 1 ,

... ,

x,,)=

r:;::,1 ~ exp ( - -21 (x 1 (y 2n)" v II:I

µ1 ,

. .. ,

x

11 -

µJr.- 1 (

X¡ -

:

µ

1))

x,, _ µ,,

10. Ejercicios l. Suponiendo que la probabilidad de que un niño que nace ea varón e 0,51, hallar la probabilidad de que una familia de 6 hijo tenga. a) b) c)

2.

por lo menos una niña, por lo menos, un niño, por lo meno , do niños y una niña.

na compañía de seguros con 10.000 asegurados halla que el 0,005 % de la población fallece cada año de un cierto tipo de accidente. a)

Hallar la probabilidad de que la compañía tenga que pagar a má de tre asegurados, por dicho accidente, en un año determinado. b) ¿Cuál e el número medio de sinie tro por año?

3. La probabilidad de que un individuo tenga una reacción alérgica al inyectarle un suero es 0,001. Hallar Ja probabilidad de que, entre 2.000 individuo tengan reacción alérgica: a) exactamente tres, b) más de 2. 4.

El número de erratas por página en un libro e upone que sigue una distribución de Poisson. En una muestra de 95 páginas se han ob ervado la iguientes frecuencias Número de erratas: Frecuencia:

O 1 2 3 4 5 40 30 15 7 2 1

MODELOS DE PROBABILIDAD MÁS COMUNES

85

Hallar la probabilidad de que en una página tomada al azar haya alguna errata. 5.

Una máquina produce varillas metálicas. Las longitudes siguen una normal con µ= 19 8 cm. y a= 5 mm. La normativa exige que la longitud de la varillas se sitúe entre 19,5 y 20 5 cm. ¿Qué porcentaje de las varillas satisface la normativa?

6.

Un canal de comunicación recibe impulsos independientes a razón de 200 impulsos por microsegundo. La probabilidad de un error de transmisión es de O001 para cada impulso. Calcular las probabilidades de los siguientes suce os: a) b) e) á)

7.

No hay ningún error en un microsegundo. Hay exactamente un error en un microsegundo. Hay al menos un error en un microsegundo. Hay exactamente dos errores en un microsegundo.

Por un canal de comunicación se transmiten mensajes compuestos por dos signos: cero y uno. Debido a la perturbaciones en la transmisión, cada signo se recibe correctamente con probabilidad 0,7. Para aumentar la probabilidad de una recepción correcta, cada signo se transmite cinco veces, interpretándose, por parte del receptor, que el signo transmitido es el más frecuente entre los cinco signos recibidos. a)

Hallar la probabilidad de que un signo transmitido por este método sea interpretado correctamente por el receptor. b) Supongamos que se transmiten 10 signos por este método. Hallar la probabilidad de que al menos 8 de ellos sean interpretados correctamente.

8.

La probabilidad de error en la tran misión de un bit por un canal de comunicación es p= 10- 4 • ¿Cuál es la probabilidad de que se produzcan más de dos errores al transmitir un bloque de 1.000 bits?

9. El 2 % de los coche que circulan por el carril BUS-VAO de la N-VI llevan 1 ocupante, el 60 % lleva 2 y el 38 % restante lleva más de 2. El conductor es un hombre en el 70 % de los coches que llevan 1 ocupante, en el 80 % de los que llevan 2 ocupantes y en el 40 % de los que llevan más de 2 ocupantes. a)

b)

Se elige un coche al azar y el conductor re uJta er un hombre. Calcular la probabilidad de que hubiera 2 ocupantes en el coche. Una pareja de la Guardia Civil de Tráfico detiene 200 coche al azar. Calcular la probabilidad de que tenga que poner como mucho una multa (sólo está permitido que circulen los coches con 2 o más ocupantes).

ESTADÍSTICA APLICADA

86

10.

En una gran ciudad, el 60 % de la población fuma, el 6 % tiene bronquitis crónica, y el 4 % fuma y padece bronqwti crónica.

a) b)

e)

Hallar la probabilidad de que un individuo elegido al azar tenga bronquitis crónica o sea fumador. Elegimos al azar 120 personas de la ciudad. Hallar la probabilidad de que má de 80 de ellas sean fumadore . Elegimos aJ azar 200 individuos de e ta gran ciudad. Hallar la probabilidad de que no haya más de uno que sea fumador y padezca bronquití crónica.

11.

Un pájaro de cierta especie come mariposas de una población muy grande. Estas mariposas pueden comer, a su vez, de una planta venenosa, de manera que si el pájaro come una mariposa envenenada, deja de comer mariposas ese día. Suponiendo que el 40 % de la población de mariposas come de la planta venenosa, hallar el número medio de mariposas comidas en un día por el pájaro.

12.

Un lepidopterista está intere ado en lo ejemplare de una cla e de mariposas que constituyen el 15 % de todas las mariposas de la zona. Hallar la probabilidad de que tenga que cazar 10 mariposa de las que no le interesan antes de encontrar:

a) b)

13.

Cierto individuo valora como factor decisivo para la compra de un coche el con umo de ga olina. Debe decidir entre dos modelo , A y B. El fabricante de A afirma que su consumo sigue una distribución N(8; 5) (en litros/ 100 Km.), mientras que el de B dice que e N(8· 3).

a)

b)

14.

un ejemplar de la clase deseada, tre ejemplare de la cla e deseada.

Hallar la probabilidad de que el coche A consuma má de 9 litros y la probabilidad de que B consuma entre 7 y 8,5 litro . Si decide comprar el modelo B calcular la probabilidad de que ahorre má de 2 litros/ 100 Km.

El coeficiente de inteligencia e una variable aleatoria que se distribuye según una N(lOO· 16). Calcular:

a) b)

La proba bilidad de que un individuo elegido al azar tenga un coeficiente superior a 120. Suponiendo que un individuo con carrera universitaria debe tener un coeficiente superior a 110, hallar la probabilidad de que un licenciado tenga un coeficiente superior a 120.

MODELOS DE PROBABILIDAD MÁS COMUNES

15.

87

Un botánico ha observado que la anchura, X, de las hojas del álamo sigue una distribución normal con µ= 6 cm., y que el 90 % de las hojas tiene una anchura inferior a 7,5 cm. Hallar a. Hallar la probabilidad de que una hoja mida más de 8 cm.

16. La anchura en mm. de una población de coleópteros sigue una distribución N(µ; a). Se estima que el 77 % de la población mide menos de 12 mm. y que el 84 % mide más de 7 mm. ¿Cuál es la anchura media de la población? Hallar a.

17.

La duración, en minutos, de un proceso textil sigue una distribución N(µ, a). El 60 % de las veces dura más de 40 minutos. El 55 % de ellas dura menos de 50 minutos. Hallar µ y a.

18.

Tiramos 400 veces una moneda equilibrada. a) b)

19.

Hallar la probabilidad de que el número de caras esté comprendido entre 160 y 190. Hallar el intervalo (a, b) centrado en 200, tal que la probabilidad de que el número de caras obtenido esté en dicho intervalo sea O95.

Se supone que el número de bacterias por mm 3 de agua en un estanque es una variable aleatoria X con distribución de Poisson de parámetro A= O5. a)

¿Cuál es la probabilidad de que en un mm 3 de agua del estanque no haya ninguna bacteria? b) En 40 tubos de ensayo se toman muestra de agua del estanque (1 mm 3 de agua en cada tubo). ¿Qué distribución sigue la variable Y = «Número de tubos de ensayo, entre los 40, que no contienen bacterias»? Calcular, aproximadamente, P(Y ~ 20). e) Si sabemos que en un tubo hay bacterias, ¿cuál es la probabilidad de que haya menos de tres?

20. Un zoólogo estudia una cierta especie de ratones de campo. Para ello, captura ejemplares de una población grande en la que la proporción de dicha especie es p. a) b)

e)

d)

Si p= 0,3, hallar la probabilidad de que en 6 ejemplares capturados haya, al menos, 2 de los que le interesan. Si p = 0,05, calcular la probabilidad de que en 200 haya exactamente 3 de los que le interesan. Si p = 0,4 calcular ia probablidad de que en 200 baya entre 75 y 110 de los que le interesan. ¿Cuál es el número medio de ejemplares que tendrá que capturar para encontrar uno de la especie que le interesa, si p = 0,2?

88

21.

ESTADÍSTICA APLICADA

La duración en minutos de las cintas de video de cierta marca tiene una di tribución N((µ = 240; 11 = 10). a)

Elegimos dos cintas al azar e independientemente. ¿Cuál es la probabilidad de que la duración total sea inferior a 490 minutos? b) Elegimos 100 cintas al azar e independientemente unas de otras. ¿Cuál es la probabilidad de que má de 80 tengan una duración inferior a 250 minutos?

22.

En una población la cantidad de plomo X presente en la sangre de una persona elegida al azar es una variable aleatoria con función de densidad: x/300 si 0 0,06} (utilizando la aproximación normal).

36.

Una compañía de petróleo tiene un contrato para vender grasa en envase de 500 gramo . La cantidad de grasa que la máquina de llenado pone en los enva es sigue una normal con la media que el encargado elija y a=25. ¿Qué valor medio deberá elegir el encargado si la compañía no desea que le rechacen más del 2 % de los envases por tener un peso por debajo de lo especificado?.

37. Un distribuidor almacena tela a fáltica en una nave. El 70 % proceden de la fábrica A y el 30 % restante de la fábrica B. El porcentaje de asfaJteno de las telas asfálticas procedentes de A igue una di tribución N(µ = 30; a = 3). El porcentaje de asfalten o de las telas asfálticas procedentes de B tiene una distribución N(µ = 35; a= 2). a)

b)

38.

¿Cuál es la probabilidad de que una tela asfáltica producida en la fábrica A tenga un porcentaje de a falteno situado entre 28 y 34? Si una tela aslfáltica elegida a1 azar en la nave tiene un porcentaje de asfalteno superior a 34, ¿cuál es la probabilidad de que haya ido fabricada en A?

Una máquina de envasado llena aco de fertilizante de aproximadamente 30 Kg. La «cantidad de fertilizante por saco» igue una distribución N(µ == 30· a= 1). a)

Se desea que la cantidad de fertilizante por saco esté entre 29 y 31 Kg. Calcular la probabilidad de que esté dentro de esos límite .

ESTADÍSTICA APLICADA

92

b)

39.

Una empre a realiza un pedido de 80 de esto aco de íertilizante. Calcular la probabilidad de que más de 50 e tén dentro de los límües indicado.

Una in pección de ga olinera toma mue tras de un surtidor con un volumen illdicado en el medidor de 10 litro . Se e tima que, debido a errores de medición aleatorio , la cantidad reaJ de ga olina servida en estas muestras sigue una distribución N(µ = 10; a= O 1). a)

Calcular la probabilidad de que, en tres mue tra independiente , baya exactamente en dos de ellas meno de 9,9 litros. b) Una gasolinera tiene tres surtidores. Uno de ellos está trucado de manera que, para las mue tra mencionadas, la cantidad real de gasolina ervida igue una N(µ = 9,9; a = O,l). La inspección elige aJ azar un urtidor de esta gasolinera y toma tre muestras del surtidor elegido. La cantidad real de estas muestras resulta ser menos de 9,9 litros en exactamente dos de ellas. Calcular la probabilidad de que el surtidor elegido sea el trucado.

40.

La inten idad de un impul o igue una variable aleatoria, X, cuya función de distribución es si x< O O { 2 F(x)= x /9 i O~xO

donde µ puede ser cualquier número real y e¡ es mayor que cero. Hallar los estimadores de máxima vero imilitud de µ y c¡2 •

ESTADÍSTICA APLICADA

108

7.

En una gran piscifactoría hay una proporción desconocida de peces de una especie A. Para obtener información obre e a proporción, varno a ir sacando peces al azar. a)

Si la proporción de peces de la especie A es p ¿cuál e la probabilidad de que el primer pez de la especie A sea el décimo que extraemos? b) Tres personas realizan, independientemente unas de otras el proceso de sacar peces al azar hasta encontrarse con el primero de tipo A: La primera persona obtiene el primer pez tipo A en la décima extracción. La segunda persona obtiene el primer pez tipo A en la decimoquinta extracción. La tercera persona obtiene el primer pez tipo A en la decimoctava extracción. Escribir la función de verosimilitud y obtener la estimación de máxima verosimilitud de p.

8.

Para estudiar la proporción p de caballos afectados por la peste equina se les va a someter a una prueba. Sabemos que la prueba será positiva si el animal está enfermo; si está ano, hay una probabilidad 0,04 de que la prueba resulte positiva. a)

Hallar la relación entre la probabilidad p de estar enfermo y la probabilidad q de dar po itivo en la prueba. b) Obtener la estimación de máxima verosimilitud de p si 500 ejemplares son sometido a la prueba y resuJta positiva en 95 casos. e) Si realmente hay un 20 % de caballos afectados por la epidemia, ¿cuál es la probabilidad de que la prueba resulte positiva en, al meno , 95 ejemplare de los 500?

9

La distancia X entre un árbol cualquiera y el árbol má próximo a él en un bosque sigue una di tribución de Rayleigb con función de den idad f 6 (x) = Wx exp( - Ox 2 )

i x;3: 0

(0>0)

Obtener Lo e timadore de máxima verosimilitud de e y de g(fJ) = Eo(X) = (1/2)(n/ fJ) 1 '2, basados en muestras de tamaño n. b) Obtener el estimador de fJ por el método de los momentos.

a)

10. El co eno X del ángulo con el que e emiten los electrones en un proce o radiactivo e una variable aleatoria con función de densidad -1..±h

fo(x) = { 0 2

si - l ~ x ~ l en el resto

( - 1~0~1)

109

ESTIMACIÓN PUNTUAL

Consideremos una muestra aleatoria (X 1 , toria. a) b)

... ,

XJ de esta variable alea-

Obtener el estimador de (} por el método de los momentos. Calcular la varianza de este estimador y demostrar que es consistente para estimar fJ.

11. (X 1 , ... , Xn) es una muestra aleatoria de una población con función de densidad {

ie- xfO si x> O

fo(x)= O a) b)

(8>0)

en el re to

Obtyner el estimador de máxima verosimilitud de (} y de 02 • Consideramos ahora el estimador T= x 1 \ 2 x 2 • ¿Es iosesgado para estimar ()? Hallar la varianza de T sabiendo que la varianza de la población es ()2.

12. La lectura de voltaje dada por un voltímetro conectado a un circuito eléctrico es una variable aleatoria con distribución uniforme en el intervalo ((), 8 + 1), siendo () el verdadero valor (desconocido) del voltaje. Sea (X 1 , ... , X,,) una muestra aleatoria de lecturas de dicho voltímetro. a) b) e)

Demostrar que la media muestra! X es un estimador sesgado de calcular el sesgo. Calcular el error cuadrático medio de X . Obtener a partir de X, un estimador iosesgado de 8.

ey

13.

Un comprador solicita un lote de 10 tela asfálticas cuyo contenido de asfalteno sigue una distribución N(µ = 35; a= 2). ¿Cuál e la probabilidad de que el contenido medio de a falteno del lote sea inferior a 37?

14.

Una variable aleatoria X tiene función de densidad fo(x) = 2fJe - Ox2

para

x>O

(8>0)

Hallar el estimador de máxima verosimilitud de muestra aleatoria (X 1, ... X,,). 15.

Consideramos una muestra aleatoria (X 1 , función de densidad:

e2 xe- 8x

fo(x) = { O

...

ea

partir de una

X,,) de una población con

si x>O en el resto

Hallar el estimador de máxima verosimilitud de fJ.

, ,o

ESTADÍSTICA APLICADA

16.

Disponemos de una muestra aleatoria (X 1 , función de den idad:

J,(x)-{! a) b)

... ,

si x-;?:-0 en el resto

X,,) de una población con

((1>0)

E timador de máxima verosimilitud de 8. E timador de máxima verosimilitud de 1/8.

17. Se obtiene una muestra aleatoria (X 1 , de densidad e :

... ,

Xn) de la población cuya función

exo- 1 si xE (O, 1) fo(x) = { 0 en el resto

(0>0)

Hallar un estadístico suficiente. Estimador de máxima verosimilitud de e. e) E timador de e por el método de los momentos.

a) b)

18. Supongamos que e realizan n observaciones independientes de una variable aleatoria X con función de densidad: 1

{1i xo - 1

fo(x) = 0 a) b) e)

si O.:;;:;x .:;;:; 1

en el resto

Obtener el estimador de e por el método de los momentos. Obtener el estimador de máxima verosimilitud de e. Obtener el estimador de máxima verosimilitud de Po(X < 1/ 2).

19. El error (en centigramos) que se comete al pesar un objeto en una balanza puede considerarse como una variable aleatoria con distribución N(µ = O· ( l = 15). a)

Probabilidad de que el error cometido (en valor absoluto) en una pesada ea inferior a 20 centigramos. b) úmero mínimo de pesadas para que el error medio cometido (en valor ab oluto) sea inferior a 5 centigramo con una probabilidad 0,90.

20. Vamos a clasificar las personas de un país segúo do características: color de los ojo (claros u oscuros) y sexo (hombre o mujer). Las dos caracterí tica on independientes. a)

Obtenemo una muestra al azar de la población con lo siguientes re ultado :

ESTIMACIÓN PUNTUAL

200 150 350 300

111

mujeres con ojos claros. hombres con ojos claros. mujeres con ojos oscuros. hombres con ojos oscuros.

Obtener la estimación de máxima verosimilitud de p = P{bombre} y q = P {ojos claros}. b) Después de muchas horas de intenso trabajo llegamos a saber con exactitud que p = 0,4 y q = 0,6. Si tomamos 8 personas al azar de ese país, ¿cuál es la probabilidad de encontrar alguna mujer de ojos oscuros? Y si la muestra que tomamos es de 200 personas, ¿cuál es Ja probabilidad de que haya más de 60 mujeres de ojos oscuro ?

9 Estimación por intervalos de confianza l. Introducción En este capítulo seguiremos trabajando dentro de la Inferencia paramétrica; es decir, seguiremos suponiendo que (X 1 , ... , Xn) es una muestra aleatoria de una población X cuya distribución viene dada por una función de masa P6 (o por una función de densidad j 6), donde e es un parámetro desconocido que toma valore dentro de un espacio paramétrico 0. La estimación puntual analizada en el capítulo anterior tiene un problema evidente: si damos un único punto como estimación del parámetro, esa estimación difícilmente acertará con el valor exacto del parámetro. Por otra parte, no acertar por completo, seguramente no nos va a importar demasiado; normalmente, lo que buscamos es que el verdadero valor del parámetro quede cerca de nue tra estimación. Esta idea se recogerá perfectamente en la noción de intervalo de confianza.

2.

Conceptos básicos

DEFINICJÓ : sea (X 1 , . . . X") una muestra aleatoria de una población X con función de masa P 0 (o función de densidadf6), donde 0=(0 1 , . .. , O,). Un estimador por intervalos de confianza de 01 (al nivel de confianza 1- a), es una función que a cada posible muestra (x 1 , . . . xn) le hace corresponder un intervalo (T1 , T2)=(T1 (x 1 , .. . , x,:), T2 (x 1, .. . , x,,)), tal que, para todo fJE®:

La idea de la definición es la siguiente: Elegimos un nivel de confianza 1- a próximo a 1 (supongamos por ejemplo, que elegimos l -a= 0,95) y exigimos que la estimación contenga al verdadero valor de 8¡, en el 95 % de los ca os posibles; es decir, el 95 % de Jas estimaciones erían buenas y el 5 % restante mala . Obviamente, parece 113

ESTADÍSTICA APLICADA

114

preferible que el 100 % de las estimaciones sean buenas; pero, para conseguir esto, necesitaríamos que el intervalo de confianza abarcase todo el espacio paramétrico, y para dar esa estimación no necesitamos obtener ninguna muestra. El principal problema de los intervalos de confianza e su construcción. En dicha construcción intervendrá lo que Uamaremos una cantidad pivotal. DEFINlCIÓN: sea (X 1 , ... , X,,) una muestra aleatoria de una población X con función de masa P 0 (o función de densidad/6), donde 0=(0 1 , ... , ()J. Una cantidad pivota/ para 01 es una función C(X1 , ... , X,,; OJ tal que su distribución no

depende de

e.

Una vez obtenida una cantidad pivotal C(X 1 . .. , X f:JJ, el procedimiento que hay que seguir para construir un intervalo estimador será el siguiente: Elegimos dos valores c 1 y c2 , tales que 11 ;

Ob érvese que c 1 y c 2 no dependen de O, por ser C(X 1 , ... , X,,; f:JJ una cantidad pivota!; después, todo lo que tenemos que hacer es despejar 8; de las desigualdades c 1 tn; a.}= IX.

b) (

(n - l)S 2

(n - l)S 2

)

2 ' 2 Xn - 1; a./2 X11 - 1; 1 - a.¡2

es un intervalo de confianza para a 2 (al nivel 1 - a), siendo X~; a. el valor que verifica p {x; > a.} = (X,

x;;

En efecto: a)

Como consecuencia de que, en este caso,

y es una cantidad pivota/ para µ, tenemos:

p {-

tn-1; a./2


sigue una di tribución de Poisson. Contrastar dicha hipótesis mediante lo datos obtenidos (al nivel de significación 0,01). b) Suponiendo que dicha variable aleatoria sigue una distribución de Pois on obtener un intervalo de confianza 0,95 para el parámetro de la distribución de Poisson. a)

19. El número de defectos congénitos en una muestra de 100 individuos de una población dio la siguiente distribución: Número de defectos: Frecuencia:

O 84

1 9

2 3

3 2

4 1

5 1

¿Se ajusta a una di tribución de Poisson? 20. Con el objeto de controlar la producción de una máquina que produce láminas de madera e in peccionan 100 láminas al azar. Los res(unene de los resultados muestrale e indican a continuación:

ESTADÍSTICA APLICADA

160

µ=x=9,7; 20 38 25 17

láminas láminas lámjnas láminas

con con con con

espesor espesor espesor espesor

et = 1,05

inferior a 9 mm. entre 9 y 10 mm. entre 10 y 11 mm. superior a 11 mm.

El espesor de los datos obtenidos ¿se ajusta a una distribución Normal con una confianza del 95 %? 21.

Se de ea estudiar el número de accidentes por dfa que se producen en cierto regimiento. Para ello se toman al azar los partes de 200 días dentro de los últimos 5 año , encontrando los siguiente resultados: Número de accidente /día Número de días

o 58

1 75

2 44

3 18

4 3

5 1

6 1

¿Se puede aceptar, con nivel de confianza del 90 %, que el número de accidentes por día igue una distribución de Poi son? b) Independientemente del resultado de a) suponemos que la distribución del número de accidentes por día es Poissoo (l). ¿Hay uficiente evidencia estadística (tomar nivel de significación rx = 0,05) de que el verdadero valor medio l del número de accidentes por día es menor que 1,35? Dada la aceptación o el rechazo en el test usado, ¿el p-valor es mayor o e menor que 0,05?

a)

22. Se ha realizado un e tudio para determinar los síntoma clínicos que

ayudan a la identificación de las tos ferina. Un sfa toma investigado es la tos aguda de cualquier duración. Los dato obtenidos sobre 233 niños estudiados se muestran en la iguiente tabla:

Padece to ferina o padece tos ferina

Tiene tos aguda

N o tiene tos aguda

Ü2 83

6 32

¿Existe relación entre tener to aguda y padecer la enfermedad al nivel de ignificación del 0,01 ?

12

Regresión y diseño de experimentos l . Introducción Las técnicas estadísticas generales que se han desarrollado en los capítulos correspondientes a la Inferencia paramétrica pueden aplicarse a situaciones específicas de gran interés. El modelo de regresión lineal y el modelo de diseño de experimentos son posiblemente, los de mayor interés general en Estadística aplicada. En este capítulo vamo a estudiar estos dos modelo en su versiones más sencillas.

2.

Regresión lineal simple

El problema bá ico consi te en analizar estadí ticamente la posible relación lineal entre dos características cuantitativas, X e Y de los elementos de una población. Por supuesto, este problema está muy relacionado con el problema que se estudió en E tadí tica De criptiva ya que allí también e quería expresar una relación lineal, pero hay una importante diferencia de matiz: en E tadística Descriptiva tratábamos de expresar la posible relación lineal entre la observaciones mue trales de dos característica mientra que ahora tratamos de expresar la posible relación lineal entre las dos características en toda la población. Es decir, como en todos los problemas estadísticos, estamos interesado en poder decir algo sobre la población a partir de los resultados muestrales obtenjdos, y para esto hay q ue precisar cuál es la relación entre la población y la muestra. HIPÓTESIS BÁSICAS

Disponemo den pare de observaciones (x 1 y 1) . . . , (x,, y,J de dos características cuantitativas, X e Y de una población. Suponemos que, para i = 1, ... , n, la ob ervacione Y¡ son ob ervaciones independientes con di tribución N(/3 0 + f3 1 x¡· a). 161

ESTADÍSTICA APLICADA

162

ESTIMACIÓN DE LOS PARÁMETROS

El primer problema al que nos enfrentamos es el de obtener estimaciones de los parámetros. Para empezar, abordaremos la estimación de {J0 y /J1 . Si utilizamos la técnjca de máxima verosimilitud, comprobaremos fácilmente que los estimadores obtenidos coinciden con los valores que se obtuvieron en Estadística Descriptiva al ajustar la recta de mínimos cuadrados: ~

o

cov

~ =b=

=a=y-~x V

1

X

covx,y V X

De este modo, la recta de regresión de Y tiene un doble papel; por un lado, es el mejor ajuste lineal a la nube de puntos (x 1 , y 1 ), ... , (xn, yJ; por otro lado, si las hipótesis del modelo son aceptables, proporciona una estimación de la relación lineal entre las características X e Y en la población. También estamos interesados en estimar el parámetro t n - 2;11./ 2

También podemos estar interesados en estudiar si es posible concluir (desde) el punto de vista estadístico) que X ejerce una influencia positiva sobre Y, es decir, si /31 es significativamente positivo. Como es habitual en estos casos, efectuamos un contraste de hipóte is en el que elegiremos como hipótesis alternativa lo que queremos probar estadísticamente. Es decir, contrastaremos H 0 : /31 ~O frente a H 1 : /31 > O(X influye positivamente sobre Y). Rechazaremos la hipótesis nula (y, por tanto, concluiremos que X influye positivamente sobre Y), al nivel de significación o:, cuando:

SR ~

>t

~l

n - 2;11.

De manera análoga, podemos estar interesados en estudiar si es posible concluir (desde el punto de vista estadístico) que X ejerce una influencia negativa sobre Y, es decir, si /31 es significativamente negativo. Corno se acaba de indicar, efectuaremos un contraste de hipótesis en el que elegiremos como hipóte is alternativa lo que queremos probar estadísticamente. Es decir, contrastaremos H O : /31 ~ O frente a H 1 : /31 < O (X influye negativamente sobre Y). Rechazaremos la hipótesis nula (y por tanto, concluiremos que X influye negativamente sobre Y), al nivel de significación o:, cuando: ~1

SR J l /(nvJ

ESTIMACIÓN DEL VALOR MEDIO D E

O (es decir, que X tiene una influencia positiva significativa obre Y), podemos efectuar un contraste de H0 : /31 ~ Ofi·ente a H 1 : /31 > O(por ejemplo, al nivel 0,05). En este caso obtenemo

t,, _ 2; a.= ls; o.os = 1,86

con lo cual, evidentemente rechazamos la hipótesis nula, y aceptamos que X influye positivamente sobre Y. Si queremos estimar la altura media que alcanzarían las plantas que en u primer año de vida, miden 20 5 cm. el intervalo de confianza (a un nivel del 95 %) ería I = [39,66 ± 1,45].

REGRESIÓN Y DISEÑO DE EXPERIMENTOS

165

Los diferentes a pectas indicados en esta sección constituyen un rápido e bozo del tipo de problemas que se abordan y analizan en un modelo general de regresión.

3. Diseño de experimentos con un factor El diseño de experimentos con un factor constituye la versión más sencilla del problema general de diseño de experimentos. Suele plantearse de la siguiente forma: Se quiere analizar una característica cuantitativa X (que e uele llamar variable de respuesta), sometida a m niveles de un único factor. Fundamentalmente, nos interesa estudiar si el factor tiene una influencia significativa (desde el punto de vista estadístico) sobre la variable de respuesta. Para estudiar esto obtendremos, para cada uno de estos niveles, una muestra aleatoria de valores de X. Supondremos que estas observaciones, Xu, son ob ervaciones independientes con distribución N(µ + et¡; cr). De manera mas detallada: (X 11

...

X

in 1)

muestra aleatoria de una población N(µ + cx1 · a) m

(Xil , .. . , X;n,) muestra aleatoria de una población N(µ + ex¡; a) (X,., 1 ,

... ,

X,,111,.,) muestra aleatoria de una población N(µ + ex,,,; a)

El parámetro µ representa el efecto medio común del factor considerado. Lo parámetros a; representan los efectos medios específicos adicionales (positivos o negativo ) correspondiente a cada nivel i(i = l, ... , m); por este motivo "I;= 1a; =O.Contrastaremos la hipóte is nula H 0:a1 = ... = a = O (el factor no tiene influencia apreciable sobre X) frente a la hipótesis alternativa H 1: «Algún a.1 e di tinto de cero» (el factor tiene una influencia significativa sobre X). Este problema puede con iderarse también como una generalización del problema de contrastar la igualdad de medias de dos poblacione normale con varianza iguale (ahora trabajamo con má de do poblacione ). A continuación veremos cómo se lleva a cabo este contraste. La técnica que vamos a amplear e utiliza mucho en Estadí tica, y recibe el nombre de análisi de la varianza. E te nombre de análisis de la varianza viene de que lo que vamos a hacer e preci amente analizar o descomponer la varianza total de la variable de re pue ta en do partes: una parte corresponderá a la variabilidad entre lo diferente grupos y la otra a la variabilidad dentro de los grupos· si la primera es muy grande en relación con la egunda deberemo rechazar H 0 • 111

166

ESTADÍSTICA APLICADA

En primer lugar consideramos las medias muestrales dentro de cada grupo y la media total:

_ 'E1~1 xii

(i= 1, ... , m)

X¡_=

n;

A continuación, descomponemos la varianza total: m m m rn ¿ ¿ (X·· _X- )2 -- ¿ ¿ (x.. _X-- + X-- _ X- )2 •J

..

'J

i=l j=l

l.

,.

.•

í= l j = l m

m

rn

="¿ n-(x. - x )2+"¿ l

,.

2 "(x .. - x.) ~ lJ l.

..

i= l

i= 1 j = 1

m

n,

+2" .. - x.)(x- x) L, °"(x L, ') ,. l.

..

i= l j = l m

=

m

°" n.(x. -x ) + ¿"

'-'

t

2

l..

.•

i= 1

rn

"~ (x lJ.. -x.l. )2

i=lj=l

ya que como se comprueba fácilmente, el sumatorio de los producto cruzado es cero. Para efectuar el contraste de bipóte is indicado utilizaremos el hecho de que si la hipótesis nula H 0 :a,1 = ...= a,m = O es cierta entonces: ¿,'!~ - x,.)2 1- l n.(x. L l.

m- 1

F="m ._,,., (

"-i = l "-j = L Xij

_ - )2 ,...,pm - J,,, - 111 X¡_

n-m

Si H O e cierta e de esperar que la medias muestrales dentro de cada grupo ean parecida entre sí y parecidas a la media total; es decir, si H O e cierta, es de esperar que el numerador del estadístico F sea pequeño en comparación con el denominador; por este motivo, rechazaremos I-1 0 cuando F tome valores grandes; en concreto, rechazaremos la hipótesi nula H 0 : a.1 = ... = a,,,= O al nivel de significación a, cuando :E¡'!: 1 n ;(.xi. - x ..)2

m-1

F= "(" "'!' ( --)2 >Fm"-, = l"-¡= lXij X¡_

1 , 11 - 111,or

n- m

Lo cálculos para llevar a cabo este contraste se disponen, tradicionalmente, en una tabla que recibe el nombre de tabla de análisis de la varianza· e ta tabla e de cribe a continuación:

167

REGRESIÓN Y DISEÑO DE EXPERIMENTOS

Suma de cuadrados

G. l.

1:7~1 n;(.x;. - x..)2

m- 1

Fuente de variación Entre grupos Dentro de los grupos

Lmi= l

1;n1 { _ X;. - )2 j=l X¡¡

n- m

Total

Lm Ln¡ ( _ X. - J2 i=l j=l X;¡

n- 1

Cuadrado medio 1:r= 1

n¡{.x;. - .x..)2 m-1

Estadístico F

Lm; = 1 1;n1 ( - }2 J= lxli-xi. n- m

2: se sospecha que los compuestos fosforados procedentes de las actividades industriales pueden afectar de manera diferente a las aguas de cuatro lagos. Para tratar de verificar esta sospecha, medimos los niveles de fósforo en diferentes puntos de los cuatro lagos, obteniéndose los valores:

EJEMPLO

8,5 6,5

6,2 5,9

7,3 7,8

56 7,1

6,3 6,3

6,7 7,4

7,1 72 7,2

6,6

(lago (lago 6,5 (lago (lago 79

1) 2), 3), 4).

Los valores obten.idos en el primer lago son superiores a los obtenidos en los otros tres lagos. ¿ E suficientemente importante esta diferencia como para concluir que el nivel de fósforo en el lago 1 es más alto que en los demás? Expresado de otra manera, disponemos de cuatro muestras aleatorias que corresponden a las mediciones del nivel de fósforo realizadas en los cuatro lagos. Se quiere estudiar si los distintos niveles del factor «lago» influyen sobre la variable de respuesta X= «Nivel defósforo». Si aceptamos que, en cada lago, las mediciones siguen distribuciones (aproximadamente) normales y las varianzas son (aprox imadamente) iguales, entonces, estamos en las hipótesis del modelo de diseño de experimentos con un factor, y podremos contrastar si los niveles medios de fósforo son similares en los cuatro lagos o no. Dicho de otra manera: podremos estudiar si el factor lago (el único que estamos considerando) influye o no en el nivel de fósforo (que es la varia.ble que observamos). Efectuamos un análisis de la varianza (por ejemplo, al nivel o:= 0,05) para llevar a cabo e te estudio. Disponiendo lo cálculos en forma de tabla como se ha indicado tenemos:

Fuente de variación Entre grupo Dentro de los grupos Total

Suma de cuadrados 2 32

G. l.

7 08

3 14

9,40

17

Cuadrado medio

Estadístico

0,77

F = l 51

0,5 1

ESTADÍSTICA APLICADA

168

Además F m- l ; n - m: «= F 3; 14; o .os= 3,3439. Por tanto, aceptaremos la hipótesis nula; es decir, no hay suficiente evidencia muestra[ para concluir que existen diferencias significativas entre los niveles medios de fósforo de los cuatro lagos.

El problema expue to en esta sección constituye un breve re umen del tipo de problemas que se abordan y anaJjzan en un modelo general de diseño de experimento donde e con idera la posible influencia de varios factores sobre una variable de respuesta.

4. Ejercicios l. En un estudio (H. Bebbahani, Universidad de Florida 1977) acerca del efecto de la ta a agua/ cemento obre la resistencia del material resultante al cabo de 28 día , se obtuvieron los iguientes datos: 1,21 1,29 1,302 1,231

X= Tasa agua/cemento Y = Resistencia

1,37 1,061

1,46 1,62 1,79 1,040 0,803 0,711

Ajustar un modelo de regre ión lineal simple, y = Po +P1 x, para explicar la resi tencia en función de la ta a agua/cemento. b) Contrastar la hipótesis H O : p1 ~ O frente a H 1 : p1

vx

y-2 77 = 5•75 (x - 26 8) => ' 48,56

y = 0,12x - O 40 Podemos medir la bondad de e te aju te mediante el coeficiente de correlación entre X e Y: r=covx, y = 5,75 = 098 ~ vxvy ..j(48,56)(0, 71) '

SOLUCIONES DE LOS EJERCICIOS

179

El modelo de regresión lineal expre a muy bien la relación entre lo ingresos anuales y el tamaño de su equipo de ventas (dentro de los tamaños considerados). 4.

La recta de regresión de Y sobre X viene dada por: - covx,y y - y = - - (x -x) => - 21267 = 1•0361 (x-13733) => y ' 4,3874 ' vx y= 0,24x + 1,80

El coeficiente de correlación lineal es: r = covx,y ~vxvy

=

1,0361 ..j(4,3874)(5,3571)

=O 21 '

El ajuste es bastante malo: la recta de regresión no expresa bien Y en función de X. 5.

Tenemos 5 pares de datos sobre las variables estadísticas Y= «Número de hijos» y X= «Año». Hallamos la recta de regresión de Y sobre X: y

= 52,2566 -

0,0255x.

El número de hijos e timados en 1996 sería: y= 52,2566-0,0255(1996) = 1,36.

6.

Queremo expresar Y= «Número de manatíe muertos» en función de la variable explicativa X= «Número de licencias (en miles)». b), e) y d) El diagrama de dispersión o nube de punto nos dice que parece haber una estrecha relación lineal entre X e Y. La variables están asociadas positivamente ya que los valores de Y crecen al crecer los de X. e) Podemos hallar la recta de regresión lineal de Y sobre X y el coeficiente de correlación lineal entre X e Y: a)

y = 0,1249x - 41,4304;

r= 0,94.

La relación e fuerte ya que r está próximo a l. Podemos utilizar la recta de regresión para predecir, razonablemente bien, el número de manatíes muertos cuando X= 700: y= 0,1249(700) - 41,4304

= 46.

SOLUCIONES DE LOS EJERCICIOS

180

7.

8.

Lo que el profesor Cruz quería decir es que no existe relación apreciable (ni a favor ni en contra) entre la capacidad inve tigadora y la capacidad docente. E decir, entre los buenos investigadores hay buenos y malos docentes, y lo mismo ocurre entre los malos investigadores. a), b) y e)

En el diagrama de dispersión de Y= «Pasos por segundo» sobre

X= «Velocidad» se puede apreciar una fuerte relación lineal positiva. Hallamos la recta de regre ión de Y sobre X y el coeficiente de correlación: y= 1,771 + O 263x;

r= 0,999.

En efecto, el aju te que proporciona la recta de regresión es muy bueno (r muy próximo a 1). Esta recta puede utilizarse para predecir (aproximadamente) el número de pa o por egundo a partir de la velocidad.

9.

a), b) y e)

En efecto la recta de regre ión de Y sobre X y el coeficiente de correlación son iguale para los tre conjuntos de datos: y= 3 + 0,5x;

r=

0,82.

Sin embargo, el único caso en que se utilizaría la recta de regresión para predecir el valor de Y cuando X= 14, sería en el primero: y = 3 + 0,5(14)

10.

= 10.

Tenemos:

~

- covx,y y - y = - -(x- x ) vx

y-3111 = 837•6 cx - 39 4) 4,64 '

~

y = 180,52x - 4001,38 El pe o aproximado de un niño que nace tras 40 semanas de gestación sería: y= 180,52(40)-4001 38

= 3219 gramo

.

Podemo medir la bondad del aju te mediante el coeficiente de correlación entre X e Y:

r = covx,y ~ vxvy El ajuste e muy bueno.

=

837,6 ..j(4,64)(160383,2)

=0,97

SOLUCIONES DE LOS EJERCICIOS

181

11. a) Representamos los datos en un diagrama de dispersión de Y= «Población (en millones)» obre X= «Año», haciendo un sencillo cambio de origen en los año (para facilitar los cálculo po teriores). En concreto, llamamos año O al 1750, año 50 al 1800, y así uce ivamente. El diagrama que se obtiene es de tipo exponencial, cosa que era de esperar, tratándose de la evolución de una población. b) Si representamo un diagrama de dispersión de U= log Y sobre X, observamos que tiene un aspecto lineal, lo cual sugiere hacer una regresión lineal de U = Iog Y sobre X. Por supuesto, podemos hacer un razonamiento directo a partir del diagrama de Y sobre X. A la vista de este diagrama de di persión, conviene hacer una regresión exponencial de Y obre X: y =a,ehx

==> log y = lag a + bx ==>

Regre ión lineal de U= log Y obre X ==> u - u u = 4,835 + 0,008 x y= 125,839 e0 •008 " .

u =-covx - · - (x -

==> Iog y = 4 835 + 0,008 x

vx

-

x) ==>

=>

Para evaluar este ajuste exponencial, podemos calcular el coeficiente de correlación lineal entre U = log Y y X:

lo cual corrobora la impresión visual de que el ajuste exponencial es muy bueno.

12.

En efecto, el diagrama de disper ión de Y sobre X nos sugiere un modelo de regresión logaritmica de Y obre X: y

= a log x + b ==> Regre ión lineal de Y sobre U = log X ==>

covu y 9 497 (u-2 08) => Y -y-=--' (u-u) ==> y-1143= ' vu ' 1,9193 . ' y= 1,14 + 4,95

U

==> y= 1,14 + 4,95 log X

Para evaluar el ajuste logaritmico efectuado, calculamos: - covu,y r;,,y- ~ -0,99 '\Jvuvy El ajuste logaritmico efectuado es muy bueno.

182

13.

SOLUCIONES DE LOS EJERCICIOS

Lo natural e tratar de expresar el porcentaje de bacilos uperv1v1entes en función del tiempo de exposición. Por eso, baremos regresiones de Y sobre X. Regresión lineal de Y sobre X: y = 36,48 - 3,60 X

rX,'j = -0,53.

;

El ajuste lineal no es muy bueno. Regresión exponencial de Y sobre X:

y = aebx =>

log y = log a + bx

Regresión lineal de U

=>

= log Y sobre X

COVX " => u - u- = -·-(x - x) => vx

u-O 083= -l 6 , 04 cx-4 44) => u=3,1213-0,6843x => ' 23,44 ' log y= 3,1213-0,6843x => y= 22,68e-0·68 x Para evaluar este aju te exponencial, calculamos el coeficiente de corrélación lineal entre U = log Y y X:

covx " r.'C, 11 = -·- =-0 94 e-:-:,¡ V X v"

En e te ca o, el ajuste exponencial es mucho mejor que el aju te lineal.

14.

a)

Haremos una regresión lineal y una regre ión exponencial de Y sobre X que podremos utilizar en el apartado c). Regresión lineal de Y obre X:

y= 12,310 - 7,588 x;

rX,)' = 0,984.

El aju te lineal es muy bueno. Regresión exponencial de Y sobre X:

y = aebx =>

log y = log a + bx

=>

Regre ión lineal de U = Iog Y sobre X => u - u

covx, u =-(x -

u = 2,567 - O, 995x => log y = 2,567 - O, 995x =>

cov ~ = O 998 Y = I3 ' 027e-0,995x . rX, U =r::-::' ,t Vx V,.

vx

-

x ) =>

183

SOLUCIONES DE LOS EJERCICIOS

Por tanto, el ajo te exponencial es todavía mejor. b)

AJ tratarse de la evolución temporal de una población, pensamos inicialmente en una regresión exponencial de X sobre T. El cliagrama de clisper ión de X sobre T nos confirma esta idea inicial:

x = ae1" => log x = Iog a + bt => Regresión lineal de Z = log X sobre T => Z = - 2,605 + 0 919 X= 0,074 e 0,919 r.

e)

cov,

z

-

z- z= --·-(t- t) => v,

=> log X= -2,605 + 0,919 t =>

t

Primero utilizamos el modelo exponencial del apartado b) para estimar el peso celuJar que había al cabo de 36 hora : X=

0,074 e 0,9 t9(l,S)

= 0,294.

Después, utilizamo el ajuste exponencial del apartado a) para estimar la cantidad de nitrato que queda al cabo de 36 hora : Y = 13,027 e--0.995(0.294)

15.

= 9,72.

Lo razonable es elegir una regresión exponencial de Y sobre X:

y =aehx

=> log y =log a + bx =>

cov Regresión lineal de U = Iog Y sobre X => u - u = ~ (x - x) =>

vx

1,024 u+0,768= - 2 - (x -3) => u = 0,512x- 2,304 => log y= 0,512 X - 2,304

16.

a)

=> y = 0,0999 eº·512 x.

rX.Y = - 0,75.

1 b) y = a + b - => Regresión lineal de Y sobre Z = 1/X => X

cov y -y= ~

vz

(z -z) =>

y

-1 6714 = O,OlZS( - O 5326) => ' O 0074 z '

y = O, 75+ 1,73z => y= O, 75 + 1, 73 f

17.

a)

Hacemos una regre ión logarítmica de Y sobre X:

184

SOLUCIONES DE LOS EJERCICIOS

Regresión lineal de Y sobre U = log X => _ cov y _ O 4069 y-y=--' (u-u) => y-314= ' (u - 13158) => V11 ' 0,1507 y = a + b log x

=>

11

=> y=2,70logx-0,41.

y=2,70u-0,41 b)

Cuando X= 3,5, tenemos: y= 2,70 log (3,5) - 0,41

18.

= 2,97.

La representación de la nube de puntos sugiere, precisamente, un ajuste logarítmico de Y sobre T: y = a + b log t

=> Regresión lineal de Y sobre U = log T =>

cov,, y

1 3897 (u-13250) => 0,4344 '

Y -y-=--' (u-u)

=> y-5 7625= '

VII

'

=>

y= 3,20 u+ 1,52

y= 3,20 log t + 1,52.

Cuando T= 2,5, tenemos: y= 3 20 log (2,5) + 1,52

= 4,45.

3. Probabilidad l.

2.

a)

P(A)P(B) = (0,06)(0,08) = 0,0048 ::¡:. P(A n B) = 0,04. Por tanto, lo fallo de A y B no son independientes.

b)

P(AIB)= P(AnB) P(B)

a)

= 0,04 = 0 5 0,08

'

P (Leer al meno uno) = P(A u B u C) = P(A) + P(B) + P(C)- P(A n B) P(A n C) - P(B n C) + P(A n B n C) = 0,30 + 0,20 + 0,15 -0,12 -

0,09 - 0,06 + 0,03 = 0,41 => 41 %. b) P (Leer sólo A) = P(A u B u C) - P(B u C) = P(A u B u C) [P(B) + P(C) - P(B n C)] = 0,41 - (0,20 + 0,15 - 0,06] = 0,12 => 12%. e) P (Leer B o C, pero no leer A)= P(A u Bu C) - P(A) = 0,41 - 0,30 = 0,11 => 11%.

3.

Tenemos que para i = 1 ... ,6: P(i) = ki. Obtenemos k de la iguiente ecuación: 6

1 =¿P(i) = i= l

6

L,ki =21k i= l

=> k= _!_ 21

SOLUCIONES DE LOS EJERCICIOS

185

Luego:

2 21

4 21

6 12 21 21

PWar)= ~+~ + -=~ 4.

Si representamos a los niños por V y a las niñas por H, tenemos que el espacio muestral es: Q = (H, VH, WH, VWH, WWH, VWW}

a)

P (Más niños que niñas) = P (VVH) + P (VVVH) + P (VVVVH) + P (VVVVV) = (l/2) 3 + (1/2)4 + (l/2)5 + (l/2)5 = 0,25.

b)

.. 1 . m· , ) P(3 hijo y primer hijo varón) P(3 hlJOS pnmer JO varon = - - - - - - - - - ?(primer hijo varón)

= P(VVH) = 1-P(H)

S.

(1/2)3 =0 25 1- (1/2) '

Cuando ha preparado 5 temas (y por tanto no sabe los otros 9), tenemos: P (Aprobar)= P (Saber al menos uno)= 1-P (No saber ninguno) =1 - P (No saber el primero y no saber el segundo)

= 1 -P (No saber el primero) P (No saber el segundolNo saber el primero) 9 8

=1---=0 6044 1413 ' Se hace notar que exigir la ocurrencia de do condicione es Jo mismo que hablar de su intersección. Para contestar a la segundo cuestión, calculamos la probabilidad de aprobar cuando aben temas (y por tanto no sabe 14 - n tema ): P (Aprobar)= P (Saber al menos uno)= 1- P (No saber ninguno) =1 -P (No saber el primero y no saber el segundo) =1 - P (No saber el primero) P (No saber el segundolNo saber el primero)

14-n 13 -n 14 13

27n.-n2 182

=l-----=--Ahora es muy fácil comprobar que tiene que e tudjar al menos 4 temas para tener una probabilidad de aprobar superior a 1/2. De hecho la probabilidad en este caso es 0,5055.

186

6.

SOLUCIONES DE LOS EJERCICIOS

Aplicamo la regla de la probabilidad total: P (Seg. def.) = P (Prirn. def.) P (Seg. def.lPrim. def.) + P (Prim. no def.) P (Seg. def.lPrim. no def.)

32 87

53 88

=--+--=O 3415

'

7.

P (Al menos do coincidencias) = 1 - P (Ninguna coincidencia) = l - 365 X 364 X ... X 341 365 25

8.

Por un lado están los números del 00 al 09; la probabilidad de cualquiera de ellos e calcula de la mi ma forma. Por ejemplo:

P (08) = P (Primera = Oy Segunda = 8) = P (Primera= O) P (Segunda= 81Primera = O) 1 1 1 =--=-

210

20

Por otro lado e tán los números del 1O al 14; la probabilidad de cualquiera de ello también e calcula de la misma forma. Por ejemplo: P (12) = P (Primera= 1 y Segunda= 2) = P (Primera= 1) P (Segunda= 21Primera = 1) 11 1 =--=2 5 10

Por tanto, con este istema, las probabilidade de lo diferente recluta no son todas iguales.

9.

P(O blancos)= (0,9)(0,8)(0,7). P(J blanco)= (0,1)(0,8)(0,7) + (0,9)(0,2)(0,7) + (0,9)(0,8)(0,3). P(2 blanco ) = (0,1)(0 2)(0,7) + (0,1)(0,8)(0,3) + (0,9)(0,2)(0,3).

P(3 blanco ) = (O, 1)(0,2)(0,3). P(Al meno un blanco)= 1 - P(O blanco ) = 1 - (O9) (0,8) (O 7).

10.

P(X pueda recibir sangre de Y) = P(X = A e Y = A) + P(X = A e Y = O) + P(X = B e Y= B) + P(X =B e Y= O) + P(X = AB e Y= AB) + P(X =AB e Y= A) + P(X = AB e Y = B) + P(X = AB e Y = O) + P(X = O e Y = O) =

(0,43)(0,43) + (0,43)(0,45) + ... = 0,66.

11.

P(Revi ar)= P(Más de un defectuoso) = 1 - P(O defectuo os) - P(l defectuo o) = 1- (95,2)5º -so(4, 8 )(95,2)49 =O 6990 100 100 100 '

SOLUCIONES DE LOS EJERCICIOS

12.

187

Puesto que los lanzamientos son independientes, tenemos: P(Tema 1) = P(Primero sale 1) + P(Primero sale 6 y Segundo ale 1) + ... = P(Primero sale 1) + P(Primero sale 6)P(Segundo sale 1) + , .. 1 11 111 1/7 1 =-+ - -+---+ ... = =7 77 777 1-1/7 6

13.

En este caso, llamando x al instante de llegada del estudiante número 1, e y al instante de llegada del estudiante número 2, podemos representar el espacio muestra! de la siguiente forma: Q = [O 1] x [0,1] = { (x, y): O$ x ~ 1; O~ y~ 1}

El hecho de que lleguen al azar se interpreta como que todos los instante de llegada tienen la misma «probabilidad». Esto se traduce en que utilizaremos la regla de Laplace (convenientemente adaptada) para calcular probabilidades. En este caso, el suceso A = (Se encuentran) es el indicado en la siguiente figura: y

X

Por tanto: Área (Ac) P(Se encuentran)= P(A) =1- P(A e)= 1- Ár ea (.Q)

9

7

16

16

= l- - = -

14.

Tenemo do tipo de información: porcentaje de producción de cada máquina y porcentajes de defectuosas para cada máquina. Estas informaciones se traducen en las siguientes probabilidades.

i

= ~- P(B) = 300 = l. P(C) = 400 = 900 9 ' 900 9 900 9 P(def.lA) =O, 04; P( def.lB) = O 05· P(defJC) =O, 02

P(A) = 200

188

SOLUCIONES DE LOS EJERCICIOS

a)

Aplicamo la regla de la probabilidad total: P(def.) = P(A)P(def.lA) + P(B)P(def. lB) + P(C)P(def.lC)

2 3 4 = - (0,04)+-(0,05) +-(0,02) =0,0344 9 9 9 b)

Aplicamos la regla de Bayes:

P(Aldef.) = P(A)P(def.lA) P(def.)

15.

Ico,o4) =9 = 0,2584 0,0344

Tenemos dos tipos de información: porcentajes de cada grupo y porcentajes de ojo claros dentro de cada grupo. Estas informaciones se traducen en las siguiente probabilidades. P(A)

=0,3;

P(claroslA) = 0,2; a)

P(B) = 0,1; P(C) = 0,6 P(claroslB) = 0,4; P(claroslC) = 0,05

Utilizamo la regla de la probabilidad total: P(claros) = P(A) P(claroslA) + P(B) P(claroslB) + P(C) P(claro IC) = (0,3)(0,2) + (0,1)(0,4) + (O 6)(0,05) = 0,13.

b)

Aplicamo la regla de Baye : P(Aloscuros) = P(A)P(oscuro IA) P(o cw·os)

e)

= (0,3)(0,8) =0, 276 1-0,13

Utilizando la regla de Bayes, obtenemos la condicionadas: P(Alclaros)

=0,46;

P(Blclaros) =0,31;

iguientes probabilidades

P(Clclaros) = 0,23

Por tanto, es más probable que sea de A ya que el 46% de los que tienen ojo claros pertenece a e te grupo.

16.

Conocemos las siguiente probabilidades: P(A)

=0 ,50;

P(B)

= 0,40;

P(C)

= 0,10;

10 = O 1· P(enf.lB) = - 1 = O 01" P(enf.lC) = - 5 = O 005 100 '' 100 1000

P(enf.lA) = -

SOLUCIONES DE LOS EJERCICIOS

a) b)

P(enf. y A)= P(enf. n A)= P(A) P(enf.lA) = (0,50)(0,1) = 0,05. Usando la regla de Bayes: P(Blenf.) =

= 17.

a)

189

P(B)P(enf.lB) P(A)P( enf.lA) + P(B)P(enf.lB) + P( C)P( enf.lC)

(0,40)(0,01) = 0,0734 (0,50)(0,1) + (0,40)(0,01) + (0,10)(0,005)

Mediante la regla de la probabilidad total:

P(hijo en A)= P(A2 ) = P(A 1)P(~IA 1) + P(M1)P(A}M1) + P(B 1)P(A2IB 1) =(0,10)(0,45) + (0,40)(0,05) + (0,50)(0,01) =0,07. Es decir el 7% de los hijos tiene empleos altos. b)

Utilizando la regla de Baye : P(padre en Alhijo en A)== P(A11~) = P(A¡)P(~ IA¡) P(A 2 ) = (0,10)(0,45) = O 64 O, 07 '

18.

a)

Consideraremo que la vacuna es eficaz si P(enf.lvac.) < P(enf.lno vac.). Tenemo: P(enf.lvac) = P(enf.)P(vac.lenf.) = P(enf.)(1/ 5) = 12 P(enf.) 1/ 4 15 P(vac.) P(enf.lno vac.) = P(enf.)P(no vac.lenf.) = P(enf.)(4/ 5) = 16 P(enf.) P(no vac.) 3/ 4 15 Por tanto, la vacuna e eficaz.

19.

b)

El nuevo dato que no aportan es que P(enf.lvac.) == 1/12. Por tanto, P(enf.) = 5/48 y P(enf.lno vac.) = 1/9.

a)

P(po . y enf.) = P(po . n enf.) = P(enf.)P(pos.lenf.) == (O 001)(0,96) = 0,0010 P(pos. y no enf.) = P(pos. n no enf.) = P(no enf.)P(po .lno enf.) == (1- 0,001)(1 - O 99) = O 0100

190

SOLUCIONES DE LOS EJERCICIOS

b)

P(em.)P(pos.lenf.) P( enf .pos 1 ) = - - - -- -- ~ - - - - - - P(enf.)P(pos.lenf.) + P(no enf.)P(pos.lno enf.)

=

(0,001)(0,96) (0,001)(0,96) +(1-0,001)(1-0,99)

= O 0877 '

Como se puede observar, la probabilidad de padecer cáncer habiendo dando positivo en la prueba es muy baja. Pero esto es lo que ocurre siempre que e lleva a cabo una prueba sistemática sobre una enfermedad de poca incidencia; por este motivo, no suelen ser aconsejables.

20.

Al tratarse de una prueba sistemática para detectar un fallo de poca incidencia, es de e perar que la probabilidad de que sea defectuosa habiéndola rechazado ea pequeña; en efecto: P(def.lrecb.) =

P(def.)P(recb.ldef.) P(def.)P(recb.ldef.)+ P(no def.)P(rech.lno def.)

= 21.

a)

(0,005)(0,96) (O, 005)(0, 96) + (1- O 005)(0 05)

=O 0880 '

En e te apartado estarna tratando con una prueba sistemática para detectar una enfermedad de e ca a incidencia: ) -P( enf.po. l

P(enf.)P(po .lenf.) P(enf.)P(pos.lenf.) + P(no enf.)P(po .lno enf.)

- 1 - (0,9) 10000 = = O 0089 _ 1 _ (0 9)+ 9999 (O 01) ' 10000 ' 10000 ' b)

Como era de esperar, la probabilidad es muy pequeña. En este apartado, al haber íntomas de la enfermedad (pérdida de apetito e ictericia), la probabilidad a priori de estar enfermo es mucho mayor (50%), y ya no e trata de una prueba i temática para detectar una enfermedad de esca a incidencia; el e cenario cambia completamente y la probabilidad final también: P(enf.lpo .) =

= 22.

P(enf.)P(po .lenf.) P(eof.)P(pos.lenf.) + P(no enf.)P(po .lno enf.) (O S)(O 9) (0,5)(0,9)+(0,5)(0,01)

= O 9890 '

Tenemo tre tarjeta (RR, RB y BB), todas con la mi ma probabilidad (1/3).

191

SOLUCIONES DE LOS EJERCICIOS

a)

Aplicamos la regla de la probabilidad total:

P(cara roja) = P(RR)P(cara rojalRR) + P(RB)P(cara rojalRB) + P(BB)P(cara rojalBB)

=(1 / 3)(1) + (1/ 3)(1 / 2) + (1/ 3)(0) =.!_ 2

b)

Ahora aplicamos la regla de Bayes: . ) P(RR)P(cara rojalRR) P 1) = P(l < X< 2) P(X>l) r2

=

4.

i

J1 - (l+x

P(X>l)

2

)dx 5 / 18 5 12 =--= f3_ 1 (l+x2)dx 16/18 16 J112

Planteamos un sistema de dos ecuaciones con dos incógnitas:

1 {

=

J:cru:2 + b)dx =la+ 2b

O 1357 = P(l/2 < X S: 1) =

i

1

(ax 2

112

De e te sistema obtenemos:

S.

a=

7a+ 12b 24

+ b)dx =- - -

0,3048 y b = 0,0936.

La mediana, M, tiene que verificar: 1 .!.2 = P(X::,; M) = Jo rM f(x)dx = f ~c1x+JM(3- 3x)c1x Jo2 2 1

3M2

=3M - - - - 2 4

6.

Re olviendo esta ecuación la única olución válida para el problema es M= 1 18. 1) La variable aleatoria X= «Tiempo de e pera» e una variable aleatoria de tipo continuo, que reparte la probabilidad de manera uniforme en el intervalo (O, 20), ya que el viajero llega de improviso. Por tanto, la función de den idad e :

] - l f(x) ={ Longitud (0,20) - 20 0

i O< X < 20 en el resto

f

F(x) = P(X:::; x) = _1(x)dx

¡l

Qx ]

ix 100 y X< 500) = P(lOO lOOOOIX> 5000)= P(X>l0000(iX>5000) = P(X>lOOOO) P(X > 5000) P(X > 5000)

roo - - e

1 15~ dx J10000 15000 1 - e- ,s~ dx = 500015000

J 00

10.

-

0,5134 =0 72 0,7165 '

La variable aleatoria de interés es: con prob. (2/3) = 0,6667

1

1-0,50 = 0,50 con prob. (1/3)(0,40) = 0,1333

Y= «Ganancia»= 1- 1 =O

con prob. (1 / 3)(0, 30) = 0,10

1- 2 = -1

con prob. (1 / 3)(0 20) = O, 0667

1-6 =-5

con prob. (1/3)(0,10) = 0,0333

«Ganancia esperada» = E[Ganancia] = E[Y] = LY, P(y.)I = (1)(0,6667) + (0,5)(0,1333) + (0)(0,10) + (-1)(0,0667) + (-5)(0,0333) = O 50 euros. 1

11.

a) b) e)

12.

a)

b)

1 = I ~ k(l - t)2 12 dt = k/30 => k = 30 «Esperanza de vida»= E[Tiempo de vida] = E[71 = J'R t f(t) dt = f ~ t [30 (1 - t)2 t 2] dt = 0,5 año = 6 meses. P(vivir meno de 9 mese ) = P(T k = l/2

SOLUCIONES DE LOS EJERCICIOS

201

Para detenninar la mediana, M, planteamos la siguiente ecuación:

1/2=

x fM(2---x)d x2M M- - -¡ f(x)dx= J.1 ~+ =-ioM o2 3 6 3 12 3 2

M=l,55

1

e)

P(X < 21 X < 3) = P(X < 2 y X< 3) = P(X < 2) P(X 112) = P(T < 1 y T> 1/2) = P(l/2< T < I) P(T>l/2) P(T>l/2)

i =

l

4e-4 1dt

1, 2

= O, 1170 =O 86

f 4 e-41dt 00

0,1353

J 112

14.

Llamaremo T; al tiempo que tarda en averiarse la máquina número i .

a) b)

1 -1001e 1oodt=l-(l/e)=0,632 100

P(T¡ ~100)=

1

o

P(A) = P(Falle alguna en las 100 primera horas)=

= 1-P(Ninguna falle en las 100 primeras horas)= = 1-P(TI > 100 y T2> 100 y T3>100) = = l - P(T1 > 100)P(T2 > 100)P(T3 > 100) = 1 - (l/e)3 =0,95.

e)

P(T. ~ IOOIA) = P(T¡ ~ lOO)P(AIT¡ ~ 100) 1 P(A)

= (0,632)(1) = O 67 0,95

15.

a)

'

Llamando X= «Velocidad (en Km/h)>> tenemo :

202

SOLUCIONES DE LOS EJERCICIOS

P(X > 120IX > lOO) = P(X > 120 y X> 100) P(X > 100)

= P(X > 120) P(X > 100)

r200 200 - x = J120 10000 dx = 321100 = o 64 r200200 -x dx 1/2 ' J,oo 10000 b)

Ahora consideramos la variable aleatoria Y= «Importe de la multa» que es de la forma:

1 10000 = 0,5 120200-x 100 con prob. P(lOO 120) = 1 = 0,32 120 10000 O

con prob. P(X < 100) =

100

o

X

--dx

P(X

dx

Tenemo : E[Y] = (0)(0,5) + (100)(0,18) + (200)(0,32) = 82 euros.

16.

En primer lugar, comprobaremos que la función de ma a de la variable aleatoria X es de la fonna P(X = 1) = ... = P(X = n) = 1/n. En efecto: P(X = 1) = P(Prim. def.) = .!_

n

P(X = 2) = P(Prim. no def. y Seg. def.)

= P(Prim. no def.)P(Seg. def.tPrim. no def.) n- 1 1 1 =----=n n- l n

De manera análoga se comprueba en todos los demás casos. Por tanto:

.!_(l + n n) = n + l

E[X] = "i,kP(X = k) = "i,k.!_ = n n

17.

2

2

=

Llamaremo X, «Longitud obtenida con el proceso 1» y X2 obtenida con el proceso 2». a)

?(Aceptable con el proceso 1) = P(l < X1 < 2) =

=«Longitud

f ~dx =0,8750 2

IX

~

87 ,50% de aceptables con el proceso 1. P(Aceptableconelproce o 2) = P(l {c,. = 27,03

En e te ejercicio trabajamos con la variable aleatoria X= «Número de cara en 400 tiradas» - B(n = 400; p = 0,5) = N(µ = np =200; cr = np(] - p) =10), donde herno aproximado la Binomial por la Normal, ya que n es grande y p no e próximo a cero.

.J

a)

P(Número de cara entre 160 y 190) = P(160 s X s 190) =

?(160 - 200 s X-200 ~ 190 - 200) = P(-4sZs - l) = P(lsZs4) = 10 10 10 P(Z > 1) - P(Z > 4) = 0,1587-0,0000317 = O 1587

2.23

SOLUCIONES DE LOS EJERCICIOS

b)

Tenemos que hallar un intervalo J = (a, b) = (200 -k, 200 + k), que verifique:

0,95 = P(200-k S XS200+k)= = zÍ 200- k - 200 S X - 200 S 200 + k- 200) = ~\ 10 10 10 =P(-..!:.._szs..!:.._) 10 10

~

P(z>..!:.._)=o 025 10 '

~

..!:.._=1,96 10

~

k=I9,6.

Por lo tanto, el intervalo buscado sería: 1 = (a, b) = (200- k, 200 + k) = (180,4; 219,6)

19.

a)

~

Entre 181 y 219 caras.

Consideramos la variable aleatoria: X= «Número de bacterias por mm3 de agua» - Poisson(A = 0,5). Te-

nemos: P(No haya bacterias en un mm3) = P(X = O) = 0,6065. b)

En este apartado, consideramos la variable aleatoria:

Y= «Número de tubos sin bacterias, entre 40» B(n = 40;p = P(X =O)= 0,6065) ~ N(µ = np = 24,26;

a = .jnp(l- p)

= 3,1)

donde aproximamos la Binomial por la Normal, ya que n es grande y p no es próximo a cero. Tenemos: P(Y~ 20)= p(Y-24,26

3,1

=P(Z ~ 1,37) = 1e)

~ 20 -

24,26) = P(Z~ - l, 37) = 3,1

P(Z > 1,37) = 1- 0,0853 =0,9147

P(Menos de 3 bacterias en un mm3 sabiendo que hay alguna)

=P(X < 31 X >O) = P(X < 3 y X> O) = P(X = 1) + P(X = 2) P(X>O)

= O 3033 + 0,0758 = 0 96 1-0,6065 '

1- P(X = O)

224

20.

SOLUCIONES DE LOS EJERCICIOS

En este ejercicio, vamos a ir trabajando con variables aleatoria diferentes, según el tipo de muestreo que llevamos a cabo. a)

La variable aleatoria relevante es:

X1 = «Número de ratones de esa especie en 6 capturas» - B(n = 6; p = 0,3). P(Haya al menos 2 de esa especie)= P(X1 ~ 2) = 1 - P(X = 0) - P(X = 1) = 1 - O, 1176 - 0,3025 = 0,5799. b)

Ahora, la variable aleatoria relevante es:

X¡ = «Número de ratones de esa especie en 200 capturas» -

B(n = 200; on(..l = np = 10). Hemos aproximado la Binomial por la Poi son por ser n grande y p próximo a cero. P(Exactamente 3 de esa especie)= P(X2 = 3) = 0,0076.

p = 0,05)

e)

= Poi

En este apartado vamos a trabajar con la variable aleatoria: X3 = «Número de ratones de esa especie en 200 capturas» - B(n = 200· p = 0,4) = N(µ = np = 80;CJ =~ np(l- p) = 6, 93) Ahora hemos aproximado la Binomial por la Normal ya que n e grande y p no e próximo a cero. P(Entre 75 y 110 de e a especie) = P(75 ::; X3 S 110) = P(75 - 80::; X3 - 80 5 110-80] = 6, 93 6,93 6,93 P( -O 72 ::; Z ::; 4, 3) = l - P( Z

> O, 72) - P( Z > 4, 3) =

1- O, 2358 - O, 00000854 = O, 7642 á)

Finalmente, la variable aleat01ia relevante en e te apartado e : X4 = «Número total de ratones capturados» = «Número de ratones capturados antes del primero de esa especie» + 1 = Y + 1, donde Y - Geométrica de parámetro p = O 2. Entonces, tenemo : «Número medio de ratones capturado » = E[Número total de rato. 1-p ne capturado ) = E[Y + 1] = E[Y] + 1 = E[Geométiica] + 1 = - - + 1 =

p

= 1-

0,2 +1 = 5 0.2

SOLUCIONES DE LOS EJERCICIOS

21.

225

La variable aleatoria básica en este ejercicio es X= «Duración (en minutos) de las cinta de video» - N(µ = 240; CJ = 10). a)

En este apartado nos interesa la duración total de 2 cinta . Por eso, consideramos la variable aleatoria:

X1 + X 2 "'N(µ = 2(240) = 480;CJ = ,J2(100) = 14,14) Tenemos: ?(Duración total inferior a 490 minutos)= P(X1 + X2 < 490) =

p(X1 +X2 - 480 < 490 - 480)= 14,14

14, 14

P(Z < O, 71) = 1-P(Z > O, 71) = 1-0,2389 = O, 7611. b)

Lo primero que hacemos es calcular la probabilidad de que una cinta tenga una duración inferior a 250 minuto : P(X < 2SO) =

p(

X - 240 < 250 - 240) =

10

10

P(Z < 1) =1-P(Z > 1) = 1-0,1587 = 0,8413 La variable aleatoria con la que trabajamos en este apartado es:

Y= «Número de cintas con una duración inferior a 250 minuto , entre 100» "'B(n = lOO;p = P(X < 250) = 0,8413) ~ N(µ = np = 84,13; CJ

= .Jnp(l -

p)

=3,65)

Lo que buscamos es:

º;,!~,1

P(Y> 80) = P(~ ~.86~ 13 > 8

3)

= P(Z> - 1,13) =P(Z < 1,13) =

l-P(Z > 1,13) =1- 0,1292 = O 8708

22.

a)

La variable aleatoria básica en este ejercicio e X= «Cantidad de plomo en la sangre», que está caracterizada por la función de densidad f(x). Tenemos:

Cantidad media de plomo en la angre = E[Cantidad de plomo en Ja angre] = E[X] =

- x J xf( x'¡:Jx = 1o20 x300- dx + J50x -501350 - d x = 18 89 X

91

20

226

SOLUCIONES DE LOS EJERCICIOS

b)

f20

P(Cantidad de plomo en la sangre inferior a 20) = P(X < 20) = J/Cx)dx f 20 X

=Jo e)

2

300 dx=3

En este apartado, vamo a trabajar con la variable aleatoria:

Y= «Número de personas con cantidad de plomo inferior a 20, entre 40» - B(n =40;p = P(X < 20)= 2 /3) ~ N(µ=np= 26,67; a =.Jnp(l- p) = 2,98) Remo aproximado la Binomial por la Normal ya que n es grande y p no es próximo a cero. En este caso, nos piden: P(20::; y::; 30) = p(20-26,67::; Y -26,67::; 30-26,67) 2,98 2,98 2,98

= P(-2,24 S Z S 1,12) =1- P(Z> 2,24)-P(Z> 1,12) = 1-0,0125-0,1314= 0,8561 23.

La variable aleatoria básica es X= «Retraso de un tren» que está caracterizada por la función de den idad.f(x). En primer lugar, calculru:no la probabilidad de que se retrase 6 o má minutos:

r

P(Se retrase 6 o más minutos)= P(X ~ 6) =

f(x)dx

=

J;

O, 25e--0·25x dx

=0,2231 Para poder calcular la probabilidad que nos piden necesitamos considerar la variable aleatoria Y= «Número de veces que el tren se retrasa 6 o má minutos, en un año» ,..., B(n = 365;p = P(X ~ 6) = O, 2231) ~ N(µ = np = 81,44· a = ~ np(l- p) = 7,95),donde hemo aproximado la Binomial por la Normal, ya que n es grande y p no es próximo a cero. Nos piden: P(Y> 50) = p (Y-81,44 > 50-81,44) = P(Z>-4) = P(Z < 4)

7,95

=1-

7,95

P(Z > 4) = 1- 0,0000317

~

1

E decir, es prácticamente seguro que el tren se retra ará 6 o más minuto en más de 50 oca ione a lo largo del año.

227

SOLUCIONES DE LOS EJERCICIOS

24.

a)

Para contestar este apartado, consideramos la variable aleatoria:

= «Número de persona con lengua no enrollable, entre 200» ,..., B(n = 200· p =0,40) ~ N(µ = np = 80; 70) = P(

X - 80

6,93

> 70 - 80) = P(Z>-1,44) = P(Z < 1,44) 6,93

= 1-P(Z > 1,44) = 1-0,0749 = 0,9251 b)

Lo primero que hacemos notar es que si e} hombre e EE, toda su descendencia con una mujer de lengua no enrollable (ee) tendrá la lengua enrollable (Ee), mientras que si el hombre es Ee, el 50% de su descendencia con una mujer de lengua no enrollable (ee) tendrá su lengua enrollable (Ee) y el 50% restante no la tendrá (ee). Si llamamos Sal suceso «Tener 3 hijos con lengua enrollable» y aplicamos la regla de Baye , tenemos: P(EEIS) =

P(EE)P(SIEE) P(EE)P(SIEE) + (P(Ee)P(SIEe)

= 25.

(0, 3)(l) (0,3)(1) + (O, 7)(1/2)3

= O 7742 '

Tenemos dos variables aleatorias: X= «Diámetro de la varilla» - N(µ = 1· a= 0,2) Y= «Diámetro del recipiente» - N(µ = 1,05; 0,35) = 1- 2(0,3632) = 0,2736

27.

En e te problema estamos manejando dos variable aleatorias: X= «Ten ión de la línea» - N(µ = 100; a= 20) Y= «Capacidad de la línea» - N(µ = 140· a= 10) Tenemos: P(Avería) = P(X > Y) = P(X - Y> O) = (*) Ante de eguir, ob ervamos que: X - Y""' N(µ = 100-140 = -40; a = .J400+ 100 = 22,36) Ahora podemo continuar: (*) = P(X -Y - (-40) > 0 - (-40) ) = P(Z> 1 79) = O 0367 22,36 22,36 '

SOLUCIONES DE LOS EJERCICIOS

229

28. En este caso, tenemos dos variables aleatoria : X 1 = «Espesor con la primera máquina» - N(µ = 10; a= l). X2 = «Espesor con la segunda máquina» - N(µ = 11; a= 1). a)

Aplicamos la regla de la probabilidad total: P(Espesor < 12)

= P(Maq. l)P(Espesor < 121Maq. 1) + P(Maq . 2)P(Espesor < 121Maq. 2)

= (3/ 4)P(X1 < 12)+ (1/ 4)P(X2 < 12)

= (3 / 4

)1

X1 ; 10 < 12~ 10)+(1/ 4

)P(

X2 ; 11 < 12~ 11)

= (3/ 4)P(Z < 2)+(1/ 4)P(Z < 1) = (3/ 4)(1 - P(Z > 2)]+ (1/ 4)(1-P(Z > 1)]

=(3/ 4)(1 -0,0228]+(1/ 4)(1-0,1587] =0,9432 b)

En e te apartado, aplicamos la regla de Bayes: P(Maq. l)P(Espesor < 121Maq. 1) P(Maq. l!Espesor < 12) =---------P(Espesor < 12)

_ (3/4)P(X1 sigue una distribución hipergeométrica. Los posibles valores de X van de O a 6. Se trata de calcular la probabilidad de que en la egunda generación siga habiendo 3 célula anómalas:

Vamos a llamar A a la plantación considerada en lo dos primeros apartados. La variable aleatoria bá ica en estos apartados es: XA = «Producción por manzano en A» - N(µ = 50; a= 10). Queremos calcular:

P(La producción de 2 manzanos supere los 110 Kg.) = P(XA 1 + XA2 > 110) = (*) Para continuar con el cálculo, observamos que:

XA, + XA 2 "'N(µ =50+ 50 = 100· a = "1100 + 100 = 14,14) Por tanto, tenemos:

(*)= p(XAI +XA2 - lOO > 110 - 100 ) = P(Z>O 71) = 0 2389 14,14 14,14 ' ' b)

En primer lugar, calculamos:

P(La producción de un manzano de A upere lo 45 Kg.) = P(XA > 45) =

p(XA - 50 > 45 - 50) = P(Z > -0 5) = P(Z < O 5) 10

10

= 1- P(Z > 0,5) = 1- 0,3085 = 0,6915

~

O, 70

La variable aleatoria relevante en este apartado e :

Y= «Número de manzanos con producción superior a 45 Kg. entre 9>> - B(n =9; p =P(X > 45) =O 70). Lo que nos piden es: P(Y = 7)

= 0,2668.

231

SOLUCIONES DE LOS EJERCICIOS

e)

En este apartado, estamos interesado en una nueva plantación, que llamaremos B, y trabajamos con una nueva variable aleatoria:

X8 = «Producción por manzano en B» - N(µ = 50; a), donde a es desconocida. Para conocer a, plantearemos una ecuación a partir de la información que tenemos: El 80% de lo manzanos de B tiene una producción superior a 40 Kg. =>

O 80=P(Xn >40)=1 Xn ~50 > 40~50)=

p(Z>-:)

p( :)=

=>

Z


=>

p( :)= Z>

0,20

~

O"=ll,90

(j

32.

En este ejercicio tenemos, en principio, tres variable aleatorias:

XA = «E tatura de una persona del grupo A» - N(µ = 165; a= 5) X8 = «Estatura de una persona del grupo B» - N(µ = 170; a= 5) Xc = «Estatura de una persona del grupo C» - N(µ = 175; a= 5) a)

P(Una persona del grupo A mida más de 160 cm.)= P(XA > 160) =

p( XA

~165 > 160;165) = P(Z >-l) = P(Z < l) =l-P(Z> l) = 1-0,1587 = 0,8413

b)

P(Entre 10 personas de A midan más de 1600 cm.)= P(XA1 + ... + XA 10 > 1600) = (*) Observamos que: XAI + ... + XAIO ,.., N(µ = 10(165) = 1650; a= ._/10(25) = 15,81) Entonces:

(*)=P(XAI + .. . +XAI0-1650 > 1600 - 1650J=P(Z> -3 2)=P(Z 3,2) =1-0,000687 = 0,9993

SOLUCIONES DE LOS EJERCICIOS

232

e)

Aplicamo la regla de Baye : P(CIAlt. > 172) P(C)P(Alt. > 1721C) P(A)P(Alt. > 1721A) + P(B)P(Alt. > l 721B) + P(C)P(Alt. > 1721C)

=---------'---'---'------'-------=

P(C)P(Xc >172) P(A)P(XA > 172) + P(B)P(X8 > 172) + P( C)P(Xc > 172)

=________

P_(, C_-'-)P-=[c....Z_>_;_{l_7_2_-_l7_5::) 1-'5] = - - - - - - - - P(A)P[Z > (172-165)/ 5)+ P(B)P[Z > (172-170)/ 5]+ P(C)P[Z > (172 - 175)/ 5)

(0,30)P(Z > -0,60) (0,50)P(Z > 1,40)+ (0,20)P(Z > 0,40) + (0,30)P(Z >-0,60)

= - - - - - --'-----'--'-----'--'------ -

=

(0, 30)(0, 7257) = O 67 (O, 50)(0, 0808) + (0, 20)(0, 3446) + (0, 30)(0, 7257) '

el)

Finalmente, consideramos la variable aleatoria:

Y= «Número de per onas que miden má de 172 cm., entre 100 de B» B(n = lOO;p = P(X0 > 172) = 0,3446) N(µ = np = 34,46; a= -Jnp(l- p)

!:::::

= 4, 75),

donde aproximamos la Binomial por Ja Normal, ya que n es grande y p no es próximo a cero. Tenemos entonces:

P(Y2'.:50) = P(Y- 34, 46 4,75

33.

~ Sü - 34, 46 )=P(Z~3 3) = 0 000483 4 75

'

'

En este ejercicio, la variable aleatoria relevante e X= «Número de acierto en 10 cue tiones» - B(n = 10; p), donde p = «Probabilidad de acierto en cada cue tión». Primer caso: Cuando el e tudiante re ponde todo al azar, p = O 50 con lo que X - B(n = 10; p = 0,50). Entonces: P(Aprobar) = P(X 2'.: 7) = 0,1719. Segundo ca o: Cuando el estudiante sabe el 30% de la a ignatura, p = P(Acierto) =(0,30)(1) + (0,70)(0,50) =0,65, con lo que X - B(n = 10; p = O65). Entonces: P(Aprobar) = P(X 2'.: 7) = 0,5139.

34.

En e te ejercicio, di ponemo de 3 variable aleatoria relevante :

XA = «Altura de la casta A » - N(µ = 175· 2 11)= O 0174 '

'

En e te ejercicio, trabajamos con la variable aleatoria: X = «Cantidad de grasa envasada» - N(µ; a = 25)

Queremos elegir el valor de µ que verifique la condición: El 2% de los enva es tiene una cantidad de grasa inferior a 500 gramos

O' 02 = P(X < 500) = P(X25- µ < 50025- µ) = P(z < 500-µ) 25 P( Z> µ~~OOj=O 02 37.

=>

µ~~OO =2,05

=>

=>

µ=551,25

Disponemos de dos variables aleatoria :

XA = «Porcentaje de asfalteno en la telas de A» - N(µ = 30; a = 3) X8 = «Porcentaje de asfalteno en las telas de B» - N(µ = 35; a= 2)

=>

SOLUCIONES DE LOS EJERCICIOS

a)

235

P(Una tela de A tenga un porcentaje de asfalteno entre 28 y 34) = P(28 < XA < 34) = p(28-30 < XA -30 < 34-30) 3 3 3 = P(-0,66 < Z < 1,33) =1- P(Z > 0,66) - P(Z> 1,33)

=1- 0,2546-0,0918 =0,6536 b)

Aplicamos la regla de Bayes: P(A)P(XA > 34) P(A)P(XA > 34) + P(B)P(XB > 34)

P(AIAsfalteno > 34) =

P(A)P(Z > 1,33)

=----------P(A)P(Z > 1,33)+ P(B)P(Z >-0,5) = 38.

a)

(O, 70)(0,0918) = O 24 (O, 70)(0, 0918) + (O, 30)(1- O, 3085) '

En este apartado, trabajamos con la variable aleatoria:

X= «Cantidad de fertilizante por saco» - N(µ = 30; a= l). P(La cantidad de fertilizante por saco esté entre 29 y 31) = P(29 s; X s; 31) = p ( 29-30 s; X-30 s; 31-30) 1 1 1 =1- 2(0, 1587) =O, 6826 b)

=P(-ls; z s; l) =1 _ 2P(Z > l) =

En este apartado, trabajamos con la variable aleatoria:

Y = «Número de saco con una cantidad entre 29 y 31 Kg, de los 80» B(n = 80; p = P(29 s; X s; 31) = 0,6826) ~ N(µ =np = 54,61; a= .Jnp(l - p)

= 4,16)

Hemos aproximado la Binomial por la Normal, ya que n e grande y p no está próximo a cero. P(Y> 50) =

¿

P( y ~~1

61

>

SO ~.~:· 61 ) =P(Z >-1,11) = P(Z < 1,11) =

1-P(Z > 1,11) = 1-0,1335 = 0,8665

39.

a)

La primera variable aleatoria que consideramos es: X= «Cantidad de gasolina en cada muestra» - N(µ = 10, a= 0,1)

236

SOLUCIONES DE LOS EJERCICIOS

En primer lugar, calculamos: 99 - 10 ) == P(Menos de 9, 9 litros en una muestra) = P( X < 9 9) = P( -·X-10 - - < ' 0,1 0,1 P(Z < - 1) = P(Z > 1) = 0,1587

Ahora consideramos la variable aleatoria:

Y= «Número de muestras con menos de 9,9 litros, entre las 3» =3; p =P(X < 9,9) =0,1587 = 0,15).

B(n

Nos piden: P(Y = 2) = 0,0574. b)

Ahora tenemos dos surtidores correcto (C) y uno trucado (1). Los elegimos al azar, de modo que P(C) =2/3 y P(1) = 1/3. El uce o que observamo e :

S == {Obtenemos menos de 9 ,9 litros en exactamente 2 de las 3 muestras} Hemos vi to en el apartado anterior que, cuando el surtidor es correcto, tenemo : P(SIC) == 0,0574. Razonando de manera análoga a la efectuada en el apartado anterior obtendríamos que, si el surtidor está trucado, la probabilidad de obtener menos de 9,9 litros en una muestra e 0,50 y, en consecuencia, la variable aleatoria Y seguiría una B(n = 3; p = 0,50). Por tanto, la probabilidad de obtener menos de 9,9 litros en exactamente dos de la tre muestras seó a: P (Sl7) = 0,3750. Ahora, ólo queda aplicar la regla de Bayes: P(TIS) =

P(DP(SID P( C)P(SIC) + P(DP(SID

= 40.

(1/3)(0, 3750) (2/3)(0, 0574) + (1/3)(0, 3750)

= O 77 '

La funciói;i de densidad de la variable aleatoria X = «Intensidad de un impulso» e :

2x { f (x) = 9 0

si0 0,25)= 1-0,1587-0,4013 = 0,4400 P(MIB) = P(S 3 O, 25) - P(Z > 1, 5) =

0,4013 - 0,0668 = 0,3345 Ahora podemos continuar:

238

SOLUCIONES DE LOS EJERCICIOS

(*) =

b)

(0,30)(0,4400) (O, 30)(0, 4400) + (O, 70)(0, 3345)

= O 36 '

En primer lugar, calculamos:

X -61 53-61) P(SIA)=P(XA 1) = 1-0,4013- 0,1587 = 0,4400 A continuación considerarnos la variable aleatoria:

= «Número de huevos tipo L de la granja B, entre 200» B(n = 200· p = P(63 < X 8 < 73) = 0,44) ~ N(µ = np = 88; CY = -Jnp(l- p) =7,02)

T

Hemos aproximado la Binomial por la Normal ya que n es grande y p no e próximo a cero. Por tanto, tenemos: P (50

~ T ~95) = p (S0-88 ~ T-88 ~ 95 7,02

7,02

88] = P(-5,41 ~ z ~ 1) = 7,02

1-P(Z > 5 41)- P(Z > 1) = 1-0,0000000333-0,1587 = 0,8413 d)

Finalmente, en este apartado consideramo la variable aleatoria: S = XAI + ... + XAl2

,...,

N(µ = 12(61) =732· a= ~ 12(8)2

=27, 71)

SOLUCIONES DE LOS EJERCICIOS

239

Tenemos: P(S>720)=P(s- 732 > ?20- 732 )=P(Z>-O 43)=P(Z0,43)=1-0 3336=0,6664 42.

La variable aleatoria de interés en este problema es: X = «Número de componentes defectuosos, entre 50» B(n =50; p = P(Defectuoso) =0,048) = Poisson(íl =np = 2,4).

Hemos aproximado la Binomial por la Poisson ya que n es grande y p es próximo a cero. Finalmente, tenemos: P(Revisar el proceso de producción)= P(X > 1) = 1 - P(X = O) - P(X = 1) = 1-0,0907 - 0,2177 = 0,6916. 43.

a)

En e te apartado, la variable aleatoria relevante e :

X = «Número de personas que usan el lavabo 4, de un total de 3 personas» ~ B(n = 3;p = 1/8).

Tenemos: P(X> O)= 1-P(X =O)= 1-(7/8)3 = 0,33. b)

En e te apartado consideramos la variable aleatoria:

Y=

20- 25) =P(Z>-1,15)=P(Z 1,15) = 1-0,1251 = 0,8749 44.

a) y b) Consideramo la variable aleatoria X= «Producción anual» ~ N(µ; a), y planteamo do ecuaciones:

240

SOLUCIONES DE LOS EJERCICIOS

El 90% de lo años la producción es inferior a 1300

==>

0,90=P(X l30~-µ )= 0,10

==>

==>

l30~-µ =1 ,28

El 40% de lo año la producción es superior a 1100

0,40 = P(X > 1100) = P( X:µ> llO~-µ) =

==>

p( Z> llO~-µ)

==>

1100 - µ = 0 25 O"

'

Por lo tanto, tenemos:

130 ~ - µ = 1,28}

1100 - µ =0,25

==>

µ = 1051,46 0"=194,17

O"

e)

P(X> lOOO) =

p(X - 1051,46 > 1000 - 1051,46) = P(Z >-0 26)= 194,17

194,17

'

P(Z < O 26) = 1-P(Z > 0,26) = 1-0,3974 =0,6026 á)

En este apartado oecesitamo con iderar la variable aleatoria:

«Producción total en 1O años» = X1 + ... XwN(µ =10(1051,46) = 10514,6; a = ~10(194,17)2

=614,02)

Por tanto:

P(X + .. . + X < lOOOO) = p(X, + ... + Xro -10514,6 < 10000 - 10514,6) = I JO 614,02 614,02 P(Z 0,84) =0,2005 45.

a)

En primer lugar observamos que P(Per ona O po itiva) = (0,45)(0,80) = 0,36. Ahora, consideramos la variable aleatoria:

SOLUCIONES DE LOS EJERCICIOS

241

X= «Número de personas O positivas, entre 300» ,..., B(n = 300;p = 0,36)

~

N(µ =np =108; a= .Jnp(l- p) =8, 31)

Hemos aproximado la Binomial por la Normal ya que n es grande y p no es próximo a cero. Tenemos: P(X < 95)= P(X-l0 8 < 95 - 108 )= P(Z 1 56) =O 0594 '

'

En primer lugar, ob ervamos que P(Persona AB negativa) = (0,05) (0,20) = 0,01. Ahora, consideramos la variable aleatoria:

Y = «Número de personas AB negativas entre 150» - B(n = 150; p =

0,01)

= Poisson(A= np = 1,5).

Hemos aproximado la Binomial por la Poisson ya que n es grande y p es próximo a cero. Tenemo : P(Y~ 1) = l -P(Y =O)= 1-0,2231 = 0,7759. e)

El calculo de probabilidad que hacemos a continuación, corresponde a una variable aleatoria con distribución binomial negativa: P(Necesitar 12 personas basta encontrar 3 del grupo A)=

(~1)co,4o)3co,6o)9 = o,0355

46.

a)

En primer lugar, consideramos la variable aleatoria:

X= «Cantidad de contaminante de un coche de pequeña cilindrada cada 100 Km.» - N(µ = 20; CT= 3).

La cantidad total de contaminante de 1O coches de este tipo viene dada por la variable aleatoria:

X1+ ... + X10 ,..., N(µ =10(20) = 200;a = ~10(3)2

= 9,49)

Entonces, tenemos: P(X, + ... +X10 25) = P(

p(

Z < µ~25 )

y~µ > µ)

~

25;

= P( Z > 25;

= 0,80

El 60% de los coches expelen menos de 30 mg.

~

p( Z> 30;µ)=0,40

30;µ =0,25

Entonces, tenemos:

µ~ 25 = 0,84}

µ=28,86

30 - µ =0,25

a =4,59

a

47.

La variable aleatoria básica en este ejercicio e : X= «Cantidad de plomo» - N(µ = 30; a= 1O) a)

En primer lugar, calculamos: P(Cantidad de plomo extremadamente alta) = P(X > 53) =

P(X-

º)=

30 > 53 - 3 10 10

P(Z > 2 30)=0 0107

'

'

Ahora, con ideramo la variable aleatoria: Y = «Número de per onas con cantidad de plomo extremadamente alta, entre 7» - B(n = 7; p = P(X> 53) = 0,0107 = 0,01).

SOLUCIONES DE LOS EJERCICIOS

243

Tenemo: P(Y;:::: 1) = 1 - P(Y =O)= 1 - 0,9321 = 0,0679.

b)

Ahora necesitamos considerar la variable aleatoria: XL+ ... + X5 ""N(µ = 5(30) = 150; a= ~ 5(10)2 = 22,36)

Entonces: P(X, + . .. + Xs > 140) =

p(X, + ... + X -150 > 140-150) = P(Z >-0, 45) = 5

22,36

22,36

P(Z < 0,45) =1-P(Z > 0,45) =1- 0,3264 = 0,6736

e)

Finalmente, consideramos la variable aleatoria:

x1 -x2 "'N(µ=30 -

30=0; a= ~ 2(10)2 =14,14)

Tenemos: P(- lO O, 71) =1-2(0,2389) = 0,5222

7. 1.

Estimación puntual En e te ca o, la función de masa es P(x) = p'(l-p) 1- x. Estimador por el método de los momentos:

a)

E[X]=x

=>

p=X

=>

p=x

Estimador de máxima verosimilitud: L(p) = P(xl) .. .P(xn) = p x' (l- p)l- x, ... p x• (1- p)l- x. =

= p1:x1 (l- p)"-á,

=>

log L(p) = (LX¡)log p+ (n - I.x;)log(l- p) d log L(p)

= I, X ¡ _

dp

p

n - I, X; = 0 1-p

=>

p= x

=>

SOLUCIONES DE LOS EJERCICIOS

244

-l íl:'

b)

En este caso, la función de masa es P (x) =-e__ x! Estimador por el método de los momentos: E[ X] = x

A. = x

=>

=>

A= x

Estimador de máxima verosimilitud: e-,l;¡_x,

e-líl;'•

e-nlÍLL;

L(A.) = P(x1) • • • P(xn) = - -... =--(x1)! (xn)! (x1 )!. .. (xn)

log L(A.) =- níl + (Lx¡)logA- }:.log(x¡)!

=>

dlogL(A) =-n+ LX¡ =O d;t .:l e)

=>

=>

A

.:l=x

En este caso, la función de densidad esf(x) = ?vr/lX. Estimador por el método de lo momento : E[X]=x

f

=>

0

x=E[X]= 91 xf(x)dx= fo° x (k - .tr)dx=

~

Á=_!_

x

Estimador de máxima verosimilitud: L(.:l) = J(x,) ... f(x,,) = k - ).r, ... Ae- ..ix" logL(Á) =n log.:l -íl ¿x;

=>

=!:- ¿x. = O

=>

dlogL(Á)

dJ.. el)

;t

'

A

=J_"e- m ;

l

A.=.x

En este ca o, la función de den idad e

!( X ) --

1

1

- - ( , : -µ )

2

r;:,:: e 2u 2

a -v 2rc

Estimador por el método de los momentos: E[X]

=.x

=>

µ = x =>

µ. =x

=>

=>

245

SOLUCIONES DE LOS EJERCICIOS

Estimador de máxima verosimilitud:

log L(µ) =-n log a- n log -fin

--4 ¿(x; - µ) 2a =>

dlogL(µ) =- - 1- (- 2)(¿x. -nµ)=O dµ 2a 2 ' e)

2

=>

µ= x

En este caso, la función de densidad es 1 f(x)=--e

a-fin

1 2 2 a 2 (x-µ )

Estimador por el método de los momentos: La primera posible ecuación:

E[X]=x =>

µ= x

no sirve en este caso, ya que no aparece el parámetro d-que es e] que queremos estimar. Recurrimos a la segunda posible ecuación:

=> De paso, es conveniente hacer notar que el estimador obtenido por el método de los momento produce, alguna veces, e timaciones absurdas. Por ejemplo, si es conocido queµ= 3, y la muestra obtenida es (1 , 2, 4), obtenemos ii-2 = -2, lo cual e claramente absurdo. Estimador de máxima verosimilitud:

1 2 logL(cr)= - nlogcr - nlog - f i n - 2 I.(x; -µ) 2cr dlogl(cr) =-~ + - 1 ~

CJ"

~

l(x¡-µ)2 = O =>

=>

8 2 =_!.L(x.- µ)2 n

'

246

SOLUCIONES DE LOS EJERCICIOS

j)

En e te ca o, la función de den idad igue iendo: 1 2 1 - -(x- µ) !( X ) = O'..fin e 2

22

2

+ ..!_ 4

1

p=2q-2

Paso 3: Finalmente, podemos estimar p: 1

1

2

2

o

p= 2q-- =2(0,60) --= 0,7 A

A

Por lo tanto, se estima que el 70% de la población evade impuestos. 3.

a)

Planteamos la ecuación: E[X] = x

=>

b)

=>

x = E[X] =

Jxf 91

6 (x)dx

=

fe~

xe- x+e dx =e+ I

8 =.x -1

El estimador (J será insesgado para estimar 8 si E[Ó] =e.Veamos si se verifica: E[OJ = E[x -

11 = E[XJ-1 = E[XJ-1 =ce+ 1) -1 = o.

Por tanto, es insesgado para estimar e.

248

4.

SOLUCIONES DE LOS EJERCICIOS

L(()) = J9(x 1) ... fixn) = xi exp (- x¡2 )· . . x; exp (- x;2 ) ()

= x1 •• • xn ex

P

9 2n

log L( ()) = í., log X;

2()

( - í.,x¡) 2()2

-

¿x~

2n log () - - ~ 2()

°S.

a)

()

=>

= ()(_!_)B+l... ()(_!_)B+I=8 x1

x

lag L(()) = nlog0-(8 + 1) Í.,logx;

=>

dlogL(()) =~-Í.,logx. = 0 d()

b)

()

=

0~ = ~X~ _ _, 2n

=>

()3

L(()) = f9(X¡). · ,j9(X11 )

2()

=>

dlog L(()) =- 2n + í.,x¡ = 0 d()

()

1

11 (

l X¡ • ••

11

)

8 1 +

=>

xn

=> n 8=--I. Iog x¡ ~

Resolvemos la ecuación:

E[X]=x

-

8= -

..

=>

( 1 )8+1

x=E[XJ = f xf8 (x)dx=f x () 9l.

X

1

dx= -

8

(}-}

=>

x

.x-l

6.

L(µ, a )

=!( x1)• • . !( x" ) = x a -v1r;;-::: exp[ 2n

(logx1 ~ µ)

1

•. .

1r;,::: exp[ xna-v 21'

(logx11 - µ)2 ] -2a

rJlogL(µ, a')_ ---=----'--- - r)µ

ªª

2

2

]···

2a

1

11

r;,:::

(x, ... xn)a (-v 2n)

n

exp[

I.Oogx¡ - µ)2

J

~

2a 2

1 (- 2)[~l _¿_, og x. - nµ J- O¡

2 0'2

1

rJiogL(µ cr) =-!:.+_l_ I (logx.-µ) 2 = O

7.

(J'

0'3

1

E l objetivo fundamental de e te ejercicio es estimar, por máxima verosimilitud, el parámetro p = «Proporción de peces de la especie A».

SOLUCIONES DE LOS EJERCICIOS

249

?(Primer pez tipo A en la décima extracción)= (1-p)9 p. El apartado anterior nos sirve para indicamos cómo escribir la función de verosimilitud. Recordemos que la función de verosimilitud es la probabilidad, bajo los diferentes valores del parámetro p, de los resultados muestrales obtenido : L(p) = P(Resultados muestrales obtenidos)= P(Primer pez tipo A en la décima extracción y Primer pez tipo A en la decimoquinta extracción y Primer pez tipo A en la decimoctava extracción) = a) b)

= [(1- p)9 p][(l -

p)l4p][(l - p)17 p] =(1- p)40 p 3

logL(p) = 40Iog(l- p) + 3logp dlogL(p) dp

7.

a) y b)

~

~

=-~+i=o 1- p

p

El objetivo fundamental en estos dos primeros apartados es estimar, por máxima verosimilitud, el parámetro p = «Proporción de caballos afectados por la peste equina». Para esto seguiremos los siguientes pasos:

Paso 1: Consideramos un nuevo parámetro, muy relacionado con p pero algo diferente: q = «Probabilidad de dar positivo en la prueba». La ventaja de este nuevo parámetro es que es un parámetro directamente estimable. Como en todo los casos en que queremos estimar una proporción o una probabilidad, dispondremos de una muestra aleatoria (X1 .•• , Xn) de X- B(l; q). Ahora, podemos estimar q por máxima verosimilitud:

. re1atlva . de pruebas pos1t1vas» .. q~ = x- = «Frecuenc1a = - 95 = O 19 500 Pa o 2: Lo siguiente que necesitamos es poder establecer la relación que hay entre p (parámetro que nos interesa) y q (parámetro que acabamo de estimar). Para esto, basta aplicar la regla de la probabilidad total: q = P(Pos.) = P(Eof)P(Pos. l Enf.) + P(No enf.)P(Pos. l No eof.) = (p )(1) +

+(1- p)(0,04) = 0,04 + 0,96p

~

p=

q-0,04 O, 96

Paso 3: Finalmente, podemos estimar p :

250

SOLUCIONES DE LOS EJERCICIOS

Es decir, alrededor de un 16% de lo caballos están afectados por la peste equina.

e)

Si realmente hay un 20% de caballos afectado por la peste equina, entonces p = 0,20, y q = O 04 + (0,96)(0 20) = 0,2320. Consideramos la variable aleatoria:

T = «Número de pruebas positivas, entre 500» "'B(n = 500; q = 0,2320)

~ N(µ = nq = 116;

A

=>

n

e=~ L..X¡

254

15.

SOLUCIONES DE LOS EJERCICIOS

L(8) = f9(X¡) ... f9(x,.)

= [8 2x¡e-ln¡ ] .. . [8 2xne-ln· ] = e2n(X¡ ... xn)e- BLr; =>

log L(8) = 2nlog9 + Llogx¡ -8 LX;

16.

a)

O=

=>

dlogL(8) = 2n -LX· =O d8 8 '

=> 2n LX¡

E te ejercicio presenta una ligera diferencia a la hora de bu car e] e timador de máxima verosimilitud de 9. Por supuesto, lo que bu camas es el valor de que maximiza la función de verosimilitud, y lo único que tenemos que hacer e escribir esta función con cuidado. La función de verosimilitud es de la forma:

e

si todos los xi son mayores o iguales que 8, es decir, si min x; ~ e (y cero, en ca o contrario). En definitiva, la función de verosimilitud sería:

_

9" 2

L(B) - { X¡

SÍ Ü < 9 ~

2

.. . x,,

O

min X¡

en el re to

e

Observemos que esta función es creciente para los valores de entre O y min xr E to ignifica que derivando no obtendríamos el máximo; naturalmente, no hace ninguna falta derivar ya que, al tratarse de una función creciente, el máximo e encuentra en el extremo derecho del intervalo y, por tanto: (} = mio X ,.. b)

17.

a)

En consecuencia:

íÍe = - 1-

min x;

Para hallar un e tadí tico uficiente T. todo lo que teneroo que hacer e tratar de factorizar la función de vero irrulitud en la forma: L(B) = g(T, 8) h(x1, ••• ,x).

Tenemo :

SOLUCIONES DE LOS EJERCICIOS

255

Por tanto, T = X 1...Xn es un estadístico suficiente.

b)

=>

L(8)=(r(x¡ .. ,x,,) 8-I

logL(8)=nlog8+(8-l)I.logx¡

dlogL(8) = ~ + I.log x. = 0 d8

e)

8

{J = _

=>

1

=>

n I.logx¡

Planteamos la ecuación: E[X]=x

-

=>

x

= E[X] = J.

Jo 8+1

x

8=1-x

18.

a)

Planteamos la ecuación:

J

xfi (x)dx = r\_!__xot 9)-tdx = _l_ 8 Jo 8 8+1

=>

L(8) = fe(x¡) , . .fe(x,,) = ix?18)-1 .. ·ix~l/8)-1 =;,,(xi .. . x,,). a)

A umimo que X - N(µ 1; CY1) y que Y - N(µ2 ; CY2). Queremo estimar u~luJ mediante un intervalo con un nivel de confianza 1 - a= O 80:

I=[

2 / 2 S¡ S2

.

F;,,-1; 11-l; a/2 ,

2 /



s22

)

= (*)

F.11-l ; n - 1; l-a / 2

En e te ca o, tenemos: Fm- 1; 11- l; a/2

= F.2; JO; 0,10 = 2,2841

Fm-1 ; 11- l ; 1- a/2 -F. - - -1- - = , l =0•46 12; 10: 0,90 - F. 2 1878 10; 12; 0,10 Ahora podemos continuar: (*) = ((3)2 /(2.2)2 . (3)2 /(2,2)2) 2,2841 ' 0,46

=(O 81" '

'

4 04) '

265

SOLUCIONES DE LOS EJERCICIOS

Vamos a estimar µ 1 za 1 - a= 0,95:

~

mediante un intervalo con un nivel de confian-

/-(---+ - X

Y-tm +n-2: a /2

~J=(*) SP~;¡+-;¡

En nuestro caso, tenemos:

S =

(m-l)s¡ +(n-l)sJ m+n-2

P

tm+n-2; a /2

= f22; 0,025

= 2, 67

=2,074

Ahora podemos continuar:

(*)=(4-5±(2,074)(2,67)~ l + l J = (- 3,27; 1,27) 13 11 e)

En este apartado sólo necesitamos asumir que X - N(µ1; a 1). Estamos intere ados en estimar µ 1 mediante un intervalo con un nivel de confianza 1 - a= 0,95:

-(-+

¡-

.Jñ

X - tn- 1; a/2 S¡ )

En este ca o, quererno determinar el valor de n para poder estimar µ 1 con un error inferior a O 2 y un nivel de confianza de O 95. Imponemos esta condición, utilizando como valor de s 1 el obtenido en la muestra piloto: «Error en la estimación» = _

s1

- tn- l·a/2

·

e

...¡ n

_

'

- Za 12



c

...¡ n

_

-Zo.025



_

, -1,96

'\I n

3 C

'\I n

Q $

,2

n

~

864,36

Por tanto, necesitamos del orden de 865 observaciones para estimar µ 1 con un error 0,2 y una confianza 0,95.

12. Deseamos estimar p = «Proporción de oveja enfermas», con un nivel de confianza 1 - a= 0,95. Como siempre que queremos estimar una probabi-

266

SOLUCIONES DE LOS EJERCICIOS

lidad o proporción, disponemos de una mue tra aleatoria (X1, • • . , X) de X B(l · p); en e te ca o di ponemos de una muestra preliminar con n = 30. El intervalo de confianza sería:

[=(-+

X - Za 12

~x(I -x)) n

En este caso, lo que queremos es determinar el número de observaciones necesarias para estimar p con un error máximo de 0,03 y una confianza de 0,95. Para esto, efectuamos una estimación previa de p con la muestra prefuninar:

x = p = «Frecuencia relativa de ovejas enfermas» =~=O, 0667. 30

Ahora, podemos plantear la de igualdad corre pondiente: . . «Error en la est:1mac1ón» =Za 12 ~x(l - x) n

=(l 96 )

(O, 0667)(1 - O, 0667)

$

=z0·025 ~ fi(ln- p) =

O 03 => n :2'. 266

l'l

Es decir, necesitaríamos del orden de 270 observaciones para poder estimar p con un error de O 03 y una confianza de 0,95.

13.

En este problema, estamo interesado en e timar el parámetro p = «Proporción de per ona que tienen sensibilidad a la feniltiocarbamina». Como iempre que deseamos estimar una proporción, necesitaremos una muestra aleatoria (X1, • • • ,X,,) de X - B(l; p). El intervalo para e timar p con un nivel de confianza 1 - a e de la fonna:

/=(-+

X - Za/2

~x(I -x)J n

En este caso, lo que queremo es determinar el número de observacione nece aria para estimar p con un error menor que O 05 y una confianza de 0,99. Para e to, efectuamos una estimación previa de p con una mue trapiloto de 60 personas:

267

SOLUCIONES DE LOS EJERCICIOS

x = p = «Frecuencia relativa de per ona con sensibilidad»= 14 = O, 2333. 60

Ahora, podemos plantear la desigualdad corre pondiente:

. . «Error en la estunac16n» = za,2 ~x(l -x) = z0 005 ~ fiCI-.f,) = n · n

= (2,58)

(0,2333)(1-0,2333) s; 0,05 => n

n;? 476,26

Es decir, necesitaríamos del orden de 480 observaciones para poder estimar p con un error de 0,05 y una confianza de O 99.

14.

En este caso, disponemos de una mue tra aleatoria (X¡, . .. ,X) de X= «Contenido en nicotina» - N(µ; a), con n = 5. a)

Intervalo de confianza para estimar el contenido medio de nicotina,µ, con un nivel de confianza 1 - a= 0,90:

I -(s )X + - tn- 1; a/2 .J,i - (*) Calculamos todo lo que necesitamos:

x=.!_ I.x; =21,2; s =2,05 n

tn- 1; a/2

= t4; 0,05

= 2,132

Ahora, podemos continuar:

.Js-5) = (19,25; 23,15)

(*) = ( 21,2±(2,132) 2

b)

Intervalo de confianza para estimar la varianza del contenido en nicotina, Aceptamos H 1 => Podemo con iderar estadísticamente probado (al nivel de significación 0,05) que el nuevo filamento aumenta la duración media de la bombilla . 10.

Disponemos de una muestra aleatoria (X1, ••• , X'"), de tamaño m = 100, de X= «Número de horas que sobreviven con A», y de otra mue tra aleatoria (Y1 ••• , Y), de tamaño n = 100, de Y= «Número de horas que sobreviven con B». 11 Asumiremos que X - N(µ 1; a 1) y que Y - NCµ,_ ; a 2). Además, poderno considerar que las muestras son independientes (los datos no van emparejados). La pregunta que nos hacemos en este apartado .es: ¿Resulta aceptable que 0"1 = 0"2 ? Daremos una re puesta al nivel de significación a = O, 1O. Para e to, plantearnos un contraste de hipótesis de H0 : 0"1 = 0"2 frente aHr: 0"1 0"2 , al nivel de significación a= 0,10. Rechazaremos H0 si se verifica la región de rechazo:

a)

*

R=

{st /s;é [F,n-1; n-1; J-a/2 F,11-J; 11- I: a/2 ]}

En nuestro caso:

s 2 1s 2 = 900000199 = 0 95 2 1 950000/99 ' [F,11- 1-t,-1· I- a/2• F,11- 1· 11- J· a12l = [F99. 99·095 • Fg9. 99·0 os l = 1

[

[

1

1



1 , F99. 99· o 05] F99; 99; o.os ' . ' 1

1,3519

; 1,3519]

=



=[



1

1 F..20; 120: o.os

1



1

F..20: 120; o.os]=

[O 74· 1,35]

Por lo tanto, no e verifica la condición de la región de rechazo y nue tra conclu ión e : Aceptamos H0 => Es razonable aceptar la igualdad de varianza . b)

A las hipóte is asumidas anteriormente añadimos ahora la de que 0"1 = a2• Queremos saber i se puede con iderar estadísticamente probado (al nivel de significación a = 0,05) que µ 1 < ~- Tomaremos esto como hipótesis alternativa, de modo que planteamos un contraste de H0 : µ 1 ~ ~ frente a H 1: µ 1 < ~ . al nivel de i gnificación a = O 05.

277

SOLUCIONES DE LOS EJERCICIOS

Rechazaremos H0 si se verifica la región de rechazo:

En nue tro caso:

x - y =1200-1400 =-200 s

= (m-l)st +(n-l)si = 900000 + 950000 = 96 6614 m+n-2

P

tl98; 0,95

198

'

= -tl98; 0,05 = - t200; 0,05 = -1, 653 1 1 1 1 +- =(-1,653)(96,6614) - + - =-22 60 100 100 100 100 '

t198. 095 sP -

· ·

Por lo tanto, e verifica la condición de la región de rechazo y nuestra conclusión es: Rechazamos H 0 ~ Aceptamos H 1 ~ Podemos considerar estadí ticamente probado (al nivel de ignificación 0,05) que el medicamento Bes más efectivo que el A. 11.

Disponemos de una muestra aleatoria (XI' . .. , Xm) , de tamaño m = 16, de X = «Número de pulsaciones por minuto en hombres», y de otra muestra aleatoria (Y1, ••• , Y), de tamaño n = 16, de Y= «Número de pulsaciones por minuto en mujeres». Para saber en qué dirección debemos trabajar calculamos las medias muestrales, obteniendo:

x = l~: 8 = 78; y= l~: 8 = 80,5 Parece haber un mayor número de pulsacione en las mujeres que en los hombres. Por lo tanto, la pregunta que nos hacemos es: ¿Podemos concluir que el número de pulsaciones es mayor en las mujeres que en los hombre ? Para contestar a esta pregunta llevamos a cabo el siguiente estudio: a)

Asumiremos que X - N(µ 1; 0'1) y que Y - N(µ,_· a2). Ademá , podemos considerar que las muestras on independientes (lo datos no van emparejados).

278

SOLUCIONES DE LOS EJERCICIOS

Antes de contestar a la pregunta esencial del estudio, tenemos que resolver una cuestión auxiliar: ¿Resulta aceptable que a, = a/ Daremos una respuesta al nivel de significación a= O, l O. Para esto, planteamos un contraste de hipótesis de H0 : a 1 = a 2 frente a H 1: a 1 -t:- a 2, al nivel de significación a= 0,10. Rechazaremos H0 si se verifica la región de rechazo: R= {st I Si é

[Fm- l;n- 1; 1- a12,Fm-l;n- l;

a12JJ

En nuestro caso:

st = - 1- ¿,(x; -.x)2 = - 1 -[¿,x¡ - mx2 ] = 15,07 m- 1

m-1

1- L(Y; - y/ =- 1-[L y¡ - n_y2 J=1O, 80 Si =-n-1 n-1 S~ /Si =1,40 [Fm - 1; 11- t;

=[

1-a12,F,,,-,; 11-1 ; a12l = [Pis:

1

Fis: rs; o.os

,Fis: 15:

15;

o,9s,Fis; 15; o.os]=

1 ; 2,4035] = [0,42; 2,40] o.os]=[ 2, 4035

Por lo tanto, no se verifica la condición de la región de rechazo y nuestra conclusión es: Aceptamos H0 => Es razonable aceptar la igualdad de varianzas. b)

Pasamos a la cuestión central del estudio. A las hipótesis asumidas anteriormente añadimos ahora la de que a, = a2• Queremos saber si se puede considerar estadísticamente probado (por ejemplo, al nivel de significación a= 0,05) que µ 1 2 33 (O 625)(1-0 625) 100 ' 100 Número de acierto > 73, 78

=>

En conclusión, podremos afirmar (a un nivel de ignificación O 01) que el alumno sabe más del 50% de la a ignatura, si acjerta al meno 74 pregunta , entre las 100.

19.

a)

El parámetro de interés en este ejercicio e r = «Probabilidad de padecer hepatitis vírica». Sin embargo, puesto que exi te la posibilidad de fal o po itivo y de fal o negativos, nece itamos definir el parámetro auxiliar p = «Probabilidad de dar po itivo». La relación entre r y p se obtiene mediante la regla de la probabilidad total:

SOLUCIONES DE LOS EJERCICIOS

285

p =P(Po itivo) = P(Enfermo)P(PositivolEnfermo) + P(No enfermo)P(PositivolNo Enfermo)= r(0,95) + (1 - r)(0,02) = O 02 + 0,93r.

Las pruebas de detección aplicadas a 800 personas nos proporcionan una muestra aleatoria (X1, •• • ,X) de X - B(l; p), de tamaño n = 800. La pregunta que nos hacemos es: ¿Cuál es el número máximo de pruebas po itivas, entre las 800 para poder afirmar (al nivel de ignificación 0,01) que r < 0,08? Planteada en términos de p, la pregunta sería: ¿Cuál es el número máximo de pruebas positivas, entre las 800, para poder afumar (al nivel de significación 0,01) que p = 0,02 + 0,93r < 0,02 + 0,93(0,08) = 0,094? Para poder contestar a esta pregunta plantearemos un contraste de hipótesis, donde p < 0,094 será la hipótesis alternativa. Es decir, contra tamo H0 : p 2:: 0!094 frente a H 1: p < 0,094, al nivel de significación 0,01. Rechazaremos H0 si se verifica la región de rechazo: b)

R={x-o 094

R = Id

tn- l ;a/2

sd} ,¡;;,

En nuestro caso:

Id - 01 = 12, 8 - 01 = 2, 8 tn - l; a/2

= !9:0,025 = 2,262

s; = - 1- I(d; - d)2 = - 1- [Id;2 -nd2 ] = 28 62 n-1

tn-J· a/2

·

sd r ~n

n-1

-- (2,262) fis,62. r;,:;; -3,83 ~10

No se verifica la condición de la región de rechazo y nuestra conclusión es: Aceptamos H0 ~ Decidimos que las aptirude matemáticas on parecida en hermano y hermana (al nivel de ignificación O 05).

24.

Di ponemo de una muestra aleatoria (X1, • •• , X"'), de tamaño m = 20, de X = «Tiempo de vida de los ratones que no reciben tratamiento», y de otra mue tra aleatoria (Y1, • •• , Y), de tamaño n = 40, de f = «Tiempo de vida de los ratones tratado con la nueva droga». A umimo que X - N(J11; a 1), Y N(µ,_; 0,11 será la hipótesis alternativa. Es decir, contra tamo H 0 : p ~ 0,11 frente a H 1: p > 0,11, al nivel de significación 0,025. Rechazaremos H 0 si se verifica 1a región de rechazo:

R= { x -0,11> Za (O, ll)(ln- O, 11) }

En nuestro ca o:

xZa

0.11 = p - 0,11 = 0,16 - 0,11 =o,o5 (0,11)(1 - 0,11) n

= Zo.o2S

(0,11)(1 - 0,11) n

= l, 96

(0,11)(1- O, 11) 200

= O 04 '

292

SOLUCIONES DE LOS EJERCICIOS

Por lo tanto, se verifica la condición de la región de rechazo, y la conclu ión e : Rechazamos H0 =} Aceptamo H 1 =} Se puede sacar la conclusión (al nivel de significación 0,025) de que el absentismo laboral es mayor en la Comunidad de Madrid que en la Unión Europea.

26.

Di ponemo de una mue tra aleatoria (X1

. •. ,

X) de tamaño m = 10 de X

= «Nivel de colesterol antes de la dieta», y de otra muestra aleatoria (Y1, . ..

Y), de tamaño n = 10, de Y= «Nivel de colesterol despué de la dieta». Las do mue tra no on independiente ya que los dato van emparejados: cada par de datos corresponde al nivel de colesterol que se ha obtenido en un mismo individuo, ante y despué de la dieta. Al tratar e de datos emparejado lo primero que tenemos que hacer e obtener la diferencia de cada par de datos, resultando: -10

6 -12 - 7 4 -16 -15

-3

- 17

15

E to dato con tituyen una mue tra aleatoria (D 1, ••• , D,.), de tamaño n = 10 de D = X - Y. Llamaremos µ 1 al nivel medio de cole terol ante de la dieta, /1i al nivel medio de cole terol de pué de la dieta, y asumiremos que X - Y - N(µ = µ 1 - µ 2 ; a"). Queremo estudiar i re ulta aceptable que µ 1 = tii (al nivel de ignificación O05)· o lo que es igual, queremo ver si no parece aceptable queµ = O (al nivel de ignificación 0,05). Para e tudiar esto, planteamos un contraste de H0 : µ = Ofrente a H 1: µ -:t:- O, al nivel de significación 0,05. Rechazaremos H0 i e verifica la región de rechazo:

sd} R ={Id- -01 > t,,_1:a 12 .¡;;, En nue tro ca o: ld-01=1- 5 51=5,5 t,, _ J; a /2

= !9; 0,025 =2,262

sd= /_I_'i,(d;-d)2 =

i n-1 sd

t11 _ 1. a 12 e =(2,262)

·

vn

- 1- [í.d(- nd2 ] = 10,78 n- 1

10 78 r.n =7,71

vlO

No e verifica la condición de la región de rechazo y nuestra conclu ión e:

293

SOLUCIONES DE LOS EJERCICIOS

Aceptamo H 0 :::::) El oivel medio de cole terol es similar antes y después de la dieta (al oivel de significación 0,05).

27. Estarno interesado en comparar do parámetros: p 1 = «Proporción de pollos que muestran síntomas de contagio durante los 14 primeros días con e] organismo 1» p 2 = «Proporción de pollos que muestran síntomas de contagio durante los 14 primeros días con el organismo 2» Disponemos de una muestra aleatoria (X1, ••• , X), de tamaño m = 200 de X - B(l; p 1), y de otra mue tra aleatoria (Y1, •• • , Y), de tamaño n = 150, de Y - B(l; p 2). Podemos considerar que las muestras son independientes. La pregunta que nos hacemos es: ¿Las proporcione p 1 y p 2 son similares o existe diferencia entre ella (al nivel de significación a= 0,05)?; para contestar a esta pregunta haremos un contraste de H0 : p 1 = p 2 frente a H 1: p 1 :t p2' al nivel de significación a= 0,05. Rechazaremos H0 si se verifica la región de rechazo:

R={IX-Yl> z012 P(l - pc . d _ sien o p

+~) }•

= mx+nY m+n

En nue tro caso:

x =PA1 = 137 =O 685· 200

'

'

Y

=PA2 = 98 = o 653 150

'

p= mx +ny = 0,671 m+n lx - YI = 10,685 - O, 6531 = O, 032 Zo: 12

p(l - p)(_!_ + m

.n!.) =

Zo 02s

·

p(l -

p)(_!_ + m

.!.) = n

(1, 96) (O, 671)(1- O, 671)(-1- + - 1-) =O, 099 200

150

Por lo tanto, no se verifica la condición de rechazo, y la cooclu ión es: Aceptamo H 0 :::::) La virulencia de los dos organismos es similar (al nivel de significación 0,05).

294

SOLUCIONES DE LOS EJERCICIOS

28. En este ejercicio, estamos interesados en el parámetro p = «Proporción de per onas a las que les desaparece el dolor de cabeza en un cuarto de hora con el medicamento». Como siempre que queremos un hacer un contraste sobre una proporción, disponemos de una muestra aleatoria (X,, ... , X,,), de tamaño n = 200, de X - B(l · p). Queremos ver si resulta aceptable la hipótesis de la compañía de que p = 0,90; para esto, recurrimos a un contraste de H0 : p = O 90 frente a H 1: p-:#:- 0,90 (por ejemplo, al nivel de significación a= 0,01). Rechazaremos H0 si se verifica la región de rechazo:

R= { lx - 0,901>za,i (O, 90)(1n- O, 90)} En nuestro caso: l.x -0,901 = lp-0,90I = l~:-0,901= 0,050 (O, 90)(1- O, 90) _ Za12

-

n

Zo.oos

(O, 90)(1- O 90) _ (2 58) (O, 90)(1- O, 90) = O 055 - , ' 200 n

Por lo tanto no se verifica la condición de rechazo, y la conclusión e : Aceptamos H0 => Resulta aceptable (al nivel de significación 0,01) la hipótesis de la compañía.

29.

Estamo intere adosen el parámetro p = «Proporción de cheques sin fondo después de impJantar el i tema de verificación». Como siempre que estamos interesados en w1a proporción, di ponemos de una muestra aleatoria (X1, ... , X,,) de X - B(l; p), de tamaño n = 1124. La pregunta que nos hacerno es: ¿Se puede concluir (al nivel de ignificación a = 0,01) que p < 0,05? Para conte tar a esta pregunta, recurrimos a un contraste de hipótesis, donde p < 0,05 será la hipótesi alternativa. E decir, contrastamos H 0 : p;;:: 0,05 frente a H1 : p < 0,05, al nivel de significación 0,01. Rechazaremos H0 i se verifica la región de rechazo: R = { X - 0,05 No se puede concluir (al nivel de significación 0,01) que e ha reducido la proporción de cheques sin fondos.

30.

Disponemos de una muestra aleatoria (X1 ••• , Xm) de X= «Cantidad de reiduos químicos encontrados en pelícanos jóvenes», de tamaño m = 10, y de otra muestra aleatoria (YI' .. ., Y) de Y= «Cantidad de residuos químicos encontrado en polluelos», de tamaño n = 13. Asumimos que X - N(µl'a1), que Y - N(µ2 0'2), y que las muestras son independientes (ya que los datos no van emparejados). a)

Intervalo de confianza para estimar 07, con un nivel de confianza 1 - a =0,90:

1 = [(m-l)sf 2 Xm- l;a/2

(m-l)sf ) '

= (*)

2

Xni - l;l - a/2

Obtenemos de las tablas: x:, - l;a/2

= x;;0.05 =16,919

x!-t;l-a/2

= xto.95 = 3,325

Tenemos, entonces: ( *) = ((9)(0,017)2 (9)(0,017)2) = (0 0002· o 0008)

16,919

'

3,325

'

' '

Naturalmente, un intervalo de confianza para estimar 0'1 sería J = (0,01; 0,03). En este apartado asumimos, además de la Nonnalidad y la independencia, la igualdad de varianzas. Queremos saber si se puede concluir (al nivel de significación a= 0,05) que µ 1 > ~- Tomaremo esto como lúpótesis alternativa, de modo que planteamos un contraste de H0 : µ 1~ ~ frente a H 1: µ 1 > µ 2, al nivel de significación a= 0,05. Rechazaremos H0 si se verifica la región de rechazo: b)

R={x-y>tm+n-2;asp ~ ~

+;}

296

SOLUCIONES DE LOS EJERCICIOS

En nue tro caso:

x -y = 0,041 - 0,026 = 0,0150 s

=

P

121; 0,os

(m-l)s¡+(n-l)si =O,Ol 2 m+n - 2 = 1,721

t21; 0 ,05sP ~ =(1,721)(0,012) ~ 1~

+ 1~ =0,0087

Por lo tanto, se verifica la condición de la región de rechazo y nuestra conclu ión e : Rechazamo H0 ~ Aceptamos H 1 ~ Concluimo (al nivel de significación 0,05) que la cantidad media de residuos es mayor entre los pelícanos jóvenes que entre los polluelo .

10. 1.

Contrastes x2 Di ponemos de una mue tra aleatoria de n = 300 lanzamiento de un dado. Los posibles resultados de estos lanzamientos on: 1, 2, 3, 4, 5 y 6. Para decidir si el dado e regular o no, llevamo a cabo un contraste de bondad de ajuste, al nivel de significación a= 0,05: H0 : «El dado e regular» (P(l) H1: «El dado e irregular»

=... = P(6) = 1/6)

La tabla de frecuencias observadas y esperadas es:

A.

1

2

3

4

5

6

O.1

43

49

56

45

66

41

e.1

50

50

50

50

50

50

donde las frecuencias esperadas, bajo H0 , han ido calculadas de la guiente forma:

e.1 = nP(A.) =300(1/6) =50. 1 Rechazaremo H0 i e verifica la región de rechazo:

1-

SOLUCIONES DE LOS EJERCICIOS

297

En nuestro caso:

x!-1;a=x;; 0,05 =11,07 '. Por lo tanto, no se verifica la condición de la región de rechazo, y nuestra conclusión es: Aceptamos H 0 ~ Aceptamos que el dado es regular (al nivel de significación 0,05). 2.

Disponemos de una muestra aleatoria de n = 450 observaciones generadas por el programa. Los posibles resultados de estas observaciones·se agrupan en 6 clases:

A1 =(- oo, - 2) A 2 = (- 2, - 1) A 5 = (1, 2) A6 = (2, oo)

A 3 =(- 1, O)

A4 =(O 1)

Para decidir si el programa funciona correctamente o no, llevamos a cabo un contraste de bondad de ajuste, al nivel de significación a= 0,01:

H0: «El programa funciona correctamente (las observaciones proceden de una N(O; l))» H 1: «El programa no funciona correctamente» La tabla de frecuencias observadas y esperadas es:

A 1. O.1 P(A.) 1 e.1

(-oo, - 2) (-2, -1)

(-1, O)

(O, 1)

(1, 2)

(2 oo)

30 80 140 60 30 110 0,0228 O 1359 O 3413 0,3413 O 1359 0,0228 10,26 61,155 153 585 153,585 61 ,155 10,26'

donde las frecuencias esperadas, bajo H0 , han sido calculadas de la siguiente forma:

y lo valores de P(A¡) se han calculado de la forma habitual a partir de la tabla de la N(O; 1). Rechazaremos H 0 si se verifica la región de rechazo:

298

SOLUCIONES DE LOS EJERCICIOS

En nuestro caso:

x:-l;a =x;;0,01 =15,086 Por lo tanto, e verifica la condición de la región de rechazo y nuestra conclusión es: Rechazamos H0 ==> Aceptamos H 1 ==> Podemos afirmar que el programa no funciona correctamente (al nivel de significación 0,01). 3.

Disponemos de una mue tra aleatoria de n = 1000 individuos de una población clasificados en 4 clases:

A, = {Hombre normal} A4 = {Mujer daltónica}

A2 = {Hombre daltónico}

A 3 = {Mujer normal}

Para decidir i el modelo genético e correcto o no, llevamos a cabo un contra te de bondad de ajuste, al ruvel de significación a= 0,05 (por ejemplo):

H0 : «El modelo genético e correcto» H 1: «El modelo genético no es correcto» La tabla de frecuencias observadas y esperadas es: A.1

O.1 P(A.) 1 e.1

{Hombre normal} 442 0,4565 456,5

{Mujer

{Hombre daltónico}

normal}

{Mujer daltónica}

38 0,0435 43,5

514 0,4962 496,2

6 0,0038 3,8

donde las frecuencias esperadas, bajo H0 , han ido calculadas de la siguiente forma: e.1 = nP(A.) = lOOOP(A 1.), 1

y los valores de P(A) e han calculado a partir del modelo genético propuesto, tomando q = 0,087. Rechazaremos H0 si e verifica la región de rechazo:

{I, (

R=

O; - ef > X2 e. 1

k-J - r ; a

}

299

SOLUCIONES DE LOS EJERCICIOS

En nuestro caso:

Xi-1-r;a = Xi;o,os

=5,991

Por lo tanto, no se verifica la condición de la región de rechazo, y nuestra conclusión es: Aceptamos H0 => Podemos aceptar el modelo genético (al nivel de significación 0,05).

4. Disponemos de una muestra aleatoria de n = 120 minutos, en los cuales registramos el número de llamadas que se han producido. El número de llamadas por minuto lo clasificamos en las siguientes clases: {O}

{1}

{2}

{3}

{4}

{~5}

Las dos últimas clases las hemos agrupado para evitar frecuencias demasiado bajas. Para decidir si el número de llamadas por minuto sigue una distribución de Poisson, llevamos a cabo un contraste de bondad de ajuste, al nivel de significación a= 0,05 (por ejemplo):

H0 : X= «Número de llamadas por minuto» - Poisson H 1: X= «Número de llamadas por minuto» no sigue una Poisson La tabla de frecuencias observadas y esperadas es: A.

{O}

O. ' P(A¡) e.1

6 0,0743 8,92

{l}

{2}

{3}

{4}

{~ 5}

18 32 17 12 35 0,1931 0,2510 0,2176 0,1414 0,1226 23,17 30,12 26,11 16,97 14,71

donde las frecuencias esperadas bajo H0 , han sido calculadas de la siguiente forma: e.= nP(A.) = 120P(A.), 1 l l y los valores de P(A) se han calcula~o a partir de la tabla de la distribución de Poisson, estimando ít mediante ,l = x = 2,6.

300

SOLUCIONES DE LOS EJERCICIOS

Rechazaremos H0 si se verifica la región de rechazo:

{r (

R=

O; - e¡)2 > X2 e.

k- 1- r ; a

}

' En nuestro caso:

xt-1-ra == xi-o ' . ' 05 =9,488 Por lo tanto, no e verifica la condición de la región de rechazo, y nuestra conclusión es: Aceptamo H0 ~ Podemos aceptar que el número de llamadas por minuto igue una distribución de Poisson (al nivel de significación 0,05).

S.

Disponemo de una muestra aleatoria de 1000 hombres y de otra muestra aleatoria de 1000 mujere , clasificada por u preferencia obre los modelos A , By C. EJ número total de dato es n = 2000. Para decidir si las preferencias en las do poblaciones son homogéneas, plante.amo un contraste de homogeneidad, al nivel de igni:ficación a= 0,01: H 0 : «La preferencias on homogéneas» H1: «Las preferencias no on homogénea »

La tabla de frecuencia ob ervada e :

Mujere Hombres

A

B

e

340 350

400 270

260 380

La frecuencia e peradas se calculan como

obteniéndo e la iguiente tabla de frecuencias esperadas: e ..

A

B

C

Mujeres Hombre

345 345

335 335

320 320

IJ

301

SOLUCIONES DE LOS EJERCICIOS

Rechazaremos H0 si se verifica la región de rechazo:

R ={ L¡Lj

(O.. -e .. ) 2 IJ

IJ

e;j

2

> X ck-l)(p -1); a

}

En nuestro caso:

oJ

L ; L j (Oij- ei)2 =L¡L j _n=47,87 eij eij

Xt-1> Aceptamos H 1 ==> Podemos concluir que no son homogéneas las preferencia entre hombres y mujeres (al nivel de significación 0,01).

6. a)

Di ponemos de una muestra aleatoria de 353 individuo de la comunidad 1 y de otra mue tra aleatoria de 364 i,ndividuos de la comunidad 2, clasificadas por sus grupos sanguíneo . El número total de datos e n = 353 + 364 = 717.

Para decidir si la distribución de lo grupos sanguíneos es homogénea en las dos comunidades, planteamos un contraste de homogeneidad, al nivel de significación a= 0,05 (por ejemplo):

HD: Aceptamos H 1 => Podemos concluir que la di tribución de los grupos sanguíneos no es homogénea en las dos comunidades (al nivel de significación 0,05). b)

En este apartado vamos a considerar una muestra aleatoria den= 353 individuos de una población clasificados en 4 clases: O, A, By AB.

Para decidir i el modelo genético es correcto o no, llevamos a cabo un contraste de bondad de ajuste, al nivel de significación a= 0,05 (por ejemplo):

H0 : «El modelo genético es correcto» H1: «El modelo genético no es correcto» La tabla de frecuencias observadas y esperadas e :

A. O.1

P(A) e.1

o

A

B

AB

121 120 79 33 0,3367 0,3469 0,2310 0,0854 118,86

122,46

81,54

30,15

SOLUCIONES DE LOS EJERCICIOS

303

donde las frecuencias esperadas, bajo H 0, han sido calculadas de la siguiente forma: e.= nP(A.) = 353P(A.), J 1 1 y los valores de P(A) se han calculado a partir de] modelo genético propuesto, tomando p =0,2465 y q =O, 1732.

Rechazaremos H0 si se verifica la región de rechazo:

En nuestro caso:

¿(O¡-e¡)2 =Í,O( -n=043 e;

e;

xL-,;a = X~0 ,05 = 3,841 Por lo tanto, no se verifica la condición de la región de rechazo, y nuestra conclusión es: Aceptamos H 0 => Podemos aceptar el modelo genético (al nivel de ignificación 0,05). 7.

a)

Disponemos de una muestra aleatoria (XI' . .. , Xm), de tamaño m = 8, de X= Decidimos que el número de horas perilida e diferente en lo dos niveles profe ionale (al njvel de significación 0,05). b)

En este caso disponemos de una muestra aleatoria (X , .. . X), de tamaño n = 8, de X= «Número de horas perdidas en el ruvel A antes del plan de prevención», y de otra muestra aleatoria (T 1, ••• , T,,), de tamaño n = 8, de T = «Número de horas perdidas en el nivel A de pué del plan de prevención». Se trata de dos muestras de datos emparejados (no independiente ) ya que cada par de dato corre ponde al mismo obrero, y hay que recurrir a hallar las diferencia de cada par de datos: 16,1 7,9

9,1

21

1,7 - 2,2

- 19,3

- 85

Por lo tanto, disponemos de una muestra aleatoria de diferencia (D 1, •.• , D), de tamaño n = 8, de D = X - T - N(µ =µ 1 - ~; a), siendo µ 1 el número medio de horas perdidas antes del plan de prevención y ~ el número medio de horas perdida de pués del plan de preveoción. Queremos saber si hay ufi.ciente evidencia e tadí tica (al nivel a= 0,05) para afirmar queµ= µ t - ~ > O. Tomaremo esto como lúpótesi alternativa, de modo que planteamos un contraste de hipótesi de H0 : µ$;O frente a H1: µ > O, al nivel a= 0,05. Rechazaremo H0 i se verifica la región de rechazo:

{-

R = d -O> tn- l;a

sd} .Jii

SOLUCIONES DE LOS EJERCICIOS

305

En nuestro caso:

J =3,225 tn - 1; a

2

sd

= t 1; 0,05 = l, 895

1

-

1

2

2

-2

= - I ( d1 -d) = - [ I d1 -nd ]=173,53 n-l n-l

tn-l ; a

.!.L ,¡¡;, = (1•895) .J173 .Js, 53 = 8•83

No se verifica la condición de la región de rechazo y nuestra conclusión es: Aceptamos H0 => No podemos concluir que el plan de prevención ha resultado efectivo (al nivel de significación 0,05). e)

Disponemos de una muestra aleatoria den= 100 días, en los cuales registramos el número de accidentes que se han producido. El número de accidentes diarios lo clasificamos en las siguientes clases:

{O}

{l}

{;;;:2}

Las tres últimas clases las hemos agrupado para evitar frecuencias demasiado bajas. Para decidir i el número de accidentes diarios sigue una distribución de Poisson, llevamos a cabo un contraste de bondad de ajuste, al nivel de significación a= 0,05 (por ejemplo): H0 : X= «Número de accidentes diarios» - Poisson H ,: X= «Número de accidentes diarios» no sigue una Pois on La tabla de frecuencia ob ervada y esperadas es:

A 1.

{O}

O.r P(A r.) e.r

57 0,5488 54,88

{ 1}

{;;;: 2}

30 13 0,3293 0,1219 32,93 12,19

donde las frecuencias esperadas, bajo H0, han sido calculadas de la siguiente forma: e., = nP(A.) = IOOP(A.), 1 r

y los valores de P(A,) se han calcul~do a partir de la tabla de la distribución de Poi on, estimando A. mediante A. = x = 0,6.

306

SOLUCIONES DE LOS EJERCICIOS

Rechazaremos H0 si se verifica la región de rechazo:

{r (

R=

O; - e, )2 > X2 } e. k-1- r ; a 1

En nuestro caso:

x:-1-,;a= X~o.os = 3,841 Por lo tanto, no e verifica la condición de la región de rechazo, y nuestra conclusión es: Aceptamos H0 ~ Podemos aceptar que el número de accidentes diarios sigue una distribución de Poisson (al nivel de significación 0,05). 8.

Di ponemo de una muestra aleatoria de n = 600 sorteos. Los posibles reultado de e tos sorteos los agrupamos en tres clases, de acuerdo con la información que tenemos: A 1 = {Premio importante}

A 2 = {Premio de consolación}

A 3 = {Nada}

Para decidir si los orteos e ajustan a lo que dice el feriante, llevamos a cabo un contraste de bondad de ajuste, al nivel de significación a= 0,05:

H0 : «Lo sorteos se ajustan a lo que dice el feriante» H,: «Hace trampa» La tabla de frecuencia ob ervadas y esperadas es:

A 1. 01 P(A.) 1

e.1

Premio importante

Premio de consolación

Nada

6 5/200 15

160 45/200 135

434 150/200 450

donde las frecuencias esperadas, bajo H0 , han sido calculadas de la siguiente forma: e.1 = nP(A 1.) = 600P(A.), 1

y las P(A1) e obtienen a partir de lo que dice e] feriante.

307

SOLUCIONES DE LOS EJERCICIOS

Rechazaremos H 0 si se verifica la región de rechazo:

R= { L(O¡-e¡)2 >X2 e.

k-l ;a

}

1

En nuestro caso:

Xi-t;a = Xi;o.os =5,991 Por lo tanto, se verifica la condición de la región de rechazo, y nuestra conclusión es: Rechazamos H0 => Aceptamos H 1 => Podemos afirmar que hace trampa (al nivel de significación 0,05).

9. a)

Recordemos que la función de verosimilitud es la probabilidad, bajo los diferentes valores del parámetro p, de los resultados muestrales obtenidos: L(p) = P(Resultados muestrales obtenidos)=

P(lO mo cas de tipo L, 50 moscas de tipo M y 40 moscas de tipo N) =

(p2)1°(q2)5º (2pq)40 = 240 p 60ql40 = 240 p60 (1- p )140 logL(p)= 40log2+60 logp+ 140log(l- p) dlogL( p) _ 60 _ 140 --O

dp

p

=>

1- p

~

60

=>

=>. O3

P = 200 = '

b)

Disponemos de una muestra aleatoria de n= 100 moscas clasificadas en 3 clases: L, M y N. Para decidir si el modelo teórico es correcto o no, llevamos a cabo un contraste de bondad de ajuste, al nivel de significación a= 0,05:

H 0 : «El modelo teórico es correcto»

H 1: «El modelo teórico no es correcto» La tabla de frecuencias ob ervadas y esperadas es:

A.

L

M

N

O.1

10 0,09 9

50 0,49 49

40 042 42

P(A)

e,

308

SOLUCIONES DE LOS EJERCICIOS

donde la frecuencias esperadas, bajo H0 , han sido calculada de la siguiente forma: e.= nP(A.) = IOOP(A.), 1 1 1

y lo valore de P(A) se han calculado a partir del modelo teórico propuesto, tomando p = 0,3 . Recbazaremo H0 si se verifica la región de rechazo:

{I. (

R=

O¡ - e; )2 > %2 e.

. }

k- 1- r ,a

1

En nuestro caso:

xL-ra. = Xt.oos '. =3,841 Por lo tanto, no se verifica la condición de la región de rechazo, y nue tra conclusión e : Aceptamo H0 => Podemos aceptar el modelo teórico (al nivel de significación 0,05).

10. Disponemos de una muestra aleatoria de n = 1000 habitante clasificado egún dos característica : «Número de dosis recibidas» y «Protección frente a la gripe». Para decidir i exi te dependencia entre e ta dos caracterí ticas, planteamos un contraste de independencia, al nivel de significación a= 0,05:

H0 : Aceptamos H 1 => Podemos concluir que existe dependencia entre el número de dosis recibidas y la protección frente a la gripe (al nivel de significación 0,05). 11.

Disponemos de una muestra aleatoria de 50 zonas en un monte y de otra muestra aleatoria de 40 zonas en otro monte, clasificadas en tres clases: menos de 6 especies diferentes, entre 6 y 8 especies y más de 8 especies. El número total de datos es n = 90. Para decidir si los dos montes son similares en lo que se refiere a su biodiversidad, planteamos un contraste de homogeneidad, al nivel de significación a= 0,10:

H0 : «Son similares en su biodiversidad» H 1: «No son similares en su biodiversidad» La tabla de frecuencias observadas es:

O.

Menos de 6

Entre 6 y 8

Má de 8

Monte 1 Monte 2

20 12

17 20

13 8

1

310

SOLUCIONES DE LOS EJERCICIOS

Las frecuencia esperadas se calculan como

obteniéndose la siguiente tabla de frecuencia esperadas: e ..

Menos de6

Entre 6 y 8

Más de 8

Monte 1 Monte 2

17,78 14,22

20,56 16,44

11,67 9,33

'

Rechazaremos H0 i se verifica la región de rechazo: R = { L; Li

(0. . -e .. )2 2 } 11 IJ e,j > X (k-l J(p-l ); a

En nue tro ca o:

X fk- 1)(p- 1J:a

=

Xi;o.10 = 4,605

Por lo tanto, no e verifica la condición de la región de rechazo y nuestra conclusión es: Aceptamos H0 => Podemo aceptar que lo do montes son bastantes similares en lo que se refiere a su biodiversidad (al nivel de significación 0,10).

12.

Disponemo de una muestra aleatoria den= 297 paciente de SIDA cla ificado según dos características: «Posible presencia de anticuerpos TAT» y «Po ible sarcoma de Kaposi». Para decidir si existe relación entre e ta dos caracteásticas, planteamos un contraste de independencia al nivel de ignificación a= 0,05: H0 : «Las do características son independientes» H 1: «Existe a ociación entre las dos características» La tabla de frecuencias observadas es:

O ..

Sarcoma

No sarcoma

Con anticuerpos TAT Sin anticuerpos TAT

10 68

21 198

SOLUCIONES DE LOS EJERCICIOS

311

Las frecuencias esperadas se calculan como

obteniéndose la siguiente tabla de frecuencias esperadas:

e ..

Sarcoma

No sarcoma

Con anticuerpos TAT Sin anticuerpos TAT

8,14 69,86

22,86 196,14

Rechazaremos H0 si se verifica la región de rechazo: R = { L;L¡

(O .. - e..) 2 11

''

e¡¡

2

> X (k-l)(p - 1); a

}

En nuestro caso:

x fk- l)(p-l);a

=

x f

o.os = 3,841

Por lo tanto, no se verifica la condición de la región de rechazo y nue tra conclu ión es: Aceptamos H0 =} No podemos afirmar que existe asociación entre las dos características (al nivel de significación 0,01).

13. Disponemos de una muestra aleatoria de n = 400 personas clasificadas según dos características: «Nivel educativo» y Aceptamos H, => Podemos concluir que existe relación entre el nivel educativo y el nivel de con umo (al nivel de significación 0,01).

14.

Disponemos de una muestra aleatoria de n = 200 observaciones generadas con Statgraphics. Los po ibles re ultados de estas observaciones son: O, 1, 2, ... Para decidir si la generación de números aleatorios ha funcionado correctamente o no, llevamos a cabo un contraste de bondad de ajuste, al nivel de significación a= 0,10: H 0 : «Lo datos proceden de una Poi son (A.= 2)» H 1: «Los datos no proceden de una Poisson (A.= 2)»

313

SOLUCION ES DE LOS EJERCICIOS

La tabla de frecuencias observadas y esperadas es:

A.

O; e.1

o

1

28 49 27,06 54,14

2

3

4

51 54,14

34 36,08

28 18,04

5

~6

5 7,22

5 3,32

donde las frecuencias esperadas, bajo H 0 , han sido calculadas de la siguiente forma:

e.= nP(A.) =200P(A 1.), 1 1 y los valores de P(A) se han obtenido de las tablas de la distribución de Poisson. Rechazaremos H0 si se verifica la región de rechazo: R=

{I, (

O; - e¡)2 > X2 } e. k- l;a 1

En nue tro caso:

x;-l;a = x:;0,10 = 10 645 Por lo tanto, no se verifica la condición de la región de rechazo y nuestra conclusión es: Aceptamos H0 ~ Aceptamos que la generación de número aleatorio ha funcionado correctamente (al nivel de significación 0,10).

15. En lo do primeros apartados, di ponemo de una muestra aleatoria (X1, ••• , X,), de tamaño m = 25, de X= «Contenido en proteínas en la raza A», y de otra muestra aleatoria (Y1, .. . , Y), de tamaño n = 25, de Y= «Contenido en proteínas en la raza B». a)

A umiremo que X - N(µ 1; a 1) y que Y - N(µ2 ; a2 ). Además podemos considerar que las m uestras on independientes (los datos no van emparejados).

La pregunta que no hacemos en este apartado e : ¿Resulta aceptable que a 1 = a2? Daremos una respuesta al nivel de significación a= 0,02. Para e to, planteamos un contraste de hipótesis de H 0 : a 1 = a2 frente a H 1: a1 -:t a-2, al nivel de significación a= 0,02. Rechazaremo H 0 i e verifica la región de rechazo:

R = {st Is; ~ [Fm- t; n- 1; 1- a12. F,n- 1;n-1;a12 ]}

314

SOLUCIONES DE LOS EJERCICIOS

En nuestro caso:

s¡ /s~ = 4/ 4,4063 = 0,91 [F,,,_ 1;n-1; 1-a12.Fm- 1;n- 1; a121 = [F24;24; ü,99• f;4;24;o.oil

=[ F.

l

, f;4;24; o.o,]=

24;24;0,0 I

[

l ; 2,6591] 2,6591

~ [0,38; 2,66]

Por lo tanto, no e verifica la condición de la región de rechazo y nuestra conclusión es: Aceptamos H0 b)

~

Es razonable aceptar la igualdad de varianzas.

A las hipótesi asuoúdas anteriormente añadimos ahora la de que cr1 = cr2 . Queremos saber si resulta aceptable que el contenido medio de proteínas en las dos razas es el mismo (al nivel de significación a= 0,10). Planteamos un contraste de H 0 : µ 1 = Ji.-¿ frente a H 1: µ, -:t= Ji.-¿, al rúvel de significación a= O, 10. Rechazaremos H0 si e verifica la región de rechazo:

En nuestro caso: l.x- yl= 114- 14,51= O 5

s P

=

(m-l)st+(n-l)si m+n-2

t48;0,05 = t50;0.05

= 2 , 05

= 1,676

Por lo tanto, no se verifica la condición de la región de rechazo y nuestra conclu ión es: Aceptamos H0 ~ Re ulta aceptable (al nivel de significación 0,10) que el contenido medio de proteínas e parecido en las dos razas.

315

SOLUCIONES DE LOS EJERCICIOS

e)

En este apartado, disponemos de una muestra aleatoria de 79 animales de raza A, y de otra muestra aleatoria de 102 animales de raza B, clasificados en cinco clases atendiendo a su contenido en proteínas: muy bajo, bajo, medio, alto y muy alto. El número total de datos es n = 181.

Para decidir si las dos razas son similares en lo que se refiere a su contenido en proteínas, planteamos un contraste de homogeneidad, al nivel de significación a= 0,01 :

H0 : «Son similares en su contenido en proteínas» H 1: «No son similares en su contenido en proteínas» La tabla de frecuencias observadas es:

Muy bajo Bajo

O .. 1

7 10

RazaA RazaB

Medio

Alto

Muy alto

32 40

18 20

6 12

16 20

Las frecuencias esperadas se calculan como

e.. 11

(I; Oij)(Ij Oij) =--~~-n

obteniéndose la siguiente tabla de frecuencias esperadas: e1..

Muy bajo

Bajo

Medio

Alto

Muy alto

Raza A RazaB

7,4 199 9,5801

15,7127 20,2873

31,4254 40,5746

16,5856 21,4144

7,8564 10,1436

Rechazaremos H0 si se verifica la región de rechazo:

R = {L¡L j

(o. - e··11 )2 IJ



En nuestro caso:

X [k-!)Cp-I);a

2

> X (k- l)(p- l ); a

= x¡;o.o1 = 13,28

}

SOLUCIONES DE LOS EJERCICIOS

316

Por lo tanto no se verifica la condición de la región de rechazo y nuestra conclusión e : Aceptamos H0 =} Podemos aceptar que las dos razas son homogéneas en u contenido en proteínas (al nivel de ignificación 0,01).

16.

Disponemos de 3 muestra aleatoria (con 200 dato cada una) obre lo reultados de la germinación con 3 producto diferente . El número total de datos es n = 600. Para decidir i los porcentaje de germinación on lo mi mos (es decir, son homogéneos) con los tres productos, planteamos un contraste de homogeneidad, al nivel de significación a= 0,05:

H0 : «Los porcentajes de germinación son homogéneos» H,: «Lo porcentajes de germinación no son homogéneo » La tabla de frecuencias observadas es:

O;

Germinadas No germinadas 190 170 180

A B

e La frecuencia e pecada

10

30 20

e calculan como

obteniéodo e la siguiente tabla de frecuencias esperadas: Germinadas No germinada

er

1O

A B

e Rechazaremos H0

20 20 20

180 180 1

e verifica la región de rechazo:

En nue tro ca o:

Xtk-1Jcp-1J; a = Xi; o.os

= 5,991

SOLUCIONES DE LOS EJERCICIOS

317

Por lo tanto, se verifica la condición de la región de rechazo y nuestra conclusión es: Rechazamos H0 => Aceptamos H1 => Podemos concluir que los porcentaje de germinación no son los mismos con los tres productos (al nivel de significación 0,05).

17. Disponemos de 3 muestras aleatorias (con 104, 102 y 69 datos, respectivamente) sobre las calificaciones de los alumnos de tre grupos de una a ignatura. En total, disponemos den= 275 datos. Para decidir si los tres grupos son homogéneos en sus calificaciones, planteamos un contraste de homogeneidad al nivel de significación a= 0,05: H0 : «Los grupos son homogéneos» H 1: «Los grupos no son homogéneos» La tabla de frecuencias observadas es: Ol..

De0a4

De4a7

De 7 a 10

Grupo 1 Grupo 2 Grupo 3

34 40 28

49 42 31

21 20 10

Las frecuencias e perada

e calculan como

obteniéndose la siguiente tabla de frecuencias esperadas:

Grupo 1 Grupo 2 Grupo 3

De0a4

De 4a7

De 7 a 10

38,57 37,83 25,59

46,14 45,25 30,61

19,29 18,92 12.80

Rechazaremos H0 si se verifica la región de rechazo:

R = { L.¡L j

(0..- e..)1 IJ

IJ

eij

2

> X cH)(p-1): a

}

318

SOLUCIONES DE LOS EJERCICIOS

En nuestro caso:

x fk- l )(p-l );a

= x i; 0,05 =9,488

Por lo tanto, no se verifica la condición de la región de rechazo y nuestra conclusión es: Aceptamos H0 :::::} Podemos aceptar que los tres grupos son homogéneos en sus calificaciones (al nivel de significación 0,05).

18. a) Disponemo de una muestra aleatoria den= 78 cm.3, en los cuales registramos el número de virus obtenidos. El número de virus obtenidos lo clasificamos en las siguientes clases: {O}

{l}

{~ 2}

Las tres últimas clases las hemos agrupado para evitar frecuencias demasiado bajas. Para decidir si el número de virus por cm. 3 sigue una distribución de Poisson, llevamo a cabo un contra te de bondad de ajuste, al nivel de significación a= 0,01: H0 : X= «Número de virus por cm.3>> - Poisson H 1: X= «Número de viru por cm.3>>no igue una Poisson La tabla de frecuencias observada y e peradas es:

A.

{O}

O; P(A.) e.1

'

{~ 2}

{1}

45 24 0,5488 · 0,3293 42 81 25,69

9 0,1219 9 51

donde la frecuencias esperadas, bajo H 0, han sido calculadas de la siguiente forma: e.= nP(A.) = 78P(A.), 1

1

1

y los valores de P(A) se han calcul~do a partir de la tabla de la distribución de Poi on, estimando X mediante X =x =0,58 = 0,6.

319

SOLUCIONES DE LOS EJERCICIOS

Rechazaremos H 0 si se verifica la región de rechazo:

R={L(O¡-e¡)2 >X2 e.

k- l- r;a

}

1

En nuestro caso:

Xi- t- r;a

= X~o,01 = 6,635

Por lo tanto, no se verifica la condición de la región de rechazo, y nuestra conclusión es: Aceptamos H0 => Podemos aceptar que el número de virus por cm. 3 sigue una distribución de Poisson (al nivel de significación 0,01). Di ponemos de una muestra aleatoria (X1, •• • , X) de X= «Número de virus por cm. 3» - Poisson(Á), con n = 78 (muestra grande). Queremos estimar ..l, con un nivel de confianza 1 - a= 0,95. El intervalo de confianza es:

b)

I =(x±za 12 --/xl n) =(*) En nuestro caso, tenemos:

x= 0,58 Za 12

= Zo.ozs = l, 96

Por tanto, tenemos: (*) = (0, 58± 1,96--/0,58/78) = (0,41; O, 75)

19. Disponemos de una muestra aleatoria den= 100 individuos, y anotamos el número de defectos congénitos de cada uno. El número de defectos congénitos lo cla i:ficamos en las siguientes clases: {O}

{1}

{~2}

Las cuatro últimas clases las hemos agrupado para evitar :frecuencias demasiado bajas. Para decidir si el número de defectos congénitos sigue una distribución de Poisson, Uevamo a cabo un contraste de bondad de ajuste, al nivel de significación a= 0,01 (por ejemplo):

320

SOLUCIONES DE LOS EJERCICIOS

H0 : X = «Número de defectos congénitos» - Poisson H 1: X= «Número de defectos congénitos» no sigue una Pois on La tabla de frecuencias observadas y esperadas es: A.

{O}

{ 1}

84 0,7408 74,08

9 0,2222 22,22

{~ 2} 7

00370 3,70

donde la frecuencias esperadas, bajo H0 , han sido calculadas de la siguiente forma: e.1 =nP(A 1.) = lOOP(A 1.), y los valores de P(A.) se han calculado a partir de la tabla de la distribución 1 de Poisson, estimando A. mediante A. = x = 0,3. Rechazaremo H0 i se verifica la región de rechazo: h

R={~(O; -e,.)2 >X2 . } ,L., lc- 1- r.a e,. En nue tro ca o:

xL-r;a= X~o.01 = 6,635 Por lo tanto, se verifica la condición de la región de rechazo, y nue tra conclu ión es: Rechazamo H0 => Aceptamos H 1 => Podemos afirmar que el número de defectos congénitos no se ajusta a una distribución de Poi on (al nivel de ignificación 0,01).

20.

Di ponemo de una muestra aleatoria de n = 100 lámina de madera. Los posibles espesores de e tas láminas se agrupan en 4 cla e :

A, = «Inferior a 9» A2 = «Entre 9 y 10» A3 = «Entre 10 y 11» A 4 = «Superiora 11 »

SOLUCIONES DE LOS EJERCICIOS

321

Para decidir si la variable aleatoria X = «Espesor» se ajusta a una distribución Normal, llevamos a cabo un contraste de bondad de ajuste, al nivel de significación a= 0,05: H 0 : «X - Normal» H 1: «X no sigue una Normal» La tabla de frecuencias observadas y esperadas es:

A.

oi

«Menor que 9» «Entre 9 y 10» «Entre 10 y 11» «Superior a 11»

P(A.) 1 e.1

20 0,2514 25,14

25 0,2784 27,84

38 0,3627 36,27

17 0,1075 10 75

donde las frecuencias esperadas, bajo H 0, han sido calculadas de la siguiente forma: e.= nP(A.) 1 1

= lOOP(A.), 1

y los valores de P(A.) se han calculado de la forma habitual a partir de la tabla f de la Normal, usando para lo parámetros las estimacionesµ= 9,7 y a= 1,05. Rechazaremos H0 si se verifica la región de rechazo: A

R={L. (O,. -e.e¡)2 > X2

k- 1- r ; a

A

}

1

En nuestro caso:

Xf- 1-,:a = X~o.o5 = 3,841 Por lo tanto, e verifica la condición de la región de rechazo, y nuestra conclusión es: Rechazamos H0 ~ Aceptamo H 1 ~ Podemos afirmar que el espesor no se ajusta a una distribución Normal (al nivel de ignificación 0,05).

21. a)

Disponemos de una muestra aleatoria de n = 200 partes, en lo cuales registramos el número de accidentes por día. El número de accidente diarios lo clasificamos en la iguieotes clases: {O}

{l}

{2}

{3}

(~4}

SOLUCIONES DE LOS EJERCICIOS

322

Las tres últimas clases las hemos agrupado para evitar frecuencias demasiado bajas. Para decidir si el número de accidentes diarios sigue una distribución de Poisson llevamos a cabo un contraste de bondad de ajuste al nivel de significación a= O, 10: H 0 : X= «Número de accidentes diarios» - Poisson H 1: X= «Número de accidentes diarios» no sigue una Poisson La tabla de frecuencias observadas y esperadas es:

A.

O¡ P(A 1.) e.1

{O}

{2}

{ 1}

58 75 0,3012 0,3614 72,28 60,24

{3}

44 18 0,2169 0,0867 17,34 43,38

{2::4} 5 0,0338 6,76

donde las frecuencias esperadas, bajo H 0 , han sido calculadas de la siguiente forma: e.t = nP(A.) = 200P(A.), t 1

y los valores de P(A¡) se han calcula__do a partir de la tab]a de la di tribución de Poisson, estimando i mediante A = x = 1,2. Rechazaremos H0 si se verifica la región de rechazo:

R ={"' (O¡ - e¡)2 > X2k-1-r; cr } .t.J e;

En nuestro caso:

x t - 1- r;a

= x J:0,10 = 6,251

Por lo tanto, no se verifica la condición de la región de rechazo, y nuestra conclusión es: Aceptamo H0 ~ Podemo aceptar que el número de accidentes diarios sigue una di tribución de Poisson (al nivel de significación 0,10). b)

Disponemo de una mue tra aleatoria (X1, ••• X) de X= «Número de accidentes diarios» - Pois on(A) con n = 200 (muestra grande).

323

SOLUCIONES DE LOS EJERCICIOS

Queremos saber si hay suficiente evidencia estadística para afirmar que

A< 1,35. Lo tomaremos como hipótesis alternativa y efectuaremos un contraste de H0: A 2:: 1,35 frente a H,: A. Xck- l )(p-l);a

}

En nuestro caso:

X t-,> Aceptamos H 1 => Podemos concluir que exi te relación entre tener tos aguda y padecer tos ferina (al nivel de significación 0,01).

11. Regresión y diseño de experimentos l.

a)

En primer lugar queremos ajustar un modelo de regre ión lineal imple y= S0 + S1x, donde: A

/30 = a= y-

cov vr

X, Y .x; /J, = b cov =-A

----5.1.

vx

En nue tro caso:

x = 1,46; vr

y= 1,02

= !rr. x;- nx2 ] = 0,029 n

325

SOLUCIONES DE LOS EJERCICIOS

vY = .!.[¿y¡ - ny2] = 0,054 n

- nxy] = -0, 038 . = .!.[LX;Y; n

COY x Y

Por tanto: A

A

y=/30 +/31x=l,02-

b)

-o' 038 (1,46)+ -O' 038 x=2 93-1,31x 0,029

0,029

Queremos contrastar H0 : /31 ~ O frente a H 1: /31

¡

F:n-l; n- m;a

n- m

En nuestro caso, tenemos: ~m -

X .. --

-

L,i= I lt¡X¡

n

I.;: 1 n;(x;.- x_.)2 = 368,80 I.;: 1 I,1~1(x;¡ - x;) = I;: 1(n; 2

l)s(

· --

3 14

'

= 1669,17

La tabla de análi i de la varianza queda de la siguiente forma:

Fuente de variación

Suma de cuadrados

G.l.

Entre grupo Dentro de lo grupo Total

368,80 1.669,17 2.037,97

5 2.094 2.099

Cuadrado medio 73,76 0,7971

Por otro lado: f;,,_J; 11- m;a

= F;;2094;0,0I =

F;;= ; 0,01

= 3,0173

Estadístico F= 92,54

329

SOLUCIONES DE LOS EJERCICIOS

Por lo tanto, se cumple la condición de la región de rechazo, y la conclusión es: Rechazamo H 0 => Aceptamos H , => Podemos concluir que el hecho de ser fumador en mayor o menor grado afecta a la capacidad pulmonar (al nivel de significación 0,01).

5.

a)

Codificando los años como se sugiere, los datos quedan de la siguiente forma:

o

X

1

3

2

4

5

6

26 3 26,1 24,7 22,8 22,1 20,4

Y

7

19,0 17,7

8

9

19,3

17,5

En primer lugar queremos ajustar un modelo de regresión lineal imple

y=

S + S,x, donde: 0

11. _ /JI

_

COV x, y

- b- -

-

Vx

En nuestro caso:

x=4,5; y= 21,59 vx = .!..[L x¡- nx 2 ] = 8,25 n

Vy

= .!..u::. y¡- ny 2 ]= 9,91 n

COV x Y=



.!..r:r. X ;Y; n

nxy] = -8, 74

Por tanto:

" " -8 74 -8 74 y= /30 +/31x =21,59- - ' - (4,5)+ - ' -x= 26,36 - 1,06x · 8,25 8,25 b)

En e te apartado, estudiaremos si hay suficiente evidencia estadística para afirmar que /31 < O. Tomaremos esto como hipótesis alternativa, de modo que contrastaremos H 0 : /31 ~ O frente a H 1: /31 F,n- 1:n-m;a

SOLUCIONES DE LOS EJERCICIOS

333

r::. n¡(X¡_- x.Y = 10, 93 r:1 L1~1(X¡¡ -

r:1(n¡-l)s; = 1785,17

X¡/=

La tabla de análisis de la varianza queda de la siguiente forma:

Fuente de variación

Suma de cuadrados

G.l.

Entre grupos Dentro de los grupos Total

10,93 1.785,17 1.796,10

3 351 354

Cuadrado medio 3,64 5,09

Estadístico F= 0,72

Por otro lado: Fm- l· n-m·a 1

,

= F:i-351· 0 05 ~ F:i-=· O 05 =2,6049 1

,

1

t

t

t

Por lo tanto, no se cumple la condición de la región de rechazo, y la conclusión es: Aceptamos H0 => No hay diferencias importantes en las calificaciones medias de los cuatro grupos (al nivel de significación 0,05). 9.

En este apartado, disponemos de una muestra aleatoria (X1, ••• , X) de X = «Tiempo que emplea un hombre en la compra» - N(µ; a), con n = 64. Intervalo de confianza para estimar el tiempo medio que emplea un hombre en la compra, µ, con un nivel de confianza 1 - a= 0,90:

a)

/-(-+ -

X - tn- l;a/2

)-(*)

s .J;;.

Tenemo: tn-1; a/2

= !63; 0,05 ~ t60;0,05 =1,671

Ahora, podemos continuar:

(*) =(33±(1,671)

~ )=(30,66-35,34)

334

SOLUCIONES DE LOS EJERCICIOS

b)

En e te apartado disponemo de una muestra aleatoria (X1,

••• ,

Xm) de X

=«Tiempo que emplea un hombre en hacer la compra», de tamaño m =

64, y de otra muestra aleatoria (Y1, • • • , Y) de Y= «Tiempo que emplea una mujer en hacer la compra», de tamaño n = 10. Asumimos que X N(µ 1,a1) , que Y - N(µ2,a2) , que a 1 = a2, y que las muestras son independiente (ya que los datos no van emparejados). Queremos aber si se puede concluir (al nivel de significación a= 0,10) que µ 1 > µ,_. Tomaremo esto como bipótesis alternativa, de modo que planteamos un contraste de H 0 : µ 1 ~ µ 2 frente a H 1: µ 1 > µ2 , al nivel de significación a= 0,10. Rechazaremo H0 si se verifica la región de rechazo:

En nuestro caso:

x- y=33 - 30 = 3 s

=

P

t l32; 0,IO

(m - l)s~ + (n - l)s;

m+n - 2 ~ tl 00; 0,10

= 11 08 '

= 1,290

Por lo tanto, se verifica la condición de la región de rechazo y nuestra conclusión es: Rechazamos H 0 ~ Aceptamos H 1 ~ Concluimos (al nivel de significación 0,10) que el tiempo medio que emplean los hombres e superior al de las mujeres. e)

Finalmente, en este apartado se quiere estudiar si el factor «grupo de edad» influye sobre la variable de respuesta X = «Tiempo que tarda una mujer en hacer la compra». Si aceptamos que, en cada grupo, los tiempos siguen distribuciones (aproximadamente) normales y las varianzas son (aproximadamente) iguales, entonces e tamos en las bipóte is del modelo de di eño de experimentos con un factor, y podremos contrastar si los tiempos medios son similares en los diferente grupos o no. Dicho de otra manera: podremos estudiar si el factor «grupo de edad» (el único que estamos considerando) influye o no en

335

SOLUCIONES DE LOS EJERCICIOS

el tiempo en hacer la compra (que es la variable que observamos). Planteamos un contraste de hipótesis, al nivel de significación 0,05, sobre: H 0 : a 1 = ... = am =O (el factor no influye) H 1: Algún a1 es distinto de c~ro (el factor influye) Rechazaremos H 0 si se verifica la región de rechazo: "'-i=Jni ""' m eX¡- . - X-.. )2

_{ _ · R- F -

m-1

·

n-m

°"'~' °"'~ 1

"'-1=1 "'-J=I

.. _

(

x,J

- .

X,.

)2

>F

¡

m- l;n- m;a

En nuestro caso, tenemos:

""'"i=I' n;X¡_x = "'..

n

27,43

I;: 1 n;(x;. - x.i = 298,57 I ;'! 1 LJ'.= 1(x¡¡ - X¡_)2 = I ;'! 1(n¡- l)s¡ =3890 La tabla de análisis de la varianza queda de la siguiente forma:

Fuente de variación

Suma de cuadrados

Entre grupos Dentro de los grupos Total

298,57 3.890 4.188,57

Cuadrado medio

G.l. ' 2 32 34

149,3 121,56

Estadístico F= 1,23

Por otro lado: Fm- l"nm·r a t

=fi -32· 0 05 ~ Jii-30· 0 05 =3,3158 1

1

,

1

J

l

Por lo tanto, no se cumple la condición de la región de rechazo, y la conclusión es: Aceptamos H 0 => No hay diferencias importantes (al nivel de significación 0,05) entre los tiempos medios empleados para hacer la compra en lo tres grupos.

336

10.

SOLUCIONES DE LOS EJERCICIOS

a)

En primer lugar queremos ajustar un modelo de regresión lineal simple y = 0 + 1x, donde:

fi fi

cov

A

/30 =a= y-~x· V _.

cov

- b/3,- ~ A

V_.

Estarna asumiendo las hipótesis habituales de este modelo: normalidad, igualdad de varianzas, linealidad. En nuestro caso:

x= o,4951; v_.

y= 11,876

1 ~ 2 -nx-2 ]= 0,0o38 = -["-'x;

vy =

n

!cI. y;- ny = 0,5310 n

cov_.,Y

2]

= ..!..[LX;Y;-nxy]= O 0409 n

Por tanto:

y

b)

= /JA + /JA x = 11 876- 0,04 09 (O 4951)+ 0,0409 x = 6 55 + 10 76x , o 1 o, 0038 o, 0038 , '

En e te apartado, estudiaremos si hay suficiente evidencia estadística para afirmar que /31 > O. Tomaremo e to como hipótesis alternativa, de modo que contrastaremos H 0 : /3 1 :s; O frente a H 1: /31 > O al nivel de ignificacióo a= 0,01 . Rechazaremos H0 si se verifica la región de rechazo:

En nuestro caso:

/3, t,,_2; a

10,76 (O, 38).Jl /(10)(0, 0038)

= 5 52

= ts;0.01 = 2,896

Por tanto, se cumple la condición de la región de rechazo, y nuestra conclusión es:

337

SOLUCIONES DE LOS EJERCICIOS

Rechazamos H0 => Aceptamos H 1 => Los datos proporcionan suficiente evidencia e tadística de que la resistencia tiende a aumentar con la densidad de la madera (al nivel de significación 0,01).

11.

Se quiere estudiar si el factor «especie» influye sobre la variable de respuesta X= «Duración del canto». Si aceptamos que, en cada especie, las duraciones siguen distribuciones (aproximadamente) normales y la varianzas son (aproximadamente) iguales, entonces estamos en las hipótesis del modelo de diseño de experimentos con un factor, y podremos contrastar si las duraciones medias del canto son similares en las tre especies o no. Dicho de otra manera: podremos estudiar si el factor «especie» influye o no en la duración del canto (que es la variable que obervamos). Planteamos un contraste de hipótesis, al nivel de significación 0,05, sobre: H 0 : a 1 = ... = am = O (el factor no influye) H 1: Algún a; es distinto de cero (el factor influye) Rechazaremos H0 si se verifica la región de rechazo:

¡

R= F =

e- - )2

"m

ki= l n i X¡.-X . .

¿,'." L,~~(~.--. )2 r= I

J= I X,1

x,.

¡

>Fm- 1:n- m;a

n-m En nuestro caso, tenemos: X

-

.. -

"'"

-

k¡: ¡ n¡X¡ . -

n

I.;: 1 n;(x;. - x_.)2 = 7,81 I.;: 1 I. 1~1(xij - x;,) 2 = I;: 1(n; -

113

- '

l)s¡

= 1,0343

La tabla de análisis de la varianza queda de la siguiente forma:

Fuente de variación Entre grupos Dentro de los grupos Total

Suma de cuadrados

G.l.

7,81 1,0343 8,8443

2 29 31

Cuadrado medio 3,9050 0,0357

Estadístico F= 109 38

338

SOLUCIONES DE LOS EJERCICIOS

Por otro lado: Fm- 1:n-m:a

=

F;; 29;0,05

=3,3277

Por lo tanto, se cumple la condición de la región de rechazo, y la conclusión es: Recbazamo H 0 ~ Aceptamo H 1 ~ Hay diferencia significativas (al nivel de significación 0,05) entre la duraciones medias de los cantos de las tres e pecies. 12.

a)

En primer lugar queremos ajustar un modelo de regresión lineal simple y = 0 + 1x, donde:

S S

_ COV x ,y /3"i_- b --vx

En nuestro caso:

x= 0,325;

y= O, 755

vx = .!:.n [I x¡- nx vy

2]

= _!:_[L yt- ny2 ] n

cov x

.

Y=

.!.[L X;Y; n

=

o, 0206

= 0,0372 nxy] =

-0,0271

Por tanto:

y

b)

= R

JJO

+/3"1x=O' 755- -0,0206 0,0271 (0 325)+ -0,0271 x=l 18-132x ' 0,0206 , ,

En este apartado estudiaremos si hay u:ficiente evidencia estadística para afirmar que /31 < O. Tomaremos esto como hipótesis alternativa, de modo que contrastaremo H0 : /31 ~ O frente a H 1: /31 < O al nivel de significación a= 0,05. Rechazaremos H0 si e verifica la región de rechazo:

SOLUCIONES DE LOS EJERCICIOS

339

En nuestro caso:

/31

=

SR -Jll(nvx) t n-2: l-cr

- 1, 32 = - 13 31 (0, 045),Jl/(10)(0,0206) '

= ts;0.95 = - ts:0,05 = -1,860

Por tanto, se cumple la condición de la región de rechazo, y nuestra conclusión es: Rechazamos H 0 :::::} Aceptamos H 1 ===} Podemo afirmar que la proporción de supervivientes tiende a disminuir cuando aumenta el tiempo de exposición (al nivel de significación 0,05). Disponemos de una muestra aleatoria (X1, ... , X), de tamaño m = 10, de X = «Peso de varones adultos de A», y de otra muestra aleatoria (Y1, ... , Y), de tamaño n = 12, de Y= «Peso de varones adultos de B». Asumimos que X - N(µ 1; o) Y - N~; a 2) y que a 1 = a2• Además, podemos considerar que las muestras son independientes (lo datos no van emparejados). Queremos saber si se puede considerar estadísticamente probado (al nivel a= 0,10) que µ 1 < ~- Tomaremos esto como hipótesis alternativa, de modo que planteamos un contraste de H 0 : µ 1 ~ ~ frente a H 1: µ 1 < ~. al nivel de ignificación a= 0,10. Rechazaremos H 0 si e verifica la región de rechazo:

13. a)

R=

{x-y

< tm+n-2; 1-as p ~

~ +~}

En nuestro caso:

x - y= 70 5 - 71 = -0,5 s

=

P

t20; 0,90

(m - l)s¡ + (n - I)s;

=2 70

m +n - 2

'

= - t20; 0,10

= - 1,325

Por lo tanto, no se verifica la condición de la región de rechazo y nuestra conclusión es:

340

SOLUCIONES DE LOS EJERCICIOS

Aceptamos H 0 =} No se puede considerar estadísticamente probado (al nivel de significación 0,10) que el pe o medio en A e menor que en B. b)

Se quiere estudiar si el factor «ciudad» influye sobre la variable de respue ta X= «Pe o de un varón adulto». Si aceptamos que, en cada ciudad los pesos siguen distribuciones (aproximadamente) normales y las varianzas on (aproximadamente) iguales, entonces estamos en las hipótesis del modelo de di eño de experimentos con un factor, y podremos contrastar si los pe os medio on similares en las cuatro ciudades o no. Dicho de otra manera: podremos estudiar si el factor «ciudad» influye o no sobre el peso de los varones adultos (que es la variable que ob ervamo ). Planteamo un contraste de hipótesis, al nivel de significación 0,10, obre:

H 0 : a 1 = ... = a111 = O (el factor no influye) H 1: Algún a; e distinto de cero (el factor influye) Rechazaremos H0 si se verifica la región de rechazo:

"""' e- - )

¿,,i= lni X ¡,- X .. 2

{

R = F=

m (- l.. _ -. )2 >F111- l; ll- m; a

,~,.

~~,

¿,,,= I ¿,,1= 1 XIJ

¡

X ,.

n- m

En nuestro caso, tenemos: "'C"m

-

x = _¿_, i= 1 n ;X ;. ..

71, 2826

n

r ~:.n¡(x¡_ - x.)

= 226,8261 I.;':,, I %, (x;¡- .x;_)2 = I ;: 1(n; 2

l)s;

= 307, 2

La tabla de análisis de la varianza queda de la iguiente forma:

Fuente de variación

Suma de cuadrados

G.l.

Entre grupos Dentro delo grnpo Total

226,8261 307,2 534,0261

3 42 45

Cuadrado medio 75 6087 7,3143

Por otro lado: F,11-1 ;11-m;cc

= 1';;42;0,IO ~

i,;;40; 0,1 0

= 2, 2261

E tadí tico F= 10,34

SOLUCIONES DE LOS EJERCICIOS

341

Por lo tanto, se cumple la condición de Ja región de rechazo, y la conclusión es: Rechazamos H 0 ~ Aceptamos H 1 ~ Hay diferencias significativas (al nivel de ignifi.cación O, 1O) entre los pe os medios de lo varones adultos de las cuatro ciudades.

Tablas

345

TABLAS

TABLA 1 Distribución binomial B(n; p)

P(X = k)=

,,¡ klp 20

1 2

30

1 2 3

40 l 2

3 4

so l

2 J 4

5 60

l 2 J 4

s

6

- -70

1 2 3 4 5 6 7 8 O

1 2

J 4

s 6 7

8

99 f 2

.; 4

s

6 7

8 9

10 O

1

:z J 4

5 6 7 8

9 10

0,01

b,OS

0,10

0, 15

0,20

(:)lq•-k

0,25

0,30

1/J

0,35

º·'º

0,45

0 ,49

0,50

0,9801 0 ,9026 0,8100 0,7225 0,6400 0,5625 0 ,4900 0,4444 0 ,4225 0 ,3600 0 ,3025 0 ,2601 0, 2500 0 ,0198 0,0950 0,1800 0 ,2550 0 ,)200 0,3750 0.4200 O,HH 0 ,4550 0 ,4800 0 ,4950 0,4998 0,5000 0,0001 0 ,0025 0,0100 0,0225 0,0400 0,0625 O.O'IOO 0.11 11 0 .1225 0.1600 0,2025 0 ,2401 0,2500 0,970l 0,0294 0,0003 0,0000

0.8574 72'1() 0,1)54 0 ,2430 0.0071 0,0270 0 ,0001 0,0010

º·

0 ,6 141 0 ,3251 0,0574 0.0034

0 ,5120 0,3840 0,0960 0,0080

0.4219 0,4219 0,1406 0,0156

0 .1410 0,4410 0 , 1890 0.0270

0.296J 0,4444 0 ,2222 0 .0l70

0,2746 0,4436 0,2J~g 0,0429

0,2160 0,020 0,2880 0,0640

0,1664 0,4084 O,H41 0,0911

O, ll27 O,l8H 0,3674 0,1176

0,1250 0,3751 0,1150 0,1250

0,9606 0,0388 0,0006 0,0000 0,0000

0,8145 0. 1715 O,Oll5 0.0005 0,0000

0 ,6561 o,2g16 0,0486 0,0036 0,0001

0,5220 0 ,)685 0 ,0975 0,0115 0,0005

0,4096 0 ,4096 0 , 1516 0 .0256 0,0016'

0,3164 0,4219 0,2109 0 ,0469 0,00)9

0.2401 0,4116 0,2646 0,0756 0,0081

o,1g15 0 ,195 1 0.296} 0,0988 0.012)

0, 1785 0,3845 0,310 5 111 5 0,0150

º·

0. 12'16 0,)