Diseño Razonado De Muestras Y Captacion De Datos Para La Investigacion Sanitaria

Citation preview

DISEÑO RAZONADO DE MUESTRAS Y CAPTACIÓN DE DATOS PARA LA INVESTIGACIÓN SANITARIA

ERRNVPHGLFRVRUJ

DISEÑO RAZONADO DE MUESTRAS Y CAPTACIÓN DE DATOS PARA LA INVESTIGACIÓN SANITARIA LUIS CARLOS SILVA AYÇAGUER INSTITUTO SUPERIOR DE CIENCIAS MÉDICAS DE LA HABANA Investigador Titular Profesor de la Escuela de Salud Pública de La Habana

ERRNVPHGLFRVRUJ

© Luis Carlos Silva Ayçaguer, 2000 Ediciones Díaz de Santos, S. A., 2000 Juan Bravo, 3-A 28006 Madrid. www.diazdesantos.es E-mail:[email protected]

Reservados todos los derechos. «No está permitida la reproducción total o parcial de este libro, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros métodos, sin el permiso previo y por escrito de los titulares del Copyright.»

ISBN: 978-84-7978-454-6 Depósito legal: 34.147-2000 Fotocomposición: FER Fotocomposición (Madrid) Impresión: EDIGRAFOS, S.A. (Madrid) Encuadernación: RÚSTICA-HILO, S. L. (Madrid)

Dedico este libro a quienes con su dignidad, su creatividad o su amistad, contribuyen a dar sentido y densidad a la vida de muchos otros; en especial, en este mes de mayo del último año del siglo XX, pienso en mi amigo Leslie Kish, quien está cumpliendo en Ann Arbor sus 90 generosos años; en Rivaldo y Benedetti, donde quiera que estén globalizando la belleza con su poesía, literaria o goleadora; y en Juan Miguel González, por la altura de su conducta en todos estos meses.

La ciencia no solo es compatible con la espiritualidad sino que es una fuente profunda de espiritualidad. Carl Sagan Se insiste demasiado en los cómputos y en la repetición de innumerables problemas que siempre son lo mismo. No es que sea malo tener el control sobre fórmulas y ecuaciones, pero esto resulta árido y aburrido. Carece de sentido educar a alguien para que compita con una calculadora de cinco dólares, la cual además, siempre ganará. John Allen Paulus Cuando se discute no existe superior, ni inferior, ni títulos, ni edad, ni nombre: sólo cuenta la verdad; delante de ella todo el mundo es igual. Romain Rolland La cobardía pregunta: ¿será peligroso? La conveniencia pregunta: ¿será político? La vanidad pregunta: ¿será popular? Pero la conciencia pregunta: ¿será correcto? Punzón

Contenido

PRÓLOGO ............................................................................................

XVII

PRESENTACIÓN ..................................................................................

XXI

CAPITULO 1. MARCO CONCEPTUAL DE LAS TÉCNICAS MUESTRALES 1.1. La muestra: un modelo de la realidad ............................................. 1.2. Las técnicas muéstrales como herramienta de la investigación ........ 1.2.1. Las preguntas de investigación............................................. 1.2.2. Técnicas cualitativas: una puntualización oportuna ............. 1.3. Estudios descriptivos y analíticos ................................................... 1.4. Problema de muestreo en estudios descriptivos ............................ 1.5. Unidades de análisis, unidades de muestreo y marco muestral........ 1.6. Probabilidad de selección y diseños probabilísticos ....................... 1.7. Diseños equiprobabilísticos............................................................. 1.7.1. Algunos ejemplos simples.................................................... 1.7.2. Tamaño muestral y probabilidades de selección ................ 1.7.3. Una ilustración histórica ................................................... 1.8. Muestras no probabilísticas ............................................................. 1.9. El concepto de representatividad y el papel del azar ....................... 1.9.1. La noción de representatividad .......................................... 1.9.2. ¿Garantiza el azar la representatividad? ............................... 1.9.3. Los méritos del azar............................................................. 1.9.4. Elegir el método, aceptar la muestra .................................. 1.10. Estimación puntual y por intervalos .............................................. 1.10.1. Interpretación de los intervalos de confianza ..................... 1.10.2. La zona más probable ........................................................

1 3 3 5 7 8 9 9 11 11 12 14 16 19 19 20 21 22 23 23 25

xii

DISEÑO RAZONADO DE MUESTRAS

1.10.3. Intervalo de confianza como alternativa de las pruebas de hipótesis................................................................................ 1.10.4. Error absoluto y error relativo ............................................ 1.11. Muestras y censos ............................................................................. Bibliografía..................................................................................................

25 27 29 29

CAPITULO 2. LA ENCUESTA Y EL CUESTIONARIO 2.1. Organización de la encuesta ............................................................. 2.1.1. Las tareas básicas.................................................................... 2.1.2. Errores ajenos al muestreo...................................................... 2.2. El cuestionario.................................................................................... 2.2.1. Formas de aplicación ............................................................ 2.2.2. Ubicación de las preguntas...................................................... 2.2.3. Tipos de preguntas ................................................................. 2.3. Indicaciones para el diseño de cuestionarios y redacción de preguntas…. 2.3.1. Recomendaciones generales para la construcción de cuestionarios ........................................................................... 2.3.2. Pautas específicas para la redacción de interrogantes .......... 2.4. Validación y estudio piloto................................................................. Bibliografía ..................................................................................................

33 33 35 35 36 37 38 45 45 58 77 80

CAPITULO 3. MUESTREO SIMPLE ALEATORIO 3.1. Introducción........................................................................................ 3.2. Definición y métodos de selección .................................................... 3.2.1. Números aleatorios ................................................................. 3.3. Media y varianza de los estimadores ............................................... 3.3.1. Estimación de la media poblacional........................................ 3.3.2. Varianza de la estimación de la media.................................... 3.4. Un ejemplo ilustrativo ........................................................................ 3.5. Distribución de la media muestral...................................................... 3.6. Cálculo de los intervalos de confianza ............................................ 3.7. Tamaño de la muestra ........................................................................ 3.8. Estimación de otros parámetros ......................................................... 3.8.1. Estimación de un total poblacional ...................................... 3.8.2. Estimación de una fracción o proporción................................ 3.8.3. Error absoluto, error relativo y estimaciones complementarias … 3.9. Un problema de urnas ........................................................................ 3.10. Discusión de un ejemplo práctico ...................................................... 3.11. Complementos del muestreo simple aleatorio ...................................

85 85 87 88 88 91 94 98 101 102 106 107 107 109 111 113 116

CONTENIDO

3.11.1. Muestreo simple aleatorio con reemplazo ........................... 3.11.2. Subconjuntos de una muestra simple aleatoria ..................... 3.11.3. Asignación aleatoria ............................................................. 3.11.4. Estimación de una razón ...................................................... APÉNDICE: El azar y los números pseudoaleatorios ................................. Bibliografía .................................................................................................

xiii

116 117 118 119 121 123

CAPÍTULO 4. MUESTREO SISTEMÁTICO 4.1. Una alternativa al muestreo simple aleatorio .................................. 4.2. Método regular de selección .............................................................. 4.3. Estimación de parámetros.................................................................. 4.4. Otorgamiento de una probabilidad fija y selección en fases .......... 4.5. Varianza de la media muestral........................................................... 4.6. Una advertencia académica ............................................................... 4.7. Aplicaciones del muestreo sistemático.............................................. Bibliografía .................................................................................................

125 126 128 128 132 134 138 139

CAPÍTULO 5. MUESTREO ALEATORIO ESTRATIFICADO 5.1. 5.2. 5.3. 5.4. 5.5.

La necesidad de ponderaciones ....................................................... Estratificación y representatividad .................................................. Procedimientos de estimación ........................................................ Dos ejemplos ilustrativos ................................................................ Complementos del muestreo aleatorio estratificado ......................... 5.5.1. Asignación de tamaños muéstrales a los estratos ................ 5.5.2. Tamaño de muestra ............................................................. 5.5.3. Número de estratos .............................................................. 5.5.4. Postestratificación ............................................................... Bibliografía .................................................................................................

141 143 144 147 151 151 152 152 153 153

CAPÍTULO 6. MUESTREO POR CONGLOMERADOS 6.1. Selección en etapas ........................................................................... 6.2. Muestreo por conglomerados monoetápico ...................................... 6.2.1. Tres rasgos singulares ......................................................... 6.2.2. Estimación insesgada y de razón............................................ 6.2.3. Estimación de errores ............................................................. 6.2.4. Una incongruencia del estimador insesgado .......................... 6.3. Muestreo en etapas con submuestreo .............................................. 6.3.1. Estimador sin sesgo ...............................................................

156 157 158 160 161 164 166 168

xiv

DISEÑO RAZONADO DE MUESTRAS

6.3.2. Probabilidades de selección.................................................... 6.3.3. Estimador de razón ................................................................. 6.3.4. Ilustración ............................................................................... 6.4. Muestreo polietápico.......................................................................... 6.5. Efecto de diseño .............................................................................. Bibliografía ..................................................................................................

169 171 172 173 173 176

CAPITULO 7. UN DISEÑO ESPECIAL: SELECCIÓN DE CONGLOMERADOS CON PROBABILIDADES PROPORCIONALES A SUS TAMAÑOS 7.1. Procedimiento de selección................................................................ 7.2. Estructura probabilística ................................................................... 7.3. Selección de unidades en la segunda etapa .................................... 7.4. Notación .......................................................................................... 7.5. Procedimientos de estimación............................................................ 7.6. Manejo práctico de las aproximaciones de tamaño............................ Bibliografía ..................................................................................................

178 180 181 183 184 186 188

CAPÍTULO 8. MUESTREO ESTRATIFICADO POLIETÁPICO 8.1. Estratificación de unidades de primera etapa ................................... 8.2. Estructura y notación .......................................................................... 8.3. Método de selección ......................................................................... 8.4. Procedimientos de estimación............................................................ 8.5. Un ejemplo detallado del muestreo estratificado polietápico ............ 8.6. Otros aspectos del muestreo estratificado polietápico ........................ 8.6.1. Unidades autorrepresentadas ................................................. 8.6.2. Dos UPE por estrato ............................................................... 8.6.3. Tratamiento de «cross-clases» ................................................ 8.6.4. Caso no equiprobabilístico...................................................... 8.7. Tamaño muestral y efecto de diseño .................................................. Bibliografía ..................................................................................................

189 190 192 195 196 200 200 201 203 204 207 208

CAPÍTULO 9. OTRAS TÉCNICAS DE MUESTREO 9.1. 9.2. 9.3. 9.4. 9.5.

Muestreo replicado ........................................................................... Técnica de respuesta aleatorizada ...................................................... Estimación por pesca y repesca ......................................................... Muestreo condicional en dos fases ................................................... Muestreo en el tiempo........................................................................

209 210 216 218 219

CONTENIDO

9.6. Muestras maestras ............................................................................. 9.7. Muestreos y técnicas de evaluación rápida ....................................... 9.8. Estimación de eventos infrecuentes y muestreo en red..................... 9.9. Medias según unidades de información ......................................... 9.10. Diseños con cuestionario parcial....................................................... Bibliografía .................................................................................................

xv

220 221 222 226 227 230

CAPÍTULO 10. MUESTREO Y TÉCNICAS ESTADÍSTICAS CONVENCIONALES 10.1. Técnicas estadísticas aplicadas a muestras complejas ....................... 10.2. Muestras transversales y causalidad ................................................ 10.2.1. Premisa de precedencia temporal ........................................ 10.2.2. ¿Computar o no computar asociaciones en estudios transversales? ................................................................... 10.2.3. Una ilustración detallada ..................................................... 10.2.4. Consideraciones finales ....................................................... 10.3. Tamaño de muestra en estudios clínicos y de epidemiología analítica ... 10.4. Selección de casos y controles ........................................................ 10.5. Análisis contextual ......................................................................... 10.6. Asignación aleatoria ........................................................................ Bibliografía .................................................................................................

233 235 235 237 240 242 243 244 245 248 249

CAPITULO 11. RECURSOS COMPUTACIONALES PARA EL TRATAMIENTO DE DATOS MUÉSTRALES 11.1. 11.2. 11.3. 11.4.

Programas para determinación de tamaños muéstrales..................... Tratamiento de datos en una muestra simple aleatoria .................... Diseños no equiprobabilísticos y empleo de ponderaciones .......... Programas para la estimación de errores en muestras complejas ...… 11.4.1. Módulo CSAMPLE de EPIINFO......................................... 11.4.2. Otros programas para cálculo de errores en diseños complejos............................................................................. 11.5. Programas para la selección de muestras ....................................... 11.6. Sistema general de simulación de diseños y aplicaciones muestrales … 11.6.1. Programas de selección......................................................... 11.6.2. Simulación de muestras......................................................... 11.6.3. Otras aplicaciones informáticas relacionadas con el muestreo 11.6.4. Requerimientos y rasgos generales del sistema ................. Bibliografía .................................................................................................

251 252 252 254 254 261 263 263 263 265 269 271 271

xvi

DISEÑO RAZONADO DE MUESTRAS

CAPÍTULO 12. REFLEXIONES CRÍTICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA 12.1. Marco de extrapolación ................................................................... 12.1.1. Una regla rígida ................................................................... 12.1.2. Pruebas de significación en «muestras poblacionales» ……. 12.1.3. Necesidad de un superuniverso .......................................... 12.1.4. Información autorrepresentada.............................................. 12.2. Problemas del marco muestral ........................................................ 12.3. El problema del tamaño muestral ..................................................... 12.3.1. Repasando la teoría oficial.................................................... 12.3.2. Seis realidades escamoteadas ................................................ 12.3.3. El caso de las pruebas de hipótesis ....................................... 12.3.4. Reconocimiento de lo subjetivo ............................................ 12.3.5. Finalmente, ¿qué hacer?........................................................ 12.4. El problema de la no-respuesta .......................................................... 12.4.1. El modelo esencial ............................................................ 12.4.2. Técnicas para reducir la no respuesta ................................... 12.4.3. Técnicas para la imputación ................................................. 12.4.4. Corrección de estimadores.................................................... 12.5. Determinación de valores normales ................................................ 12.5.1. El recorrido normal ............................................................ 12.5.2. ¿Qué población ha de muestrearse?...................................... 12.5.3. Carácter histórico de la normalidad ...................................... 12.6. Las encuestas en la prensa.................................................................. 12.6.1. Estereotipos para no decir nada ............................................ 12.6.2. Lo que ocultan las afirmaciones globales .......................... 12.6.3. Falsos vaticinios .................................................................... 12.7. Cálculo y presentación de errores muéstrales ................................ 12.8. Conjurando errores comunes.............................................................. 12.8.1. Fracción de muestreo versus tamaño muestral ..................... 12.8.2. ¿Un 50% mágico?................................................................. 12.8.3. Diseños convertidos en un esfuerzo estéril ......................... 12.8.4. Sustitución mecánica de unidades ....................................... 12.8.5. Rutas aleatorias .................................................................. Bibliografía...................................................................................................

273 273 277 278 281 281 282 283 285 291 292 293 295 295 296 297 298 299 299 301 302 304 304 307 309 313 313 313 315 318 320 321 321

ÍNDICE DE AUTORES ...........................................................................

325

ÍNDICE DE MATERIAS ..........................................................................

329

Prólogo

Cuando a uno le proponen prologar un libro, experimenta una serie de sensaciones en cierto modo contradictorias. Un innegable orgullo, la seguridad de no ser el más adecuado, la duda de si colmará las expectativas del autor, la constatación de que nos estamos haciendo viejos..., son algunas de ellas. Entre otras muchas actividades, Luis Carlos Silva ha impartido decenas de cursos de muestreo en nuestro país, auspiciados por instituciones sanitarias autonómicas y centrales y como profesor colaborador de la Escuela Nacional de Sanidad. Por todo ello, prologar su cuarto libro tiene la dificultad añadida de que el autor es tan ampliamente conocido y valorado en España que resulta difícil descubrir al lector algo que no sepa de él. Intentaré superar el sesgo que supone haber leído sus anteriores libros y la amistad que nos une, para enjuiciar este que tienes entre tus manos. Creo que es una opinión compartida por muchos profesionales de la salud pública que el muestreo tiene mucho que ver con las arenas movedizas. Parece un terreno transitable con unas cuantas precauciones y recetas, pero cuando nos adentramos en él suele ser demasiado tarde para arreglar los desperfectos. El puente que en su día tendió el autor con Muestreo para la investigación en ciencias de la salud para librarnos del barro se refuerza y consolida hoy con este Diseño razonado de muestras y captación de datos para la investigación sanitaria. Una vez leídos estos libros, el lector estará de acuerdo con que el autor y su obra pertenecen a esa rara y valorada especie que invalida aquel «Never trust a biostatician. At worst, they will intentionally try to deceive and embarrass you. At best, it is unitentional». El nuevo texto incorpora en el marco conceptual del muestreo aspectos de la estimación puntual y por intervalos, y subraya el uso de intervalos de confianza como alternativa a las pruebas de hipótesis. El lector encontrará un capítulo completo dedicado a la organización, diseño y validación de encuestas y cuestionarios que amplía muy sustancialmente lo que se bosquejaba en su anterior libro sobre el tema.

xviii

DISEÑO RAZONADO DE MUESTRAS

En todo texto sobre muestreo son imprescindibles capítulos sobre los diseños aleatorio simple, sistemático, estratificado y por conglomerados. El rasgo distintivo que encontrará el lector en estas páginas estriba en la claridad de la exposición y en la estructura didáctica del texto, sin que esto suponga una pérdida de profundidad o rigor, sino todo lo contrario. Este es, sin lugar a dudas, uno de los méritos más destacables del autor. El capítulo 9 aborda de forma más suscinta, pero con un nivel de desarrollo suficiente para su comprensión y hasta su puesta en práctica, técnicas de muestreo como el replicado, muestreo en el tiempo, uso de muestras maestras, diseños con cuestionario parcial y otras que pueden ser útiles a un buen número de lectores. Cualquier investigador, clínico o epidemiólogo, se encuentra habitualmente ante el problema de determinar el tamaño de la muestra para su estudio, sea este descriptivo, analítico o experimental. Puesto que son bien conocidos diversos textos que lo solventan técnicamente, como por citar dos ejemplos, los de Schlesselman o Friedman, este Diseño razonado de muestras y captación de datos para la investigación sanitaria no se concentra en las formulaciones, sino que pone el énfasis en dar una visión global, de profundo calado conceptual, sobre tan polémico tema. Cada vez contamos con más programas de ordenador que cuentan con opciones para la determinación de tamaños muéstrales y el tratamiento de datos en diseños complejos; el capítulo 11 ofrece un análisis descriptivo y crítico de un buen número de ellos, desde el popular y completo CSAMPLE de EpiInfo hasta Stata o Suddan. Este valor añadido del libro se completa con el programa SIGESMU, que acompaña al texto, e ilustra de forma clara y original diversos métodos para el cumplimiento de una tercera tarea del muestreo (raramente incluida en programas habituales): la obtención de las muestras. Parte de estos recursos está en proceso de integración dentro del sistema informático Epidat, cuya tercera versión se desarrolla con Luis Carlos Silva como uno de los miembros del grupo de trabajo. El último capítulo enlaza con el espíritu de Cultura estadística e investigación científica en el campo de la salud: una mirada crítica, anterior libro del mismo autor, desgranando de forma amena tópicos y errores que, por comunes, nos parecen a todos asumibles. Especialmente recomendable considero, aunque salga del ámbito estrictamente sanitario, el apartado sobre las encuestas con que nos abruma (¿condiciona?) la prensa cuando se aproximan las elecciones. Este espíritu crítico del autor, enemigo de los dogmas y las recetas, ha sido el que motivó su apertura en los últimos tiempos a otras ópticas metodológicas, como el enfoque bayesiano frente al frecuentismo dominante. Esta obra puede utilizarse de dos maneras. En primer lugar sirve para realizar consultas puntuales, aclara conceptos o plantear y realizar un diseño muestral determinado; es decir, es suficientemente directa, concreta y estructurada como para resultar útil al profesional sanitario o estudiante que necesite profundizar en

PROLOGO

xix

técnicas de muestreo. En segundo lugar tiene la virtud escasísima en textos de estadística, de «enganchar» al lector que, casi sin darse cuenta, se ve sumergido en sus páginas. Éste comprobará que la inclusión en el título de la palabra «razonado» no es casual, ya que este carácter impregna todo el texto hasta el punto de constituir quizá el principal elemento diferenciador de la obra. Por todo ello le auguro un éxito seguro no sólo en España sino en todos los países de habla hispana. A Luis Carlos lo conocí en dos fases. La primera, por las rúas de Santiago, hace ya muchos años, fue breve y técnica. La de verdad, años más tarde en La Habana, cristalizó en una próspera relación profesional y en una sincera amistad. Entre ambas, amigos comunes, referencias cruzadas y muchas coincidencias de criterio. Me imagino que todo ello combinado le llevó a proponerme estas líneas, que no quiero terminar sin animarle a que siga trabajando como hasta ahora, con rigor y honestidad. Todos se lo agradeceremos. Enrique Vázquez Fernández - Santiago de Compostela, junio de 2000

Presentación

La presente obra constituye una prolongación, tanto cualitativa como cuantitativa, de mi libro Maestreo para la investigación en ciencias de la salud publicado por la Editorial Díaz de Santos hace más de un lustro. Habiéndose empleado como texto en decenas de cursos de posgrado impartidos en varios países, fueron cuantiosas las insuficiencias detectadas que ahora procuro enmendar o mitigar. En aquella edición ya se señalaba la existencia de diversos textos orientados a proveer a estudiantes e investigadores de recursos instrumentales para el diseño de muestras. Sin embargo, después de unos cuantos años de práctica docente e investigativa relacionada con el muestreo en el campo de la salud, sigo considerando conveniente contar con un material que ponga el máximo énfasis en la interpretación cualitativa de sus resultados básicos y que, simultáneamente, centre su atención en el nivel empírico dentro del que opera la salud pública: las investigaciones de salud y epidemiológicas concretas. En la versión anterior ya se pretendía ofrecer un material cuya comprensión exigiera solamente conocimientos elementales de estadística y probabilidades y que expresamente eludiera, por tanto, la derivación matemática de resultados, así como las fórmulas repletas de signos de sumatoria y subíndices que sólo causan extrañeza y desconcierto al investigador simple. Tal espíritu ha sido enteramente respetado en la versión actual. El acopio de una ya prolongada experiencia en la materia me ha convencido de que los textos vertebrados en torno a formulaciones abigarradas poco tienen que ver con las expectativas de mis colegas salubristas y epidemiólogos. Sin embargo, diversos aspectos reclamaban actualización y un manejo más acucioso, con el fin de incrementar su interés práctico. Por otra parte, este libro procura ser más abarcador en varios sentidos: ahora se aborda un crecido número de asuntos previamente no considerados, con lo cual la versión actual duplica el número de capítulos. Especialmente enriquecido se ha visto el texto destinado al área de captación de datos. El lector hallará además que, ya sea por medio de notas técnicas laterales o de apéndices, se tratan de satisfacer las inquietudes de lectores más avezados, o que se interesan en aspectos más avanzados.

xxii

DISEÑO RAZONADO DE MUESTRAS

Por otra parte, a lo largo del texto se han introducido diversos ejemplos concretos con el fin de compartir -aunque sea de manera parcial- mi modesta experiencia en el empleo de las técnicas muéstrales como medio auxiliar para dar respuesta a diversas interrogantes relacionadas con el estado de salud de la población, los problemas económicos de la salud pública, la organización de los servicios de salud y otras cuestiones afines. Con fines ilustrativos y procurando optimizar la comunicación de los principios en que reposa toda la teoría muestral, se apela en varios puntos del libro a ejemplos artificiales en que las poblaciones son de muy pequeño tamaño. Naturalmente, tales ejemplos carecen de realismo, ya que en la práctica no tiene sentido aplicar técnicas de muestreo a poblaciones minúsculas. Sin embargo, la naturaleza de algunos de los problemas tratados es completamente independiente de los tamaños poblacional y muestral; de modo que trabajar con poblaciones muy reducidas no supone ningún escollo conceptual a la vez que favorece didácticamente la exposición. En términos generales, la obra procura además romper con diversos dogmas y mitos que se han ido consolidando en la metodología «oficial» del muestreo. Se trata de poner en su justo lugar ciertos métodos frecuentemente invocados en algunos textos clásicos y que, aun teniendo ocasionalmente cierto interés académico, están objetivamente alejados de las posibilidades prácticas regulares, o son directa y llanamente desconocidos por ellas. Para consolidar y comunicar las ideas contenidas en este libro he contado con innumerables fuentes de estímulo. Desde el punto de vista formativo en materia de muestreo, siempre me sentiré en deuda con mis queridos profesores y amigos Leslie Kish, de la Universidad de Michigan, y Joseph Machek, de la Universidad Carolina de Praga, por sus generosas enseñanzas. Y desde una perspectiva más general, expreso mi agradecimiento al profesor Francisco Rojas Ochoa, del Instituto Superior de Ciencias Médicas de la Habana, maestro por antonomasia de un par de generaciones de salubristas e investigadores cubanos. Agradezco igualmente a todos mis alumnos y, especialmente, a la ya larga lista de aquellos amigos y colegas españoles, quienes de un modo u otro han promovido mi actividad docente sobre las técnicas muéstrales en diversos puntos del Estado español; la lista de estos colegas (seguramente incompleta) incluye a Alfonso Abaigar, Pepe Almenara, Esther Arbesú, Rodrigo Arquiaga, Txema Arteagoitía, Clotilde Boix, Carlos Campillo, José Manuel Casas, Javier Damián, Manuel Díaz-Olalla, Iñaki Galán, Gonzalo Grandes, Eliseo Guallar, Gonzalo Gutiérrez, Juan Ramón Lacalle, Jesús Martín, José María Martín Moreno, Antonio Pareja, Luis Prieto, Elías Rovira, José Manuel Salamanca, Emilio Sánchez Cantalejo, Antonio Segura, Patricio Suárez, Enrique Vázquez, Tomás Vega y Ángel Vilches. Por su inestimable colaboración técnica, agradezco a mi alumno Ramón Suárez, a cuya habilidad como programador debemos, los lectores y yo, la posibilidad de explotar un sistema informático original y eficiente que apoya al texto. Luis Carlos Silva - La Habana, junio de 2000

1 Marco conceptual de las técnicas muestrales 1.1. La muestra: un modelo de la realidad El muestreo es aquella disciplina estadística que ofrece herramientas para la solución de un problema que, en el contexto de la investigación científica de salud, resulta virtualmente universal: determinar qué parte de una realidad debe examinarse con la finalidad de hacer inferencias sobre ella. La necesidad de pronunciarse sobre un fenómeno o asunto habiéndolo observado sólo parcialmente, se presenta con extrema frecuencia en la cotidianidad y abarca las más diversas esferas de la vida diaria. Por ejemplo, después de algunos contactos con un país, se vierten criterios sobre sus habitantes; partiendo de dos novelas de un escritor, se opina sobre su obra y, tras examinar un cm3 de sangre de un paciente, se valora todo su volumen sanguíneo. Se trata de una práctica natural cuya validez está determinada por el mero sentido común. Naturalmente, un proceso inductivo de tal naturaleza, que va de lo particular a lo general, inevitablemente entraña la posibilidad de cometer errores, y es claramente intuitivo que dichos errores están llamados a ser mayores en la medida que la porción observada sea más reducida y, sobre todo, en la medida que ella no refleje o «represente» la realidad (a la que en el lenguaje muestral suele llamarse población o universo) sobre la que recaerán las conclusiones de la inferencia. El muestreo, como proceder científico, funciona de manera similar, pero procura aportar métodos formales que contribuyan razonablemente a conseguir que la muestra conforme un modelo del universo. En efecto, en el problema del universo y la muestra estamos ante un singular ejemplo del proceso de representación de la realidad objetiva mediante un modelo. Obtener una «buena muestra» significa, precisamente, configurar una versión simplificada de la población, que reproduzca sus rasgos básicos a la vez que desdeñe los innece-

2

DISEÑO RAZONADO DE MUESTRAS

sarios y, como debe ocurrir con todo modelo eficiente, que sea suficientemente simple como para resultar manejable, pero no tanto como para que se difuminen sus perfiles específicos fundamentales. Kish (1989) describe una buena muestra como un «espejo» de la población, o una «población en miniatura». En rigor, la tarea del muestrista va más allá: además de determinar el método de selección de la muestra y, por tanto, su tamaño, ha de establecer los procedimientos que habrán de aplicarse a los datos así obtenidos para realizar inferencias fecundas. Diversas razones prácticas pueden mencionarse para justificar el uso de esta técnica. Sin embargo, en última instancia, la fundamental es la necesidad de ahorrar recursos. Por lo general, resulta literalmente imposible estudiar a todos los individuos que integran una población (hacer un censo). Este imperativo económico ha estado presente siempre, aunque no fue hasta la década de los treinta del siglo XX, con un célebre trabajo presentado por el polaco Jerzy Neyman ante la Roy al Statistical Society1, cuando se comenzó a desarrollar una teoría orgánica sobre las técnicas que permiten superar de manera científica esa dificultad (Neyman, 1934). El impulso determinante se produjo fundamentalmente en Gran Bretaña, Estados Unidos y, más tarde también, en la India y los países escandinavos. El uso del muestreo fue generalizándose y sus bases teóricas experimentaron un proceso de cimentación gradual hasta la consolidación de esta disciplina como una rama con «personalidad propia» dentro de la estadística. Los siguientes datos reflejan elocuentemente tanto su juventud como su rápida expansión: mientras el International Statistical Institute (ISI) fue fundado el siglo pasado y constituye una de las asociaciones científicas internacionales más antiguas que funcionan en la actualidad, no es hasta 1971 que se establece la Asociación Internacional de Muestristas como una de sus secciones. Sin embargo, en 1997 ya contaba con 1.244 miembros de 131 países (IASS, 1997). Por otra parte, en las últimas cuatro décadas se ha ido conformando un cuerpo teórico sólido recogido en una ya larga serie de libros exclusivamente dedicados al tema (véase el interesante trabajo ad hoc de Parada, 1987) integrada, entre otros, por los siguientes «clásicos»: Hansen, Hurwitz and Madow (1953), Slonim (1960), Deming (1960), Sampford (1962), Kish (1965), Murthy (1967), Des Raj (1968), Yamane (1970), Som (1973), Cochran (1977), Williams (1978), Jessen (1978), Scheaffer, Mendenhall y Ott (1979), Yates (1980), Levy y Lemeshow (1980), Kalton (1983), Stuart (1984), Sukhatme, Sukhatme, Sukhatme y Asok (1984), Dalenius (1985).

1 Algunos de los resultados allí expuestos, sin embargo, habían sido publicados diez años antes por el ruso A. A. Chuprov, según reseñan Azorín y Sánchez (1986).

MARCO CONCEPTUAL DE LAS TÉCNICAS MUESTRALES

3

1.2. Las técnicas muestrales como herramienta de la investigación Como se ha dicho, las técnicas muéstrales son herramientas de trabajo especialmente útiles en el ámbito de la investigación científica, aunque también son intensamente utilizadas en áreas tales como la indagación de mercado y los sondeos políticos y electorales. Constituyendo la investigación el marco operativo que nos ocupará, y siendo ésta una actividad que con demasiada frecuencia es objeto de confusión, no resulta ocioso detenerse brevemente a caracterizarla y adelantar algunas reflexiones relevantes a los efectos que nos interesan.

1.2.1. Las preguntas de investigación La investigación científica es una actividad de finalidad cognoscitiva; es decir, una acción destinada a obtener nuevos conocimientos que cubran una laguna en la comprensión de la realidad, o que contribuyan al entendimiento de algo que se domina imperfectamente (Silva, 1989). Ella supone, necesariamente, o bien la existencia de preguntas claramente definidas sobre un dominio concreto, o bien, si el alcance del problema y la madurez del autor lo consienten, la formulación de hipótesis que demanden del método científico para su valoración rigurosa. La estructura del pensamiento y del accionar de un investigador en la fase de formulación del problema debe discurrir según los siguientes elementos insoslayables (Silva, 1991): 1. Expresar el problema nítidamente (mediante preguntas o hipótesis). 2. Fundamentar la necesidad de encararlo (consignar beneficios esperados). 3. Exponer tanto el marco teórico en que se inscribe como los antecedentes en que reposa. Ahora bien, los estudios que más se vinculan con la teoría muestral, tal y como la entenderemos predominantemente en el presente libro, son los llamados estudios descriptivos: aquellos que tienen por objeto básico caracterizar cómo es una población. Es harto frecuente que, al valorar cierta realidad, sea necesario conocer datos generales en términos resumidos (promedios, porcentajes, medidas de variabilidad, etc.), que contribuyan a una interpretación más clara de sus rasgos. Los estudios descriptivos también se suelen llevar adelante con el afán de obtener información que permita la fundamentación empírica de hipótesis sobre las leyes que rigen los fenómenos examinados (hipótesis de causalidad). Es preciso reconocer que uno de los problemas más frecuentes presentes en los estudios de tipo descriptivo consiste en que las preguntas que se plantea el in-

4

DISEÑO RAZONADO DE MUESTRAS

vestigador no son suficientemente explícitas, de manera que quedan subsumidas dentro de un planteamiento muy general, con frecuencia borroso. Supongamos que se plantea el problema en términos como los siguientes: «Estudiar epidemiológicamente el comportamiento de la gripe en el país durante el período 1980-1990». Más que un verdadero problema, lo que se ha planteado en este caso es un dominio de interés. No comprender la diferencia entre consignar una esfera de trabajo y formular preguntas concretas casi siempre garantiza el desconcierto futuro. El curso natural de un proceso de investigación con tal punto de partida suele ser como sigue: a) Confección de un cuestionario en que se acumula de manera más bien caótica una serie de ítems relacionadas con ese dominio, pero cuya función específica se ignora o a lo sumo sólo se intuye. b) Acopio de cierto monto de información (a menudo enorme) llamada a ser en gran parte desechada. c) Acudir a un bioestadístico que supuestamente tendría que «desfacer un entuerto» pero que nunca podrá saber bien en qué consiste su tarea, ya que el hecho de que haya trabajo de terreno, se cuente con datos y se puedan construir tablas, no modifica el problema cardinal: que la formulación de preguntas rectoras sigue siendo un capítulo pendiente. Es evidente que el método que vaya a adoptarse para contestar una pregunta de investigación sólo puede decidirse una vez que ella ha sido formulada con toda nitidez. El cuestionario que ha de utilizarse, por tanto, sólo podrá ser diseñado de manera racional una vez que todas las preguntas a las que se quiere dar respuesta han sido explícitamente planteadas y cuando estén al menos bosquejadas las tablas por medio de las cuales habrán de resumirse los datos. Unas y otras configuran el único criterio lógico para decidir la pertinencia de los aspectos incorporados al cuestionario que se planifica aplicar. Por otra parte, un verdadero estudio descriptivo debe, en mi opinión, trascender la simple contemplación neutra de la realidad. Los «trabajos contemplativos», muchas veces indistinguibles de un informe administrativo que no va más allá que lo que una computadora puede producir y que justamente se detiene allí donde nuestro cerebro resulta imprescindible, no constituyen verdadera investigación científica. Esta sólo tiene lugar cuando nace de una vocación crítica, capaz de transformar los resultados numéricos en juicios de valor. Es imprescindible, en fin, dejar claro que las técnicas de muestreo pueden contribuir a que los resultados sean extrapolables y precisos, pero su traducción al plano conceptual, su conversión en valoraciones, exige el concurso de una cultura científica de los investigadores, que poco tiene que ver con el muestreo u otros instrumentos estadísticos.

MARCO CONCEPTUAL DE LAS TÉCNICAS MUESTRALES

5

1.2.2. Técnicas cualitativas: una puntualización oportuna Como ya señalé recientemente en otro sitio (Silva, 1997), una gran cantidad de problemas de índole social se abordaron durante muchos años sin emplear técnicas formales de encuesta, sino mediante información no susceptible de ser manejada en un entorno cuantitativo. Los procedimientos de análisis eran de orden básicamente cualitativo, especialmente entre antropólogos y etnógrafos, pero también entre sociólogos, psicólogos e, incluso, clínicos. Investigadores de la talla de Max Weber llegaban a sostener que la sociología conseguía sus resultados por medio de la comprensión, a diferencia de las ciencias naturales, que procedían por vía de la explicación (Boudon, 1978). Tal afirmación resulta hoy un poco extraña, con un sentido difícil de entender cabalmente, pero en cualquier caso es expresiva de la tendencia a segregar las metodologías de uno y otro tipo. Con el tiempo, fueron expandiéndose diversos desarrollos teóricos –en especial las técnicas de muestreo– que, al propiciar la cuantificación de los resultados y permitir la síntesis, por tanto, de manera más formal, fueron desplazando de la práctica a dichas técnicas cualitativas de análisis, a la vez que las iban devaluando metodológicamente. En rigor, los procedimientos cualitativos nunca desaparecieron y en cierta medida tuvieron incluso expresiones importantes de renovación y vitalidad; lo que sí se consolidó como realidad fue la separación casi absoluta2 entre unas y otras. El epidemiólogo típico de la nueva hornada positivista, cuya gestión, quisiéralo o no, tenía profunda connotación sociológica, miraba con desdén al antropólogo que se perdía en lo que, a su juicio, no pasaba de ser diletantismo subjetivo y visión novelada de la realidad. El científico social clásico, por su parte, recelaba de las tecnologías presuntamente encartonadas que le proponían los estadísticos y que lo obligarían a reducir la riqueza de sus observaciones a tablas y porcentajes. Gurvitch (1950), por ejemplo, escribía que «cuando las estadísticas no se aplican en un marco cuidadosamente acotado y verificado, no constituyen más que manipulaciones puramente matemáticas de grandes cifras» y, refiriéndose a las técnicas formales de encuestas, encarnadas por entonces en la archifamosa empresa que las popularizara en Estados Unidos, destilaba una inusitada agresividad con afirmaciones tales como que «los procedimientos de Gallup son irrisorias búsquedas de promedios arbitrarios que no existen y operan en el vacío». Almeida (1992) atribuye el divorcio entre técnicas cuantitativas y cualitativas al profundo compromiso de la epidemiología con las primeras, lo cual impidió una integración más estrecha entre las estrategias de investigación de las ciencias sociales en general. Y agrega: 2 Tal parcelamiento, sin embargo, tuvo excepciones desde muy temprano. El estudio, por citar un ejemplo, de Warner (1947), en que se combinan las encuestas formales con la «observación etnográfica», da cuenta de ello.

6

DISEÑO RAZONADO DE MUESTRAS

Decir que uno se pierde en lo específico, o que el otro siempre ofrece una aproximación superficial de cuestiones complejas, perdidas en los grandes números, es una actitud por lo menos ingenua que algunas veces aparece entre investigadores de ambas disciplinas... La naturaleza desigual y multifacética del objeto epidemiológico y su determinante justificará el empleo de un sensato «pluralismo metodológico». Entre las más connotadas técnicas cualitativas, todas bosquejadas y referenciadas por Castellanos (1989), se hallan la asamblea o fórum comunitario, el famoso brainstorming y el menos conocido brainwriting, las entrevistas en profundidad, las técnicas grupales (nominal, de discusión y Delfos), la historia de vida, el uso de informantes claves, la observación estructurada y la observación participante. El debate que he bosquejado tiene plena vigencia. La investigadora australiana Frances Baum ha desarrollado una circunstanciada defensa de la posibilidad y la conveniencia de asumir una integración metodológica que supere las distancias que objetivamente se viven hoy (véase Baum, 1997). No todos comparten sin embargo lo que podría entenderse como una facilista conciliación salomónica. Por ejemplo, Prieto (1997) sostiene que los llamados «métodos cualitativos» son «no científicos» debido a que no cumplen ciertos requisitos generales que se consideran esenciales, tales como que conduzcan a los mismos resultados aunque los observadores sean diferentes. Es cierto que virtualmente todas las técnicas de este tipo suponen la existencia de lo subjetivo e intentan aprehenderlo sin ruborizarse. A mi juicio no hay motivos para el rubor si se repara en que para cierto tipo de problemas esos métodos resultan tanto o más recomendables que determinadas aplicaciones estadísticas cuya objetividad dista mucho de ser absoluta. Las encuestas estructuradas, por ejemplo, por lo común restringen marcadamente el espacio de expresión de los interrogados. Con ello se viabiliza y simplifica notablemente el procesamiento estadístico, pero no se salva de la subjetividad al investigador; éste «contamina» el proceso tan pronto se fijan, tanto sintáctica como conceptualmente, las respuestas posibles. La diferencia básica entre los procedimientos cuantitativos y los cualitativos no estriba en que aquéllos sean objetivos y éstos no, sino en el punto y el modo en que se introduce la subjetividad: los últimos ponen el énfasis en permitir y hasta en promover que los actores sociales participen con su propia subjetividad en el proceso; en los primeros la subjetividad –poca o mucha, pero inevitable– es virtualmente monopolizada por los investigadores. Las técnicas cualitativas tienen, sin embargo, un alcance limitado. Si bien pueden ser un magnífico instrumento alternativo o complementario de las encuestas para resolver algunas tareas específicas (tales como sopesar un estado de opinión u ordenar jerárquicamente un paquete de necesidades según priorida-

MARCO CONCEPTUAL DE LAS TÉCNICAS MUESTRALES

7

des), resultan inoperantes por sí mismas en muchísimos problemas de investigación epidemiológica, en la inmensa mayoría de los del área clínica y en la totalidad de los problemas planteados por las ciencias básicas. No obstante, resulta poco razonable renunciar dogmáticamente al empleo de métodos que han demostrado su eficacia y que en determinados contextos pueden operar en régimen de simbiosis con recursos como los que nos ocupan predominantemente en este libro.

1.3. Estudios descriptivos y analíticos Las técnicas de muestreo en las que se pone el énfasis en este libro son aquellas que procede aplicar específicamente ante preguntas de investigación que apuntan en dirección descriptiva, aunque las investigaciones que van más allá de la descripción y procuran descubrir explicaciones (los llamados «estudios analíticos») también operan, desde luego, con muestras. Sin embargo, el manejo de series de observaciones que se derivan de un conjunto numeroso de condiciones externas y que se obtienen sin intervención formal de las técnicas clásicas de muestreo, no sólo es común sino inevitable en muchas –probablemente la mayoría– de las investigaciones analíticas. Un ejemplo típico se produce cuando se quiere establecer el cuadro causal de una enfermedad; lo que se estudia es la asociación de algún factor exógeno –tal como el hábito de fumar o el régimen nutricional– con la presencia o ausencia de la enfermedad. En una situación tal, no suelen elegirse muestras formales a partir de listados poblacionales; el énfasis debe ponerse en conseguir que los grupos sean similares a todos los efectos salvo en lo que concierne al factor (la mal llamada comparabilidad3 entre el grupo de casos con el de controles), antes que en la representatividad que unos y otros exhiban en relación con las respectivas poblaciones (Keller, 1969). Dicho de otro modo, en los estudios analíticos la demanda metodológica fundamental en relación con las muestras no concierne a la representatividad, sino al grado de similitud que exhiban los grupos que vayan a compararse. Si bien, como se ha dicho, este libro se concentra en el ámbito descriptivo; el importante tema del muestreo en estudios analíticos se aborda específicamente en el Capítulo 10.

3

Creo que el término no es afortunado, pues dos cosas son comparables no cuando son parecidas, sino cuando son susceptibles de comparación. No es posible comparar el diámetro de una naranja con el peso de un plátano, pero sí se puede comparar la talla de un ser humano con la distancia entre La Habana y Madrid.

8

DISEÑO RAZONADO DE MUESTRAS

1.4. Problema de muestreo en estudios descriptivos Supongamos que estamos ante una población finita cualquiera –o sea, un conjunto de entes susceptibles, al menos teóricamente, de ser listados– y que se quiere conocer una característica general o parámetro, definido por el resultado numérico de «combinar» de alguna manera prefijada los datos que se obtendrían en caso de que se midiesen todos los elementos de la población4. Por ejemplo, podría tratarse del porcentaje de aquellos ancianos de una comunidad que son capaces de valerse por sí mismos, del salario promedio de los médicos de un país, del número total de historias clínicas deficientemente llenadas en un hospital, o de la edad mediana en que se produce la menarquía en las zonas urbanas de una provincia. Si en lugar de proceder a obtener los datos necesarios para todas y cada una de las unidades de la población de interés (todos los ancianos de la comunidad, la totalidad de los médicos del país, el conjunto completo de historias clínicas o todas las niñas y adolescentes de la parte urbana de la provincia), se decide examinar sólo una porción de tales unidades, y estimar el número desconocido a partir de dicha información, entonces decimos que se ha planteado un problema de estimación por muestreo. Para dar solución a tal problema es necesario –expresado esquemáticamente–encarar las siguientes tareas: a) Delimitar el número de unidades o elementos que deben estudiarse. b) Establecer la forma en que se efectuará la selección. c) Determinar el modo en que se procesarán los datos para realizar la estimación. d) Identificar el procedimiento de cálculo estimado del error que se comete en el proceso inferencial (la distancia máxima estimada entre la estimación efectuada y el parámetro desconocido). Lejos de lo que pudiera pensarse, estas cuatro tareas se condicionan mutuamente, incluso en el sentido de que no es posible abordarlas secuencialmente: se necesita una aproximación simultánea e integral que, para cada nuevo problema de muestreo, puede demandar un enfoque relativamente original.

4

Aunque aquí, con el fin de simplificar la exposición, nos estamos refiriendo a un parámetro, en la práctica regular no hay un único parámetro por estimar, sino varias decenas de ellos. Por ejemplo, en un estudio sobre productividad médica en la asistencia de urgencia el objetivo central puede que sea estimar el número promedio de pacientes atendidos por hora, pero difícilmente el interés se circunscriba al conocimiento de ese número; típicamente, se deseará obtener tablas que contemplen aspectos tales como el diagnóstico, la edad del médico, los horarios de trabajo, etc.

MARCO CONCEPTUAL DE LAS TÉCNICAS MUESTRALES

9

1.5. Unidades de análisis, unidades de muestreo y marco muestral Se denomina unidad de análisis a cada uno de los elementos o sujetos que componen la población y que podrían ser, en su momento, objeto de interrogatorio o medición. Ocasionalmente, antes de seleccionar la muestra, la población se divide en unidades de primera etapa (UPE). Cada UPE puede estar conformada por un conjunto de unidades de análisis5. En cualquier caso, las unidades de muestreo de primera etapa deben cubrir por entero a la población sin intersecarse; o sea, todo miembro de la población o unidad de análisis pertenecerá a una y sólo una UPE. En el caso más general, una unidad de muestreo puede estar conformada a su vez por un conjunto de unidades de muestreo correspondientes a una etapa posterior de selección. Se llama marco muestral al conjunto de listas de todas las unidades de muestreo necesarias para llevar adelante el proceso. Para fijar mejor estas nociones, supongamos que se estudia una población de escolares para conocer la prevalencia de cierta dolencia. Cada escolar es una unidad de análisis (el ente que se examina). Si se tiene un listado de todos los escolares al que se aplica un método de selección directamente, entonces dicho listado es el marco muestral, y las unidades de análisis son también las de muestreo. Pero, si en lugar de contar con un listado de escolares, se tiene uno de escuelas, algunas de las cuales se elegirán para el estudio, entonces las unidades primarias de muestreo serán las escuelas. Si, hecha esta selección, se toman sólo algunas aulas de las escuelas elegidas y, finalmente, dentro de estas últimas se eligen alumnos para integrar la muestra definitiva, entonces habría tres procesos escalonados de selección; existen en este caso las llamadas unidades de muestreo de primera, segunda y tercera etapa (escuelas, aulas y alumnos respectivamente). El conjunto de listados imprescindibles para la selección total (de escuelas primero, después el de las aulas que tiene cada escuela seleccionada, y finalmente el de niños dentro de cada una de las aulas así elegidas) constituyen el marco muestral del estudio.

1.6. Probabilidad de selección y diseños probabilísticos Un paso de crucial relevancia en el proceso histórico de consolidación de la teoría del muestreo fue dado con la introducción del azar en el acto de selección muestral.

5

La situación en que las unidades de muestreo son directamente las unidades de análisis es un caso particular.

10

DISEÑO RAZONADO DE MUESTRAS

Supongamos que se ha concebido un procedimiento de selección muestral cualquiera de una población P integrada por N elementos: P ={e1, e2, …eN,}. El azar puede intervenir de muchos modos en ese proceso, pero se considera que se ha conferido un carácter estadísticamente riguroso al método de selección sólo cuando se cumplen dos condiciones: que el procedimiento otorgue a cada elemento de la población una probabilidad πi conocida de integrar la muestra (es decir, que πi se conozca de antemano para todo elemento ei de P), y que tal probabilidad no sea nula para elemento alguno (esto es, πi > 0 para todo i). En tal caso, se dice que se ha seguido un método probabilístico de muestreo. Consideremos el conjunto de todas las muestras posibles (es decir, aquellos subconjuntos de la población que, teniendo en cuenta el método de selección que se ha prefijado, puedan resultar elegidos en calidad de muestra). Si Mj representa a la j-ésima de esas muestras posibles y e, es un elemento cualquiera de la población, entonces la probabilidad πi de que ei resulte seleccionado es igual a la suma de las probabilidades que tienen de ser elegidas todas aquellas muestras posibles que contienen al elemento ei. En términos formales, esto es:

πi =



M j ∋ ei

P (M j )

donde P(Mj) representa la probabilidad que tiene Mj de ser el subconjunto elegido como muestra. A modo de ilustración consideremos una situación en extremo simple y, desde luego, sin interés práctico alguno. Numeremos los meses del año del 1 al 12 y supongamos que se desea una muestra de ellos. Supongamos además que se forman 3 subconjuntos de meses: M1= { 1 , 2 , 3 , 4 , 5 , 6 } M2= {1, 7, 8, 9, 10, 11} M3 ={1, 6, 12} Supongamos que la selección de los meses se realiza del modo siguiente: se tiran dos monedas; si salen dos caras, la muestra será igual a M1; si salen 2 escudos, estará formada por los elementos de M2, y en otro caso, coincidirá con M3. Las probabilidades respectivas de las 3 muestras posibles son: 1 , 1 y 1 . La probabilidad 4 4 2 de que el mes de enero sea elegido es 1 (será seleccionado con certeza), pues las 3 muestras posibles lo contienen. La probabilidad de selección de los meses 2, 3, 4, 5, 7, 8, 9, 10 y 11 es igual a

1 , 4

pues en cada caso es ésa la probabilidad de la

única muestra posible que lo contiene; la probabilidad de junio (mes 6) es P (M1) + P (M3) = 1 + 1 = 3 y, finalmente, la de que resulte elegido el mes de 4 2 4

MARCO CONCEPTUAL DE LAS TÉCNICAS MUESTRALES

11

diciembre es 1 , pues ésa es la probabilidad de que M3, la única muestra que 2

contiene al 12, resulte elegida.

1.7. Diseños equiprobabilísticos Una forma especial de diseño probabilístico es aquel en que todos los sujetos de la población tienen la misma probabilidad de ser seleccionados (TT, es constante para todo i); en tal caso se dice que el método es equiprobabilístico.

1.7.1. Algunos ejemplos simples Veamos a continuación algunos ejemplos relacionados con esta condición. Consideremos para ello la población formada por los 365 días del año 2001 y valoremos algunos métodos para seleccionar una muestra de días6. Ejemplo 1. Se ponen 365 bolas en una urna, cada una de las cuales lleva inscrito un día diferente del año. Se extraen sucesivamente 10 de ellas de manera similar a como se procede en la lotería; se incluyen en la muestra los días consignados en dichas bolas.

Es muy intuitivo (véase la demostración en la Sección 3.2); que la probabilidad común a todos los días es π =

10 . 365

Ejemplo 2. Se procede como en el ejemplo anterior, pero la bola elegida entre las 365 de la urna sólo sirve para seleccionar un mes del año (se elige el mes al que pertenece el día señalado en esa bola). Luego se toman al azar exactamente 10 días de dicho mes.

La probabilidad de que resulte elegido un día dado, P(D), es igual al producto de dos probabilidades: la de que resulte seleccionado el mes que contiene a dicho día, P(M), y la probabilidad condicional P(D | M) de que sea ése uno de los 10 días seleccionados supuesto que fue seleccionado el mes que lo contiene. Esto es: P(D) = P(M) P(D | M). Es fácil apreciar que P(M) =

6

Ni 365

, donde Ni es el número

Lo que va a medirse en esas unidades de análisis puede ser la humedad ambiental o el número de accidentes automovilísticos registrados en una ciudad. A los efectos de esta ilustración, sin embargo, ese dato es irrelevante.

12

DISEÑO RAZONADO DE MUESTRAS

de días contenidos en el mes de que se trate, y que P(D | M)

Ni 10 10 = . 365 Ni 365 O sea, que la probabilidad es la misma para todos los días.

10 Ni

de modo que:

πi =

Ejemplo 3. Se colocan los nombres de los 12 meses en respectivas tarjetas y, tras mezclarlas concienzudamente, se eligen 3 de ellas; se incluyen en la muestra todos los días contenidos en los tres meses seleccionados.

La probabilidad de cualquier mes es 3 ; puesto que un día queda automáti12

camente elegido si lo fue el mes en que está contenido, todos los días del año 3 tendrán esa misma probabilidad de inclusión: π i = 12 Como comentario lateral, advirtamos que este ejemplo evoca una situación práctica totalmente verosímil. Supongamos que tenemos un listado de 50 viviendas en las que viven 225 personas. Se quiere una muestra de individuos y se decide seleccionar 10 viviendas al azar e incluir en la muestra a todos los individuos que las habitan. La muestra tendrá tantos elementos como sujetos vivan en las 10 viviendas elegidas. Puesto que ese número no se conoce hasta que no se haya concluido la selección de las viviendas, el tamaño de la muestra de sujetos depende de cuáles sean las viviendas que el azar haya determinado. Sin embargo, el diseño es equiprobabilístico. Efectivamente, la probabilidad de inclusión de cada individuo coincide con la que tenga su vivienda de estar entre las 10 que se seleccionen; o sea, todos los elementos tienen la misma probabilidad de inclusión:

10 50

= 0, 2 .

Ejemplo 4. Para cada día se tira una moneda al aire; si sale cruz, se elige ese día; en otro caso, ese día se descarta.

En este caso es evidente que π i =

1 2

para todo i. La muestra puede tener un

tamaño que va desde 0 a 365. En los ejemplos 3 y 4, a diferencia de los dos primeros, el tamaño muestral no está fijo de antemano sino que es aleatorio: no lo conoceremos hasta que no termine la selección. De hecho, por tanto, el tamaño muestral es en esos dos casos una variable aleatoria.

1.7.2. Tamaño muestral y probabilidades de selección Hablar del valor esperado del tamaño muestral sólo tiene un sentido no trivial para diseños en que, como en los dos últimos ejemplos, el tamaño muestral re-

MARCO CONCEPTUAL DE LAS TÉCNICAS MUESTRALES

13

sultante no es constante. Cómo se verá más adelante, en la práctica es frecuente que se trabaje con métodos de muestreo para los que el tamaño muestral no se conoce hasta que no concluya el proceso de selección. Sin embargo, si el procedimiento es probabilístico, siempre se podrá tener una idea de cuál podría ser el tamaño que se obtendrá. Si dicho procedimiento se repitiera muchas veces, los respectivos tamaños de muestra serían «realizaciones» de una variable aleatoria. El procedimiento de tales realizaciones es el valor esperado de la variable. El valor esperado del tamaño muestral es el número «en torno al cual» se ubican los distintos tamaños de muestra posibles (lo que «cabe esperar» que resulte); formalmente esto es:

E ( n) =

∑n

h

P(n = nh )

h

donde los nh son los tamaños de muestra posibles y dónde P(n – nh) denota la probabilidad de que el tamaño muestral sea nh. Una manera alternativa de computar este número viene dada por la siguiente propiedad: La suma de las probabilidades de selección de todos los miembros de la población es igual al valor esperado del tamaño muestral (véase Des Raj, 1968). Formalmente: E ( n) =

N

∑π i =1

i

Consideremos el ejemplo 3 de la Sección 1.7.1. Se trataba de una muestra de los 365 días del año 2001, conformada con los días pertenecientes a 3 meses elegidos al azar. El cálculo de los diferentes tamaños de muestra posibles y de sus respectivas probabilidades es bastante laborioso. Sin embargo, usando la propiedad, el cómputo de E(n) es inmediato; en efecto, puesto que el procedimiento es equiprobabilístico (con πi = 0,25 para todos los días), se tiene: 365

∑π i =1

i

=

365 = 91, 25 4

Si el tamaño de muestra es fijo (como en los ejemplos 1 y 2), este resultado se reduce a afirmar que la suma de las probabilidades de inclusión de todos los elementos de la población coincide con el tamaño muestral. Si además de producir tamaño muestral fijo, el diseño es equiprobabilístico, y llamamos n a la probabilidad común a todos los elementos, entonces se cumple, necesariamente, que π =

n . N

14

DISEÑO RAZONADO DE MUESTRAS

1.7.3. Una ilustración histórica Los diseños equiprobabilísticos tienen varias ventajas, que se expondrán en diversos puntos del texto. De momento, sin embargo, sólo destacaremos que, ocasionalmente, el carácter equiprobabilístico del método es prácticamente vital. Esto resulta evidente, por ejemplo, cuando se trata de elegir números que determinan premios en una lotería o en los procesos de asignación aleatoria dentro de algunos diseños experimentales. Una ilustración interesante que muestra cuan espinoso puede ser este asunto, se vincula con un hecho acaecido en 1997 con motivo de un proceso de selección muestral llevado adelante por el ejército español. Cuando se hacía el llamado a filas para servir en las fuerzas armadas, estaba entonces establecido que una parte de los candidatos fuese exonerada de tal obligación, así como que la selección de los agraciados se verificase públicamente y por un procedimiento que otorgara la misma probabilidad de ser eximidos a todos los jóvenes cuyas edades estaban comprendidas entre dos fechas prefijadas. El modo en que se llevó adelante el procedimiento en 1997, parecía correcto (equiprobabilístico); pero no lo era. Para explicarlo, consideremos un ejemplo estructuralmente equivalente, pero numéricamente mucho más sencillo que el real. Su explicación tiene cierta complejidad, por lo que se recomienda no adentrarse en sus detalles si no se posee cierta destreza algebraica y probabilística. Supongamos que se quieren elegir n = 5 sujetos de un listado que consta de N= 17 individuos, los cuales se numeran del 0 al 16. La selección se realiza por un método, que consta de las siguientes dos etapas: Primera etapa: Se elige un número r entre 0 y 16. Para ello, primero se eligen dos números b1 y b2. Para decidir el valor de b1 se tira una moneda al aire: si sale cara, entonces b1 = 0; si sale escudo, b1 = 1 .La elección de b2 depende de el resultado obtenido para b1 según la regla siguiente:

a) Si b1 es 0, de una urna que contiene 10 bolas numeradas del 0 al 9 se elige una y se toma dicho número como b2. b) Si b1 es 1, se elige también una bola pero de una urna que contiene 7 bolas, numeradas del 0 al 6 (vale decir, se elige un número al azar entre 0 y 6); b2 es el número de dicha bola. Hecho esto, se define r = 10 b1 + b2, que es el número entre 0 y 16 que se buscaba en esta primera etapa. Segunda etapa: Una vez elegido r, se seleccionan los sujetos que están en los lugares r , r + 1, r + 2, r + 3, r + 4 del listado. Si r es inferior a 13, estos 5 números no ofrecen dudas. Si 13 ≤ r ≤ 16, entonces se considera que el listado es circular; por ejemplo, si r = 15, entonces r + 1 = 16, r + 2 = 0, r + 3 = 1 y r + 4 = 2.

MARCO CONCEPTUAL DE LAS TÉCNICAS MUESTRALES

15

Corroboremos ahora que la probabilidad que tienen los sujetos del listado de ser elegidos no es la misma para todos sino que difiere para cada individuo según la posición que éste ocupe en el listado. La probabilidad de seleccionar el número r = 10 b1 + b2 es igual a la probabilidad de seleccionar b1 multiplicada por la de elegir b2 dado que se seleccionó b1: P ( r = 10b1 + b2 ) = P (b1 ) . P (b2 b1 )

Esta probabilidad puede tomar sólo dos valores diferentes (llamémosle A y B), en dependencia de que bx sea 0 ó 1 respectivamente. Puesto que P(b1 = 0) = P(b1 = 1) = 0,5, es muy fácil convencerse de que dichos valores son:

A= y de que:

1 2

.

1 10

=

1

y B=

20

P (r = h) =

{

1 2

.

1 7

=

1 14

A para h: 0, ...,9 B para h: 10, ...,16

Ahora recordemos que el sujeto que ocupa el lugar h resulta elegido siempre que se produzca alguna de las 5 siguientes posibilidades: r = h, r = h - 1, r = h - 2, r = h-3, o r = h-4. Consecuentemente, para calcular la probabilidad de selección que corresponde al sujeto h , ( 0 ≤ h ≤ 16), a la que llamaremos p*(h), debe computarse la suma de las probabilidades de estos 5 eventos; o sea, ha de aplicarse la siguiente fórmula: P * ( h) =

4

∑ P(r = h − i) i =0

Por ejemplo, la probabilidad de que el noveno sujeto resulte elegido es: P * (9) = P ( r = 9) + P ( r = 8) + P ( r = 7) + P ( r = 6) + P ( r = 5)

y la que quede seleccionado el segundo, recordando el convenio de circularidad, es:

P *(2) = P(r = 2) + P(r = 1) + P(r = 0) + P(r = −1) + P(r = −2) = P (r = 2) + P(r = 1) + P(r = 0) + P(r = 16) + P(r = 15) Finalmente, puesto que P (r = h) sólo puede ser igual a A o a B, es obvio que P* (h) es necesariamente de la forma kA + (5 - k)B donde k es un número entre 0 y 5 que cambia en dependencia del valor de h. A partir de esto se puede construir fácilmente la tabla donde se recogen las probabilidades de cada uno de los 17 sujetos, marcadamente diferentes entre sí, como se muestra a continuación:

16

DISEÑO RAZONADO DE MUESTRAS

La última fila de la tabla permite comprobar que: 16

∑ P *(h) = n h =0

tal y como afirmaba la propiedad arriba enunciada.

1.8. Muestras no probabilísticas Un primer caso de interés que debe analizarse es el de las muestras que, habiendo sido planificadas probabilísticamente, pierden ese carácter en la fase de terreno, circunstancia que puede introducir un fuerte sesgo que descalifique los resultados. Imaginemos que se planifica un estudio de morbilidad bucal en cierta área de salud y que el procedimiento de selección establecido consiste en tomar una de cada 6 viviendas a lo largo de un listado que incluye a todas las casas del área con vistas a examinar entonces a todos los residentes de las que resulten seleccionadas. Es fácil demostrar que, en principio, si la primera de las casas se 1 elige con probabilidad igual a (por ejemplo mediante el lanzamiento de un 6 dado), entonces todo residente del área tiene la misma probabilidad de ser examinado. Supongamos, sin embargo que, en la práctica, en lugar de establecer

MARCO CONCEPTUAL DE LAS TÉCNICAS MUESTRALES

17

que se regrese una y otra vez a cada casa seleccionada hasta completar el examen de todos sus habitantes, se sigue la regla de realizar el reconocimiento estomatológico sólo a los individuos que se hallen en la vivienda en el momento de la visita. De tal suerte, los ancianos tendrán en la práctica una probabilidad mucho más alta de ser encuestados (por tenerla de estar presentes en el momento de la visita) que niños y adultos. Como el cuadro morboso típico de un anciano es, en términos generales, cualitativa y cuantitativamente diferente al del resto de la población, el panorama general brindado por la muestra no permitirá obtener una visión real de lo que verdaderamente ocurre en el área de salud. Pero, el problema que interesa destacar ahora no es tanto que se pierda el carácter equiprobabilístico del diseño como el hecho de que, bajo estas circunstancias, las probabilidades de selección pasarían a ser, en rigor, desconocidas, pues el verdadero mecanismo de elección queda afectado por determinantes que ya no están bajo control del muestrista. Por otra parte, ocasionalmente, el muestreo no probabilístico (que algunos autores han denominado indebidamente «opinático») se emplea de manera deliberada. Los procedimientos pueden ser de varios tipos. Circunscribiéndonos al caso en que se tiene una población bien definida de la cual se va a obtener una muestra, las formas básicas de selección no probabilística son las cuatro siguientes: a) b) c) d)

Selección realizada sin método alguno. Muestreo semiprobabilístico. Muestreo por cuotas. Selección según criterio de autoridad.

El primer método (selección «al tun tun»), en que los elementos se eligen sin reflexión ni previsión algunas, está obviamente sujeto a importantes e incontrolables sesgos; consecuentemente, es simplemente ajeno a la buena práctica científica. El muestreo semiprobabilístico es −como lo indica su nombre− un procedimiento cuyo carácter probabilístico se mantiene sólo hasta cierto punto del proceso de selección y se abandona de ahí en adelante. Cochran, Mosteller y Tukey (1954) lo ilustran del modo siguiente: se quiere una muestra de hojas de una plantación para su control fitosanitario; se hace una selección probabilística de una muestra de árboles, pero dentro de cada árbol elegido se toma un grupo de hojas según el criterio del técnico que selecciona la muestra. Otro ejemplo de tal tipo de selección se puede presentar cuando se siguen reglas como la de suplir a la persona elegida por un vecino en caso de que ella no se encuentre en la vivienda; en tal situación, las viviendas pueden haberse elegido probabilísticamente, pero esa condición se pierde en la etapa siguiente, con la

18

DISEÑO RAZONADO DE MUESTRAS

posible aparición de sesgos, derivados del hecho, por ejemplo, de que las amas de casa pueden quedar muy sobrerrepresentadas en la muestra. El maestreo por cuotas −muy usado en las encuestas de opinión y de mercado− concierne fundamentalmente a la investigación con poblaciones humanas. Parte del principio de forzar a que la muestra contenga el mismo porcentaje de individuos con ciertas características prefijadas que la población entera. Según los intereses que se consideren relevantes, se divide la población en subclases mutuamente excluyentes y −generalmente a partir de datos censales− se obtienen los porcentajes abarcados por cada una de dichas subclases. Se establece entonces que la muestra tenga sus elementos distribuidos dentro de las subclases de manera tal que los porcentajes muéstrales coincidan a la postre con los de la población. Para lograrlo se le asigna a cada enumerador una zona específica (por ejemplo, una manzana) y se le permite que allí entreviste a los individuos que él escoja, siempre que lo haga dentro de las restricciones determinadas por las «cuotas» de muestreo estipuladas. Así, por ejemplo, se le indica hacer 10 encuestas: de las cuales 5 han de ser a hombres y 5 a mujeres; se establece que uno de los 10 debe ser profesional; que dos de los encuestados deben ser mayores de 50 años, 6 han de estar entre 25 y 49, en tanto que los otros dos deben tener entre 15 y 24. Al reunir las selecciones realizadas por todos los enumeradores se tendrá con certeza que la mitad de la muestra estará integrada por mujeres, el 10% por profesionales, etc. Es obvio que el procedimiento, como ocurre en definitiva con todo método no probabilístico, puede conducir a importantes sesgos (los enumeradores podrían, por poner un ejemplo, evitar las viviendas con escaleras o las que tienen perros). Finalmente, se tiene el caso en que la muestra es determinada mediante el criterio razonado de autoridades en la materia del estudio. En la aplicación de este método, los investigadores sopesan cuidadosamente las características de los elementos que integran la población para elegir racionalmente aquéllos que a su juicio pueden conformar el mejor modelo de la realidad de acuerdo con los objetivos del trabajo. Como consecuencia de una extendida confusión entre azar y representatividad que se aborda en la próxima sección puede ocurrir que esta alternativa se descarte automáticamente por considerarse intrísecamente mala; en efecto, al tener en cuenta que la muestra no fue seleccionada por medio del azar, el investigador puede sentir que su estudio carece del rigor científico necesario. Ese sentimiento −o el afán de desarrollar acciones destinadas a conjurarlo− no siempre se apoya en la justa evaluación metodológica de los procedimientos aplicados; en ocasiones reposa simplemente en la falta de comprensión cabal del contenido y alcance de los conceptos en juego. Existen circunstancias en que lo único razonable es optar, precisamente, por este tipo de elección, en lugar de por un método probabilístico. Se trata fundamentalmente de situaciones en las que el tamaño de muestra planificado es muy pequeño, sobre todo si también el tamaño poblacional lo es.

MARCO CONCEPTUAL DE LAS TÉCNICAS MUESTRALES

19

Por ejemplo, imaginemos que se quiere estudiar el funcionamiento del conjunto de los 25 hospitales de una provincia, y que se decide hacerlo a través de una evaluación exhaustiva de 4 de ellos: es mejor seleccionar los cuatro que racionalmente se consideren más representativos antes que permitir que sea el azar quien los determine. La clave técnica de esa preferencia radica en que, si bien los errores de las estimaciones no podrán ser objetivamente medidos, éstos van a resultar menores y ello es, en última instancia, lo que por encima de todo se desea. Por otra parte, es intuitivamente razonable, ya que carece de sentido que, en lugar de usar al azar como una herramienta ventajosa, quedemos en sus manos hasta el punto de ser posibles víctimas del modo en que se desempeñe. Adviértase que el azar bien podría producir (y en este caso no con baja probabilidad) muestras totalmente inconvenientes, del tipo en que todos los hospitales sean de la capital provincial, o que ninguno sea docente. Además, en situaciones como la descrita, normalmente no se realizarán estimaciones en el sentido formal, como pudiera ocurrir en poblaciones grandes, sino que las valoraciones globales tienden a ser más bien de naturaleza cualitativa.

1.9. El concepto de representatividad y el papel del azar 1.9.1. La noción de representatividad Es necesario comenzar enfatizando que la noción de representatividad sólo tiene un alcance intuitivo. En efecto, no existe una definición formal que permita establecer si una muestra concreta es o no representativa, ni estimar siquiera su grado de representatividad. Esta noción intuitiva, sin embargo, es tan familiar que resulta muy fácil hallar ejemplos de la vida cotidiana que ilustren su empleo. En el terreno científico, sin embargo, es conveniente y posible manejar estas ideas de manera menos vaga. En ese sentido puede consultarse el libro clásico de Stephan y McCarthy (1958); allí, a la vez que se alerta acerca de que la expresión «muestra representativa» nunca podrá tener un significado formalizable, se sugieren algunas ideas en la línea de aproximarse al que le confiere nuestro sentido común. La noción que, ajuicio nuestro, mejor sintetiza el concepto de representatividad muestral es la siguiente: para conseguirla, lo que debe procurarse es que la muestra exhiba internamente el mismo grado de diversidad que la población. Imaginemos, por ejemplo, que un estudio sobre las opiniones de la población general acerca del sistema de atención primaria se ha llevado adelante interrogando sólo a estudiantes de medicina. Se trata sin duda de una muestra (un

20

DISEÑO RAZONADO DE MUESTRAS

subconjunto) de la población, pero inmediatamente será apreciada con suspicacia; ¿por qué no nos parecería «representativa» tal muestra? Básicamente, porque sospechamos o sabemos que es demasiado uniforme: la población general es más heterogénea que la de estudiantes a los efectos del tema que nos ocupa7. Las conclusiones derivadas del proceso inferencial, por su propia naturaleza, siempre estarán sujetas a error. Otra manera de entender el concepto es la siguiente: una muestra puede considerarse representativa a los efectos de ciertos aspectos específicos de la población cuando el error en que se incurre al emplearla para hacer estimaciones sobre esos aspectos no excede ciertos límites prefijados. Esto subraya el hecho de que una muestra puede ser representativa de ciertos rasgos y no de otros (por ejemplo, serlo de la distribución poblacional en cuanto a grupos sanguíneos pero no en cuanto al nivel de escolaridad).

1.9.2. ¿Garantiza el azar la representatividad? Consideremos la siguiente situación. En una escuela primaria hay 100 niños de cada sexo y se quiere estudiar el rendimiento académico del total de los 200 educandos a partir de una muestra de 50 de ellos. Si se permite que sea exclusivamente el azar quien determine los 50 elementos de la muestra, bien podría ocurrir que todos fuesen varones (aunque tal evento sea tan extraordinariamente improbable que a todos los efectos prácticos pueda considerarse virtualmente imposible). En tal caso, naturalmente, la muestra no sería representativa con relación al género y, consecuentemente, tampoco respecto de aquellos factores directa o indirectamente asociados a él. Aunque de manera menos exagerada, igual consideración podrían merecer, por ejemplo, muestras con 40 varones y 10 niñas, o viceversa. Si se supiera –como suele ocurrir– que aquello que se investiga está asociado con el género, parecería justificado y prudente rechazar tales muestras (si se produjeran) como fuente de eventual generalización. Sin embargo, quizás tampoco sería deseable que la muestra contuviese a 16 de los 20 alumnos zurdos que hay en la escuela, o que el porcentaje de alumnos de la muestra cuyas madres sean universitarias resulte mucho menor que el mismo porcentaje entre los 200 alumnos del centro, pues también podrían existir nexos indirectos, quizás desconocidos, entre el desempeño escolar y el hecho de ser zurdo, o entre dicho desempeño y la escolaridad de la madre. Sin embargo, es evidente que si se descartaran muestras «inconvenientes» una y otra vez hasta obtener una que no lo parezca, el uso del azar se reduciría a un autoengaño, además de que el proceso de escudriñar las muestras en esta línea sería por lo general impracticable y, en definitiva, interminable. 7 Esa es, en esencia, la razón por la cual las «votaciones» que suelen incluirse en los sitios WEB carecen de todo fundamento científico como instrumento para conocer «la opinión pública».

MARCO CONCEPTUAL DE LAS TÉCNICAS MUESTRALES

21

Por otra parte, repárese en que el examen de la muestra propiamente dicha no puede servir para evaluar su calidad como modelo representativo del universo que se estudia. En primer lugar, porque habría que analizar un número virtualmente ilimitado de características poblacionales, todas las cuales deberían quedar fidedignamente reflejadas en la muestra y, en segundo lugar, porque se opera con una muestra precisamente en virtud de que las características poblacionales se desconocen. Ahora bien, hay que subrayar que el solo hecho de que empleando el azar puedan obtenerse tales muestras pone en evidencia que dicho método no asegura ni mucho menos la representatividad. Éste es el nudo conceptual de máximo interés: contrariamente a una convicción bastante extendida, lo cierto es que el azar no inyecta representatividad a la muestra específica que pudiera obtenerse por su conducto. Abundando en el tema, supongamos ahora que el muestrista decide tomar en calidad de muestra al conjunto de los 50 estudiantes que hayan alcanzado en matemáticas las notas más altas de la escuela; al objetársele el procedimiento con la crítica de que no intervino el azar, y de que tal muestra es obviamente no representativa, él puede argüir que mediante el azar cualquier subconjunto de 50 alumnos podría haber resultado elegido –entre ellos, aquel integrado por los más destacados en matemáticas– y que, en tal caso, exactamente las mismas conclusiones no serían objetadas. ¿Acaso un poema merece diferente consideración en dependencia de que sea leído por la mañana o por la tarde, de que sea anónimo o esté firmado por un poeta encumbrado? ¿Por qué entonces aceptar cierta muestra si fue seleccionada al azar pero rechazar esa misma muestra si fue intencionalmente decidida? Formalmente, el argumento esgrimido contra el azar como exigencia parece impecable.

1.9.3. Los méritos del azar El problema de sacrificar el instrumento de la aleatoriedad en el altar de esa lógica estriba, como ya se apuntó, en que así se estaría licitando cualquier manipulación tendenciosa del objeto de estudio, en contradicción con un principio elemental del proceder científico. ¿Cuáles son entonces los méritos del azar? Se reducen a dos: en primer lugar, los procedimientos probabilísticos satisfacen esa exigencia intuitiva de eliminar –o mitigar al menos– la carga subjetiva que podría influir en la elección de los elementos que se van a examinar (y, por ende, en las conclusiones). El azar juega el papel de seguro contra distorsiones sistemáticas, sean o no deliberadas, y ese papel es por lo general insustituible, aunque no resuelve la encrucijada lógica en que nos hallamos. En segundo lugar, y esto es realmente crucial, sólo cuando el método es probabilístico se podrá solucionar la tarea de medir el grado de precisión con que se realizan las estimaciones. El investigador, naturalmente, desea dos cosas: en primer lugar y sobre todo, que ese margen de imprecisión en sus conclusiones sea pequeño y, en segundo

22

DISEÑO RAZONADO DE MUESTRAS

lugar, tener una estimación de cuál es la magnitud real del error. El carácter probabilístico del método de selección asegura esto último −y en ello radica precisamente su virtud fundamental−, aunque no necesariamente garantice lo primero.

1.9.4. Elegir el método, aceptar la muestra La clave del razonamiento en que se fundamenta el empleo del azar radica en lo siguiente: la confianza que pueda depositarse en una muestra depende vital y exclusivamente de la que merezca el procedimiento que la produjo. Vale la pena detenerse en este punto, que es el aspecto metodológicamente más relevante. En general, no se emplea un método porque siempre funcione eficientemente, ni se descarta porque siempre fracase. La elección racional de un procedimiento (independientemente de lo que se procure resolver con él) nada tiene que ver con la infalibilidad; con lo que tiene que ver es con la evaluación del riesgo de que nos conduzca al fracaso: si éste es muy pequeño, se adopta; si es muy grande, se desdeña. Así nos conducimos cotidianamente cada vez que elegimos racionalmente una manera dada para resolver algo (comunicarnos con alguien, comprar un producto, trasladarnos a algún sitio, etc.). En el caso de la selección de muestras, casi siempre es posible que nos toque en suerte una muestra muy «deficiente»; pero si los tamaños de la población y de la muestra no son muy reducidos, entonces muy probablemente la muestra resultante será representativa a cualquier efecto de interés8. Dicho de otro modo, las muestras «deficientes» serán relativamente pocas. La que resulte seleccionada cuando se aplique un procedimiento dado de muestreo no tiene una confiabilidad intrínseca; una vez elegida no tiene mayor sentido pensar siquiera en sus posibles méritos. Importan los méritos del diseño que la produjo; como se ha dicho, él es «bueno», como ocurre con cualquier otro método, cuando la inmensa mayoría de sus desenlaces sean satisfactorios. Por otra parte, una vez aplicado el procedimiento de muestreo, será típicamente imposible enterarse siquiera acerca de la calidad de la muestra obtenida. En la práctica, después de meditar cuidadosamente el procedimiento muestral y de haberlo aplicado consecuentemente, el estudio debe continuarse usando la muestra que haya resultado sin que se admitan manipulaciones a posteriori, por muy razonables que pudieran parecer. Cabe recordar, por otra parte, que la ciencia no avanza de manera lineal sino en virtud de una singularidad que la hace única: su propia capacidad autoco8 De hecho, eso es lo que afirma en esencia la «ley de los grandes números» descubierta por Bernoulli y bien conocida por los probabilistas.

MARCO CONCEPTUAL DE LAS TÉCNICAS MUESTRALES

23

rrectora. De modo que no es muy grave que ocasionalmente lleguemos a resultados incorrectos, pues para considerar que algo es cierto no bastan unos resultados aislados que lo confirmen, sino que es menester que éstos se hayan replicado. La verdad científica se abre paso con carácter necesario, a pesar de los elementos casuales que puedan coyunturalmente ocultarla o tergiversarla (Silva, 1977); desde el punto de vista del progreso científico, las consecuencias de algunas pifias en el contexto de muchos aciertos no son, por lo general, desastrosas. En síntesis, al permitir que el azar determine la base de la generalización se corre el riesgo de que, en algunos casos particulares, esta última resulte equivocada; pero en la medida en que se siga esta práctica, supuesto que se adopten medidas para que aquella contingencia sea más bien excepcional, la resultante final de las generalizaciones terminará por imponerse con fuerza de ley.

1.10. Estimación puntual y por intervalos Como ya se ha dicho, en el contexto de los estudios descriptivos la caracterización que se procura realizar casi siempre supone la estimación de parámetros. Concentrémonos en un parámetro genérico al que llamaremos P (que puede representar, por ejemplo, la prevalencia de asmáticos o el número total de cardiópatas en una comunidad). Supongamos que estamos en el primer caso y que un técnico de salud ha estimado ese número mediante un diseño probabilístico y que comunica que la estimación de P es igual a 11%. Esto, obviamente, no quiere decir que la prevalencia sea exactamente igual a 11%. Cuando se nos dice que la estimación es 11%, sabemos que esto quiere decir que el verdadero valor de P es «más o menos» igual a 11. La demanda, natural, sin embargo es conocer cuánto «más o menos». Es decir, resulta inmediata la aspiración de contar no sólo con una estimación puntual de P, sino también con una idea del error máximo que pudiera estar afectando a dicha estimación. Esto equivale a disponer de un intervalo en cuyo seno quepa esperar que se halle el parámetro.

1.10.1. Interpretación del intervalo de confianza Un intervalo de confianza para un parámetro P es, informalmente definido, una pareja de números, Pˆ1 y Pˆ2, entre los cuales podamos «estar confiados» que se halla el parámetro en cuestión. Es obvio que no es lo mismo creer que P es 11% más o menos 0,5%, que creer que es 11% más o menos 4%, o que sólo saber que es «aproximadamente» igual a 11%, pero no tener la menor idea acerca de cuál es la magnitud del error posible.

24

DISEÑO RAZONADO DE MUESTRAS

Para interpretar adecuadamente este intervalo debe repararse en lo siguiente: para cada muestra posible de la población, puede obtenerse un intervalo de confianza, aquel al que ella dé lugar. Quiere decir que el intervalo es el resultado de haber realizado una experiencia aleatoria. Ese intervalo puede contener o no al parámetro, aunque si ello efectivamente ocurre o no es algo que no podremos nunca dirimir en la práctica; lo que puede afirmarse es que, para un alto porcentaje de las muestras, el intervalo resultante contiene al parámetro desconocido. La virtud del intervalo que se obtiene para la única muestra que se selecciona en la práctica estriba en que se produjo por un método confiable; o sea, se podrá estar razonablemente confiado en que ese único intervalo que tocó en suerte no estará entre los pocos que no contienen al parámetro. Consecuentemente, si el intervalo se construye por un método tal que acierta a «atrapar» a P, por ejem-

plo, el 95% de las veces, se dice que «P se halla entre Pˆ1 y Pˆ2 con una confiabilidad del 95%». Para ilustrar estas ideas, supongamos que cierto estudio tiene entre sus propósitos conocer el gasto promedio en medicamentos en que incurren mensualmente los núcleos familiares de cierta comunidad. Los investigadores conocen por estudios similares que dicho valor debe estar entre $2.00 y $6.00, pero necesitan un dato más preciso. Naturalmente, si se opta por el uso del muestreo, el verdadero promedio nunca será conocido con certeza absoluta. Supongamos que tras una encuesta por muestreo se obtuvo, en calidad de estimación, que dicho gasto promedio asciende a $3.25. ¿Qué significa ese dato si no se tiene una idea del posible error cometido? Virtualmente nada. Sin embargo, si además se informase de que el error máximo es e - $0,15, lo que se está afirmando es que el verdadero gasto promedio se encuentra casi con seguridad entre $3.10 y $3.40. Ahora, si en lugar de $0.15, el error asociado a la estimación asciendiera a $3.20, entonces lo único que se conocería, en definitiva, sería que el verdadero gasto medio está entre $0.05 y $6.45. O sea, no se agregaría absolutamente nada a lo que ya se conocía de antemano. Es preciso comprender que la estimación aislada, sin una medida del error que pueda estar afectándola, carece virtualmente de interés. Cuando un titular de prensa afirma algo como lo siguiente: «A partir de una rigurosa muestra aleatoria de 300 hombres de la capital, los expertos han estimado que el porcentaje de hombres que usan preservativos regularmente subió en el curso del último año de 31,4% a 35,7%» pero escamotea (quizás porque no considera necesario comunicarlo) que el error máximo asociado a esta última estimación es de 4,6%, probablemente el lector común quede automáticamente persuadido de que ese consumo ha aumentado. Pero lo que realmente se sabe es que el porcentaje actual está, muy proba-

MARCO CONCEPTUAL DE LAS TÉCNICAS MUESTRALES

25

blemente, entre 31,1% y 40,3%, de modo que pudiera ser incluso inferior al 31,4% obtenido antes. Supongamos que, a su vez, aquel 31,4% se había obtenido con una muestra que produjo tal estimación con error estimado de un 6,0%. Entonces el verdadero valor inicial podría verosímilmente haber sido, por ejemplo, 36,0% (número que está dentro del intervalo que va de 25,4% a 37,4%, correspondiente al porcentaje estimado para el año anterior). En síntesis, la verdad que está detrás de la declaración según la cual «el uso de preservativos subió de 31,4% a 35,7%», pudiera tener como realidad subyacente que «el empleo de preservativos bajó del 36,0% al 31,2%», ya que esta última afirmación es perfectamente compatible con los resultados que arrojaron los estudios. Otra ilustración práctica concerniente a este tema se desarrolla en detalle en la Sección 3.6.

1.10.2. La zona más probable Una pregunta natural que suelen hacerse algunos investigadores es la siguiente: ¿son todos los puntos del intervalo igualmente probables? Replanteémosla en un marco más específico. Supongamos que la prevalencia de asmáticos considerada en la sección anterior ha sido estimada como 11% con un error máximo del 2%; de modo que el intervalo de confianza sería [9%-13%]. ¿Hay más razones para pensar que P sea igual a 11 % que, por ejemplo, a 12%? O, dicho de otro modo: puesto que 12 está dentro del intervalo, ¿es tan verosímil que P sea 12 como que P sea igual a 11, punto medio del intervalo? Es cierto que todos los valores del segmento 9%-13% son «compatibles» con P, pero realmente es más verosímil que P esté más cerca del punto medio del intervalo que de cualquier otro punto del mismo9.

1.10.3. Intervalo de confianza como alternativa a las pruebas de hipótesis No mucho después de su aparición, las pruebas de hipótesis clásicas empezaron a recibir fuertes críticas. Un detallado examen histórico y conceptual sobre este polémico asunto se puede hallar en Silva (1999). Diversos juicios críticos pueden encontrarse en la obra de muchos objetores actuales y pasados del uso de las pruebas de hipótesis; entre ellos cabe mencio9 El término «verosímil» no se ha elegido sólo porque sea semánticamente expresivo como recurso del castellano (que lo es), sino porque el punto medio del intervalo es la estimación que maximiza la función de verosimilitud (es la estimación «máximo verosímil» de P. Este concepto desborda el alcance del presente texto, pero debe consignarse que toda la teoría de la verosimilitud, en su momento relegada por la popularidad de las pruebas de significación, recupera cada día más espacio. Véase Royall (1997).

26

DISEÑO RAZONADO DE MUESTRAS

nar a Rozeboom (1960), Rothman (1978), Salsburg (1985), Walker (1986), Gardner y Altman (1986), Thompson (1987), Goodman y Royall (1988), Goodman (1992), Chia (1997), Barnett y Mathisen (1997) y Goodman (1999). La crítica fundamental, sin embargo, estriba en el hecho siguiente: que se encuentre o no significación depende de un elemento externo a la realidad que se estudia, el tamaño de muestra. Como uno de los «remedios», desde hace algún tiempo se ha venido sugiriendo la estrategia de suplir las pruebas de hipótesis por el empleo de intervalos de confianza, alternativa defendida con vehemencia por diversos autores entre los que se destacan los connotados estadísticos británicos Martin Gardner y Douglas Altman (véanse Gardner y Altman, 1986; Gardner y Altman, 1987) vinculados al British Medical Journal, y secundada actualmente por muchos editores de revistas médicas. (Véase: Bullpit (1987) de Lancet, Evans, Mills y Dawson (1988) de British Heart Journal, Davidoff (1999) de Annals of Infernal Medicine). A estos dos estadísticos se debe incluso un software (Confidence Interval Analysis, CIA) que permite el cómputo de intervalos de confianza para una amplia gama de parámetros en el caso de que la muestra haya sido simple aleatoria. Estos autores sugieren que los intervalos sean empleados como recurso expresivo básico «siempre que se haga una inferencia de los resultados a un ámbito más abarcador y que concierna a medidas de resumen −no a características individuales− tales como tasas, diferencias de medias, coeficientes de regresión, etc.». Las revistas mencionadas no exigen que los famosos valores p deban ser necesariamente suprimidos pero, en cualquier caso, sí que ocupen a lo sumo un lugar secundario o complementario. El argumento central en que se sustenta esta corriente de opinión proclama que los intervalos son mucho más informativos que el mero valor de p, ya que éste no transmite información alguna sobre la magnitud de la diferencia o de la asociación que se valora, en tanto que el intervalo nos provee de un recorrido de valores posibles para el valor poblacional (o compatibles con él), en lugar de una dicotomía arbitraria. Se añade, por otra parte, que los intervalos incluyen toda la información necesaria para aplicar la prueba de significación si se deseara realizarla, puesto que, por ejemplo, si H0 establece que P1 = P2, rechazar H0 equivale a que el intervalo de confianza para P1 - P2 no contenga al cero. Puesto que con frecuencia las pruebas de hipótesis se emplean para valorar la diferencia entre dos parámetros, lo que debe construirse es un intervalo de confianza para la diferencia (Altman, 1980), y no formar dos intervalos (uno para cada parámetro) con el fin de examinar si se intersecan o no; en caso de que los datos estuvieran pareados, tal práctica no sería solamente inconveniente, sino directamente errónea. En mi opinión, el uso de intervalos de confianza es menos inadecuado que el de las pruebas de hipótesis, en especial porque proveen más información y por

MARCO CONCEPTUAL DE LAS TÉCNICAS MUESTRALES

27

Figura 1.1. Diagrama de flujo para pronunciarse sobre una diferencia de parámetros.

aportar un enfoque más flexible. De hecho, si se procede a estimar, pongamos por caso, una diferencia entre medias poblacionales y se corrobora que el error de esa estimación es suficientemente pequeño como para considerar que dicha estimación es eficiente (por ejemplo, que el error es inferior al 5% de la magnitud de la propia estimación10), lo cual equivale a que el intervalo de confianza sea suficientemente estrecho, entonces ya se cuenta con toda la información necesaria para hacerse un juicio acerca del problema abordado. En efecto, lo que corresponde hacer una vez que ha alcanzado ese punto es simplemente pronunciarse sobre la sustantividad o significación clínica de la diferencia en cuestión. Vale decir, el esquema de pensamiento en términos de intervalos de confianza ante una diferencia de dos porcentajes, sería del modo que refleja el diagrama de flujo que se reproduce en la Figura 1.1.

1.10.4. Error absoluto y error relativo Como se ha dicho, a través de una muestra probabilística se puede estimar un parámetro P, así como el error (llamémosle e) inherente a dicha estimación; a

10

Véase el concepto de error relativo en la próxima sección.

28

DISEÑO RAZONADO DE MUESTRAS

partir de ese conocimiento, se puede construir un intervalo ( Pˆ1 , Pˆ2¨) dentro del cual podemos estar altamente confiados que se halle P. Generalmente (no siempre), los extremos Pˆ1 y Pˆ2 se obtienen respectivamente sustrayendo de y sumando a la estimación puntual Pˆ el valor e; es decir:

Pˆ1 = Pˆ − e

Pˆ2 = Pˆ + e

y

Naturalmente, lo que se desea es que el error e sea pequeño (es decir, que el intervalo sea lo más estrecho posible). Supongamos que nos informan de que la longitud de cierto objeto se ha medido con precisión de 2 cm (es decir, que la distancia entre la medición y la verdadera longitud asciende a lo sumo a 2 centímetros). ¿Es éste un error grande o pequeño? ¿Puede considerarse inaceptable o, por el contrario, refleja una buena precisión? Naturalmente, no es posible pronunciarse al respecto hasta que no sepamos de qué objeto se trata. Si lo que se ha medido es la talla de un individuo adulto, probablemente tal precisión resulte satisfactoria; pero, obviamente, no sería ése el caso si lo que se mide es el radio de un anillo, un número posiblemente mucho menor que el propio error cometido. Si lo que se midió hubiese sido, en cambio, la longitud de un autobús, entonces habría que considerar que el error mencionado es absolutamente despreciable. En fin, para valorar o calificar la magnitud de un error se piensa, tácita o explícitamente, en términos relativos. El error de muestreo no es una excepción. Con frecuencia, después de calcular el error asociado a la estimación de p, se procede a computar el llamado error relativo de la estimación:

er =

e p

Debe notarse que, mientras e viene dado en las mismas unidades en que se mide la variable, er es un índice que carece de unidades. Consecuentemente, suele expresarse en términos de porcentaje (es decir, multiplicado por 100). Por ejemplo, tomando las ilustraciones de la sección precedente, diríamos que el error relativo con que se estimó el gasto promedio en medicamentos fue del 4,6% en el primer caso (ya que 0,15 = 0, 046 ) y del 98,5% 3, 25 (pues 3, 20 = 0,985 ) en el segundo. 3, 25 En general se considera que un error relativo no superior al 10 % (es decir, un valor de er inferior a 0,11) resulta aceptable a todos los efectos prácticos. Tal consideración empírica es compatible con nuestros puntos de vista en la vida diaria: si una señora de 42 años nos dice que tiene 40, diríamos que está «redondeando» (el error relativo es 5%), pero si nos comunica que tiene 30, 12 diríamos que nos ha mentido (en ese caso er = = 0,18). 42

MARCO CONCEPTUAL DE LAS TÉCNICAS MUESTRALES

29

1.11. Muestras y censos El costo de los censos es enorme. Ésa es, precisamente, una de las razones para emplear muestras. Cada una de las preguntas supone un costo y éste ha de multiplicarse por el tamaño de la población (de hogares o personas) o por el de la muestra, si se opta por esta alternativa. Consecuentemente, los cuestionarios empleados en los censos deben ser, en lo posible, relativamente breves y sencillos. No obstante, cada vez con más frecuencia se están combinando datos propiamente censales con los obtenidos mediante encuestas por muestreo, que se incluyen como parte del propio censo. Estas muestras pueden sustituir incluso a los censos, en cuyo caso tienden a ser de gran tamaño (suelen constituir entre el 1 % y el 25% de la población). Un enfoque más versátil consiste en diseñar una muestra grande que tal vez abarque un tercio o un cuarto de la población) para aquellas preguntas sobre las que se necesita gran detalle, además de una mucho más pequeña (abarcadora quizás del 0,5% de la población) para las preguntas más complejas o difíciles. El muestreo no sólo reduce el costo total que supone obtener estos datos; puede también producir mayor precisión, especialmente cuando se adoptan medidas que mejoren la calidad del dato primario, tales como la de formar encuestadores debidamente preparados. El uso conjunto de registros y de encuestas por muestreo está resultando exitoso; tal ha sido el caso de los países escandinavos, que poseen unos excelentes registros de población. Por ejemplo, Dinamarca prescindió del censo desde 1980 y utilizó en su lugar las llamadas «estimaciones de áreas locales».

Bibliografía Almeida N. Epidemiología sin números. Serie Paltex, N.° 28. Washington: OPS/OMS, 1992. Altman DG. Statistics and ethics in medical research: VI-presentation of results. British Medical Journal 1992; 281: 1542-1544. Azorín F, Sánchez JL. Métodos y aplicaciones del muestreo. Madrid: Alianza, 1986. Barnett ML, Mathisen A Tyranny of the p-value. Scandinavian Journal of Work and Environmental Health. 1997; 23: 152-154. Baum F. Investigación en salud pública: el debate sobre las metodologías cuantitativas y cualitativas. Revisiones en Salud Pública 1977,5: 195-199. Boudon R. Los métodos en sociología. Buenos Aires: El Ateneo, 1978. Bullpit CJ. Confidence intervals. Lancet 1987; i: 494-497. Castellanos PL. Algunas técnicas para el estudio de lo subjetivo, los problemas cuasiestructurados y el estudio de la situación de salud OPS/OMS. Presentado en la Reunión

30

DISEÑO RAZONADO DE MUESTRAS

sobre abordajes y métodos para estudiar diferenciales de salud según condiciones de vida. Brasilia 7-11 de agosto de 1989. Cochran WG. Sampling techniques (3.a ed.) New York: Wiley, 1977. Cochran WG, Mosteller F, Tukey JW. Principies of sampling. Journal of the American Statistical Association 1954; 49: 1-12. Chid K.S. Significant-itis: an obsession with the P-value. Scandinavian Journal of Work and Envimmental Health 1977; 23: 152-154. Dalenius T. Elements of survey sampling. Estocolmo: The Swedish Agency for Research Cooperation with Developing Countries, 1985. Davidoff F. Standing satatistics right side up. Annals of lnternal Medicine 1999, 130: 1019-1021. Deming WE. Sample design in business research. New York: Wiley, 1960. Evans SJW, Mills P, Dawson J. The end of the p value? British Heart Journal 1988; 60: 177-180. Gardner MJ, Altman DG. Using confidence intervals. Lancet 1987; i: 746. Gardner MJ, Altman DG. Confidence intervals rather than P values: estimation rather than hypothesis testing. British Medical Journal 1986; 292: 746-750. Goodman SN. p values, hypothesis test, and likelihood: implications for epidemiology of a neglected historical debate, American Journal of Epidemiology, 1992; 137:485495. Goodman SN, Royall R. Evidence and scientific research. American Journal of Public Health 1988; 78: 1568-1574. Goodman SN, Toward evidence-based medical statistics. 1: The P value fallacy. Annals of lnternal Medicine 1999, 130: 995-1004. Gurvitch G. La voaction actualle de la sociologie. París: Presses Universitaires de France, 1950. Hansen MH, Hurwitz WN, Madow WG. Sample survey methods and theory. New York: Wiley, 1953. IASS. Members directory. París: International Association for Survey Statisticians, 1997. Jessen RJ. Statistical survey techniques. New York: Wiley, 1978. Keller S. Use of non-representative surveys for etiological problems. En: Honson NL (ed). New developments of Survey Sampling. New York: J Wiley and Sons, 1969. Kalton G. Introduction to survey sampling. California: Sage Publications, Beverly Hills, 1983. Kish L. Sampling methods for agricultural surveys. Roma: FAO Statistical Development, Series 3, 1989. Kish L. Survey sampling. New York: Wiley, 1965. Levy PS, Lmeshow S. Sampling for health professionals Belomont: Lifetime Learning Publications, 1980. Murthy MN. Sampling theory and methods. Calcutta: Statistical Publishing Society, 1967. Neyman J. On the two different aspects of the representative method: The method of Stratrified sampling and the method of positive selection. Journal of the Royal Statistical Society 1934; xx: 558-606. Parada J. Textos de muestreo en poblaciones finitas en castellano. Estadística Española 1987; 115: 123-132.

MARCO CONCEPTUAL DE LAS TÉCNICAS MUESTRALES

31

Prieto L. Más allá de los métodos cuantitativos y cualitativos: el método científico. Revisiones en Salud Pública 1997, 5: 195-199. Raj D. Sampling theory. New York: McGraw-Hill, 1968. Rothman KJ. A show of confidence. New England Journal of Medicine 1978; 299; 1362-1363. Royall RM. Statistical evidence: a likelihoud paradigm. Boca Ratón: Chapman & Hall, 1997. Rozeboom WW. The fallacy of the nuil hypothesis significance test. Psychological Bulletin 1960; 56: 26-47. Salsburg D. The religion of statistics as practiced in medical journals. The American Statistician 1985; 39: 220-223. Sampford MR. An introduction to sampling theory with applications to agriculture. Edinburh: Oliver and Boyd, 1962. Scheaffer RL Mendenhall W, Ott L. Elementary survey sampling. North Scituate, Massachussets: Duxbury Press, 1979. Silva LC. El razonamiento en las aplicaciones de la estadística; nociones conceptuales y terminológicas. Revista Cubana de Administración de Salud 1977; 3: 275-279. Silva LC. Apuntes sobre el proyecto de investigación del estudiante de posgrado. Revista de Educación Médica Superior 1989; 3: 29-40. Silva LC. La formulación de problemas de investigación en salud. Revista Cubana de Cardiología y Cirugía Cardiovascular 1991; 5:64-71. Silva LC. Cultura estadística e investigación en el campo de la salud: Una mirada crítica. Madrid: Díaz de Santos, 1997. Silva LC. La crisis de las pruebas de hipótesis y la alternativa bayesiana. Memorias del IV Congreso Galego de Estadística e Investigación de Operaciones, Santiago de Compostela, noviembre de 1999. Slonim MR. Sampling in a nutshell. New York: Simon and Schuster, 1960. Som RK. A manual of sampling techniques. London: Heinemann Educational Books Ltd., 1973. Stephan FF, McCarthy PJ. Sampling opinions. London: Chapman and Hall, 1958. Stuart A. The idea of sampling. High Wycombe: Charles Griffin and Company, 1984. Sukhatme PV, Sukhatme BV, Sukhatme S, Asok C. Sampling theory of surveys with applications. Ames, Iowa: Iowa State University Press, 1984. Thompson WD. Statistical criteria in the interpretation of epidemiologic data. American Journal of Public Health 1987; 77: 191-194. Walker AM. Reporting the results of epidemiologic studies. American Journal of Public Health (Different Views) 1986; 76: 556-558. Warner L. The status system of a modern community New Haven: Yale University Press, 1947. Williams B. A Sampler on sampling. New York: Wiley, 1978. Yamane T. Elementary sampling theory. La Habana: Editorial R, 1970. Yates F. Sampling methods for censuses and surveys. London: Charles Griffin & Co., 1980.

2 La encuesta y el cuestionario

Aunque las técnicas muéstrales pueden emplearse en principio en cualquier tipo de universo, lo cierto es que sus aplicaciones en el ámbito sanitario se verifican predominantemente sobre poblaciones humanas, especialmente para interrogar individuos y en ocasiones también para medirlos (registrar resultados captados con o sin instrumentos). Típicamente, entonces, el interrogatorio está presente en las investigaciones de salud pública y epidemiología, en especial en aquellas que tienen un componente social. De ahí su estrecho vínculo con el muestreo. Para dar solución a un problema de muestreo en tal tipo de situación es necesario por tanto programar una encuesta, actividad compleja que exige alto grado de organización y demanda colaboración de profesionales y técnicos de diversas especialidades y perfiles. De modo que las técnicas muéstrales y las encuestas, aunque no están inexorablemente vinculadas entre sí, suelen venir aparejadas. El presente capítulo procura profundizar en los más importantes aspectos técnicos en esta materia.

2.1. Organización de la encuesta 2.1.1. Las tareas básicas Una vez definidos los objetivos de la encuesta, los pasos fundamentales que deben darse para completar el proceso de su aplicación son, en esencia, los siete siguientes: 1. 2. 3. 4.

Redactar un cuestionario. Confeccionar un plan de tabulación y análisis. Construir un marco muestral adecuado. Diseñar la muestra.

34

DISEÑO RAZONADO DE MUESTRAS

5. Aplicar el cuestionario a las unidades elegidas. 6. Procesar la información. 7. Realizar inferencias. Sin embargo, la buena práctica de las encuestas no permite que estas tareas se completen de manera lineal. Es altamente recomendable, por poner un ejemplo, realizar una experiencia piloto que retroalimente a los investigadores y les permita realizar enmiendas al proyecto original. El esquema recogido en la Figura 2.1 e inspirado en un folleto divulgativo de la American Statistical Society presenta la secuencia e interrelaciones de las acciones que se deben concretar para el exitoso desarrollo de una encuesta por muestreo. Las flechas del diagrama indican el orden de precedencia de las acciones. Por ejemplo, para el desarrollo de la encuesta piloto, nodo crucial del proceso, se observa que hay dos actividades previas, ambas igualmente medulares: confeccionar el proyecto de cuestionario y establecer la forma en que se habría de tomar la información primaria en terreno. Por otra parte, una vez llevado a cabo dicho pilotaje, sus resultados influirán en el desarrollo de tres tareas: concluir el diseño muestral, ajustar el cuestionario y definir las formas definitivas de trabajo en la práctica (tales como selección de horarios, estimación del tiempo que supone completar el cuestionario e identificación de aspectos cuya calidad debe ser especialmente controlada). Por otra parte, como muestra el diagrama, el proceso

Figura 2.1. Diagrama de la organización y desarrollo de una encuesta por muestreo.

LA ENCUESTA Y EL CUESTIONARIO

35

completo incluye un amplio conjunto de acciones a cuya eficiencia se subordina en buena medida la calidad de los resultados finales.

2.1.2. Errores ajenos al muestreo A lo largo de la encuesta pueden introducirse errores ajenos al hecho de que la información proceda de una muestra (y no de un censo). No son errores inherentes al proceso inferencial, sino a las diversas actividades prácticas que deben ejecutarse. Éstos reciben el nombre de errores no muéstrales y pueden producirse por deficiencias en aspectos tales como el diseño del cuestionario, la estructura o redacción de las preguntas o durante el registro de la información. Es difícil minimizar la importancia de este tipo de errores. Ocasionalmente se presta atención priorizada a los errores de muestreo y se consigue reducirlos en unos pocos puntos de porcentaje o, incluso, fracciones de punto; y al mismo tiempo, se desdeñan los principios que deben observarse al diseñar el cuestionario. Sin embargo, varios experimentos de vieja data ponen en evidencia que el monto potencial de error inducido por preguntas deficientemente formuladas puede superar los 20 o los 30 puntos de porcentaje (Payne, 1951). Lo más llamativo del asunto es que, mientras incrementar la precisión refinando el diseño muestral o aumentando el tamaño de muestra puede hacer crecer notablemente los costes, el proceso de mejorar el cuestionario del que provienen los datos es, en cambio, sumamente económico por lo general (Fowler, 1995). Con el fin de aportar elementos que permitan disminuir el margen de información primaria inservible o de dudosa calidad, vale la pena detenerse en las técnicas de confección de cuestionarios.

2.2. El cuestionario Un cuestionario es un documento concebido para ayudar en el proceso de obtener y registrar información a través de una secuencia de preguntas o mediciones. En lo que resta de este capítulo, nos concentraremos en aquella información que se procura obtener a través de preguntas; éstas, a diferencia de las mediciones físicas que se realizan por medio de instrumentos, suelen constituir la única vía para obtener información medular que permita alcanzar los objetivos de una investigación. Por una parte, como es obvio, no hay otro modo de medir niveles de satisfacción, sentimientos o grados de concordancia con una opinión. Por otra parte, la medición de la magnitud o la frecuencia con que el individuo

36

DISEÑO RAZONADO DE MUESTRAS

realiza o ha realizado ciertas actividades a menudo exige de una indagación directa. Por ejemplo no todos los delitos son denunciados a la policía ni todos los episodios morbosos registrados por el sistema de salud, de modo que el testimonio de los propios individuos puede ser la única vía confiable para hacer estimaciones adecuadas relacionadas con la seguridad ciudadana o el estado de salud de la población. Ha de tenerse en cuenta, además, que incluso lo que queda registrado puede ser diferente de lo que el sujeto es capaz de testimoniar (Jabine, 1987). Los aspectos que se tratan a continuación procuran demostrar que tanto las modalidades de aplicación como la forma en que se diseñan las preguntas tienen notable importancia. Durante muchos años se subvaloró la relevancia de estos aspectos y en el mejor de los casos se consideraban pertenecientes a la esfera del sentido común. Más recientemente, sin embargo, el tema ha alcanzado mayor prominencia y ha sido objeto de no pocos y reveladores experimentos. Se ha desarrollado un marco teórico altamente estructurado y ya se dispone de textos exclusivos que tratan el asunto con todos los requerimientos de una disciplina científica consolidada. Entre los más destacados cabe mencionar los libros de Tanur (1992), Fowler (1995) y Sudman, Bradburn y Schwarz (1995).

2.2.1. Formas de aplicación Los modos en que un cuestionario puede aplicarse son, esencialmente, cuatro: a través de un encuestador o entrevistador, usando cuestionarios autoadministrados, (el propio sujeto interrogado lo cumplimenta), mediante indagación telefónica, y procurando respuestas por correo. En cuanto al registro de respuestas, se manejan dos alternativas fundamentales: la modalidad clásica, consistente en que se transcriban al papel los resultados, y las variantes en las que el proceso de registro se auxilia de la computadora. Para decidir la modalidad que se empleará, el sentido lógico del investigador se complementará, entre otros factores, con la naturaleza del tema abordado, las características culturales de la población que se estudia y los recursos disponibles. Es evidente, por ejemplo, que la autoenumeración es más apropiada cuando la encuesta se aplica a sujetos que se hallan reunidos que a individuos aislados, o que hay información que no puede recabarse telefónicamente por exigir una apreciación visual directa, como cuando la encuesta incluye, por ejemplo, un examen dental. Ocasionalmente se hacen combinaciones; por ejemplo, se ha comprobado que las entrevistas telefónicas son mas útiles y viables cuando se realizan después de haberse producido las entrevistas personales (supuesto, naturalmente, que el estudio exija tal seguimiento).

LA ENCUESTA Y EL CUESTIONARIO

37

La encuesta asistida por ordenador, bautizada como CADAC (Computer Assisted Data Collection) está planteando oportunidades insospechadas hasta hace poco, especialmente si se tienen en cuenta las posibilidades que abren INTERNET. La oportunidad de hacer exámenes de consistencia de las respuestas simultáneamente con su registro (y por ende, de realizar in situ las enmiendas que procedan), además del ahorro de papel, personal y tiempo que supone, ha llevado a la entusiasmada adopción de dicho método por muchas agencias especializadas y por cada vez más equipos investigadores. Los efectos de tal procedimiento están siendo estudiados desde finales de los años ochenta (Saris, 1989; Weeks, 1992; Nicholls, Baker y Martin, 1986). De hecho, se han manejado dos variantes fundamentales: el uso de las computadoras para el desarrollo de entrevistas (Baker, 1992; Couper y Burt, 1994) y su aplicación en los cuestionarios autoadministrados (O'Reill et al, 1994). Cabe esperar que este proceso renovador siga extendiéndose en la medida que se generalicen otras tecnologías de acceso a informantes potenciales como el correo electrónico, que despertó interés a estos efectos desde su surgimiento (Kiesler y Sproull, 1986) en virtud de la nueva y atractiva posibilidad de realizar encuestas sin necesidad de contactar ni física ni verbalmente con los encuestados.

2.2.2. Ubicación de las preguntas Se acostumbra a colocar mecánicamente todas las preguntas generales (nombre, género, ocupación, etc.) al comienzo de la encuesta. No necesariamente es ésta una decisión óptima. Como ocurre con cualquier decisión que se adopta rutinariamente, puede ser en unos casos atinada y en otros no. En particular, pudiera ser conveniente colocar algunas de estas preguntas en otros puntos del cuestionario, de manera que se evite un largo y aburrido tramo inicial, y también porque algunas preguntas generales pueden ser ocasionalmente embarazosas. Otra pregunta relevante es ¿cuál debe ser la estrategia para ubicar las preguntas que, tocando temas desagradables o embarazosos, son, sin embargo, de vital importancia para el estudio? Una recomendación casi universalmente admitida es que no deben colocarse al principio del cuestionario. Se ha sugerido, incluso, que se deben dejar todas las preguntas conflictivas para el final, «sonsacar» cuanto se pueda sobre ellas y dar por terminada la entrevista si surgen problemas. Este enfoque podría por una parte ser éticamente cuestionable, pero además revela una forma de facilismo difícil de defender, ya que sugiere como legítimo que queden preguntas en blanco a la vez que no invita a una reflexión crítica orientada a evitar tal contingencia.

38

DISEÑO RAZONADO DE MUESTRAS

2.2.3. Tipos de preguntas Las preguntas pueden ser caracterizadas según distintos ejes de clasificación. Por ejemplo, atendiendo al grado de aporte que se espera del interrogado, pueden ser abiertas o cerradas, o desde el punto de vista métrico, pueden ser cualitativas o cuantitativas. Cada tipo de preguntas puede ofrecer dificultades específicas en cuanto al modo de manejar los resultados, lo cual a su vez depende en muy buena medida del objetivo con que se formula. Haremos algunos comentarios al respecto en la medida que se considere oportuno para las diferentes modalidades que se comentan en las secciones siguientes. 2.2.3.1. Preguntas cerradas y abiertas Lo más frecuente es formular preguntas cerradas, aquéllas cuyas respuestas posibles han sido previstas en su totalidad por el investigador y se ofrecen al encuestado para que él elija la que mejor se ajuste a su situación. Tal suele ser el caso bien familiar en que se indaga el género (masculino/femenino), el estado civil, o el grupo étnico al que pertenece el sujeto; también están en ese caso aquellas preguntas de opinión que exigen posicionamiento del interrogado según una escala ordinal, como la siguiente: ¿Cómo cree usted que ha sido la gestión del gobierno en materia de salud ambiental en el último año? ___ ___ ___ ___ ___

muy eficiente eficiente aceptable ineficiente muy ineficiente

Mucho se ha investigado acerca de cuáles y cuántas categorías emplear. Hay consenso en que no deben usarse más de 10 (Andrews, 1984), aunque un número entre 5 y 7 suele ser lo más adecuado. La capacidad discriminatoria de la misma pregunta puede verse apreciablemente modificada por las opciones de respuesta con las cuales se cierra. Por ejemplo, consideremos las siguientes opciones: ¿Cómo considera usted que es su estado de salud actualmente? Bueno ____

Malo ___

LA ENCUESTA Y EL CUESTIONARIO

39

¿Cómo considera usted que es su estado de salud actualmente? Bueno____

Aceptable ____

Malo ____

¿Cómo considera usted que es su estado de salud actualmente? Óptimo ____

Muy bueno ____

Bueno_____

Regular____

Malo

El porcentaje de los que optan por la última categoría (estado de salud malo) disminuiría en la medida que el número de alternativas se incrementa. Quiere esto decir que la interpretación del resultado no puede hacerse al margen del contexto que configura el conjunto de respuestas posibles. Consecuentemente, nuestro pensamiento debe operar en sentido inverso: elegir ese conjunto en función de lo que realmente queremos que constituya una guía para la interpretación. Cuando la pregunta es abierta el entrevistado responde redactando (o exponiendo, verbalmente, según el caso) su respuesta de manera libre. Se preguntaría, por ejemplo: ¿Cuál es su opinión acerca del grado de eficiencia de la gestión gubernamental en materia de sanidad ambiental? Y se daría en espacio para verter dicha opinión. 2.2.3.2. Preguntas cuantitativas o cualitativas Las que hemos llamado cuantitativas son aquéllas cuya respuesta consiste en un número; por una parte, están las dimensiones objetivamente medibles (años cumplidos, colesterolemia o circunferencia cefálica) y, por otra, las cuantificaciones en que interviene la subjetividad del sujeto interrogado (cuántos hijos quisiera tener, o qué salario le parecería justo percibir). Las cualitativas, por su parte, son aquellas en que se desemboca en una clasificación, como ocurre con la actividad ocupacional o el grupo sanguíneo. 2.2.3.3. Preguntas de ordenación En las preguntas de ordenación se pide al entrevistado que ubique jerárquicamente una serie de alternativas de acuerdo con su preferencia personal o teniendo en cuenta algún otro marco referencial.

40

DISEÑO RAZONADO DE MUESTRAS

Dos ejemplos son los siguientes: Ponga en orden de importancia para su vida numerándolos del más importante (1) al menos importante (5): __ __ __ __ __

trabajo dinero relaciones de amistad relaciones de pareja salud

¿En qué orden cronológico deben a su juicio introducirse los alimentos siguientes a los niños durante su primer año de vida? Poner números del 1 ° al 4 o. __ __ __ __

zumos de frutas pescado carne de res cereales

Cabe distinguir dos situaciones diferentes: cuando existe y cuando no existe un orden óptimo (o correcto). El segundo ejemplo ilustra el caso en que tal orden existe (según OMS, primero debe introducirse el cereal, y luego los granos, la carne y el pescado por ese orden). Aquí las alternativas de análisis son diversas: desde computar el porcentaje de sujetos que colocan cierta categoría en primer lugar hasta el lugar promedio que ocupa una categoría. En el primero, obviamente, no existe una ordenación que pueda considerarse correcta o incorrecta. Un tipo de pregunta singular dentro de esta línea se produce cuando se solicita al interrogado que coloque en cierto orden un conjunto de «nominaciones». Tal es el caso de lo que Linniger y Warwick (1978) llaman «una técnica sociométrica», que se emplea para obtener información sobre el patrón de sentimientos positivos y negativos entre los miembros de un grupo. Se insta a cada integrante del grupo a que haga un número limitado de «nominaciones», e indique a aquellas personas de su entorno que más quieren o admiran, o a quienes consideran más adecuadas a ciertos efectos. La ilustración que sigue está tomada de un estudio de normas comunitarias en un colegio norteamericano (Bennington College) realizado por Newcomb y col. (1967):

LA ENCUESTA Y EL CUESTIONARIO

41

Supongamos que durante el próximo invierno habrá una importante reunión de representantes de los estudiantes de cada uno de los tipos de colegios norteamericanos. Cada colegio seleccionado deberá estar representado por tres estudiantes que serán elegidos por sus compañeros. Es lógico suponer que este colegio será juzgado, en buena medida, por los estudiantes que lo representen. Por favor, anote debajo los nombres de por lo menos dos estudiantes (y no más de cinco) a quienes usted admire en forma especial, independientemente de las razonas que tenga para ello.

2.2.3.4. Preguntas de escala Las preguntas de escala pueden ser de varios tipos. Las más importantes se exponen e ilustran a continuación: 1. Escala de analogía visual La escala analógica visual se compone de una pregunta y de un segmento de recta (de 8 a 10 centímetros de longitud) en cuyos extremos se colocan calificaciones opuestas tales como «sin dolor» y «máximo dolor imaginable» y sin texto adicional que califique las posiciones intermedias. El interrogado debe colocar una marca en el punto del segmento que considere más adecuado a su situación. Por ejemplo, en una encuesta a pacientes asmáticos puede aparecer la siguiente pregunta: ¿Cuan fuertes han sido los ataques asmáticos que ha sufrido en la última semana? No tuve __________________________________________________ De extrema ataques intensidad

Huskisson (1974) ha señalado que el 7 % de los pacientes interrogados por este medio tuvo dificultades para comprender la demanda. Este mismo autor con un colega (Scott y Huskisson, 1979) empleó con éxito, sin embargo, este tipo de escalas para medir cambios tras un tratamiento. El interés de este enfoque radica en que, si bien la personalidad de cada sujeto llevaría a que éste quede ubicado según su propia metrización subjetiva, tal problema afectaría a ambas magnitudes (antes y después del tratamiento), de modo que la distancia entre ellas mediría la diferencia, con lo cual se mitigaría o, incluso, se cancelaría el efecto de la subjetividad individual.

42

DISEÑO RAZONADO DE MUESTRAS

2. Escala de Likert Para la valoración del grado en que un individuo comparte cierta línea de pensamiento o teoría general, un tipo de escala adecuada es la propuesta por Likert (1952). Para aplicarla se considera una secuencia de afirmaciones (se ha sugerido que sean alrededor de 15) que se pronuncian (algunas a favor y otras en contra) acerca de determinado punto de vista general; para cada afirmación la persona encuestada debe elegir en cada caso una de varias (usualmente 5) alternativas, que expresan diversos grados de adhesión a dicha posición. Por ejemplo, las afirmaciones y las alternativas de respuesta que se ofrecen al entrevistado para cada una de las afirmaciones podrían ser como las dos que se enuncian a continuación:

A) La práctica de la medicina privada es altamente conveniente 1. 2. 3. 4. 5.

Discrepo totalmente. No lo comparto. Lo comparto sólo parcialmente. Estoy de acuerdo en lo esencial. Estoy totalmente de acuerdo.

B) Resulta inaceptable tratar la salud como una mercancía más 1. 2. 3. 4. 5.

Discrepo totalmente. No lo comparto. Lo comparto sólo parcialmente. Estoy de acuerdo en lo esencial. Estoy totalmente de acuerdo.

Índice de adherencia para escalas tipo Likert. Supongamos que en un estudio en que se emplean escalas tipo Likert hay k afirmaciones y que el interrogado debe optar por una de r alternativas que se ofrecen para cada una de ellas. Llamemos x¡ a la opción elegida ante la afirmación i-ésima (por ejemplo x6 = 2 si el sujeto eligió la segunda respuesta para la sexta afirmación), se puede computar entonces un Índice de Adherencia (IA) mediante la fórmula:

LA ENCUESTA Y EL CUESTIONARIO

43

El valor de IA se mueve dentro del intervalo (0, 1) e indica el grado en que el sujeto interrogado simpatiza con la corriente de opinión o punto de vista cuyo apoyo se investiga: IA = 1 indicaría absoluta adherencia, y el valor IA = 0 significaría discrepancia total. Imaginemos, por ejemplo, que hay k = 9 afirmaciones y r = 5 alternativas (supongamos que para esta ilustración las afirmaciones que ocupan los lugares impares son «positivas» y las que ocupan los lugares pares son «negativas»), y que las respuestas (x1, x2,..., x3) son respectivamente las siguientes: 1, 3, 4, 5, 5, 2, 2, 2 y 5. El cómputo de IA arrojaría, entonces, lo siguiente:

IA =

(0 + 2 + 3 + 0 + 4 + 3 + 1 + 3 + 4) (9)(5)

=

20 45

= 0, 44

3. Escala semántica diferencial Este método (Osgood, Suci y Tannembaum, 1957) utiliza una serie de alternativas de evaluación (usualmente con un número de opciones entre 7 y 10) colocadas entre dos polos que representan posiciones opuestas: bueno-malo, agradable-desagradable, positivo-negativo, fuerte-débil o excitable-tranquilo. ¿Qué le parece el funcionamiento del sistema sanitario actual? Pésimo



1

2

3

4

5

6

7

← Óptimo

Por ejemplo, al indagar sobre el trabajo del sistema sanitario en la comunidad, podría preguntarse: Cabe advertir que al construir escalas de este tipo los investigadores suelen poner todo el énfasis en las palabras elegidas para ubicar en los extremos y desdeña el efecto que sobre el interrogado ejercen los valores numéricos ofrecidos. Para ilustrar la importancia que puede alcanzar tal efecto, consideremos la experiencia siguiente. Se pregunta sobre el grado en el cual el sujeto cree que su vida ha sido exitosa y que se ofrecen 11 alternativas de respuesta. Consideremos que hay dos formatos alternativos, ambos creciendo desde «absolutamente inexitosa» a «absolutamente exitosa». La pregunta es la misma, pero la semiótica de la escala empleada se modifica. Una posibilidad consiste en que la escala vaya de 0 a 10: ¿Cuan exitosamente diría usted que ha sido su vida? Absolutamente inexitosa

0

1

2

3

4

5

6

7

8

9

10

Absolutamente exitosa

44

DISEÑO RAZONADO DE MUESTRAS

Otra variante es plantear una escala que va de -5 a 5: ¿Cuán exitosamente diría usted que ha sido su vida? Absolutamente inexitosa

-5

-4

-3

-2

-1

0

1

2

3

4

5

Absolutamente exitosa

¿Qué significan los puntos extremos para el interrogado? La condición «absolutamente inexitosa», ¿qué quiere decir?, ¿que el sujeto ha padecido una ausencia total de éxitos, o que su vida ha estado signada por grandes fracasos explícitos? Se ha comprobado que los interrogados acuden a la propia escala numérica para responderse a sí mismos esta pregunta, y por ende, para descifrar lo que en realidad se les está preguntando. Un estudio realizado con 1.025 adultos asignados aleatoriamente a cada una de las dos alternativas (Schwarz y col., 1991) produjo resultados claramente diferenciados, como muestra la Tabla 2.1. La escala que va de -5 a +5 subraya la polaridad entre los extremos y hace pensar en que el extremo inferior concierne a grandes fracasos, mientras que la que va de 0 a 10 hace pensar que se trata de ausencia de éxitos apreciables. Tabla 2.1. Distribución de respuestas según valores en cada una de las escalas numéricas

LA ENCUESTA Y EL CUESTIONARIO

45

Los resultados son elocuentes por sí mismos, pero llamo la atención sobre uno de ellos: el porcentaje de sujetos que se ubican en el punto medio de la escala o menos asciende a 34 para la escala de 0 a 10 y sólo a 13 (¡casi un tercio!) para la que va de -5 a +5. 4. Escalas gráficas Andrews y Withey (1976) sugirieron el uso de un recurso gráfico como el que se muestra a continuación, especialmente para la «medición» de sentimientos. Una pregunta típica podría ser como sigue:

¿Cuál de las siguientes caras expresa mejor cómo Ud. se siente con respecto a la atención de enfermería que recibe en la consulta?

2.3. Indicaciones para el diseño de cuestionarios y redacción de preguntas La elección, organización y redacción de las preguntas constituye un proceso complejo y delicado, que exige reflexión y paciencia, especialmente para revisar una y otra vez el proyecto de cuestionario de manera que nunca se traspase el umbral crítico que supone su aplicación en el terreno hasta que no se tenga razonable certeza de que cumple las debidas condiciones. A continuación se enuncian, comentan e ilustran, por una parte, algunas recomendaciones generales que a mi juicio, han de contemplarse en el proceso de concepción y construcción del cuestionario y, en segundo lugar, una serie de pautas específicas que cabe tener en cuenta en el momento de confeccionar los interrogantes.

2.3.1. Recomendaciones generales para la construcción del cuestionario. La lista de 10 recomendaciones generales es la siguiente:

46

DISEÑO RAZONADO DE MUESTRAS

1. Comprobar que las preguntas que se realizan se deriven exclusivamente de las que se haya formulado el investigador 2. Conformar cuestionarios tan breves como sea posible 3. Conseguir que las preguntas sean autoexplicativas 4. Reducir al máximo las preguntas que exijan rememoración a largo plazo 5. Evitar las preguntas abiertas salvo situaciones excepcionales 6. Emplear la técnica de retrotraducción siempre que la encuesta original haya sido redactada en otro idioma 7. Tener en cuenta que el interrogado suele no adoptar una posición crítica ante la redacción o la forma de la pregunta 8. Reparar en que el interrogado tiende a preocuparse más por la imagen que da, que por la exactitud de la información que comunica 9. Valorar la conveniencia de usar una pregunta «de filtro» antes que indagar directamente sobre determinada conducta u opinión 10. Tener en cuenta que una pregunta que procure obtener una opinión, si se proyecta sobre otra persona, puede conseguir más veracidad que cuando se reclama de manera directa A continuación se discuten e ilustran una por una estas recomendaciones. Debe señalarse que la totalidad de los ejemplos que se citan proceden de estudios reales. Algunos de ellos son trabajos de tesis de terminación de maestría o de especialidad desarrollados por alumnos de la Facultad de Salud Pública de La Habana. En estos casos no se trata, por tanto, de estudios realizados por profesionales del muestreo o especialistas en confección de encuestas; creemos que, justamente, eso le confiere más interés, pues muchos de estos ejemplos recogen el tipo de errores en que pudieran incurrir los destinatarios neutrales del presente libro. 1. Comprobar que las preguntas que se realizan se deriven exclusivamente de las que se hayan formulado el investigador Deben evitarse todos los aspectos para los que no se haya previsto un tratamiento derivado de las preguntas de investigación previamente formuladas. Se trata de conjurar uno de los errores más frecuentes: el de confeccionar cuestionarios que recogen una gran cantidad de información relacionada con lo que se está investigando, pero cuya función real, en rigor, no se ha previsto.

LA ENCUESTA Y EL CUESTIONARIO

47

Especialmente frecuentes (y perniciosas) son las «preguntas inerciales», aquellas que se hacen con el argumento de que son «importantes». Argüir que se incluye cierta pregunta en un cuestionario «porque es importante», es esencialmente lo mismo que decir que se incluye porque se incluye. Si el investigador cree firmemente que cierta pregunta ha de integrar el cuestionario pese a que no se derive de objetivo alguno, entonces será necesario revisar los objetivos; pero es crucial que haya consistencia entre los propósitos del estudio y el contenido del cuestionario. 2. Conformar cuestionarios tan breves como sea posible Cualquiera que haya diseñado un cuestionario sabe o debería saber que los temas que en él deben incluirse han de ser sólo aquellos determinados por los problemas que se quieren resolver, como se señala en la recomendación anterior. Sin embargo, aun bajo esta premisa hay un grado ineludible de relatividad, y por ende, un margen objetivo para adoptar decisiones personales: siempre es posible incluir menos o más preguntas; por eso mismo no huelga insistir en que a veces los cuestionarios abarcan un crecido número de preguntas de las cuales sólo una pequeña porción será efectivamente utilizada, en tanto que el resto será desechado una vez que se llegue a la fase de análisis de las respuestas. Es crucial hacer un esfuerzo para evitar tal despilfarro de recursos materiales, tiempo y energía. Por otra parte, los cuestionarios muy largos producen fatiga y desestímulo en el sujeto interrogado, y siempre será preferible sacrificar, llegado el caso, parte de los objetivos en aras de preservar la calidad del dato primario. 3. Conseguir que las preguntas sean autoexplicativas De ser posible, deben evitarse aquellas preguntas cuyas respuestas demanden de «instructivos» para los encuestadores (con más razón, para los propios entrevistados, en caso de que se planifique usar un cuestionario autoadministrado). La experiencia generalizada dice que el personal designado para la tarea de recoger los datos no consulta instructivo alguno sino que, en el mejor de los casos, se conduce según la comprensión que haya alcanzado durante la etapa preparatoria sobre la naturaleza de las preguntas. Por ejemplo, es mejor solicitar a una mujer que: «Señale el número de veces que ha quedado embarazada, se haya o no producido el parto» antes que preguntar por el número de embarazos aclarando al enumerador en un documento independiente que ese número incluye tanto los partos como los abortos. En línea con esta recomendación, se halla el hecho claramente demostrado (Mangione, Fowler y Louis, 1992) de que aquellos interrogantes que más esclarecimiento necesiten de los entrevistadores, peores resultados producen.

48

DISEÑO RAZONADO DE MUESTRAS

4. Reducir al mínimo las preguntas que exijan rememoración a largo plazo El interés del investigador casi nunca es equivalente al de los sujetos interrogados; es por ello que facilitar la cooperación de estos últimos se torna medular. Debe intentarse que las respuestas emerjan rápidamente de la memoria, sin la menor dificultad; para ello es altamente recomendable evitar las preguntas que exijan rememoración a largo plazo. Cuando se reclama información sobre acontecimientos muy lejanos, el sesgo se incrementa, pues el interrogado puede no recordar lo que se le pide y responder, si llega a hacerlo, de modo tentativo y ajeno a todo rigor. Según Lehnen y Skogan (1981), en la Encuesta Nacional de Salud de Estados Unidos, cuando se pregunta el número de días de trabajo perdidos por razones de salud, el reclamo se ciñe a las últimas dos semanas precisamente por el temor al incremento de imprecisiones que cabe esperar si se elige un lapso mayor. Sin embargo, es preciso tener en cuenta que, independientemente del lapso transcurrido, los errores son más frecuentes cuando se indaga sobre sucesos comunes o de poca importancia; por ejemplo, es más fácil recordar detalles sobre una enfermedad aguda padecida años atrás, que el número de veces que se ha sufrido dolor de cabeza en el último bimestre. También se ha demostrado que, cuanto más próximo haya sido un acontecimiento con la manera de pensar o los deseos del interrogado, con más facilidad dicho acontecimiento será recordado por él (Eisenhower, Mathiowetz y Morganstein, 1991). 5. Evitar las preguntas abiertas salvo situaciones excepcionales Sobre todo cuando el método empleado se inscribe en el ambiente de las técnicas cualitativas (véase Sección 1.2.2.), las preguntas abiertas pueden ser enteramente apropiadas. Si se indaga acerca de cuál es la comida favorita, es imposible anticipar todas las respuestas posibles. A veces, lo que se quiere es justamente una descripción personal que obliga a «dar la palabra» al encuestado. Tal sería el caso, por ejemplo, de un estudio sobre el grado de esfuerzo que ha de hacer el sujeto en su trabajo; en tal caso, lo más oportuno sería pedir: «Describa a grandes rasgos el trabajo que realiza», o de uno que intente desbrozar los trillos por los cuales se desarrolla la epidemia de SIDA, en el cual podría ser útil preguntar a los sujetos seropositivos: «¿Cómo cree Ud. que se infestó con el VIH?». En tales circunstancias, la respuesta del sujeto no puede encasillarse de ninguna manera a priori pues, justamente, lo que se desea es obtener testimonios complejos que más tarde serán procesados de manera especial. En el contexto de las encuestas clásicas, sin embargo, este tipo de preguntas pueden generar problemas diversos. Schuman y Presser (1981) han demostrado que las preguntas son más fiables y tienen más validez cuando al interrogado se le ofrece un conjunto de respuestas concretas por las cuales optar que cuando se le pide que se exprese libremente.

LA ENCUESTA Y EL CUESTIONARIO

49

Una misma pregunta abierta puede ser respondida con expresiones muy diferentes, circunstancia que suele entorpecer muy considerablemente el procesamiento ya que, en tal caso, si se quieren construir tablas formales, las diferentes respuestas deben ser examinadas una a una para conformar las categorías primero, e ir clasificando a posteriori a los sujetos. Además de ser un proceso arduo y tedioso, el margen para la subjetividad por parte de quien haga la clasificación es muy acusado. La pregunta abierta, por otra parte, exige más tiempo y consume mayor energía, tanto por parte del entrevistado como del entrevistador. Ahora bien, las preguntas cerradas tienen que estar «bien cerradas». No siempre el investigador consigue ser eficiente en ese sentido y puede por esa vía generar conflictos de considerable magnitud y difícil solución. Una idea de cuan conflictivo o difícil resulta redactar atinadamente una pregunta de este tipo puede alcanzarse reparando en la siguiente y curiosa circunstancia. De un libro, ciertamente interesante en muchos puntos, en que se aborda de manera exhaustiva y cuidadosa el tema (Linniger y Warwick, 1978), reproduzco textualmente el siguiente ejemplo de una pregunta cerrada, presuntamente bien formulada: De los siguientes tipos de enfermedades, ¿cuáles se han presentado en su familia? ___ ningún problema serio ___ uno o más de los miembros de la familia es inválido y requiere muchos cuidados ___ uno o más de los miembros de la familia está lisiado o es defectuoso, pero no requiere mucha atención __ cuentas de hospital y honorarios módicos muy altos.

Al menos dos aspectos pueden objetarse frente a tal «paradigma». En primer lugar, las respuestas posibles no son excluyentes. Si bien esto puede considerarse formalmente legítimo, pues se pregunta cuáles tipos de enfermedades se han presentado (y no cuál), lo cierto es que alguien pudiera marcar las opciones primera y tercera (hay algún lisiado, pero ajuicio del entrevistado ese enfermo no requiere mucha atención, de modo que a su juicio no hay ningún problema serio). Sin embargo, daría la impresión de que los autores de la encuesta aspiran a que se opte por la primera alternativa sólo cuando no proceda marcar ninguna de las otras. En segundo lugar, algo más importante: como revela una lectura cuidadosa, no todas las alternativas que se brindan son «tipos de enfermedades», como se anuncia en el encabezamiento. Uno de los métodos que se ha sugerido para «cerrar» la pregunta con alternativas apropiadas ha sido aplicar una prueba previa con preguntas abiertas similares y utilizar las respuestas que se presenten con más frecuencia como op-

50

DISEÑO RAZONADO DE MUESTRAS

ciones de respuesta para conformar definitivamente la pregunta cerrada (Scheaffer, Mendenhall y Lyman, 1996) Una cuestión debatible es si conviene o no «cerrar» las preguntas cuantitativas. Mi opinión es que no debe hacerse, ya que al crear categorías para datos cuantitativos como la edad, se pierde innecesariamente información. Hay, sin embargo, situaciones más bien excepcionales en que, quizás con el sano propósito de no obtener respuestas vagas, se exige un nivel de precisión exagerado que termina por producir un error mucho mayor. Consideremos, por ejemplo, la siguiente formulación: ¿Cuántos cigarrillos fuma como promedio diariamente?

Se fuerza al sujeto a dar un dato preciso, esté o no en condiciones de hacerlo, con lo cual puede contribuirse, paradójicamente, a la invalidez de los resultados. Una opción capaz de extraer datos más próximos a la verdad sería plantear la pregunta con alternativas de respuesta menos precisas pero más confiables: ¿Cuántos cigarrillos fuma como promedio diariamente? ___ ___ ___ ___

ninguno de 1 a 20 de 21 a 40 más de 40

6. Emplear la técnica de retrotraducción siempre que la encuesta original haya sido redactada en otro idioma Si el material de partida fuera un cuestionario creado en otro idioma, entonces es imprescindible corroborar la calidad de la traducción. Un recurso natural es aplicar lo que ha dado en llamarse «retrotraducción»; esto es, traducir nuevamente al idioma original el texto que se obtuvo como resultado de la primera traducción. La expectativa es que la versión original no difiera apreciablemente del resultado de la retrotraducción; en tal caso podrá confiarse en que el documento con el que se trabajará ha respetado el espíritu del original y, sobre todo, que ha reproducido adecuadamente su contenido. Debe enfatizarse no obstante que, aunque la retrotraducción es un recurso bastante útil para contribuir a la fidelidad de la traducción de las palabras, no garantiza la equivalencia del significado. En Anderson (1967) y Deutscher (1973) pueden hallarse detalles acerca de diversas técnicas para lograr equivalencia en la traducción. Cabe subrayar que,

LA ENCUESTA Y EL CUESTIONARIO

51

una vez hecha la traducción y habiéndose confirmado su eficiencia, estamos en el mismo punto que cuando se adopta un cuestionario elaborado por otros pero redactado originalmente en nuestro propio idioma y que no es, por tanto, menester traducir: no hay forma alguna de constatar empíricamente que el cuestionario «funciona» en un sitio del mismo modo que lo hace en otro (véanse más detalles en Silva, 1997). 7. Tener en cuenta que el interrogado suele no adoptar una posición crítica ante la redacción o la forma de la pregunta Ciertamente, esta es una indicación tan sutil como esencial. Para explicarla acudiré a una experiencia llevada adelante con 189 estudiantes de primer año de la carrera de medicina de La Habana (véanse detalles en Silva y Macías, 2000). A los efectos de lo que nos ocupa, se formuló a todos los alumnos de esa muestra la siguiente pregunta mediante encuesta anónima: En su opinión, ¿es la informática una tecnología completamente inteligente respecto del futuro? S i ___

No ____

Leyendo la pregunta tal y como se formula, el encuestado debería negarse a responderla: la redacción empleada es un galimatías sin sentido; debe desconcertarlo hasta el punto de no permitirle responder ni afirmativa ni negativamente, ya que la categoría «tecnología completamente inteligente» no significa nada, y la aclaración «respecto del futuro» no hace más que empeorar las cosas. A pesar de las insalvables dudas que se deberían presentar ante tal pregunta, solo 9 de los estudiantes (el 5%) se negó a responder o reaccionó mediante algún tipo de señalamiento crítico; el resto respondió como si la formulación tuviera sentido: 171 (90%) respondió que SI y el 5% restante dijo NO estar de acuerdo con la afirmación. Estos porcentajes confirman claramente que los encuestados suelen encarar las encuestas de manera acrítica: cuando leen una pregunta, se hacen su propia composición de lugar (que puede diferir marcadamente entre unos y otros), sin esforzarse por desentrañar la intención del investigador. Consecuentemente, es a éste a quien corresponde poner todo el empeño para conseguir que su pregunta sea uniforme y adecuadamente interpretada. 8. Reparar en que el interrogado tiende a preocuparse más por la imagen que da que por la exactitud de la información que comunica Se ha demostrado que el temor a dar una imagen negativa, desagradable o que ajuicio del sujeto pudiera ser socialmente inconveniente, genera una tendencia a

52

DISEÑO RAZONADO DE MUESTRAS

que éste dé respuestas más acordes al afán por producir buena impresión que al de informar la verdad. La técnica de respuesta aleatorizada que se discute- en la sección 9.2 fue creada justamente para superar los sesgos que tal tendencia genera. Una expresión particular de este fenómeno se produce en relación con la posible imagen de desinformación o ignorancia, que suele conducir a que el entrevistado actúe como si dominara algo que realmente ignora. Por ejemplo, en ocasiones, cuando a los encuestados se les ha pedido opinión sobre materias oscuras o ficticias, se ha puesto al descubierto que un número apreciable ha sido capaz de emitir opiniones aun cuando no tenían ningún conocimiento a priori sobre el tema. Por ejemplo, Bishop, Oldenick y Tuchfarber (1986) en sus encuestas experimentales pidieron criterios sobre fenómenos que no existían Y obtuvieron que nada menos que un tercio de los interrogados respondieron como si tuviera sentido dar tales opiniones. En relación con esta recomendación, en el estudio de Silva y Macías (2000) antes mencionado, se preguntó a los 189 alumnos de medicina lo siguiente: ¿Comparte usted los argumentos existentes para fundamentar que se otorgue el premio Nobel al creador de la vacuna antimeningocóccica? Si ___

No ____

No conozco el tema ____

Para contestarla afirmativa o negativamente es necesario conocer algo imposible de conocer, ya que no existe tal propuesta de premio Nobel (ni, por tanto, argumento alguno con el cual concordar o no). Aunque lo lógico sería que todos optaran por la tercera posibilidad, se obtuvo un porcentaje muy apreciable acumulado por las dos primeras, como se aprecia en la siguiente tabla:

Es notable que uno de cada tres haya dicho compartir criterios inexistentes y que uno de cada ocho haya renegado de dichos criterios, con lo cual se acumula nada menos que un 44% de respuestas «deshonestas». Esto convalida la idea de que el temor a dar una imagen de desinformación suele conducir a que el entrevistado actúe como si conociera algo que realmente ignora, o a que comunique en calidad de ponderada convicción un punto de vista que acaba de improvisar.

LA ENCUESTA Y EL CUESTIONARIO

53

Para solucionar este problema, en algunas situaciones, sería mejor incluir varias opciones de respuesta sobre lo que se desea conocer y ofrecer al interrogado la posibilidad de elegir la que considere correcta según su conocimiento. En lugar de preguntar: ¿Considera que la penicilina cura el catarro? Si ___

No____

No sé____

podría ser mejor que, aunque sólo interese el conocimiento acerca del efecto de la penicilina sobre el catarro, se emplee esta otra formulación: La penicilina es un producto adecuado para curar: Las enfermedades de la piel

Si ____

No ____

No sé ____

Las neumonías

Si ____

No _____

No sé ____

El catarro

Si ____

No _____

No sé ____

Algunas enfermedades oculares

Si ____

No _____

No sé ____

Cuando se trata de respuestas que pudieran resultar vergonzosas por el contenido, se ha sugerido (Sudman y Bradburn, 1982) con textual izar las preguntas para «suavizar» la situación. Por ejemplo, en lugar de preguntar directamente: Su consumo de bebidas alcohólicas por lo general es: Nulo ___

Escaso ____

Moderado ____

Alto _____

Muy alto ____

podría ser mejor realizar la siguiente secuencia de preguntas: a) En general, Ud. diría que Ud. ingiere bebidas alcohólicas: Menos que sus amigos ____ Aproximadamente igual que ellos ____ Más que sus amigos ____

b) Piense en aquel de sus amigos que más alcohol consume. ¿Cuántos tragos Ud. cree que él consume a diario como promedio?: ___

___

54

DISEÑO RAZONADO DE MUESTRAS

c) ¿Y cuánto consume Ud. aquellos días en que lo hace?: ¿Aproximadamente cuántos tragos?

Habiéndose hecho primero las preguntas contextúales a) y b), se ha probado (Fowler, 1993) que el monto testimoniado en c) es significativamente superior. Otra variante es insertar la «pregunta conflictiva» en el contexto de otras que no lo son. Por ejemplo, preguntar:

Algunos estudios han señalado que ciertas conductas son protectoras del infarto. Ha hecho en los últimos siete días alguna de las siguientes actividades: Realizar ejercicios durante no menos de 20 minutos

Si ___

No ____

Tomar al menos una aspirina

Si _____

No ____

Consumir vino, cerveza, ron u otra bebida alcohólica

Si _____

No ___

Comer fruta

Si _____

No ____

Relacionado con estas tendencias se halla el impulso de muchos, especialmente si el nivel cultural es bajo (Converse y Presser, 1986) a «estar de acuerdo» con lo que se les propone. Finalmente, puesto que se ha demostrado (véase Aquilino y Losciuto, 1990 y Fowler, 1993) que el fenómeno que nos ocupa es menos acusado cuando los cuestionarios son autoadministrados que cuando la encuesta la realiza un entrevistador, en este último caso debe ponerse especial cautela. 9. Valorar la conveniencia de usar una pregunta «de filtro» antes que indagar directamente sobre determinada conducta u opinión El uso de la pregunta «de filtro» es en ocasiones muy aconsejable, pues con ella se puede conseguir mejor organización de la encuesta, ahorrar tiempo y que el interrogado entienda mejor y más fácilmente lo que se quiere de él. En un estudio en que se interrogaba a funcionarios del sistema educativo (Fonseca, 1987), se preguntaba:

LA ENCUESTA Y EL CUESTIONARIO

55

¿Reciben los niños de este centro atención estomatológica sistemáticamente? ___ preventiva ___ curativa ___ ambas ___ no la reciben

Tal y como está redactada, muchos podrían marcar en cualquiera de las primeras tres opciones y dar por sentado que la atención estomatológica ofrecida a los niños es «sistemática» aunque no fuera ese el caso; si optara por la cuarta posibilidad, no se podrá saber si opina que no se ofrece atención alguna o que la que se brinda no es sistemática. Los resultados podrían ser más precisos si se preguntara de la siguiente manera:

¿Los niños de este centro reciben atención estomatológica sistemática? Si -----------

No ------- (pasar a la próxima pregunta)

¿Qué tipo de atención reciben? Preventiva

Si ____

No ____

Curativa

Si ____

No ____

Knäuper (1997) sugiere considerar críticamente la siguiente formulación:

En los últimos 10 años, ¿cuántas veces ha sido usted víctima de alguna conducta criminal?

Ser víctima de una conducta criminal no es una situación frecuente y, hecha la pregunta de este modo, algunos podrían considerar como «conducta criminal» cualquier situación desagradable relacionada con el delito. Según este autor, el asunto sería encarado con mayor rigor si se replanteara de la siguiente forma:

56

DISEÑO RAZONADO DE MUESTRAS

En los últimos 10 años, ¿ha sido usted víctima de alguna conducta criminal? Si----------

No----------- (pasar a la próxima pregunta)

Si respondió que sí, ¿cuántas veces?

__

___

Sin embargo, esto no es más que un paliativo; lo ideal sería dejar claro en la propia formulación qué ha de entenderse por «conducta criminal» (véase la recomendación número 3). En el estudio de Silva y Macías (2000) con 189 estudiantes universitarios se hizo un experimento consistente en dividir el grupo aleatoriamente en dos partes (A y B) y formularles, respectivamente, las preguntas siguientes:

Grupo A: Para el estudio independiente, ¿utiliza usted la biblioteca? Si ___

No____ (pasar a la próxima pregunta)

¿Cuántas veces hace uso de ella a lo largo de un mes? ___

una

____ dos a tres

____ cuatro a cinco

___ más de cinco

Grupo B: Para el estudio independiente, ¿cuántas veces hace uso de la biblioteca a lo largo de un mes? ___ ___ ___ __ __

nunca una dos o tres cuatro o cinco más de cinco

Si la pregunta de filtro tuviera un efecto, entonces cabría esperar resultados diferentes en cuanto a lo que dicha pregunta trata de delimitar. Los resultados fueron elocuentes:

LA ENCUESTA Y EL CUESTIONARIO

57

La diferencia entre 54,3% y 15,8% es impresionante: revela que la pregunta de filtro contribuyó en grado notable a que los encuestados reconocieran que no usaban la biblioteca para el estudio individual. 10. Tener en cuenta que una pregunta que procure obtener una opinión, si se proyecta sobre otra persona, puede conseguir más veracidad que cuando se reclama de manera directa Para valorar el efecto de esta estrategia, el estudio de Silva y Macías (2000) operó nuevamente con los dos grupos de estudiantes aleatoriamente conformados. Las preguntas empleadas fueron: Grupo A: Un compañero suyo se ve involucrado en un fraude académico. ¿Cuál es su opinión acerca de la medida que debe tomarse? Estaría a favor de: __ sancionarlo pero permitirle que continúe la carrera __ expulsarlo de la carrera -----hacerle sólo una advertencia

Grupo B: Si usted se ve involucrado en un fraude académico, la medida adecuada que procede aplicarle en su opinión sería: __ sancionarlo pero permitirle que continúe la carrera __ expulsarlo de la carrera ------ hacerle sólo una advertencia

Los resultados se resumen a continuación:

58

DISEÑO RAZONADO DE MUESTRAS

Los porcentajes correspondientes a la opción más «benévola» fueron, según se tratara del propio interrogado o de otra persona respectivamente, 27,9 frente a 16,0. Es decir, la opción de «perdonar» al alumno se elige casi dos veces más para sí mismo que para otro. La recomendación que nos ocupa no debe confundirse con la posibilidad que en ocasiones se aplica de permitir que quien responda no sea el sujeto elegido sino un familiar u otro allegado (los llamados proxy respondents en la literatura anglófona) ya sea porque el sujeto no se encuentra o por estar incapacitado. La experiencia demuestra, sin embargo que, típicamente, estos sustitutos no consiguen suplir adecuadamente a los verdaderos destinatarios de las preguntas (véanse, por ejemplo, Clarridge y Massagli, 1989 o Rodger y Herzog, 1989).

2.3.2. Pautas específicas para la redacción de interrogantes Uno de los libros más consultados recientemente en materia de redacción de preguntas, debido a Fowler (1995), establece que una «buena pregunta» es aquella capaz de obtener el tipo específico de respuesta que se necesita conocer, conseguir que los interrogados comprendan el significado de la pregunta (especialmente, que todos entiendan lo mismo), que sea susceptible de ser contestada por todos ellos, así como que promueva que la respuesta recogida sea fidedigna y acorde con lo que se quiere. Sin embargo, éstas no son más que indicaciones generales, que no constituyen una guía detallada que solucione realmente los problemas que suelen aparecer durante la confección de las preguntas y ayude a su elaboración. Aunque algunos autores, como el propio Fowler, se han enfrascado en darle solución a este problema, se trata de una materia en permanente crecimiento, de modo que considero de interés ofrecer una guía actualizada que procura indicar e ilustrar exhaustivamente los errores que con más reiteración se presentan como resultado de no transitar por un camino teóricamente riguroso en el llamado «arte de preguntar». Las 12 pautas que se enumeran a continuación intentan po-

LA ENCUESTA Y EL CUESTIONARIO

59

ner de relieve los errores más frecuentes y servir de alerta para encarar adecuadamente la confección del cuestionario dentro del proceso investigativo.

1. Eliminar toda ambigüedad en la formulación 2. Evitar las preguntas negativas 3. Garantizar que la indagación tenga sentido para todos los interrogados 4. Utilizar un lenguaje sencillo y asequible 5. Usar una sintaxis correcta y coherente 6. Ubicar las frases condicionales o definiciones al inicio de la formulación 7. Evitar el uso de preguntas de respuesta múltiple 8. Contemplar todas las situaciones posibles e impedir que el interrogado pueda ubicarse en más de una categoría de respuesta 9. Procurar no inducir las respuestas salvo que sea una decisión deliberada 10. Las preguntas deben ser específicas 11. Las preguntas deben ser sensibles 12. Evitar la inclusión de dos o más preguntas en una misma formulación

A continuación se explican e ilustran, en casi todos los casos con ejemplos reales, cada una de las 12 pautas enunciadas. 1. Eliminar toda ambigüedad en la formulación No es nada infrecuente que la redacción contenga elementos de ambigüedad que restan confiabilidad a los resultados. Entre los problemas más frecuentes se halla la presencia de términos indefinidos, un aspecto de suprema importancia. Donde menos nos imaginamos —si no estamos especialmente atentos al problema— surgen dudas y ambigüedades exclusivamente atribuibles a la ausencia de claridad sobre el significado de los términos empleados. Para asegurarse de que un término dado será consistentemente entendido, puede ser útil incluir la definición que se requiere dentro de la propia formulación de la pregunta. Ocasionalmente, usando varias preguntas que cubran todos los aspectos susceptibles de ser registrados, se suple el uso de definiciones y se ayuda a que el encuestado emita una ajustada respuesta final. Hay que asegurarse de que todos los términos relevantes que se hayan empleado estén bien definidos. Quizás la principal fuente de deficiencias de los

60

DISEÑO RAZONADO DE MUESTRAS

cuestionarios provenga de esta insuficiencia, la cual podría ser obvia, aunque casi siempre es más bien sutil. Imaginemos la pregunta siguiente:

¿Ha realizado ejercicios físicos en algún momento de la semana pasada? Sí ------------

No----------------

¿Qué es hacer «ejercicios físicos»? Por ejemplo, ¿incluyen el acto de caminar? ¿Durante cuánto tiempo ha de extenderse para considerar que los ha hecho? ¿Y qué es «la semana pasada»? ¿Los últimos siete días, o los siete días previos al último lunes? Quizás debería reformularse así: ¿Ha realizado gimnasia, caminatas u otra forma de ejercitación física por más de 20 minutos en algún momento de los últimos siete días? Sí -----------

No ------------

2. Evitar las preguntas negativas La inclusión de negaciones dentro de la pregunta casi siempre asegura que se introduzca un elemento de incertidumbre. Consideremos la siguiente interrogante:

Algunos médicos defensores de la lactancia materna opinan que no debe permitirse la publicidad de la leche maternizada. ¿Está Vd. de acuerdo? Sí ------------

No --------------

No tengo opinión---------

Si piensa que, en efecto, no debe permitirse la publicidad de la leche artificial, no sabrá si marcar que SI (sí comparte la afirmación) o que No (no debe permitirse la publicidad) . Una formulación correcta puede ser:

Algunos médicos defensores de la lactancia materna opinan que debe prohibirse la publicidad de la leche maternizada. ¿Está Ud de acuerdo con ellos? Sí-------------

No--------------

No tengo opinión ---------------

LA ENCUESTA Y EL CUESTIONARIO

61

3. Garantizar que la indagación tenga sentido para todos los interrogados ¿Es la pregunta aplicable a todos los encuestados? A veces se consigue desconcertar al entrevistado preguntándole algo como «¿Qué edad tiene su esposa?» siendo él soltero; pero ello se produce, sobre todo, cuando la formulación es tal que él no se reconoce en ninguna de las alternativas que se le ofrecen. Un ejemplo típico se da cuando no se maneja la posibilidad de que el sujeto comunique que no tiene opinión sobre el asunto tratado, ya que, si efectivamente no la tuviera, no sabría qué hacer; si deja en blanco todas las casillas, entonces no se podrá saber si se trata de que no tiene opinión formada, de que la pregunta no le fue formulada, o de que su respuesta no fue registrada, que son tres cosas bien diferentes'. En un estudio (González, 1991) se preguntaba:

Años de convivencia con cónyuge fumador -------------Aquí podrían presentarse dos problemas: primero que el entrevistado no tenga cónyuge, y segundo que éste no sea fumador. Mejor sería esta variante:

En su relación de pareja, se encuentra usted: ------- Sola (Termina aquí) ------- Acompañada

¿Es su compañero fumador?

Sí--------------- No ----------------(Termina aquí)

¿Cuántos años de convivencia llevan?

-------------

4. Utilizar un lenguaje sencillo y asequible Un requerimiento básico para obtener información objetiva y exacta es asegurarse de que todos los interrogados entiendan por igual lo que se indaga. Los investigadores deben estar razonablemente seguros de que las palabras o términos utilizados tengan el mismo significado para todos los que enfrentan la pregunta. Por tanto, lo más recomendable será usar un lenguaje sencillo, eliminan1 Por cierto, en algunos ámbitos se ha generalizado la curiosa costumbre de adicionar la categoría NS/NC (es decir, «no sabe, no contesta»). Esto es absurdo, porque no es lo mismo «no saber» que abstenerse de contestar. En principio, esta última posibilidad no debe ofrecerse como opción.

62

DISEÑO RAZONADO DE MUESTRAS

do todo tipo de locuciones extranjeras y asegurándose de que las palabras sean directas y familiares; debe evitarse el uso de abreviaturas, siglas, argot, etc. Asimismo, como bien subrayan Rebagliato, Ruiz y Arranz (1996), las frases deben utilizar una estructura gramatical tan sencilla como sea posible. Consideremos, el siguiente ejemplo: Marque con una cruz en la casilla que corresponda a la religión que Vd. practica: Católica

____

Protestante

____

Islámica

____

Otra

____

Ninguna

____

Sería mejor reducir la pregunta del modo siguiente: Religión que practica: Católica

____

Protestante

____

Islámica

____

Otra

____

Ninguna

____

En definitiva, el encuestador aplicará la segunda alternativa aunque estuviese redactada de la primera forma, y en general buscará por sí mismo una formulación simple en caso de que el texto «oficial» sea más frondoso de lo necesario. Es obvio que resultaría improcedente preguntar: ¿Ha consumido Vd. antagonistas del calcio en el último trimestre? SÍ ___

No _____

Aquellos interrogados que no posean conocimientos farmacológicos tendrían gran dificultad para responder; muchos de ellos por temor a demostrar ignorancia o por no conocer a qué se refiere el investigador, podrían responder Si o No, cuando en rigor ni siquiera saben lo que se les pregunta. Sin embargo, como han señalado Clark y Schober (1992), la comprensión del lenguaje muchas veces no concierne a las palabras elegidas, sino al significado

LA ENCUESTA Y EL CUESTIONARIO

63

que tienen para quien las formula. Por ejemplo, las palabras empleadas en la siguiente pregunta no ofrecen dudas por sí mismas:

¿Cómo se ha sentido en la última semana? Bien ____

Regular ____

Mal ____

Pero ¿qué debe responder el entrevistado?, ¿se indaga acerca de su estado de ánimo?, ¿sobre su bienestar físico?, ¿sobre el grado en que ha considerado exitoso su desempeño laboral o social a lo largo de la semana? Desde luego, las respuestas a estas preguntas podrían hallarse en las propias alternativas que se ofrezcan al interrogado, pero a veces tales alternativas son en ese sentido neutras, como ocurre precisamente en el ejemplo. 5. Usar una sintaxis correcta y coherente Resulta medular pulir la redacción empleada y ser cuidadoso con la sintaxis. Usar una sintaxis sin errores facilita al interrogado la comprensión de la pregunta y que le dé la importancia que merece. Una formulación como la que sigue es absolutamente típica:

Considera usted que la participación de la enfermera en el control de enfermos crónicos es: ___ ___ ___ ___ ___ ___

importante necesaria pobre poco útil lleva el mayor peso del trabajo no participa

Si se conecta la frase inicial con cualquiera de las dos últimas opciones de respuesta, la oración pierde sentido. Decir, por ejemplo, «La participación de la enfermera en el control de enfermos crónicos es no participa» es sintácticamente incoherente. Por otra parte, en la redacción precedente se piden a la vez opiniones genéricas (1 y 2) y testimonios concretos (opciones 3, 4, 5 y 6). Para resolver la situación se podría desdoblar la interrogante según esos dos tipos. Sin embargo, por excepción, no daré una solución para el ejemplo que nos ocupa: «arreglar» esta formulación es demasiado complicado, pues además de los señalamientos ya

64

DISEÑO RAZONADO DE MUESTRAS

hechos, aparece la opción de que la participación sea «importante», la cual es completamente inespecífica (véase Pauta N.° 11). Además hay riesgo de redundancia, pues si la participación de la enfermera en el control es considerada necesaria, entonces ineludiblemente tendrá que ser conceptuada como «importante». En ocasiones nos encontramos frente a una pregunta que puede no ser correctamente respondida por falta de lógica o debido a su inconsistencia sintáctica. El sentido común debe resolver esta situación. No obstante, vale la pena detenernos en el tema y poner algunos ejemplos más, pues muchos de los cuestionarios contienen preguntas con errores de esta índole. En el cuestionario (dirigido a padres) de un estudio sobre retardo en el desarrollo psíquico infantil (Avila, 1994), aparece la pregunta siguiente: ¿Asiste usted con frecuencia a las reuniones de padres? Sí ____

No ____

En ocasiones

____

La deficiencia aparece al dar la opción «en ocasiones»; el hecho de preguntar si asiste «con frecuencia» es inconsistente con esta posibilidad. Para solucionar la situación, se podría eliminar el término «con frecuencia», que de por sí es equívoco, y que en este caso nada agrega. Una solución podría ser entonces la siguiente: ¿Asiste usted a las reuniones de padres? Siempre ____

En ocasiones ____

En otro estudio (Gutiérrez, 1987) se lee: ¿Ingiere bebidas alcohólicas? Sí ___

¿Con qué frecuencia ? __ __ __ __ __ __

diariamente una vez a la semana 2-3 veces por semana 4-6 veces por semana esporádicamente no ingiere bebidas alcohólicas

No ____

Nunca

LA ENCUESTA Y EL CUESTIONARIO

65

La última opción es innecesaria, porque si previamente se indaga sobre la presencia o no del hábito, basta con enviar a la próxima pregunta a quienes se manifiesten negativamente y eliminar esa última opción para quienes dieron una respuesta inicial afirmativa. 6. Ubicar las frases condicionales y definiciones al inicio de la formulación Cuando la pregunta contiene una frase condicional o la definición de algún término empleado para formularla, ubicar dicha frase o definición al inicio de la formulación contribuye a la objetividad de la respuesta. La experiencia de Silva y Macías (2000) con los estudiantes de medicina también abordó este tema. Las preguntas formuladas a los grupos A y B fueron:

Grupo A: Cuando un alumno ha tenido problema con el transporte y llega tarde a clases, ¿considera que debe ser justificado? Sí ____

No _____

Grupo B: En su opinión, ¿debe justificarse la tardanza a clases de un alumno cuando se ha producido por problemas con el transporte? Sí ____

No ____

El contenido de las dos preguntas es en esencia el mismo; sólo varía la localización de la frase condicional, que se pone al inicio (caso A), o al final de la formulación (caso B) . Si tal variación tuviera algún efecto, los resultados serían diferentes. Lo que puede ocurrir (era lo que se quería poner en evidencia), es que cuando la condición se encuentra al final, ya leída la pregunta, el resto pierde interés para algunos encuestados y por tanto tal condición no es tenida en cuenta al responder. De hecho, en este caso los resultados convalidaron esta presunción:

El mayor porcentaje de respuestas positivas correspondió, en efecto, al grupo al que se formuló la pregunta que tenía la frase condicional colocada al inicio de la formulación, resultado compatible con lo esperado.

66

DISEÑO RAZONADO DE MUESTRAS

En una encuesta a padres (Avila, 1994) se preguntaba: ¿Cree Vd. que los maestros de la escuela se encuentran suficientemente preparados para el tratamiento de los contenidos de educación sexual? Sí _____

No____

Sería mejor especificar primero a qué área de la preparación magisterial se alude preguntando: Para el tratamiento de los contenidos de educación sexual, ¿se encuentran en su opinión suficientemente preparados los maestros de la escuela? Sí ____

No ____

No tengo opinión ____

7. Evitar el uso de preguntas de respuesta múltiple Un tipo especial de pregunta cerrada es aquel en que se permite escoger más de una alternativa (también llamada pregunta de respuesta múltiple). Imaginemos que en un estudio sobre consumo de fármacos se formula la siguiente pregunta: De los siguientes medicamentos, marque aquellos que ha consumido almenos una vez en los últimos 30 días: Aspirina

___

Atenolol

___

Librium

___

Ninguno

___

Nótese que, en verdad, se están haciendo tres preguntas diferentes. En rigor, la última alternativa es innecesaria, ya que si se ofrecen sólo las tres primeras, quien estuviera en el caso de no haber consumido ninguno de los tres fármacos podría comunicarlo mediante el recurso de dejar en blanco las tres posibilidades. El inconveniente fundamental, como ya se dijo, radica en que ese mismo resultado se obtendría en caso de que la pregunta, por olvido u otra razón, no llegase a ser formulada. Aunque la formulación que nos ocupa tiene cierto atractivo por su simplicidad, sería preferible forzar a un pronunciamiento explícito planteándola del modo siguiente:

LA ENCUESTA Y EL CUESTIONARIO

67

Señale si ha consumido los siguientes medicamentos al menos una vez en los últimos 30 días: Aspirina

Sí ___

No ____

Atenolol

Sí ___

No ____

Librium

Sí ___

No ___

Otro ejemplo de preguntas de respuesta múltiple, tomado textualmente de Ortiz (1996), es el siguiente: En su familia pueden haber ocurrido una serie de problemas de salud; por favor, refiéralos, ¿cuáles ha presentado durante el último año? __ __ __ __ __

miembros con invalidez y/o minusvalía miembros con amenaza de muerte trastornos psiquiátricos algún familiar con padecimiento crónico alcoholismo

Además de la falta de uniformidad en las opciones (algunas empiezan mencionando problemas y otras con la palabra «miembros»), lo que ahora importa es que algunos interrogados dejarán en blanco ciertas opciones de la pregunta, de modo que no se podrá saber si olvidaron responder, si no estaban incluidos dentro de dicha categoría de respuesta, si no se registró la situación, o si no tenían conocimiento al respecto. Más correcto sería redactarla de la siguiente manera:

Durante el último año en su familia pueden haber ocurrido algunos problemas de salud. Acerca de cada una de las siguientes posibilidades señala si alguno de sus miembros los ha padecido durante el último año: invalidez o minusvalía

Sí---------

No ---------

amenaza de muerte

Sí---------

No ---------

trastornos psiquiátricos

Sí---------

No ---------

padecimiento crónico

Sí---------

No ---------

alcoholismo

Sí---------

No ---------

En resumen, puede afirmase que las preguntas de respuesta múltiple suelen ofrecer dudas al sujeto encuestado y conducir a la comisión de errores a in-

68

DISEÑO RAZONADO DE MUESTRAS

vestigadores poco experimentados. Por otra parte, si tales preguntas se conforman a través de varias preguntas simples, como se ha sugerido, los análisis estadísticos posibles se simplifican y esclarecen de manera natural, a la vez que las alternativas para llevarlo adelante se incrementan, ya que se pueden considerar distribuciones tanto para cada categoría simple como para subconjuntos de categorías (por ejemplo, en el caso de la primera ilustración, se podría computar el porcentaje de los encuestados que no han consumido ni atenolol ni librium) 8. Contemplar todas las situaciones posibles e impedir que el interrogado pueda ubicarse en más de una categoría de respuesta Para el cumplimiento de esta pauta es necesario haber identificado todas las alternativas posibles. Las posibles respuestas han de ser excluyentes y exhaustivas. En una encuesta relacionada con contaminantes ambientales, Navarro (1989) incluía la siguiente pregunta, dirigida a trabajadores que padecían cierta enfermedad:

Durante el último año usted ha tenido necesidad de ausentarse por descompensación o complicación de su enfermedad de base al: -------trabajo -------estudio -------trabajo y estudio -------no trabaja -------no estudia

Quien se vea enfrentado a responder esta pregunta puede tener muchas dudas; por ejemplo, el que marque en la opción «trabajo», podrá además marcar en «no estudia» si, en efecto, no estudiara. La formulación correcta (y mucho más simple) sería:

Durante el último año ¿ha tenido usted necesidad de ausentarse por descompensación o complicación de su enfermedad de base al: Trabajo?

Sí ---------

No ---------

No procede

Estudio?

Sí ---------

No ---------

No procede

-----------------

LA ENCUESTA Y EL CUESTIONARIO

69

El ejemplo que sigue, tomado de Moreira (1994), es típico:

¿Quién lo atiende actualmente? ------ familiar ------ vecino ------- amigo ------ vive solo ------- nadie

Puede darse el caso de que a algunos interrogados corresponda colocarse en más de una opción, ya que son atendidos por más de una de las personas enumeradas (por ejemplo, familiar y vecino), así como que otros se vean imposibilitados de marcar en cualquiera de ellas, como le ocurriría a un sujeto atendido por una institución de seguro social. Se presenta otro error con la penúltima categoría de respuesta, la cual introduce una formulación inconsistente (véase Pauta N.° 6) ya que si la persona vive sola o no, es un dato en principio irrelevante a los efectos de quién sea la persona que atiende al sujeto encuestado. La formulación correcta podría ser la siguiente:

¿Quién lo atiende actualmente? familiar

Sí --------

No ---------

vecino

Sí --------

No ---------

amigo

Sí --------

No ---------

otro

Sí --------

No ---------

Naturalmente, en este caso quizás sería conveniente insertar una pregunta de filtro (Recomendación N.° 9 de la Sección 2.3.1) que indague si el sujeto es o no atendido por alguien. 9. Procurar no inducir las respuestas salvo que sea una decisión deliberada Una pregunta «persuasiva» o inductora impulsa al entrevistado a preferir determinada respuesta (ya sea por el hecho de que aceptarla tiene cierta connotación favorable, o por sugerencia directa) y muchas veces compromete su libre opinión. A veces la inducción se produce de manera bastante sutil como consecuencia del empleo de palabras cargadas de emotividad, planteamientos que apelan

70

DISEÑO RAZONADO DE MUESTRAS

a estereotipos o formulaciones que entrañan juicios de valor implícitos. Por ejemplo, algunas personas desocupadas podrían encontrar embarazoso contestar «no» si se les pregunta «¿Usted trabaja»?, pero estarían más proclives a hacerlo si la pregunta fuese: «¿Tiene usted trabajo actualmente»? Análogamente, puede haber personas renuentes a admitir que algo debe ser «prohibido» pero que estarían de acuerdo en «no permitir» esa misma cosa. Avila (1994) preguntaba a los padres: ¿Qué castigos utiliza más frecuentemente contra su hijo? ---------- Penitencia ---------- Golpes ---------- Gritos ---------- Amarrarlo ---------- Quitarle la ropa ----------- Otros ¿cuáles?

Virtualmente, tal pregunta está «obligando» a los encuestados a admitir que castigan a sus hijos, ya que no se contempló siquiera la opción de que el padre no castigue a su hijo; a la vez, el uso de la preposición «contra» puede condicionar al interrogado. Una pregunta de filtro puede ayudar (véase Recomendación N.º 9). En determinados contextos, hacer una pregunta inductora puede, sin embargo, ser beneficioso para la calidad de las estimaciones. Posteriormente al famoso trabajo de Kinsey, Pomeroy y Martin (1953) sobre conducta sexual femenina, el autor principal del informe argumentaba que si se le pregunta a la gente si acostumbra a realizar algunas prácticas sexuales «bochornosas», lo negarían aunque fuera cierto, en tanto que si se les pregunta cuándo, dónde o con qué frecuencia la hacen, es más probable que lo admitan. Silva y Macías (2000) encararon este asunto formulando las preguntas siguientes a los dos grupos de estudiantes aleatoriamente conformados: Grupo A: Muchos psicólogos y estudiosos del tema consideran que para resolver problemas de la vida cotidiana es casi inevitable, en ocasiones, decir mentiras, ¿lo ha hecho usted durante el último mes? Sí -------------

No -------------

Grupo B: Para resolver algún asunto de la vida cotidiana, ¿ha dicho usted alguna mentira durante el último mes? Sí -------------

No ------------

71

LA ENCUESTA Y EL CUESTIONARIO

Como se, ve, una de ellas (Grupo A) inducía la respuesta, ya que incluía un comentario previo que tomaba partido hacia la respuesta afirmativa; en el otro cuestionario, la pregunta se hacía neutra y directamente. Puesto que responder afirmativamente a una pregunta como esta no es nada enaltecedor, el hecho de recibir anticipadamente un comentario que «justifica» la conducta reprobable, ayudaría a conseguir cierta información difícil de obtener. Los resultados fueron:

Se obtuvo un porcentaje mucho mayor de respuestas positivas en el caso de usar la pregunta bajo una fórmula inductora (69 %) que para el caso contrario (47 %), lo cual parece validar inequívocamente la idea de que las preguntas inductoras pueden servir de ayuda para obtener ciertas informaciones difíciles de conseguir al preguntar directamente. De modo que, si bien generalmente se advierte (atinadamente) del sesgo que pueden introducir las formulaciones inductoras, tal advertencia no debe asimilarse mecánicamente. En esta materia, uno de los investigadores más interesantes es el profesor alemán Norbert Schwarz, de la Universidad de Michigan, a quien debemos una serie de sorprendentes resultados. En sus trabajos ha puesto de relieve que normalmente se considera al cuestionario como un método para obtener información del entrevistado sin reparar en que también es un medio de dar información a éste. Un hallazgo interesante en esta dirección fue puesto de relieve en Schwarz (1995); consiste específicamente en mostrar cómo algunos encuestados se apoyan en el cuestionario para elegir la respuesta (véanse también Schwarz y Hippler, 1991; Sudman, Bradburn y Schwarz, 1995; Schwarz, 1997). Se trata de que los encuestados asumen que las escalas que se le proponen reflejan el conocimiento del investigador sobre la distribución del fenómeno y se apoyan en ello para elegir la respuesta. En relación con ello, Silva y Macías (2000) hicieron respectivas preguntas en el experimento con sus dos grupos de estudiantes:

Grupo A: ¿Cuántas horas dedica aproximadamente al estudio individual cada día? -------menos de ½

--------- ½ a 1

------- 1 a 2

-------- 2 a 3

---------3 y más

72

DISEÑO RAZONADO DE MUESTRAS

Grupo B: ¿Cuántas horas dedica aproximadamente al estudio individual cada día? -------menos de 3

---------3 a 3½

---------3½ a 4

---------4 a 5

---------5 y más

Como se aprecia, en realidad se elaboró una única pregunta, pero se usaron escalas diferentes, de baja y alta frecuencia respectivamente, y de modo que los lapsos se interceptaran a la vez que el «centro» fuera muy diferente en un caso y en el otro. Los resultados obtenidos fueron:

Como se ve, el porcentaje de estudiantes que marcó alguna de las primeras 4 opciones en el Grupo A es muy diferente del porcentaje de los que eligieron la primera opción en el Grupo B. En efecto, el porcentaje de encuestados que marcaron el periodo menor de 3 horas para el Grupo A (76 %) fue muy superior al de los que hicieron lo propio para el Grupo B (21 %). Muchos sujetos se apoyan aparentemente en la propia escala que se les ofrece; asumen que si los investigadores han elegido esta escala es por que saben que la mayoría de las personas están en el centro y se distribuye «normalmente» hacia los extremos. Dicho de otro modo, muchos que se autoconsideran «promediales» se ubican en el centro independientemente de cuál sea dicha categoría central. 10. Las preguntas deben ser sensibles Una pregunta tiene sentido práctico si produce respuestas diferentes siempre que los sujetos sean realmente diferentes. No deben formularse preguntas que, por su naturaleza, produzcan una concentración desmedida de sujetos en una

LA ENCUESTA Y EL CUESTIONARIO

73

misma categoría de respuesta. Tales preguntas son poco informativas. Consideremos un ejemplo tomado de Triana (1998). Si le ofrecen un cambio de trabajo, ¿qué haría usted? ------ lo aceptaría -------lo pensaría ------ lo aceptaría sin vacilación -------lo aceptaría con reserva

Una gran mayoría debe marcar en la opción «lo pensaría», ya que muy pocos tendrán una opinión incondicional (probablemente, nadie en sus cabales optaría por la primera alternativa sin contar con más datos). Aunque los individuos tengan visiones muy diferentes acerca de su actual trabajo, probablemente contesten del mismo modo. La pregunta así formulada no es sensible a las variaciones que existen en el universo investigado. Algo mejor seria usar, por ejemplo, variantes como la siguiente:

Si le ofrecen un cambio de trabajo donde mejore en un 30% su salario, ¿qué haría usted? -------lo aceptaría ------- lo rechazaría -------depende de otros elementos

11. Las preguntas deben ser específicas La pregunta es específica si sólo produce respuestas diferentes para sujetos que a ese respecto sean diferentes. Imaginemos que se quiere saber la edad a la cual un profesional universitario inició su vida laboral, pero que se pregunta:

¿Cuándo empezaste a trabajar? Un interrogado pudiera responder: «A los 27 años», otro: «En 1996» y otro: «Cuando terminé la carrera». Sin embargo ellos pudieran haber comenzado su vida laboral a la misma edad (deberían responder lo mismo si la pregunta hubiera sido específica). Esta pregunta no tendría porqué tener dificultad si se re-

74

DISEÑO RAZONADO DE MUESTRAS

dactara adecuadamente, especificando lo que el investigador busca. Se podría lograr una respuesta uniforme, como ocurre en la reformulación que sigue:

¿A qué edad empezaste a trabajar? No deben redactarse las preguntas de manera tal que se carezca de un marco referencial claro y consientan que se «escapen» casos con una condición dada; esto dispersaría la respuesta más allá de lo debido y aportaría pocos beneficios, ya que no tendría la capacidad de colocar a cada quién «donde le toca». 12. Evitar la inclusión de dos o más preguntas en una misma formulación El planteamiento de dos o más preguntas dentro de una misma formulación introduce una ambigüedad que compromete la fiabilidad de los resultados. En un trabajo sobre el desempeño de la enfermera, Sabido (1998) incluye la siguiente pregunta dirigida a un paciente: ¿La enfermera encuestadora le habló sobre la enfermedad que usted tiene, le explicó porqué la tiene y cómo evitarla? Si ____

No ____

No recuerdo ___

Tal y como se formula, puede resultar imposible responder adecuadamente; la formulación está incluyendo tres preguntas en una sola, y sólo se obtendría una respuesta adecuada si para todas las situaciones consideradas la respuesta coincidiera; en otro caso se producirla desconcierto y, en última instancia, se obtendrán respuestas carentes de fiabilidad. La pregunta podría redactarse de la siguiente manera:

En relación con su enfermedad, ¿le explicó la enfermera encuestadora? sobre la enfermedad que padece?

Si ___

No ___

No recuerdo ___

por qué la tiene?

Si ___

No ___

No recuerdo ___

cómo evitarla?

SI ___

No ____

No recuerdo ___

La ambivalencia puede aparecer de manera menos evidente, como en el siguiente ejemplo, tomado de Saeteros (1998):

LA ENCUESTA Y EL CUESTIONARIO

75

El trabajo del colectivo pedagógico y del personal de salud en cuanto a la preparación de la familia en aspectos de promoción y educación para la salud es: ___ Suficiente ___ Regular ___ Insuficiente

Cuando algún interrogado considere que el trabajo de ambos equipos merece la misma calificación, no se presentaría ninguna dificultad; el problema aparecerá cuando no sea así. Por ejemplo, si una persona considera que el trabajo del colectivo pedagógico es «Regular» pero que el del personal de salud es «Suficiente», no sabría qué responder. La pregunta debería formularse así:

A continuación se mencionan dos de los grupos encargados de la preparación de las familias en aspectos de promoción y educación para la salud. ¿Cómo considera su trabajo? Colectivo pedagógico: ____ Suficiente _____ Regular_____ Insuficiente Personal de salud:

___ Suficiente ____ Regular ____ Insuficiente

En Silva (1993) se incluía este otro ejemplo:

Marque con una cruz en la casilla adecuada, de acuerdo con su punto de vista: La leche materna es altamente beneficiosa y debe ser el único alimento que se suministre durante los 4 primeros meses de vida. SI ____

NO ____

Al menos dos dificultades se abren para el sujeto interrogado. Si él comparte que la leche materna es beneficiosa, pero piensa que no necesariamente debe consumirse de manera exclusiva, marcaría NO (pues formalmente no comparte la afirmación tal y como ella se ha hecho); pero lo mismo tendría que hacer si opina de manera diametralmente opuesta (considera que no es beneficiosa y que debe emplearse la leche de vaca maternizada), de modo que también en este caso podría legítimamente marcar NO. Por otra parte, no se contempla la posibilidad de que el sujeto no tenga una opinión formada sobre el asunto.

76

DISEÑO RAZONADO DE MUESTRAS

El enunciado podría replantearse del modo siguiente:

Marque en la casilla adecuada, de acuerdo con su punto de vista: Sobre el empleo de la leche materna durante los primeros cuatro meses de vida, Ud, cree que: * es una práctica beneficiosa si ____no_____tengo opinión____

* los ideal es suministrarla de modo exclusivo si ___ no ____ no tengo opinión ____

En el experimento de Silva y Macías (2000) varías veces citado, se formularon estas preguntas a los respectivos grupos de estudiantes:

Grupo A: ¿Considera usted que las actividades prácticas previstas para su formación profesional comienzan en el momento oportuno y se extienden suficientemente? __

de acuerdo

___ en desacuerdo

____ no sé

Grupo B: ¿Considera usted que las actividades prácticas previstas para su formación profesional: comienzan en el momento oportuno? __

de acuerdo

____ en desacuerdo ________ no sé

se extienden suficientemente? __

de acuerdo

____ en desacuerdo

____ no sé

La expectativa era encontrar diferencia entre los resultados de una y otra encuesta, puesto que cuando las dos afirmaciones están dentro de la misma formulación, el interrogado puede tener dudas en caso de que no esté de acuerdo con (o no sepa sobre) una sola de las dos interrogantes; en tal caso no podría discernir entre estar en desacuerdo con la afirmación tal y como se hizo o con sólo una parte de ella; cuando ambas situaciones se separan, tal ambivalencia queda resuelta. Los resultados son expresivos:

LA ENCUESTA Y EL CUESTIONARIO

77

Como se aprecia, en el caso en que se reunieron las dos afirmaciones dentro de una misma formulación, se obtuvo un porcentaje mucho mayor de encuestados que opinaban estar «de acuerdo» (64%) que el obtenido para el cuestionario que las separaba: solo 34 de los 95 estudiantes del grupo B (36%) dijeron estar «de acuerdo» con ambas afirmaciones. Los resultados varían entre los dos grupos debido, verosímilmente, a la dualidad contenida en la pregunta; aparentemente, muchos encuestados que solamente estaban de acuerdo con una parte de lo que se le preguntó, expresaron su acuerdo global dentro del grupo A.

2.4. Validación y estudio piloto Ante una encuesta que ya se ha llevado adelante, no es infrecuente escuchar preguntas críticas tales como: ¿fue validada esta encuesta? o ¿fue validado el cuestionario? El término validación, que es de por sí conflictivo (véase Silva, 1997), se maneja en estos casos de manera bastante confusa. Es importante puntualizar que, en principio, lo que puede validarse es un instrumento o un procedimiento concebido para medir una dimensión concreta, sea esta de naturaleza física (como la temperatura corporal o el pliegue suprahilíaco de un sujeto) o abstracta (como la inteligencia o el nivel socio- económico). Validar tal instrumento equivale a corroborar que él efectivamente mide lo que se supone que mide.

78

DISEÑO RAZONADO DE MUESTRAS

Cuando se trata de una noción abstracta, es muy común que el instrumento empleado sea una variable sintética construida a partir de las respuestas que se obtienen del entrevistado a través de una encuesta. Tal variable sí puede y debe validarse (Silva, 1997). Sin embargo, «validar» un cuestionario carece de sentido claro, ya que éste suele ser simplemente un conjunto de preguntas y no un instrumento cuantificador en el sentido que puede serlo un termómetro, el índice Apgar o un test de inteligencia. Naturalmente, hay preguntas que por sí mismas intentan «medir» algo y, en tal caso, ocurre con ellas lo mismo que con cualquier otro instrumento: pueden y deben −de ser posible− ser validadas. Hay otras, por ejemplo todas aquellas con las que se intenta establecer algo de la esfera subjetiva y que por tanto no son susceptibles de ser respondidas correcta o incorrectamente, para las cuales la susodicha «validación» no tienen mayor sentido. Sin embargo, los cuestionarios deben ser «probados» en la práctica, generalmente a través de una encuesta piloto. Es decir, lo que en cualquier caso resulta crucial es adoptar medidas para conseguir que la información recabada que se recoja tenga calidad, y esa es una de las funciones básicas del estudio piloto. La necesidad de hacer pruebas preliminares con el cuestionario, como con otras partes esenciales de la encuesta, está fuera de toda duda. Si por «validar un cuestionario» se entiende corroborar que supera con éxito estas pruebas, entonces todo se reduciría a que para ello se ha empleado un nombre ya acuñado para otro fin; pero desafortunadamente con cierta frecuencia se invoca la necesidad de hacer esa validación sin que esté bien definido qué se ha de entender bajo ese término. En cuanto al estudio piloto, es grande la tentación de creer que «esta vez no hace falta realizarlo, puesto que todo está claro»; sin embargo, nada es más peligroso que caer en esa trampa. Por supuesto, el equipo investigador debe estar totalmente de acuerdo en que el cuestionario es eficiente antes de aplicarlo en el terreno, pero las valoraciones teóricas no pueden suplir el contacto directo con la población que se va a estudiar. La falta de pruebas preliminares adecuadas es una de las mayores fuentes de fracaso en encuestas que podrían haber sido enteramente exitosas. Para llevar adelante esta prueba previa casi nunca se realizan diseños probabilísticos formales; suele bastar con aplicarla a unas pocas decenas de sujetos, elegidos sobre bases de conveniencia y disponibilidad (Fowler, 1995). Las pruebas piloto deben utilizarse para evaluar no sólo la claridad de los items del cuestionario, sino también la eficacia de las instrucciones, la factibilidad del diseño muestral, la calidad de las entrevistas, la eficiencia de la organización del trabajo de campo, la magnitud del rechazo y las razones de su existencia, la duración de la entrevista, la idoneidad del método de encuesta para el problema que se aborda y los costos. Permiten además delimitar si las pre-

LA ENCUESTA Y EL CUESTIONARIO

79

guntas contienen expresiones locales que puedan ser incorporadas a las formulaciones (o eliminadas de ellas) para evitar malentendidos e incrementar la fluidez comunicativa, así como cuáles son las preguntas o secciones que ofrecen mayores dificultades y cuáles son capaces de producir irritación, embarazo o confusión. Es crucial que las condiciones en que se realice el pilotaje sean las mismas en que se llevará adelante la encuesta real. A veces, por ejemplo, los interrogatorios del pilotaje los desarrollan los propios directores del estudio. Craso error: estos tienen por lo general niveles de compromiso y sensibilidad con el estudio marcadamente superiores que los de un encuestador asalariado. Es conveniente que los encuestadores rindan un informe, preferiblemente escrito, de su experiencia en el pilotaje. Son ellos los agentes llamados a identificar los problemas y propiciar un diagnóstico adecuado del cuestionario (Converse y Presser, 1986). Un aspecto que debe recabarse es que para cada rechazo el encuestador consigne las razones. El análisis cuidadoso de esta información es de extrema importancia para la adopción de medidas preventivas de la llamada «no-respuesta». Por ejemplo, en una encuesta en que los sujetos deban ser contactados en la vivienda, resulta conveniente adicionar una pregunta como la siguiente:

[

]

No existe o no pudo localizarse la dirección

[

]

Casa desocupada o no enclavada en edificio residencial

[

]

No había nadie en la casa

[

]

El entrevistado estaba ausente

[

]

Se produjo una negativa parcial a contestar

[

]

Se produjo una negativa total a colaborar

[

]

El entrevistado resultó inaccesible por alguna razón personal o administrativa

[

]

Otra (especifique)

Este tipo de pruebas, sin embargo, no son una panacea. Presser (1989) discute sus posibles limitaciones, tales como la subjetividad del propio encuestador participante, potenciada por el pequeño tamaño muestral, típico de los pilotajes, que puede dar lugar a que una anécdota puntual se erija en calidad de problema general. Precisamente, debido a esas limitaciones es que se ha sugerido emplear recursos alternativos o complementarios como la del «grupo focal», una técnica de vieja data que sigue produciendo interés, como pone de manifiesto la reciente

80

DISEÑO RAZONADO DE MUESTRAS

aparición de libros destinados exclusivamente a ella (véanse Morgan, 1988 o Stewart y Shamdasani, 1990) . Se trata, en esencia, de reunir a un grupo de entre 6 y 10 personas más bien heterogéneas, y conseguir mediante un intercambio centrado en los objetivos del estudio, que se expongan las advertencias pertinentes acerca de las fuentes potenciales de dificultad debidas a aspectos tales como la redacción de las preguntas, el lenguaje empleado y la capacidad o conocimiento de la población encuestada.

Bibliografía Anderson RBW. On the comparability of meaningful stimuli in cross-cultural research. Sociometry 1967; 30: 124-136. Andrews FM. Construct validity and error components of survey measures: A structural modelling approach. Public Opinion Quarterly 1984; 48(2): 409-422. Andrews FM, Withey SB Social indicators of well-being. New York-Plenum, 1976. Aquilino WS, Losciuto LA. Effects of interview on self-reported drug use. Public Opinion Quarterly 1990; 54(3): 362-391. Avila S. Variables psicosociales asociadas al retardo en el desarrollo psíquico en niños de una escuela especial. Trabajo de terminación de Tesis de la especialidad de Higiene y Epidemiología. Ciudad Habana, 1994. Baker RP. New technology in survey research: Computer assisted personal interviewing (CAPÍ). Social Science Computer Review 1992; 10: 145-157. Bishop GF, Oldendick RW, Tuchfarber RJ. Opinions of fíctitious issues: the pressure to answer survey questions. Public Opinion Quarterly 1986; 50: 240-250. Clark HH, Schober MF. Asking questions and infuencing answers. En: Tanur JM (ed.). Questions about questions. New York: Russell Sage, 1992; 15-48 Clarridge BR, Massagli MP. The use of female spouse proxies in common symptom reporting. Medical Care 1989; 27(4): 352-366. Converse JM, Presser S. Survey questions: Handcrafting the standardized questionnaire. Beverly Hills, CA: Sage, 1986. Couper MP, Burt G. Interviewer reactions to alternative hardware for computer assisted personal interviewing. Journal of Official Statistics 1994; 8: 201-210. Deutscher I. Asking questions cross-culturally: Some problems of linguistic comparability. En: Warwick D y Osherson JS (eds.). Comparative research methods. Prentice-Hall, New Jersey: Englewood Cliffs, 1973; 163-186. Eisenhower D, Mathiowetz NA, Morganstein D. Recall error: Sources and bias reduction techniques In Measurement errors in surveys, En: P. Biemer, R. Groves, L. Lyberg, N. Mathio wetz, S. Sudman (eds). Measurements errors in surveys. New York: Wiley. Fonseca L. Estudio de la aplicación del Programa de Atención Estomatológica a la población menor de 15 años en los Municipio Especial Isla de la Juventud. Trabajo de terminación de Tesis de la especialidad de Administración de la Salud, Ciudad Habana, 1987. Fowler F. Improving survey questions: Design and evaluation. USA: Sage Publications, 1995.

LA ENCUESTA Y EL CUESTIONARIO

81

Fowler F. Survey research methods (Second Edition) Newbury Park CA: Sage, 1993. González S. Asociación de la morbilidad respiratoria en grupos de riesgo con la contaminación atmosférica originada por el transporte y otros factores ambientales. Trabajo de terminación de Tesis de la especialidad de Higiene. Ciudad Habana, 1991. Gutiérrez I Estudio de la aplicación del Programa de Atención Estomatológica a la población menor de 15 años en los Municipio Plaza de la Revolución, Marianao y La Lisa. Ciudad Habana. Trabajo de terminación de Tesis de la especialidad de Administración de la Salud, Ciudad Habana, 1987. Huskisson EC. Measurement of pain. Lancet 1974; ii, 1127-1131. Jabine TB. Reporting chronic conditions in the National Health Interview Survey: A review of tendencies from evaluation studies and methodological test. Vital and Health Statistics, 1987. (Series 2, N' 105, DHHS Pub, N' PHS 87-1397). Washington, DC: Government Printing Office. Kiesler S, Sproull LS. Response effects in electronic surveys. Public Opinion Quarterly 1986; 50: 402-413. Kinsey AC, Pomeroy WB, Martin CE. Sexual behaviour in the human female. Philadelphia: Saunders', 1953. Knäuper B. Filter questions and question interpretation: Presuppositions at work. Michigan: Mahau, 1997. Lehnen RG, Skogan WG. Current and historical perspectives. (The National Crime Survey Working Papers, Vol 1), 1981. Washington, DC: Department of Justice, Bureau of Justice Statistics. Likert RA. A technique for the development of attitude scales. Educational and Psychological Measurement 1952; 12: 313-315. Linninger CA, Warwick DP. La encuesta por muestreo. México DF: CECSA, 1978. Mangione TW, Fowler FJ, Louis T A. Question characteristics and interviewer effects. Journal of Official Statistics, 1992. 5(3) : 293-307. Moreira JM. Prevalencia de síntomas depresivos en población de ancianos del área de salud del policlínico «Tomás Romay». Municipio Artemisa. Provincia Habana. Trabajo de terminación de Tesis de la especialidad de Higiene y Epidemiología, Ciudad Habana, 1994. Morgan DC. Focus groups as qualitative research. Newbury Park. CA: Sage, 1988 Navarro E. Impacto de la introducción del Médico de la Familia en la dispensarización del adulto mayor. Policlínico «Diego Tamayo». Trabajo de terminación de Tesis de la especialidad de Administración de la Salud, Ciudad Habana, 1989. Newcomb TM, Koenig KE, Flacks R, Warwick DP. Persistence and Chenge. New York: Gennington College and Its Students after Twenty-five years, Wiley, 1967.

82

DISEÑO RAZONADO DE MUESTRAS

Nicholls WL II, Baker RP, Martin J. The effects of new data collection technologies on survey data quality. En: Lyberg L. et al. (eds.). Survey measurement andprocess quality, New York: Wiley, 1986. O'Reill JM, Hubbard ML, Lessler JT, Biemer PP, Turner CF. Audio and video computer assisted self-interviewing: preliminary tests of new technologies for data collection. Journal of Official Statistics 1994; 2: 197-214. Ortiz T. Proyecto de intervención en salud familiar. Una propuesta metodológica. Trabajo de terminación de curso de la Maestría en Salud Pública, Ciudad Habana, 1996. Osgood CE, Suci GJ, Tannenbaum PH. The measurement of meaning. University of Illinois Press, Urbana, 1957. Payne SL. The art of asking questions. Princeton, New Jersey: Princeton University Press, Princeton, New Jersey, 1951. Presser S. Pretesting: A neglected aspect of survey research. En: FJ. Fowler, Jr. (Ed.), Conference Proceedings of Health Survey Research Methods, 1989. (DHHS Pub. No. PHS 89-3447, pp.35-38). Washington, DC: National Center for Health Services Research. Rebagliato M, Ruiz I, Arranz M. Metodología de investigación en epidemiología. Madrid: Díaz de Santos, 1996. Rodger WL, Erzog AR. The consequences of accepting proxy respondents on total survey error f or elderly populations. En: F. J. Fowler, Jr. (Ed), Conference Pzoceedíngs of Health Survey Research Methods, 1989. (DHHS Pub. No.PHS 89-3447, pp. 139-146). Washington, DC: National Center for Health Services Research. Sabido V. Evaluación del programa de control de la Sífilis. Policlínico Aleyda Fernández Chardiet. Municipio La Lisa. Trabajo de terminación de curso de la Maestría en Salud Pública. Escuela Nacional de Salud Pública, Ciudad Habana, 1998. Saeteros R. Diagnóstico operacional de la promoción y educación para la salud en el ambiente escolar primario del complejo «Ciudad Escolar Libertad». Trabajo de terminación de curso de la Maestría en Atención. Primaria, Facultad de Salud Pública, La Habana, 1998. Saris WE. A technological revolution in data collection. Quality and Quantity 1989; 23: 333-349. Scheaffer R, Mendenhall W, Lyman R. Elementary survey sampling 62-68, USA, Sage, 1996. Schuman HH, Presser S. Questions and answers in attitude surveys. New York: Academíc Press, 1981. Scott PJ, Huskison EC. Accuracy of subjective measurements made with and without previous scores: An important Source of error in serial measurement. Annals of the Rheumatic Diseases 1979; 38: 558-559. Schwarz N, Hippler HJ. Response alternatives: The impact of their choice and ordering. En: Bieme P, Groves R, Mathiowetz N y Sudman S (eds.). Measurement error in surveys. Chichester, Wiley: 1991; 41-56.

LA ENCUESTA Y EL CUESTIONARIO

83

Schwarz N, Knäuper B, Hippler HJ, Noelle-Neumann E, Clark F. Rating scales: numerical values may change the meaning of scale labels. Public Opinion Quarterly 1991; 55: 618-630. Schwarz N. Frecuency reports of physical symtoms and health: How the questionnaire determines the results. New York: Mahaw, 1997. Schwarz N. What respondents learn from questionnaires: the survey interview and the logic of conversation. International Statistical Review 1995; 63: 153-168. Silva LC, Macías M. La redacción de cuestionarios para la investigación socio sanitaria. Un estudio experimental. Revista Cubana de Educación Médica Superior (en prensa), 2000. Silva LC. Cultura estadística e investigación en el campo de la salud: Una mirada crítica. Madrid: Díaz de Santos, 1997. Silva LC. Muestreo para la investigación en salud. Madrid: Díaz de Santos, 1993. Stewart DW, Shamdasani PN. Focus groups. Newbury Park, CA: Sage, 1990. Sudman S, Bradburn N. Asking questions. San Francisco: Jossey-Bass, 1982. Sudman S, Bradburn N, Schwarz N. Thinking about answers: The applications of cognitive science to survey methodology. San Francisco: Jossey-Bass, 1995. Tanur JM. Questions about questions. New York: Russell Sage, 1992. Triana I. Condiciones de vida y salud de los maestros de la enseñanza especial. Marianao. Trabajo de terminación de curso de la Maestría en Salud Pública, Ciudad Habana, 1998. Weeks MF. Computer-Assisted Survey Information Collection: A review of CASIC methods and their implication for survey operations. Journal of Official Statistics 1992; 4: 445-466.

3 Muestreo simple aleatorio

3.1. Introducción En este capítulo se presenta el muestreo simple aleatorio (MSA), el más sencillo y conocido procedimiento probabilístico de selección. Como se verá en su momento, se trata −paradójicamente, tal vez− del método menos utilizado en forma «pura» en la práctica del diseño de muestras. Varias razones justifican, sin embargo, que se haga un estudio detallado de sus rasgos y propiedades. En primer lugar, es un procedimiento básico como componente de casi todos los diseños que se explican más adelante. En segundo lugar, el muestreo simple aleatorio se utiliza ampliamente en el diseño experimental (en particular, en la fase de asignación de casos a los tratamientos en el marco de los ensayos clínicos controlados) y constituye el más importante punto de contacto de la teoría de muestreo en poblaciones finitas con la estadística inferencial clásica (Fienberg y Tanur, 1996). Finalmente, una prominente función adicional del MSA en este libro es la de viabilizar la introducción formal de un amplio espectro de conceptos, ideas y notaciones que, si bien tienen valor general para cualquier tipo de diseño muestral, se comprenden más fácilmente en el contexto de un diseño sencillo como éste.

3.2. Definición y métodos de selección Supongamos que se quiere seleccionar una muestra de tamaño de una población que consta de N unidades (donde, naturalmente, n ≤ N). Se dice que el procedimiento de selección es un muestreo simple aleatorio si el proceso aplicado otorga a todo subconjunto de tamaño n de la población la misma probabilidad de selección.

86

DISEÑO RAZONADO DE MUESTRAS

Más abajo se demuestra que el MSA otorga a los N sujetos de la población la misma probabilidad de quedar incluidos en la muestra, y que dicha probabin lidad común es igual a f = . El MSA es, por tanto, un procedimiento equiN

probabilístico; cabe subrayar, sin embargo, que no todo método muestral que produzca equiprobabilidad coincide con el MSA, como ocasionalmente se tiende a pensar y como se ha dicho incluso en algunos buenos libros aunque no especializados en muestreo. Para fijar la definición, supongamos que se tiene un listado de 12 niños ordenados alfabéticamente y que, de ellos, se quieren seleccionar n = 6. Consideremos las siguientes tres alternativas para la selección: a) Tomar los 6 primeros elementos del listado. b) Dividir el listado en dos grupos: uno formado por los 6 primeros elementos y el otro por los restantes 6; lanzar una moneda al aire y tomar en calidad de muestra a los elementos del primer grupo en caso de obtener cara, y a los del segundo si se obtiene escudo. c) Asignar números del 1 al 12 a los elementos de la lista. Colocar en una urna 12 bolas numeradas sucesivamente, mezclar totalmente las bolas y seleccionar «a ciegas» 6 de ellas; finalmente, admitir en la muestra a los elementos cuyos números aparezcan señalados en las bolas elegidas. El método a no es probabilístico: los últimos 6 elementos del listado no podrán integrar la muestra. El método b, en cambio, es probabilístico, ya que toda unidad tiene una probabilidad no nula y conocida de quedar incluida en la muestra. En efecto, la probabilidad de inclusión de cada niño es la misma que tiene el grupo al que pertenece. Ésta es, obviamente, igual a 0,5; de modo que la probabilidad es igual para todos ellos, con lo cual el procedimiento es, además, equiprobabilístico. Sin embargo, el método no equivale al MSA, ya que existen subconjuntos de 6 elementos que no pueden resultar seleccionados al aplicarlo (por ejemplo, el de los que ocupan los lugares impares en el listado). El método c, por último, es MSA, ya que cualquiera de los subconjuntos diferentes que pueden formarse con 6 niños puede ser elegido y, dado el modo de selección, es claro que ninguno de dichos conjuntos tiene más probabilidad que otro de ser el que a la postre resulte seleccionado. Detengámonos en este punto. De la teoría combinatoria sabemos que el número total de subconjuntos posibles es:

⎛N⎞ N! 12! = = 924 ⎟= n ⎝ ⎠ ( N − n)! n ! 6!6!

K =⎜

Por tanto, ése es también el número K de muestras posibles en este caso.

MUESTREO SIMPLE ALEATORIO

87

Puesto que todas ellas tienen igual probabilidad de ser la que finalmente quede conformada, dicha probabilidad es igual a 1 . K

Dado un elemento ei de la población, ¿cuántas de las posibles muestras lo contienen?: tantas como subconjuntos de tamaño n −1 pueden conformarse a partir del conjunto de los N − 1 individuos que quedan en la población cuando se suprime aquel cuya probabilidad de selección estamos considerando. Unos segundos de reflexión permiten apreciar que dicho número es:

⎛ N −1 ⎞ ( N − 1)! 11! = = = 462 ⎟ ⎝ n−1 ⎠ ( N − n)!(n − 1)! 6!5!

K* = ⎜

de modo que la probabilidad de inclusión, igual a π i =

∑ P( M

) como vimos en 1 la Sección 1.6, equivale en este caso a sumar K* veces el valor ; es decir, K K* n para todo elemento de la población. En nuestro ejemplo: πi = = K N

πi =

462 924

=

6 12

ei ∋ M j

j

= 0, 5

3.2.1. Números aleatorios Para determinar cuál de las posibles muestras será la elegida pueden adoptarse diversos métodos concretos. El que se sugirió en tercer lugar para seleccionar 6 de 12 niños, es evidentemente generalizable; se trata de numerar los individuos secuencialmente desde 1 hasta N, escribir dichos números en otras tantas bolas o tarjetas, luego mezclar adecuadamente estas últimas, y finalmente seleccionar n de ellas para identificar a los individuos de la muestra. Sin embargo, este recurso adolece de algunos defectos. Por ejemplo, exige la posesión o creación de un dispositivo físico en cuya «imparcialidad» haya razones para creer; además, cuando N y n son números bastante grandes, que es lo común en la práctica, su aplicación resultaría extraordinariamente engorrosa. Con el fin de facilitar el proceso de selección simple aleatoria florecieron en la década de los cincuenta las llamadas tablas de números aleatorios. Para su construcción se simuló un mecanismo análogo al de la urna en cuanto al principio, aunque mucho más preciso en el sentido de eliminar posibles tendencias que favorecieran la aparición de un dígito más que la de otro y, más generalmente, para evitar que alguna secuencia de dígitos tuviera mayor frecuencia de aparición que otra secuencia cualquiera con el mismo número de cifras. La Tabla 3.1 reproduce 150 dígitos que integran uno de los bloques de números aleatorios contenidos en la tabla de Fisher y Yates (1963).

88

DISEÑO RAZONADO DE MUESTRAS

Tabla 3.1. Números casuales o aleatorios

Hasta la aparición y difusión de los microprocesadores, aún tenía sentido explicar cómo se utiliza una tabla como la que parcialmente hemos reproducido (así se hacía, por ejemplo, en Silva, 1982). Desde mediados de la década de los ochenta, ya no lo tiene. En efecto, las PC1 nos relevan de aplicar tediosas manipulaciones, pues cualquier lenguaje de programación contiene eficientes generadores de números aleatorios. Los números aleatorios se emplean en varios dominios; además de su importantísimo papel en el marco del muestreo, constituyen un ingrediente clave en el campo de la simulación, en algunas áreas del análisis numérico, como recurso en la programación y en la experimentación en física. Pero lo que ahora puntualmente interesa es que gracias a dichos generadores, hoy contamos con programas muy rápidos y precisos para la selección de una muestra simple aleatoria (véase Capítulo 11). Algunas aclaraciones y notas técnicas sobre el tema de la generación de números aleatorios pueden hallarse en el apéndice del presente capítulo.

3.3. Media y varianza de los estimadores 3.3.1. Estimación de la media poblacional Como se ha dicho, los objetivos que llevan a seleccionar una muestra suelen exigir la estimación de parámetros poblacionales. Consideremos este problema en el contexto del MSA. Supongamos que se quiere conocer el promedio de cierta variable X en una población finita de N elementos. Si la medición de X se practicase sobre todos 1

Usaremos la expresión PC (iniciales de Personal Computer) para designar a los modernos microprocesadores, también denominados «ordenadores personales» en algunas latitudes.

MUESTREO SIMPLE ALEATORIO

89

los elementos, se obtendrían los N números correspondientes a las respectivas observaciones. Denotémoslos mediante X1, X2, ..., Xn. Supongamos que se quiere conocer el promedio X de esos N números: X=

1 N

N

∑X i =1

i

Admitamos que se selecciona una muestra de n elementos mediante MSA y que los numeramos desde 1 hasta n, según el orden en que van siendo seleccionados. La Figura 3.1 representa una muestra simple aleatoria como la que nos ocupa. Usaremos minúsculas para designar los valores de X correspondientes a la muestra; o sea, designaremos como x1, x2,..., xn a los valores de la muestra, donde x¡ representa el valor de X para el i-ésimo elemento seleccionado, el cual puede ser cualquier elemento del conjunto de datos poblacionales. Llamaremos x a la media muestral que, en el caso del MSA, usaremos en calidad de estimador de X . Es decir:

x=

1 n ∑ xi n i =1

Y llamaremos fracción de maestreo al valor f =

n N

. Además de coincidir con

la probabilidad de selección común a todos los elementos de la población, f expresa la fracción que representa el tamaño muestral respecto del tamaño poblacional. El valor que asume x queda determinado una vez seleccionada la muestra; pero antes de contar con una la muestra concreta, puede considerarse que x es una variable, puesto que a cada muestra posible corresponde su propia media muestral específica. Además, dado que la selección de la muestra depende del azar, se trata de una variable aleatoria, que puede asumir hasta K valores diferentes (tantos como muestras posibles hay), donde −como vimos en la Sección 3.2− K =

N! ( N − n)! n !

Figura 3.1. Representación de una muestra simple aleatoria.

90

DISEÑO RAZONADO DE MUESTRAS

La pregunta natural en este punto es la siguiente: ¿por qué aceptar x como estimador de X ?, ¿por qué no tomar, por ejemplo, la mediana del conjunto x1,...,xn en calidad de estimador?; e incluso ¿por qué no admitir alguna otra función de los datos muéstrales como pudiera ser el estadígrafo G =

n

3

∑x i =1

2 i

+5 ?

Es fácil corroborar que el promedio de todas las medias muestrales coincide exactamente con la media poblacional. Es decir, si llamamos xh a la h-ésima de esas posibles medias, en términos formales se tendría:

1 K

K

∑x h =1

h

=X

[3.1]

Este hecho se sintetiza diciendo que x es un estimador insesgado del parámetro X . La conveniencia de trabajar con estimadores insesgados es clara desde el punto de vista intuitivo: ello significa que las estimaciones posibles se reparten «equilibradamente» alrededor del parámetro desconocido. Ésa es una condición, por ejemplo, que no cumplen ni la mediana de los datos muéstrales ni el estrafalario estadígrafo G, como puede comprobar fácilmente el lector construyendo una pequeña población. Por ejemplo, consideremos el conjunto poblacional de tamaño N = 4 siguiente: {3, 9, 18, 30}, cuya media es X = 15,0, con una muestra de tamaño n = 3. El número K de posibles muestras es igual a 4. La Tabla 3.2 recoge dichas muestras, así como los estadígrafos considerados y sus promedios para las muestras posibles. Tabla 3.2. Muestras posibles de tamaño 3 en la población y estadígrafos correspondientes

Obsérvese que el promedio de las cuatro medias muéstrales coincide con la 1 4 ⎛ ⎞ media poblacional ⎜ x = ∑ xi =15, 0 ⎟ , pero que no ocurre lo mismo con la me4 i =1 ⎝ ⎠ diana ni, mucho menos, con el estadígrafo G. El ejemplo demuestra que ni la mediana ni G son estimadores insesgados, pero no demuestra (sólo corrobora) que la media muestral x lo sea. Procede mencionar en este punto una propiedad general:

MUESTREO SIMPLE ALEATORIO

91

Si la muestra es equiprobabilística y su tamaño no depende del azar (tamaño fijo), entonces la media muestral siempre es un estimador insesgado de la media poblacional. Siendo el muestreo simple aleatorio un método de selección equiprobabilístico que produce muestras de tamaño fijo, se deduce que en este caso, la media muestral estima sin sesgo a la poblacional. El mensaje central de este resultado (cuya demostración puede hallarse en Kish, 1965), puede traducirse del modo siguiente: los procedimientos equiprobabilísticos son tales que, para estimar una media poblacional (o un porcentaje) simplemente se utiliza la media muestral (o el porcentaje muestral). Usar el promedio muestral, que parece lo natural, no siempre es adecuado, como se ilustra en próximos capítulos.

3.3.2. Varianza de la estimación de la media Sin embargo, no se gana mucho con que el estimador sea insesgado si tales estimaciones (o muchas de ellas) están alejadas del parámetro ( X , en este caso). Lo que resulta verdaderamente conveniente es que todas las estimaciones posibles (o, al menos, la inmensa mayoría de ellas) se hallen en una pequeña vecindad del parámetro; sólo de ese modo se podrá estar razonablemente confiado de que la única estimación que a la postre va a hacerse habrá de estar próxima al parámetro que se quiere conocer. Recuérdese una vez más que la utilidad de un procedimiento cualquiera depende de la frecuencia con que éste produce buenos resultados. Una manera en principio lógica de medir globalmente el grado en que las distintas estimaciones posibles se dispersan en torno a X consiste en promediar las K distancias entre las estimaciones y X . En el caso de usar la media muestral como estimador, tendríamos:

D=

1 K

K

∑ (x

h

h =1

− X)

Sin embargo, el valor de D será nulo, debido a que se están sumando números negativos y positivos equidistantes de cero en promedio. Para eludir ese problema, una solución consiste en promediar los cuadrados de las diferencias. Tal promedio es lo que se denomina error cuadrático medio de x :

ECM ( x ) =

1 K

K

∑ (x h =1

h

− X )2

[3.2]

El ECM de un estimador es una medida resumen de cuan eficiente es usarlo como vía para estimar el parámetro de interés. En el ejemplo que se resumió en

92

DISEÑO RAZONADO DE MUESTRAS

la Tabla 3.2 es fácil calcular los valores del ECM para los tres estadígrafos: ECM (x) = 11,5

ECM = (Mediana) = 22,5

ECM (G) = 29,1

En este ejemplo, por tanto x sería el mejor estimador, le seguiría la mediana y el esotérico G sería el menos eficiente. Cuando, como ocurre con la media muestral, el estimador es insesgado, entonces el ECM coincide con la varianza del estimador. O sea, en este caso, la expresión según la cual se mide la calidad del estimador no es otra cosa que la varianza del conjunto de posibles estimaciones puntuales de la media poblacional. Es importante comprender que, con acuerdo a la consideración arriba desarrollada, lo ideal sería que VAR (x) fuese lo más pequeña posible. Para elegir x como estimador, además de las razones mencionadas y de otras que veremos más adelante, se tiene en cuenta que VAR(x), definida por [3.2], puede expresarse en función de una medida de la variabilidad poblacional. En efecto, puede demostrarse que:

S2 VAR( x ) = (1 − f ) n donde S 2 =

1 N ∑ ( X i − X )2 es un número que cuantifica cuan dispersos entre N − 1 i =1

sí están de los N valores poblacionales2. Cabe advertir que la varianza poblacional podría definirse del mismo modo que S2 pero dividiendo la suma

n

∑(X i =1

i

− X ) 2 por N en lugar de por N − 1; de hecho,

aunque no hay dudas acerca de que S2 mide la variabilidad de los datos (ya que en el fondo, a esos efectos, da igual si la suma de las distancias cuadráticas se divide por un número o por el otro), la definición de S2 parece algo antinatural. La fórmula [3.3] permite ver que la varianza del estimador es mayor cuanto mayor sea la variabilidad de los datos poblacionales. Dicho de otro modo: cuanto más variable sea la realidad que se estudia, mayor será la dispersión de las posibles estimaciones de X (suponiendo, desde luego, que n no se modifica) y, por ende, menor la eficiencia de la media muestral como estimador de la media poblacional. Se trata de un resultado sumamente intuitivo; símiles de la vida cotidiana vienen a la mente: por ejemplo, es más fácil «acertar» cuando se vaticina la reacción de un sujeto estable y ordenado ante cierto estímulo que ante la de alguien impulsivo y de carácter variable ante este mismo estímulo. Por otra parte, puede observarse que VAR( x ) disminuye en la medida que aumenta el tamaño muestral n (una característica del proceso, por cierto, que, al 2 Las demostraciones de las fórmulas [3.1] y [3.3] pueden verse −desarrolladas con recursos elementales− en Yamane (1970).

93

MUESTREO SIMPLE ALEATORIO

menos teóricamente, sí está en manos del investigador modificar). Este rasgo de la fórmula [3.3] refleja otro hecho intuitivo: con el incremento del tamaño de la muestra, aumenta la calidad del proceso inferencial. Una consecuencia más se saca de la fórmula [3.3] (en este caso, bastante sorprendente): a partir de cierta magnitud, el tamaño de la población tiene una influencia virtualmente nula en la eficiencia de la estimación. Si se tuvieran n y S2 constantes, Var( X ) crece en la medida que aumenta N, pero de modo imperceptible a partir de cierto tamaño poblacional, tal y como refleja la Figura 3.2. En términos prácticos, esta afirmación tiene expresiones como las que ilustra el ejemplo siguiente: El salario medio de las mujeres en edad fértil se puede estimar tan aceptablemente con una muestra de −digamos− 500 mujeres en una gran ciudad (por ejemplo, de 1 millón de habitantes) como en un pueblo 10 veces menor3. En ambos casos el valor de f (magnitud relativa de la muestra) será tan cercano a cero (0,0005 y 0,005 respectivamente) que el factor 1 −f puede suplirse por 1 en ambos casos; o, lo que es equivalente, puede suprimirse.

0

1

2

3

4

5

Tamaño poblacional (miles) Nota: Para el cómputo se consideró que la varianza y el tamaño muestral fueron respectivamente 400 y 100.

Figura 3.2. Variación del error muestral en MSA en función del tamaño muestral.

En cambio, si se fijan N y S2, la disminución de Var( X ) cuando aumenta n es sostenida y pronunciada (véase Figura 3.3) hasta anularse en el caso extremo en que n = N(l − f= 0), algo natural, puesto que en tal caso extremo no estaríamos ante una muestra sino ante un censo, de modo que tampoco puede haber variabilidad. 3

Naturalmente, se está asumiendo que la variable «salario» tiene análogo grado de heterogeneidad en ambas poblaciones.

94

DISEÑO RAZONADO DE MUESTRAS

Figura 3.3. Variación del error muestral en MSA en función del tamaño muestral.

Estas relaciones entre la eficiencia del estimador con cada uno de los tres parámetros considerados (tamaño muestral, heterogeneidad poblacional y tamaño del universo) son esencialmente válidas en toda situación de muestreo, cualquiera sea el diseño, incluidos aquellos más complejos y realistas que el MSA, aunque allí no se deriven tan claramente de la formulación correspondiente.

3.4. Un ejemplo ilustrativo En esta sección se analizará detenidamente un ejemplo artificial por conducto del cual se procura ilustrar el comportamiento de un estimador en el contexto del MSA y, simultáneamente, sedimentar los principios conceptuales introducidos en la sección precedente. Supongamos que en una ciudad hay N = 15 hospitales y que la variable X en estudio es el número de médicos que laboran en cada cual. Los valores de X en estas 15 unidades de análisis aparecen en la Tabla 3.3. Al realizar una selección aleatoria4 de tamaño n = 2 sobre esta población, se ob⎛ 15 ⎞ 15! tiene alguna de las 105 muestras posibles. [Nótese que k = ⎜ ⎟ = = 105 ]. ⎝ 2 ⎠ 13!2!

4

MSA.

En lo sucesivo, cuando se diga que la selección es aleatoria o al azar, se entenderá que nos referimos a un

MUESTREO SIMPLE ALEATORIO

95

Tabla 3.3. Número de médicos en una población artificial de 15 hospitales

En la práctica, dicha muestra nos proveería de una estimación del parámetro 3.000 X . En este ejemplo, de finalidad didáctica, sabemos que X = = 200 y po15 demos conocer los 105 posibles valores de x . La Tabla 3.4 refleja las 105 muestras posibles de tamaño 2 y las respectivas estimaciones de X . Si se suman los números correspondiente a las 105 celdas ocupadas de la Tabla 3.4, el resultado es igual a 21.000; al dividirlo por 105, se obtiene el número 200, que no es otra cosa que la media poblacional, tal y como anunciaba la fórmula [3.1]. En la Tabla 3.4 se observa que las 105 estimaciones posibles se encuentran entre 50 y 415; quiere esto decir que, si bien se hallan «alrededor» del valor X = 200, algunas están muy distantes del número que se pretende estimar. En efecto, si el azar determinara que los hospitales de la muestra fueran el 13 y el 14, tendríamos x = 50, una acusada subestimación del parámetro. Análogamente, si los elegidos fueran el 5 y el 11, estaríamos en el otro caso extremo, pues x = 415 arroja una marcada sobrestimación de X .

96

DISEÑO RAZONADO DE MUESTRAS

Tabla 3.4. Estimaciones de X para cada una de las muestras de tamaño 2 que pueden obtenerse por MSA de la población descrita en la Tabla 3.3

Se recordará que la expresión [3.2] da una medida promedio de la distancia a que se hallan las distintas estimaciones del valor central:

VAR ( x ) = 6.017,1 Puede corroborarse ahora la validez de la expresión [3.3]: al calcular S2 se obtiene, en efecto, que: 1 15 S2 = ( X i − 200) 2 = 13.885, 7 ∑ 14 i =1 y puede comprobarse que: S2

n

(1 − f ) =

13.885, 7 2 (1 − ) = 6.017,1 2 15

Se había afirmado que la magnitud de VAR( x ) disminuía con el aumento de n. Esto se puede comprobar de inmediato; por ejemplo, para n = 3 podríamos calcular los 455 valores de x a que darían lugar las respectivas muestras de tamaño 3 y computar la varianza de ese conjunto; pero no necesitamos hacer tal esfuer-

MUESTREO SIMPLE ALEATORIO

97

zo: la relación [3.3] nos habilita para hacerlo rápidamente en este caso en que, por excepción, conocemos S2. Aplicándola entonces para n = 3, se tiene: VAR ( x ) =

13.885, 7 ⎛ 3⎞ ⎜1 − ⎟ = 3.702,9 3 15 ⎝ ⎠

Como se ve, la disminución en la variabilidad del conjunto de medias es notable. Otro modo de apreciarlo sería a través del examen del recorrido del conjunto de medias muéstrales. ¿Cuáles serían las muestras más «desfavorables» que pudieran producirse? Por una parte, la formada por los hospitales 10, 13 y 14 (que produciría la estimación x = 60,3) y, por otra, la formada por los elementos 3,5 y 11 ( x = 380,0). Tabla 3.5. Valores aproximados de VAR ( x ) y recorrido de las medias posibles para MSA de la población de la Tabla 3.2 con distintos tamaños de muestra

La Tabla 3.5 resume los valores de VAR( x ) y el recorrido (menor y mayor valor de x ) para todos los posibles tamaños de muestra (desde 1 hasta 15). Como ya sabíamos, VAR( x ) va disminuyendo en la medida que aumenta el tamaño de la muestra. El recorrido, por su parte, también va estrechándose hasta llegar a la situación extrema en que ambos puntos coinciden con la media poblacional. Este caso refleja la situación en que −de hecho− no se ha tomado una muestra como tal, sino que se trabaja con toda la población.

98

DISEÑO RAZONADO DE MUESTRAS

3.5. Distribución de la media muestral En la Sección 3.3 se discutieron el valor esperado y la varianza de la media muestral, pero no se analizó la distribución que sigue esta variable aleatoria. En un sentido totalmente informal, lo que debe entenderse por distribución de una variable aleatoria es la forma del histograma que puede formarse con un conjunto numeroso de observaciones de dicha variable. Si consideramos el ejemplo de la Sección 3.4 y el contenido de la Tabla 3.4, es posible formar una tabla de clases y frecuencias que refleje cómo se distribuyen los 105 valores de x entre los valores extremos: 50 y 415. No es difícil constatar que, si se toman, por ejemplo, intervalos de longitud igual a 40, la distribución porcentual de x es la siguiente:

Un examen similar puede repetirse para otros tamaños de muestra (n =3, n = 4, etc.) teniendo en cuenta, para cada caso, todas las posibles muestras y sus correspondientes medias. La Tabla 3.5 resume el resultado de esa operación para valores de n desde 2 hasta 14, en intervalos de amplitud 40. Varias apreciaciones pueden realizarse a partir de dicha tabla. En primer lugar, es notable que, para todos los tamaños muestrales, un alto porcentaje de las estimaciones se ubique en los intervalos 160-199 o 200-239. Por otra parte, se advierte que tal porcentaje crece rápidamente en la medida que aumenta n : el 34% de las medias caen en esos intervalos para n = 2 (o sea, 35 de los 105 valores de x ), mientras que, por ejemplo, para n = 5 ya se tiene que el 62% de las estimaciones (1.866 de las 3.003 posibles) se ubican allí, y para n = 8 ocurre con el 83% de las 6.435 posibles muestras de ese tamaño. Por otra parte, puede observarse que la forma de los histogramas que resultan de dichas tablas va aproximándose, en la medida que aumenta el tamaño muestral, a la de la famosa campana de Gauss (es decir, a la de una distribución normal). Esto es una expresión empírica del archifamoso teorema central del límite. Las Figuras 3.4, 3.5 y 3.6, que reflejan las distribuciones porcentuales construidas con las 10 clases (de longitud 40 cada una) de la Tabla 3.6, para los casos correspondientes a n = 2, n = 4 y n = 6, respectivamente, permiten apreciarlo de manera más palpable. Es importante enfatizar que estas propiedades de la distribución de x son válidas de manera general; o sea, no dependen ni de la naturaleza de los datos ni

MUESTREO SIMPLE ALEATORIO

99

Tabla 3.6. Distribución porcentual según intervalos de todas las posibles medias correspondientes al MSA de tamaños n de 2 a 14 para la población descrita en la Tabla 3.2

tampoco de la magnitud relativa del tamaño muestral. Con esto último queda subrayado que para considerar que x sigue aproximadamente una distribución normal no es necesario que el tamaño muestral constituya una fracción importante del tamaño poblacional sino que basta que sea grande en términos absolutos (es decir: en la medida que aumenta n, los histogramas tienden a asumir la forma de la campana de Gauss). Concretamente, cuando n supera a 50 (como ocurre prácticamente en toda muestra real), la distribución de los valores de x será siempre muy aproximadamente igual a la mencionada distribución teórica, cualquiera sea el valor de N y cualquiera sea la distribución de la variable X. Como se recordará, esta distribución tiene la propiedad, por ejemplo, de que aproximadamente el 95% de las observaciones distan de la media menos que dos veces5 su desviación estándar (independientemente de los valores que tengan estos dos parámetros). Por ejemplo, si se recuerda que en nuestro ejemplo VAR ( x ) = 77, 6 para n = 2, y se calcula | x - 200| para los 105 valores de la Tabla 3.4, se puede corroborar que 101 de ellos (el 88 %, no muy lejano del porcentaje 95 % esperado) 5

El valor exacto es 1,96, percentil 97,5 de la distribución normal estándar.

100

DISEÑO RAZONADO DE MUESTRAS

Figura 3.4. Distribución porcentual según intervalos de todas las muestras posibles medias para muestras de tamaño 2.

Figura 3.5. Distribución porcentual según intervalos de todas las posibles medias para muestras de tamaño 4.

Figura 3.6. Distribución porcentual según intervalos de todas las posibles medias para muestras de tamaño 6.

MUESTREO SIMPLE ALEATORIO

101

son menores que el producto (1,96) (77,6) = 152,0. Algo similar (aunque mucho más ajustado a lo esperado) ocurre para valores mayores de n. Por ejemplo, de las 6.435 medias muéstrales calculables para n = 8, 6.157 (esto es, el 95,7%) distan de X menos que (1,96)( 810 ) = 55,8. La utilidad fundamental que tiene esta característica de la distribución de x estriba en que nos habilita para la construcción de intervalos de confianza. Luego de sacar una muestra concreta −y suponiendo que se conociera S2− se podría calcular lo que llamaremos error de muestreo: E = (1, 96) VAR ( x)

[3.4]

Sumando E a la estimación x obtenida, se tiene el extremo superior del intervalo y restando E de x , el extremo inferior6.

3.6. Cálculo de los intervalos de confianza Al observar la fórmula [3.4], se advierte de inmediato que en la práctica sería imposible calcular este intervalo de confianza, ya que en un problema real, S2 es desconocido; su cómputo exige conocer los valores de X para todos los miembros de la población, y eso es precisamente lo que se quiere suplir mediante el recurso del muestreo. Sin embargo, este número puede ser estimado a través de la propia muestra mediante la llamada varianza maestral:

s2 =

1

n

2 ∑ ( xi − x )

n − 1 i =1

[3.5]

Puede demostrarse que en el caso que nos ocupa (MSA), s2 es un estimador insesgado de S2; o sea, que el promedio de todos los valores de s2, calculados para N las ⎛⎜ ⎞⎟ muestras posibles, coincide con S2. ⎝n⎠ En este punto ya se puede construir un intervalo de confianza que depende sólo de elementos conocidos. Sustituyendo s2 en lugar de S2 en [3.3], se puede estimar VAR( x ) mediante la fórmula siguiente:

6 En rigor, habría que considerar la llamada «confiabilidad». Aquí se ha partido de que se trabajó con una confiabilidad del 95% y se ha puesto sistemáticamente el número 1,96, correspondiente al percentil 97,5 de la distribución normal estándar. Tal simplificación resulta acorde con el espíritu del libro y con la práctica más extendida. El caso general, sin embargo, resulta muy fácil de construir para cualquier lector entrenado en teoría elemental de probabilidades.

102

DISEÑO RAZONADO DE MUESTRAS

Se estima entonces el error de muestreo:

y, finalmente, se construye el intervalo en sí:

Debe notarse que e es la mitad de la longitud del intervalo de confianza; por tanto, si efectivamente ocurriese que X está dentro del intervalo, entonces la distancia entre la estimación x y el parámetro X es, a lo sumo, igual a e; de ahí que se considere ese número como el error asociado a la estimación.

3.7. Tamaño de la muestra De las secciones precedentes se deriva una primera conclusión, tan importante como intuitiva: el tamaño de muestra tiene un papel determinante sobre la magnitud del error muestral de las estimaciones; consecuentemente, el tamaño mínimo necesario dependerá del error máximo que se considere admisible. Desde luego, en la práctica hay una limitación adicional evidente: los recursos. Los requerimientos de precisión se supeditan, en última instancia, a las posibilidades materiales con que se cuente. Si obviamos por el momento este aspecto del problema7, el asunto puede plantearse en los términos siguientes: ¿cuál es el tamaño de muestra mínimo con que puede estimarse X de manera que | x − X | sea menor que cierta magnitud preestablecida? Ya sabemos que tomando n suficientemente grande se podrá estar virtualmente seguro de que se cumpla que | x − X | ≤ E, por pequeño que sea el valor de E. Por consiguiente, la solución exige que se comience por establecer el valor máximo que puede admitirse para E. Supongamos que, luego dejan análisis con el especialista, se arriba a la convicción de que basta conocer X con error no superior a E0. Por ejemplo, si lo que se quiere es conocer el salario medio en cierta población, y se declara que se admite un error máximo de hasta E0 = 7 pesos, entonces es que se está pensado en términos como los siguientes: «Si el verdadero promedio fuera $320, pero lo que se me informa es que asciende a $327, entonces 7

En la Sección 12.3 se discuten detalladamente diversos aspectos relacionados con el tamaño muestral.

MUESTREO SIMPLE ALEATORIO

103

considero que conozco adecuadamente el dato; sin embargo, si se me dijera que ese número es, por ejemplo, $312, y luego me entero de la cifra verdadera, entonces considero que estaba trabajando con un dato demasiado alejado de la verdad». Tal valor de E0 determina el tamaño mínimo necesario. Puesto que la relación entre el error y el tamaño muestral viene dada por la fórmula [3.4], para conocer n, todo lo que hay que hacer es despejarla de la expresión S2 ⎛ n⎞ E0 = (1, 96) ⎜1 − ⎟ . n ⎝ N⎠ Al hacer tal despeje (maniobra algebraica que, por cierto, no es inmediata), se obtiene: n0 n= n 1+ 0 N donde

n0 =

(1,96) 2 S 2 E02

[3.9]

Como se aprecia en esta fórmula, el tamaño muestral depende de tres elementos: del tamaño poblacional N, de la varianza poblacional S2 y del máximo error admisible E0, elementos que, por tanto, deben ser conocidos de antemano para aplicar la fórmula. Para cada uno de ellos cabe hacer algunas consideraciones8. i) Tamaño poblacional

El MSA exige la posesión de un listado de elementos; por tanto, con más razón, el tamaño de ese listado también tiene que conocerse. Sin embargo, en la práctica suele ocurrir que el verdadero tamaño de la población se ignora; ésa es una de las razones por las que raramente se utiliza el MSA «puro». Es fácil comprender que, por ejemplo, el número exacto de mujeres en edad fértil en una provincia o la cantidad de niños del país que tienen entre 3 y 5 años son, en condiciones normales, números desconocidos, aunque, naturalmente, casi siempre se puedan tener valores aproximados (sobre todo poco después de un Censo Nacional). En otro tipo de poblaciones, tales como el conjunto de sujetos de una ciudad cuyo padre haya muerto de un infarto de miocardio, conocer exactamente ese número es simplemente quimérico. Prescindiendo por el momento de es-

8

En rigor, dependen de un cuarto componente, la confiabilidad; pero ya se aclaró que se asumiría la más convencional (95%).

104

DISEÑO RAZONADO DE MUESTRAS

ta limitación, consideremos brevemente la influencia de la magnitud de N sobre el tamaño de muestra necesario. Aquí se presenta un hecho muy poco intuitivo: la influencia de N es −en la mayor parte de las situaciones prácticas− despreciable. En efecto, si se tienen dos poblaciones con aproximadamente el mismo valor de S2 y los requerimientos de precisión no varían, el tamaño de muestra necesario será aproximadamente el mismo aunque las poblaciones sean de tamaños muy diferentes. Dicho de otro modo: lo que influye de manera sustancial en la precisión de las estimaciones no es la magnitud relativa de la muestra con respecto a la que tenga la población (expresada formalmente a través de la fracción de muestreo f), sino el tamaño absoluto de la muestra. Esto es válido cuando, como ocurre casi siempre, se trate de poblaciones muy grandes respecto de los posibles tamaños muéstrales, pero no rige cuando el valor de f sea apreciable (por ejemplo, no cuando sea mayor que 0,1). Para ilustrar estas ideas, supongamos que se planifican dos estudios de fecundidad: uno en una gran ciudad donde hay alrededor de medio millón de mujeres en edad fértil, y otro en uno de sus municipios que tiene unas 55.000 mujeres en esa franja de edad. Supongamos que en ambos casos se quiere conocer mediante MSA el salario medio de dichas mujeres con error no mayor de $7 y que −de estudios anteriores− se conoce que 5 es aproximadamente igual a $75 para ambos grupos9. ¿Cuál sería el tamaño de muestra necesario en cada estudio? Hay que aplicar la fórmula [3.9] para cada situación: n0 =

(1, 96) 2 (72) 2 72

≈ 441 es el mismo en los dos casos (no depende de N); el

efecto del tamaño poblacional puede evaluarse calculando

la ciudad se tiene n = 1+

441 441 500.000

≈ 441,

y

n= 1+

n0 . Para toda n0 1+ N

441 ≈ 437 para 441 55.000

el municipio. O sea, el tamaño de muestra para ambas poblaciones sería básicamente el mismo. Sin embargo, si el estudio se fuese a verificar en un área de salud que tu-

9 Cabe intercalar que, desde luego, en la práctica casi nunca se abordarían poblaciones de varios miles de unidades mediante MSA, como veremos más adelante. Pero esta relación que rige entre el tamaño poblacional y el que debe alcanzar la muestra es típica, cualquiera sea el método de muestreo utilizado; de ahí el interés de este análisis.

MUESTREO SIMPLE ALEATORIO

105

viese sólo 1.000 mujeres en las edades de interés, la reducción del tamaño de 441 muestra sería apreciable: n = ≈ 306. 441 1+ 1.000 ii) Máximo error admisible El máximo error admisible E0 refleja el grado de precisión que se desea como mínimo. Puesto que E0 figura en el denominador de la fórmula de n0, y como a su vez n crece cuando lo hace n0, la fórmula [3.9] conduce a que el aumento en la precisión exigida incrementa el tamaño muestral necesario, hecho compatible con nuestro sentido común. En su determinación interviene vitalmente el usuario del muestreo, ya que es él quien mejor puede identificar las consecuencias prácticas que se podrían producir en caso de superar un error dado. Cabe aquí hacer una observación en consonancia con las consideraciones preliminares contenidas en la Sección 1.10.4. Puesto que la fórmula [3.9] exige que anticipemos un error máximo admisible, es evidente que este habrá de nacer de una reflexión racional (si tuviera sentido fijar E0 libremente, entonces sería mejor decidir el tamaño muestral directamente sin más trámite). Las claves de esa racionalidad son dos: a) La situación práctica, que conduce a que nos preguntemos ¿cuál sería un nivel de precisión mínimo aceptable teniendo en cuenta lo que ya se sabe sobre este parámetro? En efecto, no tendrá sentido plantearse estimar, por ejemplo, la tasa de ciegos en una ciudad con un error absoluto máximo de 2%, ya que cual quiera que sea el intervalo que obtengamos, éste será «no informativo» (veáse 12.8.2). b) La magnitud que a grandes rasgos tiene el parámetro. Por poner un ejemplo elocuente, es fácil advertir que no se puede valorar si una precisión de un kilogramo, al estimar un peso promedio, es o no aceptable mientras se ignore qué es lo que estamos pensando (probablemente sería exageradamente exigente si se trata de camiones, adecuada si fueran personas adultas, y totalmente insuficiente si fueran lombrices). Se trata del mismo callejón sin salida en que se estaría si, para medir la longitud de un objeto, hubiera que decidir si ha de emplearse una cinta métrica, una regla escolar, un pie de rey o un micrómetro sin conocer cuál es el objeto en cuestión. Ambos asuntos, emparentados entre sí, conducen a pensar en términos relativos a la hora de fijar E0. Típicamente, E0 suele tomarse entre el 5% y el 10% de la magnitud que presumiblemente podría tener el parámetro que se quiere estimar (er = 0,05 o er = 0,10 respectivamente).

106

DISEÑO RAZONADO DE MUESTRAS

iii) Varianza poblacional

Aquí se presenta una situación contradictoria: para calcular n se necesita S2, pero éste no sólo es un parámetro desconocido sino que ni siquiera puede estimarse, ya que, obviamente, la determinación del tamaño muestral es previa al acto de la selección (y, por ende, anterior a toda aspiración de emplearla para hacer una estimación). Básicamente son dos las opciones que se sugieren en los textos clásicos para resolver esta contradicción: a) estimarlo a través de una muestra piloto. b) obtener un valor a partir de las referencias que se tengan de trabajos o experiencias similares ya realizados. En general, es claramente intuitivo que cuanto más variable sea cierta realidad, más información sobre la misma será necesario poseer para poder describirla aceptablemente. Por ejemplo, 1 cm2 de cierta tela puede servir para apreciar cómo es toda la tela si ésta es uniforme; pero sería insuficiente si se tratara de un estampado; y cuanto más complejo sea el estampado, mayor será la muestra de tela necesaria para describirlo. La fórmula [3.9] sintetiza este hecho ya que, a mayor valor de S2, mayor es el tamaño muestral necesario. En esta sección se ha tratado el problema de la determinación del tamaño muestral de manera bastante esquemática. En la práctica el asunto es mucho más complejo por múltiples razones; la primera de ellas es que en las aplicaciones más comunes no se utiliza el modelo que se ha supuesto aquí (MSA). Por esa razón, en el último capítulo (Sección 12.3) se vuelve a abordar el tema, entonces con un enfoque mucho más flexible y realista.

3.8. Estimación de otros parámetros Las secciones anteriores se dedicaron al caso en que el problema de muestreo se asocia a la estimación de una media poblacional. Con frecuencia, sin embargo, el interés se centra en la estimación del total acumulado por una variable en una población o -con muchísima más frecuencia- en la estimación de un porcentaje o de una fracción o proporción10. Como se verá, la teoría correspondiente a estos casos se asocia íntimamente a la desarrollada para la media poblacional. En la literatura estadística (especialmente en la que se dedica al muestreo), se suele hablar de «proporción» para referirse a una fracción en que el denominador es un número de unidades y el numerador es el número de tales unidades que cumplen alguna condición. Ignoro de dónde surge esta práctica (que abarca al inglés, con el término proportion) pero la considero incorrecta. En efecto, el término proporción está reservado para una relación en que intervienen cuatro elementos. Se dice, por ejemplo, que a y b guardan la misma proporción que a c cuando se cumple que = . Sin embargo, la expresión está tan extendida que ocasionalmente la empleab

d

remos como sinónimo de fracción.

MUESTREO SIMPLE ALEATORIO

107

3.8.1. Estimación de un total poblacional

N

Supongamos que lo que se desea es estimar el parámetro X T = ∑ X i , el llamai =1 do total poblacional de la variable X. Consideremos, por ejemplo, que se tiene una población de N sujetos que fueron objeto de cierta intervención quirúrgica, donde se define Xi como el costo de la operación correspondiente al i-ésimo sujeto y se quiere conocer el gasto total XT en que incurrió el sistema de salud como consecuencia de esas N intervenciones. Obtenido dicho dato para los n integrantes de una MSA, se tiene la información muestral x 1 , x 2, …,x 3 . ¿Cómo obtener una estimación insesgada de XT a partir de los datos muestrales? Advirtiendo que X T = NX es evidente que Xˆ T = Nx cumple la condición de insesgamiento. De aquí se deduce inmediatamente que: var( Xˆ T ) = N 2 var( x )

[3.10]

La fórmula ya conocida para obtener un intervalo de confianza vale ahora con la modificación correspondiente para la varianza. Cabe consignar que el resultado que se acaba de exponer es un caso particular del siguiente teorema, cuya demostración puede hallarse en Kish (1965):

Si llamamos XT al total muestral correspondiente a una muestra equiprobabilística entonces X T es un estimador insesgado del total poblacioπ

nal, donde π es la probabilidad de inclusión (común a todos los elemenn

tos). Más generalmente, cualquiera sea el diseño, ∑ insesgada del total poblacional.

i =1

Xi

πi

es una estimación

3.8.2. Estimación de una fracción o proporción Supongamos ahora que lo que interesa es estimar una proporción. O sea, se tiene una población de N elementos, cada uno de los cuales posee o no cierta A característica, y lo que se quiere es estimar la fracción P = donde A es el N número total de elementos que poseen dicha condición. Obviamente, P es un número mayor o igual que 0 y no mayor que 1. Con frecuencia este parámetro se expresa multiplicado por una potencia conveniente de 10; tal es el caso −por ejemplo− de los porcentajes, que no son sino fracciones multiplicadas por 100.

108

DISEÑO RAZONADO DE MUESTRAS

Para estudiar este problema resulta ventajoso «cuantificar» la variable cualitativa de la siguiente manera: se define la variable X que sólo puede tomar el valor 1 o el valor 0 en dependencia de que el sujeto tenga o no, respectivamente, la característica en estudio. O sea, se considera que la población de valores X1, X2,…, XN está integrada por ceros y unos, donde Xi = 1 si el i-ésimo sujeto tiene la condición y X1 = 0 en caso de que no la tenga. A partir de ello es evidente N

que

∑ X i = A y, por tanto, que P = i =1

1 N

N

∑X . i =1

i

Esto quiere decir que la proporción es un caso particular de la media aritmética; sea, cuando Xi asume la forma particular que se acaba de describir, la media X pasa a ser la fracción P que ahora nos ocupa. Éste es un hecho de singular importancia, ya que ahora sólo resta adecuar la teoría desarrollada para la estimación de X a esta forma particular de la variable. En particular, teniendo en cuenta que para estos valores de Xi se cumple que N

N

i =1

i =1

∑ X i =∑ X i = A 2

2

⎛ N ⎞ ⎜ ∑ Xi ⎟ 2 N N i =1 ⎠ = A − A = N ( P − P 2 ), y que ∑ ( X i − X ) 2 = ∑ X i2 − ⎝ N N i =1 i =1 no es difícil constatar que [3.3] se reduce, en este caso, a:

N PQ (1 − f ) N −1 n

VAR( p) =

[3.11]

donde Q = 1 − P. Si seleccionamos una muestra mediante MSA y llamamos x1, x2, …,xn a los valores de estos elementos, se tiene que

1 N ∑ xi es la fracción muestral de sujetos n i =1

con la característica. En efecto, análogamente a como ocurre a nivel poblacional, la suma tiene tantos sumandos iguales a 1 como elementos de la muestra tengan la condición. Llamémosle a a ese número y denotemos la proporción muestral mediante la letra p. Ahora, como ya sabemos que x es un estimador insesgado de X , independientemente de cuáles sean los valores específicos que tengan los elementos de la población, se deduce que p es un estimador insesgado de P. 1 ⎛ n 2 ⎞ Observando ahora que [3.5] es equivalente a s 2 = xi − nx 2 ⎟ y que en ∑ ⎜ n − 1 ⎝ i =1 ⎠ este caso particular se cumple

n

n

∑x =∑x i =1

2 i

i =1

i

2 = a se infiere que, s puede expresarse

MUESTREO SIMPLE ALEATORIO

como una función de p: s 2 =

n n −1

109

pq donde q = 1−p.

La varianza de p puede estimarse -haciendo uso de [3.6]− mediante: var( p ) =

pq n −1

(1 − f )

[3.12]

Sustituyendo en la fórmula [3.4], tenemos que: e = (1, 96)

pq n −1

(1 − f )

[3.13]

De modo que se puede calcular el intervalo de confianza para P con la fórmula [3.8]. Razonando de la misma manera, a partir de [3.9], es fácil arribar a que el tamaño de muestra mínimo para estimar P con error absoluto no mayor que E0 y confiabilidad del 95 % viene dado por: n=

n0 n0 ≈ n −1 N − 1 n0 + 1+ 0 N N N

donde n0 =

(1, 96) 2 PQ

[3.14]

E02

3.8.3. Error absoluto, error relativo y estimaciones complementarias Cuando se estima una fracción P, se está de hecho estimando también su complemento Q = 1 − P. Puesto que el error absoluto estimado viene dado por pq la fórmula e = 1, 96 (1 − f ) es obvio que éste será el mismo para P que n para Q; consecuentemente, salvo que P − Q = 0.5, los errores relativos e e nunca serán iguales. y er ( q) = er ( p ) = P Q Mirándolo al revés, si se fijara un error relativo para determinar el tamaño muestral a la hora de estimar P, y el mismo error relativo para estimar Q, se obtendrían tamaños de muestra diferentes, lo cual carece de sentido. Dicho de otro

110

DISEÑO RAZONADO DE MUESTRAS

modo: no es posible estimar tanto P como Q con el mismo error relativo11. ¿Cómo conciliar esta realidad con la recomendación opuesta, según la cual lo único racional es operar con errores relativos? Reproduzco a continuación las ideas contenidas en Silva (2000) sobre este controvertido asunto. Consideremos primero un caso más general que el de P y Q: supongamos que se quiere estimar una distribución donde, en lugar de 2, hay K categorías. Es k

decir, se quieren estimar K porcentajes que cumplen la condición ∑ Pi = 1 i =1

¿Qué fórmula emplear para determinar el tamaño muestral con el fin de estimar estos porcentajes? Supongamos que K=3 y que para determinar ese tamaño elegimos uno de los porcentajes de interés (digamos, P1). En principio los tres porcentajes interesan por igual, como por ejemplo ocurriría si se tratara de estimar tasas de enfermos con SIDA, de seronegativos y de seropositivos a VIH. Si se fija un valor para Pi a priori y un error absoluto e1, se podrá aplicar la fórmula [3.14] usando: n0 =

(1, 96) 2 P1 (100 − P1 ) e12

Pero, siendo así, entonces no se tendrá control alguno sobre la precisión con que se estimarán P2 y P3, estimaciones que serán «rehenes» del e1, elegido. A mi juicio lo único razonable sería centrar el interés en el más pequeño de todos, fijar un error que se considere razonable (directamente un error relativo, o un error absoluto, pero teniendo en cuenta cuál pudiera ser el valor de esa fracción, que es lo mismo que fijar un error relativo) y, con esos datos, aplicar la fórmula, que producirá un tamaño con el cual se estimarían adecuadamente (probablemente, con creces) los demás. Para ilustrar lo anterior, supongamos que hay 4 categorías de interés y que la distribución verdadera es 3%, 10%, 18% y 69%. Supongamos que se elige la cuarta fracción para determinar el tamaño muestral con que se quieren estimar las 4, y que como anticipación se establece el valor P4 = 70, así como un error absoluto de e 4 = 7. La fórmula [3.14] usando n0 =

(1, 96) 2 P4 (100 − P4 ) e42

,

produciría un tamaño de muestra igual a n = 165 (suponiendo, ahora y en el resto de esta Sección, que la fracción de muestreo es despreciable). Si tras seleccionar tal muestra se obtuvieran, pongamos por caso, las estimaciones 2%, 10% y 18% para los tres primeros porcentajes, los respectivos errores estimados serían aproximadamente 2%, 5% y 6% (errores relativos de 100%, 50% y 11

Esta circunstancia ha conducido a algunos autores (Seuc, 1999, Marrugat, Vila y Pavesi 1999, por citar dos ejemplos) a recomendar que se fije, simplemente, un error absoluto (el cual sí será común a ambos parámetros).

MUESTREO SIMPLE ALEATORIO

111

33% respectivamente). Es virtualmente seguro que en el primer caso, y quizás en el segundo y hasta en el tercero, los intervalos obtenidos no contribuyan a saber nada que no se conociera de antemano. Lo que hay que hacer es concentrarse en el primero de ellos (por ser el más pequeño) y fijar como error absoluto un valor que pudiera ser quizás e1=0,6 (20% de 3), lo cual arrojaría que el tamaño necesario es 2102. Ello producirá para los otros tres porcentajes, respectivamente, los siguientes errores absolutos: 1.3%, 1.6% y 2.0%. Ellos pudieran ser, en algunos de los casos, más pequeños de lo necesario, pero ese es el precio que hay que pagar por el hecho de que una de las tasas que interese (la primera) sea tan pequeña. La situación en que K=2 no es más que un caso particular de lo anterior. Habría que elegir el menor de los dos (entre P y 1 − P) y calcular el tamaño necesario fijando sobre bases racionales el error para éste. Es la única manera de estar seguros de que dicho error absoluto estimado (común a ambos en este caso) será razonablemente pequeño tanto para el menor como para el mayor de los dos porcentajes complementarios12.

3.9. Un problema de urnas A continuación se plantea un problema que resulta útil en más de un sentido. En primer lugar porque es bonito (en definitiva, ¿por qué no reivindicar la belleza como algo útil?). En segundo lugar porque subraya el papel del tamaño muestral absoluto en relación con la precisión. Y, finalmente, porque enfatiza que la varianza de los estimadores es el recurso natural para valorar la eficiencia de un procedimiento muestral (especialmente, para comparar procedimientos muéstrales alternativos). Supongamos que dos personas participan en el juego que se describe a continuación. En un salón hay dos urnas (A y B), cada una de las cuales contiene bolas rojas y blancas. La urna A contiene NA = 200 bolas en total, en tanto que la B contiene NB = 10.000; el porcentaje P de bolas rojas se desconoce, pero se sabe que es el mismo en ambas urnas. De lo que se trata es de estimarlo; para ello se consideran sólo dos estrategias posibles: A: Seleccionar nA = 50 bolas al azar de la urna A. B: Seleccionar nB = 300 bolas al azar de la urna B.

Supongamos que cada uno de los dos contendientes selecciona una estrategia diferente; hecha la experiencia, cada uno obtiene su estimación, basada, 12

En relación con este tema, véase también la Sección 12.8.2.

112

DISEÑO RAZONADO DE MUESTRAS

naturalmente, en la fracción muestral de bolas rojas p A =

rA

y pB =

rB

según nA nB el caso, donde rA y rB representan el número de bolas de ese color que hay en la muestra de tamaño 50 y 300 respectivamente. El ganador del juego es aquél cuya estimación de P sea más precisa. O sea, A ganará si |pA − P| es menor que |pB − P|, y B gana en caso contrario. Si pA dista de P tanto como pB, se declarará un empate. ¿Cuál estrategia será la más favorable? Dicho de otro modo, ¿cuál de las dos alternativas produce la victoria con mayor probabilidad? El problema puede plantearse en términos de errores muéstrales: en ambos casos se hace un MSA para estimar el mismo porcentaje desconocido, pero con tamaños muéstrales y poblacionales diferentes. La pregunta formulada equivale a establecer para cuál de las dos estrategias el error de muestreo es menor. El sentido común o la intuición indican (equivocadamente) a la mayor parte de las personas que debe elegirse la estrategia A, pues la inferencia se estaría basando en la observación del 25% de la población (50 de 200), en tanto que bajo la estrategia B ésta se basaría en un mísero 3% de la población (300 de 10.000). Sin embargo, 300 es mucho mayor que 50 y, por ende, la primera muestra contiene más información que la segunda, hecho que parece no contar para la mayoría de las personas. En palabras de Kahneman y Tversky (1972): «la noción de que la varianza muestral decrece proporcionalmente con el aumento del tamaño absoluto de la muestra no parece integrar del repertorio de intuiciones del ser humano». Bar-Hillel (1979) realizó una experiencia consistente en plantear a 110 estudiantes que solicitaban su ingreso a la universidad un problema similar al que hemos formulado arriba. El 65% de ellos escogió la estrategia A y el resto la B. En mi experiencia, el porcentaje de individuos que se pronuncia por la estrategia más ineficiente es aun mayor. Volviendo al problema, al aplicar la fórmula [3.11], se tiene: VAR ( p A ) = VAR ( pB ) =

PQ N A − n A nA

NA

= PQ

PQ N B − nB nB − 1

NB

200 − 50 (49)(200)

= PQ

= (0, 015) PQ

10.000 − 300 (299)(10.000)

= (0, 003) = PQ

O sea, independientemente del valor de P, VAR(pB) es 5 veces menor que VAR(pA). Si se hace 1.000 veces la experiencia: ¿en cuántas de ellas ganará cada contrincante? La respuesta no tiene una solución analítica simple aunque sepamos que la estrategia B conducirá más veces a la victoria que la estrategia A para cualquier valor del porcentaje común a ambas urnas. En una experiencia simulada se obtuvo, por poner un ejemplo, lo siguiente: para P = 0,40, B ganó 705

MUESTREO SIMPLE ALEATORIO

113

veces, perdió 272 veces y se produjeron 23 empates. Para P = 0,01 (sólo el 1% de las bolas son rojas en cada urna), B ganó en 902 oportunidades, perdió 56 veces y se obtuvieron 42 empates. El programa URNAS que se halla dentro del módulo de simulaciones de SIGESMU (véase el capítulo 11) permite simular esta experiencia con parámetros (na, Na, nh, Nb y P) definidos por el usuario.

3.10. Discusión de un ejemplo práctico Supongamos que se tienen 6.760 historias clínicas (HC) acopiadas durante varios años por el servicio de psiquiatría de un hospital, correspondientes a pacientes que ya lo abandonaron (alrededor del 15% por fallecimiento y el 85% restante por recibir el alta). Las HC se hallan archivadas de modo que pueden numerarse del 1 al 6.760 y se quiere seleccionar una muestra con vistas a una auditoría médica. Aunque la encuesta habrá de registrar diversos aspectos (y será más acuciosa para los sujetos que recibieron el alta con la etiqueta de «muerte hospitalaria»), admitamos que interesa especialmente estimar dos parámetros: porcentaje de historias que contenían alguna deficiencia13 y tiempo medio de estancia. Supongamos que este último, sin embargo, sólo interesa para los sujetos que estaban vivos en el momento del alta. Habiéndose decidido aplicar un MSA, el primer paso consiste en determinar el tamaño de muestra necesario. Supongamos que se plantea que la precisión no tiene que ser mayor que la que brinda un error relativo del 10 %. Esto quiere decir que si el verdadero valor del tiempo medio de estancia fuese, por ejemplo, de 20 días, el error máximo que se admitiría para dicha estimación sería de 2 días. Consideremos que −como es usual− se ha decidido trabajar con confiabilidad igual al 95 %. Para poder aplicar la fórmula [3.9] hace falta aún tener una idea de la varianza de esta variable (tiempo de estancia). Al examinar una muestra piloto de 15 historias de sujetos vivos al alta (elegidas sin ningún criterio especial)14 se obtuvieron los siguientes resultados (en días): 18

13

67

12

49

32

146

36

27

121

83

8

16

10

30

30

No definiremos ahora qué se entiende por «deficiencia» de una HC, pues ello resulta irrelevante; en una encuesta real, sin embargo, tal definición operacional sería de máxima importancia. 14 No procede que para este pilotaje se haga un diseño riguroso; todos los objetivos del estudio piloto suelen alcanzarse sin dificultad haciendo una selección informal, esencialmente basada en el sentido común. (Véase Sección 2.4.)

114

DISEÑO RAZONADO DE MUESTRAS

La media y la varianza de estos números son iguales, respectivamente, a15:

XP = S P2

1

1

15

∑ X Pi = 45, 7

15 i =1 15

2 ∑ ( X Pi − X P ) = 1.727, 95

14 i =1

Puesto que el 10% de X P es igual a 4,6, tomaremos E0 = 4,6. Aplicando la fórmula [3.9] se tiene entonces que: n = 299,7. Finalmente, hay que contemplar el hecho de que sólo el 85% del total de las historias clínicas corresponden a los individuos que interesan a los efectos de este parámetro (vivos al alta). De modo que la cifra final sería el resultado de dividir 299,7 entre 0,85, operación que arroja un tamaño muestral de 353 historias. Por otra parte, supongamos que de un estudio anterior se conoce que alrededor del 30% de las historias clínicas de psiquiatría presentan alguna anomalía en el sentido definido para este estudio. Si queremos estimar P con el mismo error relativo mencionado antes (10%) 16, en términos absolutos se trata entonces de la décima parte de 30; es decir E0 = 3. De modo que, a los efectos del porcentaje, el tamaño muestral sería, según la fórmula [3.14]: n = 791. Los números 353 y 791, candidatos a constituir el tamaño muestral, son marcadamente discrepantes: ¿cuál elegir? Una solución es alcanzar una especie de compromiso como, por ejemplo, un número intermedio; también puede ser el mayor de los dos (lo cual cubriría ambas demandas, una de ellas con creces), u otra variante que no esté muy alejada de las alternativas en juego. Supongamos que, finalmente, se decidió estudiar 600 historias clínicas. O sea, se supone, en resumen, que con una muestra de alrededor de 600 historias se podrá estimar adecuadamente el tiempo medio de estancia X y el porcentaje de historias con deficiencias, ambos con error relativo no muy alejado del 10%. Así las cosas, se tiene que la fracción de muestreo es f = 0,088. Supongamos que, a lo largo del estudio de la muestra, cinco de las HC seleccionadas tuvieron que ser desechadas por resultar ilegibles, de modo que los datos corresponden a sólo 595 encuestas. Hecho el estudio, se obtuvo que el número de historias con anomalías ascendió a 203 y que el número de historias correspondientes a altas de sujetos que salieron vivos resultó ser 487.

15

Se ha usado el subíndice P para subrayar que se trata de datos salidos del pilotaje. Cabe preguntarse, como es natural, qué porcentaje tomar como bueno para la definición del error relativo o, alternativamente, porqué tomar el 10%. No existe ninguna razón especial; quizás 2 argumentos pueden invocarse. Primero, que un error del 10% de lo que se mide, suele admitirse en la vida común como algo «aceptable». Segundo, que los humanos tenemos 10 dedos (o sea, el número 10 es el más cercano a nuestros ojos, lo cual le dé quizás preferencia sobre el 9 o el 10,2). 16

MUESTREO SIMPLE ALEATORIO

115

Por otra parte, si llamamos Xi al número de días que estuvo ingresado el paciente correspondiente a la i-ésima historia clínica entre aquellos 487 que salieron vivos del servicio, supongamos que se obtuvieron los siguientes resultados: 487

∑ xi = 22.411

i =1

s 2 = 2.012, 21

En este punto, ya es inmediato el cómputo de intervalos de confianza para los parámetros. Comencemos por las estimaciones puntuales: 22.411 203 x= = 46, 02 p= = 0, 341 487 595 Se ha de notar que los denominadores son diferentes: mientras el porcentaje se estima empleando la muestra completa (595 historias clínicas), la media se estima con la submuestra de los 487 que estaban vivos al alta. Esta última, tal y como se verá más adelante (Sección 3.11.2) puede considerarse un MSA del universo de pacientes vivos en el momento del alta hospitalaria. Resumiendo hasta ahora: los resultados muéstrales permiten decir que el tiempo de estancia estimado para sujetos vivos en el momento del alta es de 46 días, y que el 34% de las historias reflejan alguna anomalía. Ahora corresponde estimar los errores asociados a estas estimaciones. Con los datos arriba consignados y usando las fórmulas [3.6] y [3.12] respectivamente se obtienen las estimaciones de las varianzas, necesarias para estimar los errores: var( x ) = 3, 776 var( p ) = 0, 00042 Finalmente, los intervalos de confianza, calculados a través de la fórmula usual, son: [42,2-49,8] para la media (en días), y [30,1-38,1] para el porcentaje. Quiere esto decir que se puede estar virtualmente seguro de que, aproximando a días completos, la estancia media en el hospital de aquellos pacientes (del total de 6.760) que estaban vivos al alta, no está por debajo de 42 ni por encima de 50 días. Análogamente, el porcentaje de HC que exhiben alguna anomalía no supera al 38% ni es menor del 30%l7. Obsérvese ahora que los errores relativos estimados son, respectivamente, del 8 % y del 12 %; o sea, en el primer caso un número menor que el deseado, y en el segundo, uno mayor18. Esto es totalmente lógico y ocurre típicamente en cualquier encuesta: algunas estimaciones serán más precisas de lo previsto y otras 17 Nótese que, en rigor, 38,1 supera a 38, pero sólo en un marco de puntillosidad formal: para el «pensamiento estadístico», estos dos números son una misma cosa. 18 Estos errores relativos se estiman, naturalmente, dividiendo la mitad de la longitud de los intervalos de confianza entre la estimación puntual del parámetro.

116

DISEÑO RAZONADO DE MUESTRAS

menos, pues dependen de las variabilidades verdaderamente estimadas con la muestra y no de las especulaciones realizadas para poder establecer el tamaño muestral (aparte de que los tamaños calculados eran diferentes mientras que el empleado, desde luego, es único). Del ejemplo se deriva un planteamiento general ya formulado: debe procurarse una estimación con el nivel de precisión previsto, y para ello ha de tomarse un tamaño muestral «adecuado» (en el bien entendido de que éste es un concepto relativo y por ende susceptible de un manejo flexible). Pero si, por alguna razón, esto no se lograse, queda un dividendo de gran importancia: luego de la encuesta siempre puede calcularse de manera objetiva la magnitud del error en que, a lo sumo, se incurrió. Asimismo, puede calcularse el error asociado a la estimación de cualquier otro parámetro que con esa muestra quiera investigarse, aunque no haya intervenido en la determinación del tamaño muestral, como ocurre con la inmensa mayoría de ellos.

3.11. Complementos del muestreo simple aleatorio 3.11.1. Muestreo simple aleatorio con reemplazo Supongamos que en el ejemplo c) de la Sección 3.2, en lugar de seleccionar 5 bolas simultáneamente de entre las 10 que se hallan en la urna, se procede del siguiente modo: se saca una bola, se anota su número y se reintegra a la urna; después se mezclan las diez bolas y se repite el procedimiento en otras cuatro oportunidades. Bajo tal procedimiento una misma bola puede ser seleccionada más de una vez. Cuando una población de tamaño N se somete a la elección de n elementos de manera tal que, en cada selección, todos los elementos tienen probabilidad

1 N

de

ser elegidos, se dice que se ha realizado un muestreo simple aleatorio con reemplazo (MSACR). Si un elemento quedase incluido más de una vez en la muestra, al hacer cualquier estimación debe repetirse el valor correspondiente de la variable tantas veces como esto haya ocurrido. Al igual que con MSA, puede demostrarse que la media muestral x es un estimador insesgado de X , así como que la fórmula para la varianza de x es, en este caso, la siguiente: VARR ( x ) =

N −1 S 2 N

n

Al comparar [3.15] con [3.3] se aprecia que la varianza de la media, si se ha usado MSA, nunca puede ser mayor que la que corresponde al MSACR. En efecto, puede observarse que la igualdad sólo se produce si n = 1 (en cuyo caso,

MUESTREO SIMPLE ALEATORIO

117

naturalmente, ambos métodos se reducen a lo mismo), pero que si n > 1, entonces necesariamente se cumple que: VARR ( x ) > VAR ( x ) Este resultado es completamente lógico, ya que el MSA siempre produce muestras integradas por n elementos diferentes de la población, en tanto que a través de MSACR, el número de elementos distintos entre sí puede ser menor, con la consecuente pérdida de información. Es decir, el MSA siempre será más eficiente que el MSACR para un mismo tamaño muestral. Corresponde enfatizar que aquí se han usado las fórmulas de la varianza con un objetivo diferente del más usual: hasta ahora se habían empleado, básicamente, para hallar estimadores del error de muestreo, pero en este caso, al igual que en el problema de las urnas de la Sección 3.9, han servido para comparar dos métodos de selección. Esto tiene importancia metodológica: ilustra cómo pueden y deben hacerse evaluaciones relativas de los procedimientos desde un punto de vista general e independiente de los resultados fortuitos a que pueden dar lugar las aplicaciones específicas.

3.11.2. Subconjuntos de una muestra simple aleatoria En Hansen, Hurwitz y Madow (1953) se puede ver la demostración del siguiente resultado: Si se toma una muestra mediante MSA de una población, entonces los elementos de dicha muestra que tengan cierta característica constituyen una muestra simple aleatoria del subconjunto de la población definido por la posesión de dicha característica. Este resultado tiene relevancia práctica, ya que es muy común la situación en la cual, además de ciertas estimaciones poblacionales, se desea hacer algunas estimaciones restringidas a una parte de la población, a la que suele llamársele una clase o un dominio de la población. Por ejemplo, imaginemos que se proyecta una encuesta para estudiar la morbilidad por accidentes entre estudiantes de enseñanza media. Además del interés por estimar ciertos parámetros poblacionales (por ejemplo, el promedio de días de clase perdidos por concepto de accidentes, o el porcentaje de individuos accidentados durante cierto lapso), lo natural es que también se deseen estimaciones según grupos de edad y sexo, o dentro de otros dominios (clases) como el de los alumnos escolarmente más y menos calificados, los que practican o no deportes, etc.

118

DISEÑO RAZONADO DE MUESTRAS

Lo que afirma el teorema es que si la selección inicial se efectuó mediante MSA, entonces para estudiar una subpoblación se puede considerar que los elementos de la muestra que estén en dicha parte constituyen una MSA de la misma. De modo que el procesamiento de esa submuestra puede hacerse con la misma teoría general que se aplicaría a la muestra inicial19. Debe consignarse, sin embargo, que el nuevo tamaño muestral de esta submuestra pasará a ser −en rigor− una variable aleatoria. Este resultado tiene utilidad práctica incluso por otra razón: con frecuencia el listado al que se tiene acceso contiene elementos que no pertenecen a la población objeto y se hallan dispersos dentro de dicho listado. En tal caso, si se conoce que la fracción de estos elementos ajenos a la población de interés es β, se toma una muestra de tamaño n y se trabaja luego con los que efectivamente 1− β pertenezcan a dicha población. Por ejemplo, supongamos que se tiene un listado con los nombres y centros de trabajo de un conjunto de enfermeras en el cual no aparece consignada la edad, pero que lo que interesa para un estudio de morbilidad laboral es seleccionar una muestra de 100 enfermeras mayores de 35 años. Si se sabe que sólo el 40% de las que tienen esta profesión sobrepasan tal edad (o sea β = 0,6), enton100 ces deben seleccionarse = 250 por MSA y conservar sólo aque0, 4 llas mayores de 35 años para el estudio; ese conjunto puede ser tratado como una MSA tomada de la población de elementos mayores de 35 años. Por extensión, para muestras bastante grandes y si se trata de subconjuntos que no se «concentran» en zonas específicas de la población, sino que están dispersas dentro de ella, este resultado vale para cualquier diseño muestral. Es decir: el subconjunto de una muestra definido por la posesión de un rasgo dado puede considerarse, en esencia, una muestra de todos los que tienen dicho rasgo, que ha sido seleccionada con el mismo procedimiento muestral usado para la muestra completa.

3.11.3. Asignación aleatoria Supongamos que se planifica un ensayo clínico para evaluar la eficacia de la homeopatía en la curación de la conjuntivitis y que se compararan 3 tratamientos: cierto remedio homeopático (A), agua (B) y un colirio convencional (C). Se ha decidido tratar 50 pacientes con cada uno de ellos. Es necesario asignar aleatoriamente los próximos 150 enfermos que acudan a la consulta de modo 19

De hecho, así fue como se procedió para estimar la media muestral del tiempo de estancia en el ejemplo de la Sección 3.11.

MUESTREO SIMPLE ALEATORIO

119

que queden ubicados 50 en cada uno de ellos. Potencialmente, se cuenta con un listado de 150 sujetos. La asignación aleatoria a los tres grupos no es otra cosa que seleccionar una muestra simple aleatoria de tamaño 50 y asignarle el tratamiento A a sus integrantes; luego obtener otra muestra simple aleatoria de los otros 100, asignar el tratamiento B a éstos y finalmente el tratamiento C a los 50 que restan. El procedimiento es algo engorroso, aun contando con un programa informático para realizar selección aleatoria, ya que después de la primera selección habría que renumerar del 1 al 100 a los sujetos no seleccionados. Por eso es conveniente contar con programas ad hoc para la asignación, aunque, en rigor, lo que éstos hacen es aplicar sucesivamente el MSA. El programa ASAL incluido dentro del módulo de Simulaciones dentro de SIGESMU tiene exactamente ese propósito, (véase Capítulo 11)

3.11.4. Estimación de una razón Supongamos que estamos ante una población finita de N elementos y que se están considerando dos variables diferentes X e Y, susceptibles de ser medidas sobre cada unidad de análisis. Puede entonces considerarse la razón entre los totales respectivos de estas variables en la población. O sea, podemos definir un nuevo parámetro poblacional, al que llamaremos razón, mediante la fórmula: N

R=

∑ Yi

i =1 N

[3.16]

∑ Xi

i =1

Vale la pena detenerse brevemente a considerar algunas situaciones que ilustran el posible interés por estimar razones. Los siguientes recuadros contienen tres de ellas:

Supongamos que se estudia una comunidad integrada por núcleos familiares y definamos: Xi = salario mensual que recibe la i-ésima familia. Yi = gasto mensual en que incurre la i-ésima familia por concepto de medicinas. El parámetro R expresa qué fracción o parte del salario es utilizado en la comunidad para adquirir medicinas. En este caso R es un número entre 0 y 1.

120

DISEÑO RAZONADO DE MUESTRAS

La población en estudio está integrada por las viviendas de un área de salud. Se definen: Xi = número de habitaciones de la vivienda i-ésima. Yi = número de residentes habituales de la vivienda i-ésima. R puede entenderse en este caso como un índice de hacinamiento en el área de salud, que expresa el número medio de individuos por habitación. R puede, teóricamente, ser mayor, igual o menor que 1. Se tiene una población de estudiantes (por ejemplo, alumnos de tercer año de medicina). Consideremos: X i = promedio de notas obtenidas por el i-ésimo alumno durante su segundo año. Yi = promedio de notas del i-ésimo alumno en tercer año. R es un número que refleja si el grupo de estudiantes experimentó o no una mejoría de uno a otro año, y expresa la magnitud de la mejoría (si R>1) o del deterioro (si R fuera menor que la unidad). Supongamos que se desea estimar R a través de un muestreo simple aleatorio. Sean x1, x2,..., xn e y1, y2,..., yn los resultados obtenidos al medir X e Y en n unidades seleccionadas por MSA. El estimador que usualmente se utiliza es: n

Rˆ =

∑ yi

i =1 n

[3.17]

∑ xi

i =1

Se trata de un estimador sesgado: basta crear un ejemplo sencillo para corroborar que el promedio de todos los posibles valores de Rˆ no coincide con R. Debe advertirse, como rasgo distintivo peculiar, que tanto el numerador como el denominador son, en este caso, resultados aleatorios. Se puede demostrar, sin embargo, que el sesgo de Rˆ es una magnitud que disminuye rápidamente cuando n aumenta, y que se aproxima a 0 para valores medianamente grandes del tamaño muestral. La varianza de Rˆ se estima mediante la fórmula var( Rˆ ) =

1− f xT2

n n ⎡ n 2 ˆ2 n 2 ∑ yi + R ∑ xi − 2 Rˆ ∑ xi yi ⎤ i =1 i =1 ⎦⎥ n − 1 ⎣⎢ i =1

donde es el total muestral de la variable X.

[3.18]

MUESTREO SIMPLE ALEATORIO

121

Debe señalarse que la fórmula [3.18] se puede usar sólo si la variabilidad del denominador de Rˆ no es muy acusada. Concretamente, como medida de variabilidad de xT se ha sugerido el siguiente valor: cv = n(1 − f ) donde S x =

1

Sx xT

n

2 ∑ ( xi − x ) En términos prácticos, se exige que cv sea menor

n − 1 i =1 que 0,2 (Kish, 1965). Consideremos que en el segundo ejemplo arriba mencionado el tamaño poblacional es N = 184 y que los valores de X e Y para una muestra simple aleatoria de tamaño n = 12 son los que siguen:

Entonces:

63 Rˆ = = 2, 25 28 1− var( r ) =

12

184 . 12 ⎡ 453 + (2, 25) 2 (76) − 2(2, 25)(147) ⎤ = 0, 229 ⎦ 282 11 ⎣

Es fácil corroborar que CV = 1,141 y que en este caso puede emplearse [3.18], lo cual arroja el resultado: e = (1, 96) 0, 229 = 0, 94 . Es decir, se estima que hay 2,25 individuos por habitación con un error de casi un habitante. APÉNDICE: El azar y los números pseudoaleatorios

Una posible definición de lo que significa el azar sería «aquello no susceptible de ser programado». Obviamente, esto se contradice directamente con la existencia de programas computacionales capaces de producir números aleatorios. En rigor, lo que se puede obtener con las PC son los llamados números pseudoaleatorios. Vale decir: se trata de algoritmos que permiten obtener se-

122

DISEÑO RAZONADO DE MUESTRAS

cuencias de dígitos que soportan adecuadamente las pruebas de aleatoriedad y son considerados como aleatorios a todos los efectos prácticos. El trabajo original en esta materia fue debido a Neuman (1951), quien introdujo el método conocido como middle square. La idea central era tomar un número inicial (semilla) de n dígitos, elevarlo al cuadrado para formar así un número de 2n dígitos, tomar entonces los n dígitos intermedios para continuar el ciclo elevándolo al cuadrado, y continuar sucesivamente el proceso. Por ejemplo, consideremos n = 4 y tomemos la semilla So = 8374. Los siguientes tres números de la secuencia serían:

S02 = 70123876 → S1 = 1238 S12 = 1532644 → S 2 = 3264 S 22 = 10653696 → S3 = 6536 Lamentablemente, este proceso conduce bastante rápidamente a una repetición periódica, especialmente si uno de los dígitos elegidos para integrar S0 es cero. Una importante contribución en el refinamiento de estos procesos fue debida a Lehmer (1951), quien propuso el método de la congruencia lineal, en que una sucesión de números «aleatorios» se obtiene a partir de una semilla r0 (no negativa y menor que cierto m prefijado) del modo siguiente: ri +1 = ( ari + b) mod m donde los números a y b son también no negativos e inferiores a m. (NOTA: recordar que la expresión X = Y mod m equivale a decir que el resto resultante de dividir Y entre m es igual a X, en ese caso se dice que Y es congruente con X r módulo m.) Tras obtener la sucesión, los números aleatorios serán ai = i . Por m ejemplo, si tomamos m = 235, a = 4, b = 13 y r0 = 21, se tiene que a r0 + b = (4)(21) + 13 = 97; por otra parte, 97/235 = 0 ⋅ 3 5 + 97, de modo que, r 1 = 97. Los primeros 10 valores de r i y de A i serían:

r0 = 21

a0 = 0, 089

r1 = 97

a1 = 0, 413

r2 = 166

a2 = 0, 706

r3 = 207

a3 = 0,880

r4 = 136

a4 = 0, 579

r5 = 87

a5 = 0, 370

r6 = 126

a6 = 0, 536

r7 = 47

a7 = 0, 200

MUESTREO SIMPLE ALEATORIO

r8 = 201

a8 = 0,855

r9 = 112

a9 = 0, 477

123

El trabajo realizado a lo largo de los últimos 40 años en esta área ha sido intenso y productivo. Revisiones exhaustivas de esos esfuerzos pueden hallarse en Sowey (1978), James (1990) y Dodge (1996).

Bibliografía Bar-Hillel M. The role of sample size in sample evaluation. Organizational Behavior and Human Performance 1979; 24: 295-257. Dodge Y. A natural random number generator. International Statistical Review 1996; 64: 329-344. Fienberg SE, Tanur JM. Reconsidering the fundamental contributions of Fisher and Neyman on experimentation and sampling. International Statistical Review 1996; 64: 237-253. Fisher RA, Yates F. Tablas estadísticas. Madrid: Editorial Aguilar, 1963. Hansen MH, Hurwitz WN, Madow WG. Sample survey methods and theory. New York: Wiley, 1953. James F. A review of pseudorandom number generators. Computer Physics Communications 1990; 60: 329-344. Kahneman D, Tversky A. Subjective probability: a judgment of representativeness. Cognitive Psychology 1972; 3: 430-454. Kish L. Survey sampling. New York: Wiley, 1965. Lehmer DH. Mathematical methods in large scale computing units. Annals of Computer Laboratory of Harvard 1951; 26: 141-146. Marrugat J, Vila J, Pavesi M. Supuesto de máxima indeterminación: ¿error absoluto o error relativo en el cálculo del tamaño de la muestra? Gaceta Sanitaria 1999; 13: 491-493 Neuman I von. Various techniques used in connection with random digits. En: Honseholder AS, (ed.) The Monte Cario Method Ced. National Bureau of Standard: Applied Mathematics Service, No. 12, 36-38 Seuc AH. Relation between the prevalence of a characteristic and the size of the sample needed to estimate it. European Journal of Epidemiology 1998; 14 627-628. Silva LC. Técnicas muéstrales aplicadas a la investigación higiénico-social. La Habana: Instituto de Desarrollo de la Salud, 1982. Silva LC. Nueva visita al supuesto de máxima indeterminación y al empleo de errores absolutos y relativos. Gaceta Sanitaria 2000 (en prensa). Sowey ER. A Second clasified bibliography on random number generation and testing. International Statistical Review 1978; 46:89-102. Yamane T. Elementary sampling theory. La Habana: Editorial R, 1970.

4 Muestreo sistemático

4.1. Una alternativa al muestreo simple aleatorio Supongamos que se quiere elegir una muestra de tamaño 80 de un listado de médicos que contiene exactamente 16.000 nombres ordenados alfabéticamente. Una primera idea sería seleccionar una muestra simple aleatoria, en cuyo caso la fracción de muestreo sería igual a f =

80 16.000

=

1 200

; esto quiere decir que

la muestra contendría el 0,5% de los individuos de la lista. Para aplicar tal procedimiento sería necesario numerar primero consecutivamente a los 16.000 elementos de la población, después seleccionar al azar 80 números menores que 16.000 diferentes entre sí y, finalmente, identificar a los 80 sujetos asociados con los números resultantes. Como resulta evidente, tal procedimiento resulta considerablemente laborioso. Puede entonces contemplarse un recurso alternativo, conocido como muestreo sistemático (MS), el cual se bosqueja a continuación. Se selecciona un número aleatorio r entre 1 y 200 y se forma la sucesión siguiente: r, r + 200, r + 400, ... , r + 15.800 que consta de exactamente 80 números e identifica a otros tantos individuos diferentes. Los elementos que integran esta muestra se han determinado por un procedimiento en el que interviene el azar, aunque de manera muy especial. En efecto, tan pronto se elige aleatoriamente el primer elemento de la muestra (el que ocupa el r-ésimo lugar del listado), queda automáticamente determinado todo el subconjunto que resultará seleccionado en calidad de muestra. El número r que se elige para iniciar el proceso de selección se denomina arranque aleatorio.

126

DISEÑO RAZONADO DE MUESTRAS

Es fácil convencerse de que en este ejemplo, puesto que hay sólo 200 arranques posibles y de que las muestras posibles son disjuntas' entre sí, el número de tales muestras posibles es también igual a 200. Esto contrasta notablemente con el astronómico número de posibilidades a que daría lugar un MSA. Es natural preguntarse si, a partir de esta peculiaridad, ambos métodos son igualmente eficientes o no. A ello nos referiremos más adelante pero, por el momento, corresponde subrayar la sencillez del trámite. Tal sencillez se torna extrema en determinadas situaciones, para las que no es preciso siquiera asignar números previamente a los elementos de la población, sino que basta con disponer de un marco muestral con cierta ordenación físicamente explícita (visitas sucesivas de pacientes a un centro, renglones en un libro de registro o historias clínicas en un estante). A modo de ilustración, supongamos que se tiene un archivo con 3.000 tarjetas o fichas de identificación de pacientes y que se quiere seleccionar una muestra de tamaño 300 para estimar el porcentaje de tarjetas que adolecen de algún tipo de omisión. Supongamos que el número elegido entre 1 y 10 resultó ser el 7: se toma la séptima tarjeta, se cuentan 9 tarjetas y se extrae la siguiente (decimoséptima según el orden). El procedimiento se repite hasta que se haya «recorrido» el archivo completo.

4.2. Método regular de selección Al plantearnos el problema de obtener una muestra sistemática de n elementos de un listado que contiene N unidades, pueden distinguirse formalmente dos situaciones: a) N es un múltiplo de n. b) N no es un múltiplo de n. El caso a) equivale a que exista un número entero K tal que N = nK. La frac1 ción de muestreo será, por tanto, igual a f = . Para aplicar el método descrito K en la Sección 4.1 se selecciona el arranque aleatorio r entre 1 y K y, a partir del sujeto que ocupa el lugar r, se van tomando sucesivamente los que están K lugares más adelante hasta completar n elementos. En el caso b) no existe un entero K que cumpla N = nK. No obstante, una posibilidad para la aplicación del método consiste en definir K como la parte entera de la fracción

N n

(o simple-

mente como el entero más próximo a dicha fracción) y con ese número obrar

1

Es decir, ningún objeto del listado puede pertenecer a más de una de las muestras que pueden producirse.

MUESTREO SISTEMÁTICO

127

como en el caso a). Al número K se le llama intervalo de selección, y al procedimiento, método regular de selección sistemática. No es difícil advertir de que, tanto en el caso a) como en el b), el método es equiprobabilístico; así se deriva de las siguientes tres circunstancias: i) todo 1 elemento de la población tiene probabilidad de ser seleccionado, ya que caK da arranque tiene esta probabilidad de ser el que resulte elegido, ii) cada muestra tiene la misma probabilidad de ser seleccionada que la que corresponde al arranque que la determina, iii) cada elemento está en una y sólo una de dichas muestras. Por otra parte, en el caso a) el tamaño de muestra es necesariamente igual a n, pero en el caso b) dicho tamaño es un número que puede ser igual a n o a n + 1 , en dependencia de que el arranque r seleccionado sobrepase o no, respectivaN mente, al resto de la razón . Por ejemplo, si N = 27 y n = 6 podemos decidir n 27 que K sea la parte entera de (o sea, K = 4), con lo cual se tiene que 6 27 = (6) (4) + 3. Como se aprecia, el resto es 3; es fácil comprobar que si el arranque (que se elige entre 1 y 4) es 1,2 ó 3, entonces el tamaño de muestra es 7; pero si es igual a 4 (sobrepasa al resto), entonces el tamaño de muestra es igual a 6. Un esquema que ilustra gráficamente cómo se procede con este método es el que aparece en la Figura 4.1. Allí se ha representado una pequeña población de 71 sujetos de la que se ha seleccionado sistemáticamente una muestra de n = 12 unidades mediante la aplicación de un intervalo de magnitud k = 6 a partir del arranque r = 3. Nótese que para llevar adelante este proceso hay que definir

N = 71 K = 6 r = 3 N = 12

Figura 4.1. Representación de una muestra sistemática.

128

DISEÑO RAZONADO DE MUESTRAS

previamente cuál es el orden en que se considera organizada la población. En el ejemplo de la Figura 4.1 se ha asumido que los sujetos están ordenados de izquierda a derecha y que en cada nueva línea se recomienza por la izquierda (el mismo orden que rige para leer las palabras en un texto escrito en idioma castellano).

4.3. Estimación de parámetros Según un resultado de la Sección 3.12.2, la media muestral x es un estimador insesgado de X en el caso a), pero no necesariamente en el caso b). Sin embargo, este sesgo es virtualmente despreciable, especialmente si n es mayor que 40 (o sea, casi siempre); de modo que −a todos los efectos prácticos− la distinción entre ambas situaciones, salvo contadas excepciones, es irrelevante. N La situación en que no es un número entero puede abordarse por otros n procedimientos. Por ejemplo, para el caso en que se desea seleccionar una muestra equiprobabilística de tamaño exactamente igual a la de la situación b), Kish (1965) sugiere el método del intervalo fraccional.

4.4. Otorgamiento de una probabilidad fija y selección en fases Ocasionalmente, el interés radica en obtener una muestra equiprobabilística de un listado a partir de una probabilidad prefijada2. O sea, en lugar de tener preestablecido un tamaño de muestra, en esos casos se fija de antemano la probabilidad de inclusión que debe asignarse a cada unidad del listado (o equivalentemente, el porcentaje de la población que debe quedar incluido en la muestra). En tal situación se puede aplicar el método de selección en fases, debido a Fariñas y Silva (1984), que procura resolver el problema de manera simple y económica. La teoría general se desarrolla en el trabajo citado; a continuación sólo se describe una forma particular del método general. Supongamos que se tiene un listado de N = 70 elementos y que se desea una muestra sistemática, pero seleccionada de manera que la probabilidad de inclusión para todo elemento sea igual a f = 0,37. Se plantea tomar un elemento de cada 3 por el método regular y, en una segunda fase, adicionar, por el mismo método, un elemento de cada 18 de los que no fueron seleccionados en la primera. Supongamos que el primer arranque aleatorio (para la selección en la primera fase con intervalo K1 = 3) fue igual a 2. Esto hace que seleccionemos los 23 sujetos que ocupan los lugares: 2, 5, 8, ..., 62, 65 y 68. Al listado remanente de 2

Como se verá más adelante, en diseños complejos de la práctica suele presentarse tal necesidad.

MUESTREO SISTEMÁTICO

129

47 sujetos se le aplica ahora el método regular pero con intervalo K2 = 18. Supongamos que en este segundo caso el arranque fue el 3: se adicionan a la muestra los individuos que están en los lugares 3, 21 y 39 del listado de los no seleccionados (que resultan ser los elementos 4, 31 y 58 del listado original). En este ejemplo, en definitiva, la muestra quedaría integrada por los 26 (37% de 70) individuos que ocupan los lugares marcados en el listado que se reproduce a continuación:

En general, si se obtiene una parte de la población mediante el método regular con intervalo K1 y se adiciona otra parte mediante la aplicación del intervalo K2 a los no seleccionados en la primera fase, es fácil demostrar que la probabilidad de inclusión de cada individuo es igual a: f =

En el ejemplo, esto es: f =

K1 + K 2 − 1 K1 K 2

3 + 18 − 1 (3)(18)

[4.1]

= 0, 37.

En Fariñas y Silva (1984) se considera una segunda posibilidad: tomar una muestra por el método regular con intervalo K1 y suprimir de ella una parte de los elementos por el propio método regular, pero con intervalo K2. Puede demostrarse que en ese caso la probabilidad de quedar seleccionado es, para cada elemento, igual a:

130

DISEÑO RAZONADO DE MUESTRAS

por ejemplo, si f = 0,42, se puede tomar 1 de cada 2 y eliminar 1 de cada 6 de 6 −1 los que resulten elegidos. Es fácil ver que 0, 42 = . En la misma población (2)(6) anterior de tamaño N - 70, si se toma r1 = 1 (sujetos impares) y r2 = 5, el resultado de la selección sería el siguiente:

Nota: Aparecen en negrita los sujetos finalmente elegidos, y subrayados los que fueron eliminados en la segunda fase.

Si se parte de la probabilidad, digamos f, entonces hay que hallar un par de números enteros K1 y K2 que satisfagan con aceptable aproximación, o bien la ecuación [4.1], o bien la [4.2]. La Tabla 4.1 presenta los intervalos de selección adecuados para la aplicación combinada del método regular en las dos fases para cada/entre 0,01 y 0,50 (restringiendo K1 y K2 a valores no superiores a 50). En lugar de detallar los métodos considerados y la notación correspondiente, optamos por ilustrar el uso de la tabla con tres ejemplos. Ejemplo 1. f = 0,05 Se aplica el método regular con K1 = 20. En este caso, K2 = 0; es decir, no procede aplicar una segunda fase, pues hay un número entero cuyo inverso coincide con f. Ejemplo 2. f =0,15 Para este valor de f la tabla señala K1 = 6 y K2 = -10. Hay que seleccionar un individuo de cada 6 y luego aplicar el método regular con intervalo de magnitud 10 a la muestra seleccionada para suprimir de ella los elementos resultantes de esta segunda

MUESTREO SISTEMÁTICO

131

maniobra. El signo menos indica, precisamente, que el intervalo se aplica sobre la muestra para eliminar elementos de ella. Ejemplo 3. f = 0,61 Como f > 0,5 se buscan los intervalos para 1 − f = 0,39: K1 = 3 y K2 = 12. Se aplica el método regular con intervalo K1 = 3 y luego se adiciona uno de cada 12 de los sujetos no seleccionados. De ese modo se ha elegido un subconjunto que constituye el 39% de la población. Finalmente, se toma en calidad de muestra el complemento de ese subconjunto3. Tabla 4.1. Intervalos de selección (K1, K2) para aplicar el método en dos fases que produce probabilidad de selección igual a f

3

Nótese que esa táctica permite que la Tabla 4.1 sólo contemple las soluciones para valores de f inferiores a 0,51.

132

DISEÑO RAZONADO DE MUESTRAS

4.5. Varianza de la media muestral Una diferencia obvia entre el MSA y el MS radica en que en el segundo procedimiento la ordenación de los elementos dentro del listado es un componente íntimamente relacionado con los posibles resultados del método de selección, en tanto que para el MSA la ordenación original de la población es completamente irrelevante. Concretamente, como se ilustra más adelante en esta sección, en MS el ordenamiento de la población determina las muestras posibles y, por tanto, también la varianza del estimador que se considere. Para la discusión subsiguiente, asumiremos que se está en la situación en N que el intervalo es un número entero K. En tal caso, las k muestras posibles n contienen exactamente n elementos y son disjuntas dos a dos (ya que no existe ningún elemento de la población que pertenezca a más de una de las muestras posibles). Llamemos xi a la media muestral correspondiente a la i-ésima de las K muestras posibles y X ij al elemento j-ésima dicha muestra. Como ya sabíamos de la Sección 4.2, la media muestral es un estimador insesgado; es fácil comprobar que:

X = En efecto

1 K

K

∑ xi =

i =1

1 K

K

∑ xi

i =1

1 n 1 K n ∑ X ij = ∑ ∑ X ij K i =1 n j =1 Kn i =1 j =1 1

K



Ahora, puesto que Kn = N, y dado que ninguna pareja de muestras posibles se intersecan, la expresión de la derecha coincide con X . Según la definición, se tiene que la varianza de x puede escribirse del modo siguiente:

VAR ( x ) =

1 K

K

2 ∑ ( xi − X )

i =1

[4.3]

Consideremos como ilustración el ejemplo de la Sección 3.4. Es fácil ver que, considerando el listado de hospitales en el orden en que aparece en la Tabla 3.3, se pueden seleccionar K = 5 muestras de tamaño n = 3. La Tabla 4.2 resume los posibles resultados. El promedio de estos 5 valores posibles de x es, efectivamente, igual a 200, la media poblacional.

MUESTREO SISTEMÁTICO

133

Tabla 4.2. Estimaciones de X para cada una de las muestras de tamaño 3 que pueden obtenerse por MS de la población descrita en la Tabla 3.3

Al aplicar la fórmula [4.3] se tiene que VAR( x )= 2.272,0. Lo natural ahora es comparar este resultado con el que se obtiene para un MSA de n = 3 elementos. En la Tabla 3.5 se vio que, en tal caso, VAR( x ) = 3.702,9. De modo que, en este ejemplo, el muestreo sistemático resulta más eficiente que el MSA de tamaño n =3. ¿Estamos ante una situación típica?, ¿se trata de una casualidad?, ¿de una excepción? Para responder a estas preguntas, notemos que cuando se aplica un MS el valor de VAR( x ) depende de la ordenación original con que aparezcan los elementos en el marco muestral. Las muestras posibles en un muestreo sistemático dependen del orden en que se hallen las unidades de análisis dentro del listado; consecuentemente, la varianza entre las medias posibles también se modifica al cambiar dicho orden. Por ejemplo, cuando decimos que si se usa una muestra sistemática de tamaño n = 3 en la población de la Tabla 3.3 la varianza asociada a la estimación de la media es igual a VAR( x )= 2.272,0, se sobreentiende que nos referimos a la población de hospitales listada en el orden en que aparecen en dicha tabla. Pero si los mismos 15 hospitales se organizaran de otro modo, entonces las 5 muestras posibles de tamaño 3 no son las de la Tabla 4.2 sino otras 5 (dependientes de la organización específica del listado original) y, consecuentemente, otro sería el valor de VAR( x ). Por ejemplo, si ordenamos la misma población de hospitales de menor a mayor según número de médicos, las muestras posibles y las estimaciones correspondientes serían las que se muestran en la Tabla 4.3. Obsérvese que, en este caso, los posibles valores de x se parecen entre sí, y son a su vez más próximos a X = 200. La varianza de x es ahora igual a 2.134,5, desde luego inferior a 2.272,0 (ya que el ordenamiento impuesto fuerza a que cada una de las muestras posibles «recorra» la población), y menor por tanto que la varianza correspondiente al MSA (3.702,9). Otras ordenaciones producirán, sin embargo, que Var( x ) sea mayor que este último valor. De hecho, existe un interesante resultado teórico al respecto, que se puede enunciar del modo siguiente (Madow y Madow, 1944):

134

DISEÑO RAZONADO DE MUESTRAS

Tabla 4.3. Estimaciones de X para cada una de las muestras de tamaño 3 que pueden obtenerse por MS de la población descrita en la Tabla 3.3, pero ordenada de menor a mayor

Si consideramos los N! ordenamientos posibles de una población de tamaño N, y llamamos Vsys(i) a la varianza de x para un MS en la i-ésima de esas poblaciones, entonces: 1 N! ∑ Vsys (i ) = VarMSA ( x ) N ! i =1 donde VarMSA ( x ) es la varianza de x en el caso del MSA. Se trata de un teorema sin interés práctico directo que resalta que no hay una varianza única de x asociada a la población (independiente del orden que tengan sus elementos) y, sobre todo, que el MS es equivalente «en promedio» al MSA si consideramos todos los posibles ordenamientos.

4.6. Una advertencia académica Supongamos que tenemos un campo con 45 árboles de naranja que se halla ubicado entre un riachuelo y una carretera, tal y como se bosqueja en la Figura 4.2. Se quiere una muestra de árboles para estimar qué porcentaje de ellos está infestado por cierta plaga de insectos. Supongamos que la humedad sea favorable a la plaga, así como que el monóxido de carbono que despiden los vehículos automotores sea, por el contrario, hostil al hábitat de los insectos. En la figura, los árboles sombreados son los que padecen la plaga; en concordancia con las condiciones antes señaladas, los árboles próximos al río están infestados en su inmensa mayoría, y los que se hallan cercanos a la carretera están casi totalmente libres de infección. Supongamos ahora que los árboles se numeran verticalmente como se señala en la Figura 4.3, así como que se ha decidido tomar exactamente 1 de cada 5 árboles

MUESTREO SISTEMÁTICO

135

Figura 4.2. Representación de un terreno con árboles infestados y no infestados.

Figura 4.3. Representación de una muestra sistemática de árboles ordenados verticalmente (K − 5; r = 1).

136

DISEÑO RAZONADO DE MUESTRAS

entre los 45 que existen. En tales circunstancias, si el arranque elegido fuese r = 1 , entonces la muestra estaría formada por los nueve naranjos que se hallan a la vera de la carretera, de modo que se llegaría a la estimación de que la plaga alcanza al 100% de los árboles (Figura 4.3). Si r = 5, entonces tendríamos la otra estimación extrema: 0%. Otros valores de r darían lugar a valores menos aberrantes. El ejemplo aporta una elegante y sugestiva ilustración del efecto nefasto que podría derivarse de una organización cíclica de la población. Sin embargo, la situación es de ciencia ficción. La vida es, desde luego, mucho más rica y florida que la situación elaborada (arduamente) en la construcción precedente. Nótese que para que se produzca la situación descrita no sólo se necesita una realidad encartonada y uniforme hasta extremos exagerados, sino que además el muestrista tendría que sumarse a la confabulación tomando exactamente las decisiones necesarias para que se produzca el problema: basta con que, en lugar de k = 5 se hubiese tomado k = 6 (Figura 4.4), o manteniendo K = 5, que los árboles se hubiesen numerado de otro modo (digamos, de izquierda a derecha, Figura 4.5) para que las muestras posibles tuviesen otro aspecto totalmente diferente. Es decir, incluso en una situación de por sí insólitamente desfavorable, el MS habrá de producir regularmente muestras perfectamente aceptables. El ejemplo que he ideado es del tipo de los que clásicamente se invocan para alertar acerca del «peligro» que puede esconderse detrás del MS. Típicamente, la

Figura 4.4. Representación de una muestra sistemática de árboles ordenados verticalmente (K= 6; r= 1).

MUESTREO SISTEMÁTICO

137

Figura 4.5. Representación de una muestra sistemática de árboles ordenados horizontalmente (K = 5 ; r = 1).

organización de los listados con que objetivamente se trabaja en la práctica habrá de ser ajena a cualquier ciclicidad u otro rasgo que haga superior al primer método respecto del segundo, a los efectos de la precisión de los estimadores. Es decir, si bien teóricamente se pueden producir tanto ordenamientos más favorables (para los que cada una de las muestras posibles exhiben gran variabilidad interna) como ordenamientos muy desfavorables (para los que las muestras posibles son todas, o en su mayoría, internamente homogéneas y, por ende, poco representativas), en la práctica tales regularidades no se presentan casi nunca. Consecuentemente, en general, los valores de VAR( x ) para MS y para MSA no serán muy diferentes. A nuestro juicio, es importante subrayar esta circunstancia, ya que el peligro inherente a un presunto comportamiento periódico de ciertas variables ha sido advertido en algunos textos, cuando en realidad no se trata más que de una posibilidad de interés casi exclusivamente académico. El problema, no obstante, es real, y podría presentarse aunque sea por excepción. De hecho, tras muchos años de experiencia en esta materia, sólo conozco un ejemplo de este tipo, y es tan obvio que no parece necesitar de un marco teórico que nos ayude a precavernos. Se trata del caso en que las unidades de muestreo son días de cierto año. Supongamos que aquellos días elegidos de un calendario serán los señalados para estudiar la asistencia de pacientes a un cuerpo de guardia (por ejemplo, para estimar el porcentaje de «urgencias verda-

138

DISEÑO RAZONADO DE MUESTRAS

deras»). Si la elección fuera sistemática con intervalo k = 7, entonces todos los días de la muestra serían iguales en cuanto a su ubicación dentro de la semana (todos serían lunes, o todos martes, etc.). Puesto que el número de urgencias verdaderas guarda cierta ciclicidad a lo largo de la semana (es mayor, por ejemplo, los sábados que los lunes), la muestra estaría claramente sesgada. Es fácil reparar, sin embargo, en que la mencionada dificultad quedaría anulada tan pronto se tome otro intervalo de selección. Por ejemplo, bastaría tomar K = 6 o K = % para producir el efecto completamente opuesto: cualquier muestra contendría representación de todos los días de la semana en similar o, incluso, igual proporción.

4.7. Aplicaciones del muestreo sistemático El muestreo sistemático adolece de un problema notable: a diferencia del muestreo simple aleatorio, es formalmente imposible computar los errores asociados a las estimaciones a partir de la muestra utilizada para la obtención de estas últimas. Ello se debe a que la fórmula [4.3] no puede ponerse en función de un parámetro poblacional susceptible de ser estimado con la propia muestra, como ocurría con S2 en MSA. Los métodos de muestreo que presentan esta carencia se denominan no mensurables. Tal deficiencia invalidaría, en principio, el uso del muestreo sistemático, si es que se desea estimar la magnitud de los errores de muestreo a que da lugar. Para superar este escollo teórico, lo que se hace es utilizar los resultados correspondientes al MSA aunque se haya practicado un MS. Vale decir: cuando se utiliza el MS en el acto de selección, tanto el tamaño de la muestra como las estimaciones de los parámetros y de los errores se calculan como si se fuese a utilizar o se hubiese utilizado un MSA. Esta línea de actuación se fundamenta en el hecho de que, en la mayoría de las situaciones prácticas, el orden del listado es esencialmente equivalente al que resultaría tras una permutación aleatoria, en cuyo caso, desde luego, es lo mismo elegir una MS que una MSA. Un rasgo singular del MS, como ya se consignó, consiste en que, a diferencia del caso en que se emplea MSA, no siempre hace falta tener explícitamente y de antemano un listado como tal de las unidades de análisis. Por ejemplo, si se desea una muestra de altas hospitalarias correspondientes a cierto año en determinado hospital y el estudio se está planificando en algún momento del año anterior al de su desarrollo, entonces obviamente se desconocen los individuos específicos que integrarán la población de interés (o sea, la población de sujetos que habrán de recibir el alta en el hospital); no se sabe siquiera el número de elementos que tendrá dicha población. Es imposible, por tanto, delimitar los integrantes de la muestra a través de un MSA. Sin embargo, como es obvio, puede establecerse

MUESTREO SISTEMÁTICO

139

algún sistema que permita dar una ordenación consecutiva a los pacientes que van a ir recibiendo el alta, y prestablecer con toda precisión los elementos que integrarán una muestra sistemática de esa futura población de altas. Digamos que se desea una muestra de 480 individuos y que, con acuerdo a la experiencia previa, se presume que el número de altas que se habrán de producir a lo largo del año entrante ascenderá a unos 3.200 pacientes; se calcula 480 Entonces f = = 0,15 , lo que significa que debe seleccionarse aproxima3.200 damente el 15 % de la futura población. Es fácil ver que en este caso no hay ningún entero cuyo inverso sea igual o muy cercano a 0,15; pero se puede aplicar el método de selección en dos fases. En la Tabla 4.1 vemos que basta tomar un sujeto de cada 6 y eliminar uno de cada 10 altas así seleccionadas. Tomando un arranque entre 1 y 6 (r = 3, por ejemplo) y otro entre 1 y 10 (digamos r = 8), es fácil conformar el listado de individuos −identificados por los lugares correspondientes− que habrán de seleccionarse. De antemano se sabría, por ejemplo, que los individuos que ocupen los lugares 3, 9, 15, 21, 27, 33, 39, 51, 57 y 63 en el orden de altas serían los primeros 10 sujetos que habrán de incorporarse a la muestra. Este listado de sujetos previstos para ser encuestados y que conforman la futura muestra puede extenderse tanto como se desee. Como se ignora el número exacto de elementos de la población que se habrá de conformar a lo largo del año próximo, puede confeccionarse el listado de sujetos llamados a ser seleccionados usando un supuesto número de altas mucho mayor que lo que razonablemente cabe esperar, por ejemplo, 4.000 (en lugar de 3.200). De tal suerte, si en realidad se produjesen, digamos, 3.425 altas a lo largo del año, la muestra, naturalmente, no contendrá 480 individuos, sino 514, pero todas las altas tendrían probabilidad igual a 0,15 de integrarla (en tal caso, los números que identifican la muestra y que estén entre 3.426 y 4.000, simplemente se ignorarían). Debe señalarse que el procedimiento de selección sistemática es utilizado como sustituto del MSA en el contexto de otros procedimientos más complejos que tienen este último método incorporado en algunas de sus etapas. Tal es el caso del muestreo aleatorio estratificado y el del muestreo por conglomerados, que serán objeto de atención en los próximos capítulos.

Bibliografía Kish L. Survey sampling. New York: Wiley, 1965. Fariñas H, Silva LC. Selección equiprobabilística mediante muestreo sistemático para una probabilidad prefijada. Revista Investigación Operacional 1984; 5: 51-77. Madow WG, Madow LH. On the theory of sistematic sampling. Annals of Mathematical Statistics 1944; 15: 1-24.

5 Muestreo aleatorio estratificado El MSA, introducido y desarrollado en el Capítulo 3, es una técnica de selección que reposa exclusivamente en el azar. Sin embargo, como ya se examinó detenidamente en la Sección 1.9, el azar no es una garantía de representatividad. Supongamos que en la población bajo estudio pueden identificarse diferentes grupos de elementos cuya representación en la muestra quisiera asegurarse (por ejemplo, diferentes grupos ocupacionales en un estudio de salud laboral). La manera natural de lograrlo es conformar listados separados para cada uno de dichos grupos y seleccionar submuestras dentro de cada uno de ellos. Actuando de esa manera, no sólo se asegura la representación de cada grupo en la muestra, sino que se puede controlar de antemano qué parte de la muestra habrá de proceder de cada uno de ellos. La idea subyacente en esa estrategia es la misma que se asocia a la búsqueda de representatividad: hacer que la muestra resulte tan variable como sea la población. Para llevar a la práctica este tipo de selección es necesario contar con una información previa sobre la población que permita tanto la definición de los grupos mencionados como la confección de listados de los elementos correspondientes a cada subconjunto. Antes de discutir con detalle esta alternativa, detengámonos en un ejemplo introductorio.

5.1. Necesidad de ponderaciones Consideremos una fábrica que cuenta con 1.000 trabajadores: 900 mujeres y 100 hombres. Supongamos que el 80% de los hombres y el 10% de las mujeres fuman, de modo que el porcentaje general de fumadores asciende a 17,0% (es decir, P = 0,17), como se aprecia tras un simple cálculo aritmético. Pero supongamos momentáneamente que esos datos se ignoran, y que se quiere estimar dicho porcentaje general de fumadores mediante muestreo.

142

DISEÑO RAZONADO DE MUESTRAS

Supongamos que para ello se selecciona una muestra de tamaño 100 conformada por 50 mujeres y 50 hombres, en ambos casos elegidos al azar, y que los resultados son los siguientes: 38 hombres y 6 mujeres de la muestra son fumadores (datos compatibles con los porcentajes reales, aunque para el muestrista estos últimos sean desconocidos). La muestra contiene por tanto 44 fumadores en total. De modo que el porcentaje muestral es igual a 44%, resultado de dividir 44 entre el tamaño muestral. Supongamos, finalmente, que ése es el número que se da en calidad de estimación; es decir, que se infiere que el 44% de los trabajadores son fumadores. Obviamente, tal conclusión es bastante disparatada, ya que el porcentaje real de fumadores era 17. ¿Qué ha ocurrido? ¿En qué consistió el error cometido? Una primera reacción podría llevarnos a atribuir el error al hecho de «no haber tomado una muestra representativa en términos de género, ya que hay una sobrerrepresentación masculina y los hombres de esta fábrica fuman más que las mujeres». Sin embargo, ello no constituye error alguno. El error se comete en el momento en que se hace la extrapolación de la muestra al universo; es decir, cuando se dice que el hallazgo de un porcentaje muestral de 44% permite inferir que éste será el porcentaje poblacional. Un enfoque elemental (aplicando un par de veces la «regla de tres») conduce a estimar que el 76% de los hombres de la fábrica y el 12% de sus mujeres −es decir, 76 y 108 trabajadores de los respectivos géneros− son fumadores. Vale decir, se infiere que 184 de los 1.000 obreros son fumadores, para una estimación del 18,4%. Evidentemente, la estimación está mucho más próxima de P = 0,17 que la proporción muestral p = 0,44. Lo ocurrido fue que la muestra se trató como si fuera un MSA o un MS, cuando en realidad ésta ni siquiera era equiprobabilística. En efecto, la probabilidad que tuvo cada mujer de ser elegida fue igual a f1 =

n1

N1 n 50 de cada hombre fue 9 veces mayor: f 2 = 2 = = N 2 100

= 1 2

50

900 .

=

1

18

, mientras que la .

La moraleja fundamental que se extrae de esta ilustración es que, cuando la muestra no se ha elegido mediante un procedimiento que otorgue la misma probabilidad de inclusión a todas las unidades de análisis, entonces las estimaciones no pueden realizarse miméticamente, como se haría en un MSA (estimar la media o el porcentaje poblacionales a través de la simple media o porcentaje muestrales), sino que es menester introducir ponderaciones. Procede intercalar aquí una fórmula general (válida para cualquier diseño muestral) que produce una estimación adecuada de la media poblacional. Ésta es: n

Xˆ ω =

∑ ωi xi

i =1 n

∑ ωi

i =1

[5.1]

MUESTREO ALEATORIO ESTRATIFICADO

donde ωi =

1

πi

143

y π i es la probabilidad de inclusión que correspondió a la i-ésima

unidad muestral. Es inmediato que si el procedimiento fuera equiprobabilístico, entonces ωi sería constante, y xω se reduciría a la media muestral. La fórmula [5.1], como ya se dijo, es completamente general, de modo que «funcionará» también en el ejemplo que nos ocupa. Si se repara en que ωi = 18 para las 50 mujeres de la muestra y ωi = 2 para los 50 varones, resultará fácil advertir que: 18∑ xi + 2 ∑ xi i∈M xω = i∈H 1.000 donde H representa el subconjunto muestral de hombres y M lo propio para las mujeres. Finalmente, si se define 1 si el sujeto fuma xi = 0 si el sujeto no fuma entonces se llega al mismo número obtenido antes: X ω = 0,184 .

5.2. Estratificación y representatividad Con el fin de obtener una muestra que tenga en sí una variabilidad similar a la de la población, lo ideal sería conseguir que los subconjuntos en que ella se divide fuesen internamente homogéneos y −consecuentemente− diferentes o heterogéneos entre sí. Para ilustrar estas ideas supongamos que se quiere investigar la morbilidad bucal de los escolares de una ciudad y que los investigadores saben que los patrones morbosos dependen en buena medida del nivel cultural de los padres. De modo que, para tener un cuadro real de la magnitud y la estructura del problema, sería conveniente examinar escolares procedentes de los diversos «estratos socio-económicas» de la población. En lugar de obtener un listado global de todos los escolares, el muestrista podría procurarse listas separadas de niños según distintas zonas de la ciudad, escogidas éstas de manera que cada una se identifique a grandes rasgos con uno de los estratos socio-económicas considerados. Con el marco muestral así dividido, se procede a la selección de niños dentro de cada listado separadamente. De tal suerte, la muestra contendrá niños de todos los grupos diferentes1. 1

Ésta es una estratificación indirecta. Es evidente que resultaría utópico plantearse la obtención de listas directamente conformadas por niños de cada estrato, ya que no es realista la aspiración de clasificar a cada niño según una «escala socio-económica» previamente confeccionada.

144

DISEÑO RAZONADO DE MUESTRAS

En la ilustración del párrafo precedente se ha utilizado el término «estrato socio-económico», procedente del lenguaje común, por su connotación semántica en el sentido de aludir a un grupo homogéneo en algún sentido. Cuando se aplica este tipo de muestreo, los grupos en que se divide la población son conocidos como estratos. Cuando para seleccionar los sujetos dentro de los estratos se utiliza un procedimiento en que interviene el azar, se dice que se aplica un muestreo aleatorio estratificado (MAE). En lo sucesivo se asumirá que el método de selección practicado dentro de cada estrato es muestreo simple aleatorio o, equivalentemente, muestreo sistemático.

5.3. Procedimientos de estimación Como antes, supondremos que la población se compone de N elementos y que se quiere seleccionar una muestra de tamaño n. Ahora se supone que este universo está dividido en L estratos de tamaños N1, N2, ..., NL cuya suma es, desde luego, igual a N. Se denota por nh, al tamaño de la muestra seleccionada en el estrato h, de modo que la suma n1 + n2 + … + nL será el tamaño total n de la muestra. La Figura 5.1 muestra la estructura general del MAE usando un ejemplo en que se habrían construido L = 5 estratos. Para cierta variable X llamaremos respectivamente xh y sh2 y si a las estimaciones de la media y la varianza dentro del h-ésimo estrato. Estos valores se computan con las mismas fórmulas usadas en muestreo simple aleatorio ( x y s2), pero ahora dentro de cada estrato con los nh elementos allí seleccionados.

Figura 5.1. Representación de una muestra aleatoria estratificada.

MUESTREO ALEATORIO ESTRATIFICADO

145

n Análogamente, se pueden definir f h = h , la fracción de muestreo en ese esNh a estrato; y ph = h la fracción de individuos que tienen cierta característica en nh el estrato h, donde ah es el número de individuos de la muestra con ese rasgo en dicho estrato. Un estimador insesgado de la media poblacional X viene dado por la fórmula siguiente: L [5.2.] xI = ∑ Wh xh h =1

donde Wh =

Nh N

es un número no negativo y no mayor que uno, el cual refleja

qué parte (o porcentaje, si se multiplica por 100) de la población corresponde al L

estrato h. Obviamente, ∑ Wh = 1. h =1

Es fácil convencerse de que xI no es igual a la media muestral. De hecho, xI es una media ponderada de las medias x1 , x2 , ..., xL procedentes de los estratos, con W1, W2, ..., WL como ponderaciones. Del mismo modo, la estimación de una proporción P se realiza mediante el estimador insesgado correspondiente: L

pI = ∑ Wh ph

[5.3]

h =1

De hecho, [5.2] y [5.3] son formas particulares que asume la fórmula general [5.1] para el caso del MAE. Nótese, sin embargo, que [5.1] es una media ponderada de individuos mientras que [5.2] es un promedio ponderado de medias, aunque en este caso particular resultan ser expresiones algebraicas equivalentes. El ejemplo de la fábrica desarrollado en la sección anterior constituye, obviamente, una ilustración del MAE. Allí teníamos:

Al aplicar [5.3], tenemos:

PI = (0,1)

como era de esperar.

38 50

+ (0, 9)

6 50

= 0,184

146

DISEÑO RAZONADO DE MUESTRAS

El ejemplo ilustra no sólo que p, no coincide con p, sino también cómo, en ciertas circunstancias, el uso de la simple fracción muestral sería totalmente erróneo a la vez que el estimador insesgado p, está en principio libre de objeción. Para que un diseño basado en MAE sea equiprobabilístico debe cumplirse la siguiente condición: n

f1 = f 2 = ... = f L ≡ f =

nh

Dicho de otro modo, debe ocurrir que

=

Nh

[5.4]

N

n N

para todo h. En ese caso (y

sólo en ese caso), se tendrá xI = x y pI = p. La condición [5.4] aparece implícitamente en la formulación siguiente: en el contexto del MAE, la media muestral es un estimador insesgado de X si y sólo si se cumple que el tamaño muestral n se ha repartido entre los diferentes estratos de manera proporcional a sus tamaños. Para calcular los errores de muestreo asociados a los estimadores en este diseño, basta advertir que la selección muestral es independiente dentro de los estratos (la elección que resulte en uno no influye en cuáles sean los elementos elegidos en otro) y recordar de la teoría de probabilidades que:

(

)

L

L

VAR ∑ α h Z h = ∑ α h2VAR ( Z h ) h =1

h =1

donde α1, α2, ... αL son constantes cualesquiera, siempre que Z1, Z2, …, ZL sean variables aleatorias independientes. En el caso que nos ocupa: L

sh2

h =1

nh

var( xI ) = ∑ Wh2

(1 − f h )

[5.5]

y L

p h qh

h =1

nh − 1

var( pI ) = ∑ Wh2

(1 − f h )

[5.6]

ya que en cada estrato la selección se ha verificado mediante MSA, y sólo se trata de usar las fórmulas [3.6] y [3.12] dentro de cada sumando. No es difícil ver ahora que si se cumple la condición de proporcionalidad [5.4], las expresiones [5.5] y [5.6] se simplifican, y pasan a ser: var( x ) = var( p ) =

(1 − f ) n

(1 − f ) n −1

L

2

∑ Wh sh

[5.7]

∑ Wh ph qh

[5.8]

h =1 L

h =1

MUESTREO ALEATORIO ESTRATIFICADO

donde f =

n N

147

es la fracción general de muestreo (coincidente, en este caso, con

las fracciones de muestreo de los estratos). Al examinar la expresión de var( xI ) se observa que la precisión del estimador aumenta si crecen los valores de nh, y que dicha precisión es más alta en la medida que las varianzas sh2 sean menores. Tales resultados, además de ser lógicos, confirman la aseveración general que se hiciera cuando estudiamos el MSA, en el sentido de que, cualquiera fuese el diseño, ésa sería la relación entre variabilidad, tamaño muestral y precisión. Por otra parte, nótese que la fórmula de la varianza tiene sumandos dentro de los cuales se hallan los respectivos valores que estiman la variabilidad interna de los estratos (los sh2 ). En la medida que se haya logrado construir estratos internamente homogéneos, estas varianzas serán pequeñas, y el aporte de los diferentes sumandos a la varianza general también lo será. Esto quiere decir que la fórmula refleja la situación que, en definitiva, condujo a la estratificación: cuanto más homogéneos sean los estratos, más precisas resultarán las estimaciones producidas por este sistema de selección. Debe consignarse, sin embargo, que la ganancia de precisión producida por el MAE respecto del MSA suele ser modesta, particularmente en el caso de la estimación de porcentajes. Excepcionalmente, incluso (véase ejercicio 5.3 del Capítulo 5 de Hansen, Hurwitz y Madow, 1953) puede ocurrir que el MAE llegue a ser menos preciso que el MSA. Por otra parte, en general resulta muy poco frecuente que la situación práctica consienta la conformación de estratos eficientes. Para calcular intervalos de confianza para X o para P es necesario estimar el error asociado a la estimación puntual realizada. Como es usual, según el caso, se calculan: e = (1, 96) var( xI )

o e = (1, 96) var( pi )

5.4. Dos ejemplos ilustrativos En esta sección se exponen dos ejemplos de naturaleza diferente. El primero se basa en la misma ilustración de los hospitales y los médicos introducida en la Sección 3.4, y tiene idéntico propósito: aprovechar un caso artificial en que se conoce toda la población con el fin de examinar las propiedades y los fundamentos del método. El segundo concierne a un problema de índole práctica.

148

DISEÑO RAZONADO DE MUESTRAS

Supongamos que para la población de la Tabla 3.3 se quiere estimar X mediante una MAE de tamaño n = 2, donde n1 = n2 = 1, y que dicha población se ha dividido en L = 2 estratos de la manera que se recoge en la Tabla 5.1: Tabla 5.1. Estratos formados para la población de 15 hospitales de la Tabla 3.3

Tenemos, por lo tanto, L = 2, N = 15, N1 = 7 y N2 = 8. Puesto que las muestras tienen que constituirse mediante un hospital de cada estrato, sólo 56 de los 105 subconjuntos posibles de tamaño dos pueden resultar elegidos como muestra (resultado de multiplicar 7 por 8). Las posibles muestras y las estimaciones para el caso en que se emplea la media maestral se resumen en la Tabla 5.2. Tabla 5.2. Medias muéstrales para cada una de las muestras de tamaño n = 2 que pueden obtenerse por MAE de la población descrita en la Tabla 3.3 con los estratos de la Tabla 5.1

Nota: Entre paréntesis aparece el número que identifica a cada hospital, y al lado el número de médicos.

Si se promedian los 56 números de la Tabla 5.2, se obtiene el valor 194,6. Como se ve, el promedio de las medias muéstrales no coincide con la media poblacional X = 200 pues, como ya sabemos, la media muestral no es un estimador insesgado en ausencia de equiprobabilidad. En este caso, la distancia entre 1 56 ∑ xh y X a diferencia del ejemplo de la fábrica de la Sección 5.1, es 56 h =1 pequeña, debido a que la disparidad de las probabilidades de inclusión entre

MUESTREO ALEATORIO ESTRATIFICADO

149

diferentes estratos no es tan acusada: si bien no se cumple la condición de proporcionalidad, ya que las dos fracciones muéstrales no coinciden 1 y f 2 = ) , la diferencia entre ellas dista de ser apreciable. 7 8 En la Tabla 5.3 se vuelven a calcular las 56 estimaciones posibles, pero empleando la fórmula [5.2], que en este caso se reduce a: ( f1 =

1

xIj =

7 15

x1 j +

8 15

x2 j

donde {x1j, x2j} sería la j-ésima muestra posible. Tabla 5.3. Estimaciones de X según la fórmula [5.2] para cada muestra de tamaño 2 que pueden obtenerse por MAE de la población descrita en la Tabla 3.3 con los estratos definidos en la Tabla 5.1

Nota: Entre paréntesis aparece el número que identifica a cada hospital, y al lado el número de médicos.

En este último caso, la media de las 56 estimaciones sí coincide, naturalmente, con el parámetro X = 200, con lo cual se corrobora el carácter insesgado de xI . Si se calcula la varianza de este último conjunto de 56 estimaciones, se obtiene:

VAR ( xI ) =

1

56

2 ∑ ( xIj − X ) = 2.822, 7

56 j =1 donde xIj denota la j-ésima media ponderada entre las 56 estimaciones posibles. Por otra parte, en la Sección 3.4 habíamos obtenido que la varianza de x por MSA de ese mismo tamaño (n = 2) era igual a 6.017,1, un número más de dos veces mayor; o sea, con la estratificación planteada2 la varianza se reduce a la mitad. 2 Obsérvese que ésta es la estratificación óptima, ya que no hay otra manera de formar dos estratos con esos tamaños de modo que resulten internamente más homogéneos.

150

DISEÑO RAZONADO DE MUESTRAS

Es evidente que en la práctica el criterio de estratificación no puede ser, como se ha hecho en este ejemplo, el de agrupar directamente los elementos de la población según los valores de la propia variable que se estudia, puesto que tales valores se desconocen. Como ya se consignó antes, lo que se pudiera hacer es buscar alguna variable de clasificación correlacionada con las que se estudian y utilizarla para llevar adelante la ubicación en estratos. Esto es, precisamente, lo que se ilustra con el siguiente ejemplo. Supongamos que se tiene un listado de 1.825 pacientes hospitalizados durante cierto periodo en un hospital y que se quiere conocer, entre otras medidas de eficiencia, el tiempo promedio de estancia en dicho centro. Se conoce que en cierta fecha empezó a regir un conjunto de medidas administrativas presuntamente influyentes en la variable de interés. Puesto que el listado está organizado cronológicamente por fechas de alta, resulta fácil dividirlo en dos estratos: 1.200 pacientes que recibieron el alta antes de la fecha en cuestión, y 625 que la recibieron después. Se planifica tomar una muestra con la misma asignación en los estratos (de 60 individuos en cada uno), y estimar el parámetro a través de los 120 datos tomados de las hojas de alta que se hallan en las historias clínicas. En resumen, se tiene: L = 2 N = 1.825 N1 = 1.200 N 2 = 625 W1 = 0, 66 W2 = 0, 34 n1 =60 n2 =60 n =120

Supongamos que los resultados (días de estancia del i-ésimo paciente de la muestra correspondiente al h-ésimo estrato) se resumen del modo siguiente: 60

60

60

60

i =1

i =1

i =1

i =1

2 2 ∑ xi (1) = 624, ∑ xi (2) = 346, ∑ xi (1) = 8.249, ∑ xi (2) = 3.869

donde xi(1) denota el i-ésimo elemento del primer estrato y xi(2) el del segundo. De aquí, aplicando [5.2], se obtiene que: x1 = W1 x1 + W2 x2 = 8,82

O sea, se estima que el tiempo medio de estancia fue de 8,82 días, cifra diferente, desde luego, a la media muestral simple, que sería igual a:

( 624 + 346 ) = 8, 08 ( 60 + 60 ) Para aplicar ahora la fórmula [5.5] hace falta computar las estimaciones de la varianza dentro de los estratos: s12 = 28,8

s22 = 31,8

MUESTREO ALEATORIO ESTRATIFICADO

151

Como f1 = 0,050 y f2 = 0,096, sustituyendo en [5.5] se tiene: var( xI ) = (0, 66) 2 (0, 950)

28,8 60

+ (0, 34) 2 (0, 904)

31,8 60

= 0, 2540

El error absoluto estimado, con un 95% de confiabilidad, es entonces igual a

e = (1, 96) 0, 2540 = 0, 95 , de modo que los límites de confianza para X son: 8,82 − 0,95 = 7,87

y

8,82 + 0,95 = 9,77.

Podríamos decir entonces que estamos confiados en que el tiempo medio de estancia es un número que se halla entre 7,9 y 9,8 días.

5.5. Complementos del muestreo aleatorio estratificado 5.5.1. Asignación de tamaños muestrales a los estratos Al aplicar un MAE, una vez que se ha determinado el tamaño n, es necesario determinar cómo va a distribuirse ese tamaño entre los L estratos; o sea, debe decidirse el modo en que se dividirá el tamaño general n en los tamaños n 1 , n 2 ,...,n L correspondientes a los estratos respectivos. A tal proceso se le llama asignación de tamaños muéstrales a los estratos. Ya se había considerado la asignación proporcional, resumida a través de la fórmula [5.4] (la más comúnmente usada), la única que produce una muestra equiprobabilística. Sin embargo, esta asignación no es necesariamente la más eficiente; es decir, no es el modo de repartir el tamaño muestral que da lugar a menor varianza de los estimadores. Intuitivamente, no es difícil sospechar que si la fracción de muestreo es mayor en los estratos con varianzas mayores que en los menos variables, para un mismo tamaño general de la muestra, la precisión aumentará. Puede demostrarse (Yamane, 1970) que la varianza de xI se hace mínima si n se desagrega en sumandos proporcionales al producto del tamaño del estrato por la raíz cuadrada de su varianza. Dicho de manera resumida: la manera óptima de asignar tamaños muéstrales a los estratos a partir de un tamaño muestral general igual a n, es definir nh del modo siguiente: N S [5.9] nh = n L h h ∑ N h Sh h =1

A tal manera de asignar los tamaños muéstrales se le denomina asignación de Neyman, debido a que fue conocida inicialmente cuando la expuso Neyman (1934), aunque luego se supo que su descubrimiento se había producido 11 años antes (Tschuprow, 1923).

152

DISEÑO RAZONADO DE MUESTRAS

Naturalmente, para aplicar la asignación [5.9] es necesario conocer todos los valores de S h2 , además de los tamaños de los estratos; esto es, hablando estrictamente, imposible. Sin embargo, tal como ocurría al calcular el tamaño de muestra en MSA (Sección 3.7), podría recurrirse supuestamente a procedimientos que permitan una aplicación aproximada de la asignación. Todo esto es, sin embargo, algo de interés esencialmente académico: en la práctica, de las pocas veces que se emplea el MAE directamente a las unidades de análisis, casi siempre se aplica la asignación proporcional; es decir, salvo raras excepciones, nunca se emplea otro tipo de asignaciones. Además de las limitaciones impuestas por la carencia de la información necesaria, nótese que cada parámetro de interés exigiría su propia asignación (un estrato puede ser muy variable para cierta dimensión X y homogéneo para otra X*); pero en la práctica sólo puede haber una asignación, puesto que se selecciona una única muestra. En rigor, esta advertencia es más pertinente cuanto más alambicados sean los procedimientos sugeridos. Muchos de ellos son quizás más interesantes teóricamente, pero proporcionalmente más estériles en la práctica (véase, por ejemplo, Bearwood, Holton y Hammersley, 1959).

5.5.2. Tamaño de muestra El enfoque que procede utilizar para determinar el tamaño de muestra necesario sería esencialmente el mismo que se introdujo en la Sección 3.7: identificar n tal que el error L

E = (1, 96) ∑ Wh2VAR ( xh ) h =1

no exceda cierta magnitud prefijada, y despejar n de esta relación. Sin embargo, una estrategia razonable sería la de actuar, sin más trámite, como si se tratara de un MSA. Por una parte, difícilmente se encuentran datos para aplicar las fórmulas resultantes (en particular, el conocimiento previo de las varianzas dentro de los estratos difícilmente serían otra cosa que el resultado de un acto de especulación) y, por otra, las fórmulas del MSA en la práctica siempre producirán tamaños mayores, de modo que empleándolas no habría riesgos de trabajar con tamaños insuficientes.

5.5.3. Número de estratos Aunque se han conseguido algunos desarrollos teóricos destinados a guiar al muestrista acerca del número óptimo de estratos que debe construir (véase Cochran, 1977), las sugerencias más útiles −a nuestro juicio− provienen de la

MUESTREO ALEATORIO ESTRATIFICADO

153

experiencia práctica acumulada. Parece indiscutible la conveniencia de evitar la consideración de estratos muy pequeños y, en general, se ha sugerido tomar L entre 3 y 10 con el fin de lograr una ganancia apreciable de precisión.

5.5.4. Postestratificación Una posibilidad ocasionalmente practicable consiste en realizar estimaciones teniendo en cuenta estratos poblacionales aunque la estratificación formal no haya intervenido en el diseño. Es decir, aplicar ponderaciones a pesar de haber seleccionado una MSA o un MS. Si los tamaños Nh se conocieran (por ejemplo, a partir de datos censales, estadísticas oficiales u otra fuentes), se pueden clasificar las unidades a posteriori y aplicar [5.2], donde xh es la media de los sujetos que resulten elegidos dentro del estrato h. El método exigiría que los nh fuesen suficientemente grandes (quizás mayores que 30).

Bibliografía Bearwood J, Holton JH, Hammersley JM. The shortest path through many points. Proceedings of the Cambridge Philosophical Society 1959; 55: 299-327. Cochran WG. Sampling techniques (3rd Edition). New York: Wiley, 1977. Tschuprow AA. On the mathematical expectation of the moments of frequency distributions in the case of correlated observations. Metron 1923; 2: 461-493. Neyman J. On the two different aspects of the representative method: the method of stratified samplign and the method of purposive selection. Journal of the Roy al Statistical Society 1934; 97: 110-114. Yamane T. Elementary sampling theory. La Habana: Editorial R, 1970.

6 Muestreo por conglomerados Para introducir este trascendente método de selección muestral, imaginemos un problema práctico de magnitud tal como el que supone estudiar la anemia en una gran ciudad. Naturalmente, en una situación real de este tipo, donde se pretende seleccionar una muestra de tan vasto universo, nunca se desea estimar un solo parámetro. En la práctica, probablemente, se quieran sondear aspectos tales como la prevalencia por sexos y grupos de edad, o indagar ciertas relaciones como la que pudiera existir entre niveles de hemoglobina en sangre y condiciones socioeconómicas. Sin embargo, para esta discusión supondremos, una vez más, que se trata de un problema simple: la estimación de la prevalencia de anemia como único parámetro de interés. Consideremos la posibilidad de encarar dicho problema a través de un MSA1. Puesto que las unidades de análisis son todos los residentes de la ciudad, el primer requerimiento sería el de conseguir un listado de la totalidad de los individuos que allí residen: una lista que podría llegar a contar con alrededor de 400.000 individuos. Las dificultades para obtener tal información, que incluiría nombres y direcciones, son obvias; dicho más claramente, en condiciones normales, si se deseara que tal lista estuviera realmente actualizada, se estaría ante un escollo simplemente insalvable. Supongamos, no obstante, que éste se ha superado y valoremos las dificultades a que aún estaría abocado el proyecto. Admitamos que se desea una muestra de 2.000 ciudadanos y que se ha concluido el engorroso proceso de identificar 2.000 números aleatorios diferentes entre 1 y, digamos, 402.8062. Ahora nos encontraríamos un panorama desola1

Toda la discusión y el razonamiento que siguen valen también para el caso en que se valore el uso de MS o de MAE. 2 Para no perder realismo se supone que el listado consta exactamente de 402.806 individuos. En la práctica, incluso, el verdadero tamaño N de la población es, virtualmente, imposible de conocer.

156

DISEÑO RAZONADO DE MUESTRAS

dor: al identificar los lugares de residencia de estos 2.000 sujetos, se comprobaría que están dispersos a lo largo y ancho de la ciudad. La mera perspectiva de recorrerla palmo a palmo para tomar muestras de sangre y practicar interrogatorios desalentaría a cualquier investigador con sentido común. En efecto, no tardaría en ser considerada una alternativa tal como la de seleccionar, pongamos por caso, unas 50 de las miles de manzanas que existen y completar la muestra tomando alrededor de 40 sujetos por manzana, consiguiendo así que el esfuerzo se concentre en unos pocos núcleos urbanos pequeños. Evidentemente, una variante de este tipo resultaría mucho más económica. En resumen: ante un problema real de mediana o gran envergadura, no resulta posible la aplicación de un método muestral que opere con un listado de todas las unidades de análisis. La imposibilidad se debe tanto al hecho de que usualmente se carece de una fuente adecuada de la cual obtener tal marco muestral, como a que −aun en caso de que se obtuviese el listado completo− el gasto en que se incurriría para llevar adelante el estudio de una muestra inevitablemente dispersa sería prohibitivo, o muy difícilmente justificable.

6.1. Selección en etapas La solución del problema pasa necesariamente por la selección de la muestra en etapas. La población se divide en cierto número de partes o conglomerados a las que se llama unidades de primera etapa (UPE); cada una de ellas puede a su vez atomizarse en subconjuntos llamados unidades de segunda etapa (USE), y así sucesivamente, hasta llegar a cierta etapa cuyas unidades estén directamente integradas por los sujetos que serán objeto de interrogatorio o medición. La idea estriba, entonces, en seleccionar un número de UPE, luego tomar un conjunto de USE dentro de las que integran las UPE seleccionadas, y continuar «bajando» hasta llegar a seleccionar las unidades de análisis que conformen la muestra final. Ilustremos un proceso de esa naturaleza aprovechando el mismo ejemplo arriba planteado: la ciudad se divide en sectores censales (UPE), los sectores se consideran divididos en manzanas (USE) y éstas en viviendas, las cuales están finalmente integradas por individuos, que son en este caso las unidades de análisis. Supongamos que se seleccionan 40 sectores entre todos los que existen en la ciudad3, y que dentro de cada uno de ellos se toman 5 manzanas; supongamos que se continúa con la selección de 10 viviendas en cada una de las 200 3 De momento, no interesa detenerse en el método de selección empleado, ni para esta ni para las siguientes etapas.

MUESTREO POR CONGLOMERADOS

157

manzanas ya obtenidas y que, finalmente, se escoge un individuo dentro de cada vivienda elegida para determinar así los 2.000 elementos de la muestra. El proceso ha transitado en este caso por cuatro etapas de selección: sectores, manzanas, viviendas e individuos. Un distintivo clave del proceso de selección en el muestreo en etapas consiste en que la necesidad de listados de las unidades de muestreo en una etapa se limita a aquellas unidades seleccionadas en la etapa anterior. Así, en nuestro ejemplo, se necesita un listado de sectores; luego uno de manzanas, pero sólo para los 40 sectores escogidos; en su momento se necesitará un listado de viviendas, pero solamente para las 200 manzanas elegidas en dichos sectores; y finalmente un listado de sujetos para cada una de las 2.000 viviendas seleccionadas. Como es obvio, la conformación de estos listados no puede producirse al unísono, sino que tiene que ser escalonada, ya que en una etapa aún no se conoce qué listados han de ser necesarios en la siguiente. Esto economiza recursos y favorece la agilidad del proceso; por ejemplo, la lista de residentes en una vivienda puede conformarse in situ, cuando ésta sea por primera vez visitada para realizar la encuesta correspondiente. En síntesis: la totalidad de las unidades de análisis está potencialmente contenida en el marco, de manera que todo individuo tiene posibilidades de quedar en la muestra a pesar de que sólo una ínfima parte de ellos llega a ser explícitamente listada (en este caso, los habitantes de las 2.000 viviendas seleccionadas en la tercera etapa y de los cuales se elegirán a la postre los 2.000 sujetos de la muestra). Finalmente, en lo que concierne al acto de toma de información en terreno, las ventajas prácticas y económicas son evidentes. Hasta ahora, sólo se ha expuesto la estructura del diseño. Naturalmente, en cada etapa de selección pueden aplicarse diversos métodos específicos. En las restantes secciones de este capítulo se desarrollan y discuten algunas variantes y se analizan algunos de sus méritos y desventajas relativas.

6.2. Muestreo por conglomerados monoetápico Supongamos que estamos ante una población finita de N elementos (unidades de análisis) dividida en M conglomerados (UPE) cuyos tamaños son N1, N2, …, NM, M

de modo que N = ∑ N i . i =1

Consideremos que se planifica seleccionar una muestra simple aleatoria de m UPE y que la muestra final esté integrada por todas las unidades de análisis contenidas en dichos conglomerados. En tal caso, se dice que se trata de una muestra por conglomerados monoetápica puesto que, en efecto, la selección de ele-

158

DISEÑO RAZONADO DE MUESTRAS

Figura 6.1. Representación de una muestra por conglomerados monoetápica.

mentos de la población se ha verificado en una sola etapa. La estructura de este diseño se ilustra gráficamente (Figura 6.1) con un caso en que M = 11 y m = 3.

6.2.1. Tres rasgos singulares Antes de discutir los problemas de estimación asociados a este procedimiento, detengámonos brevemente en el examen de tres de sus características o propiedades generales. i) El método es equiprobabilístico En efecto, tratándose de una selección simple aleatoria de conglomerados, cam da uno de ellos tiene probabilidad de inclusión igual a f = . Puesto que cada M

unidad de análisis queda automáticamente incluida en la muestra una vez que se selecciona la UPE que la contiene, es evidente que todos los elementos de la población tienen esa misma probabilidad de inclusión. ii) El tamaño muestral es aleatorio El tamaño total de la muestra n es, en este caso, igual a la suma de los que tenm

gan las UPE seleccionadas: n = ∑ N i. Si los tamaños N1, N2, …,nM son difereni =1 tes entre sí (como ocurre en la práctica, casi sin excepción), entonces el valor

MUESTREO POR CONGLOMERADOS

159

de n dependerá de los tamaños de las UPE que resulten seleccionadas. Esta característica constituye una desventaja del procedimiento, ya que imposibilita que se conozca de antemano el número de encuestas que habrán de realizarse, lo cual, a su vez, conspira contra una demanda elemental para la planificación de esfuerzos y recursos. Naturalmente, si los Ni no son muy diferentes, entonces la imprevisibilidad de n no será muy acusada, y esta desventaja queda, a los efectos prácticos, diluida. Debe tenerse en cuenta que, de hecho, nunca el tamaño muestral es exactamente igual al planificado ya que, en el mejor de los casos, se verá afectado en una u otra medida por el hecho de que algunos individuos no responden (la llamada «no respuesta», aspecto tratado con detalle en la Sección 12.4). Resumiendo, la variabilidad del tamaño muestral depende de las diferencias que exhiban los tamaños de las UPE entre sí. Detengámonos en un ejemplo sencillo para ilustrarlo. Supongamos que M = 8 y que los valores de los tamaños de los conglomerados son los siguientes:

Si se plantea llevar adelante un muestreo por conglomerados mediante la selección de m = 3 UPE, ¿cuáles son los valores posibles del tamaño muestral? 3

Por simple inspección de los valores de los Ni, se constata que n = ∑ N i es una vai =1

riable aleatoria cuyo valor mínimo se alcanza cuando resultan seleccionados los conglomerados 2, 7 y 8 (n = 10 + 20 + 20 = 50), y cuyo máximo valor sería el que alcanza si las UPE seleccionadas fueran las correspondientes a los números 3, 4 y 6 (n = 100 + 80 + 140 = 320). O sea, el tamaño muestral puede moverse entre 50 y 320. La distancia entre estas dos cotas constituye una medida rudimentaria de la variabilidad de n, pero −como es natural− pueden usarse medidas más refinadas, como la desviación estándar o el coeficiente de variación; de momento, sin embargo, basta con ésta. Si, en cambio, los valores de los Ni fuesen más parecidos entre sí, entonces la variabilidad del tamaño muestral no sería tan marcada. Por ejemplo, supongamos que los valores fuesen:

En este caso, n queda necesariamente constreñido entre 145 y 215, un recorrido −en efecto− mucho más reducido. En este segundo caso, por tanto, aunque se mantiene el carácter aleatorio del tamaño muestral, su «control» previo es considerablemente mayor.

160

DISEÑO RAZONADO DE MUESTRAS

iii) No es preciso conocer el tamaño poblacional En efecto, otra propiedad (en este caso ventajosa) del procedimiento radica en que no sólo no es necesario tener un listado de las unidades de análisis para realizar la selección, sino que ni siquiera hace falta conocer el tamaño N de la población. La ventaja dimana del hecho de que −como se apuntara en la sección precedente− en la práctica el valor exacto de N se puede conocer sólo en raras ocasiones.

6.2.2. Estimación insesgada y de razón Toca ahora considerar el problema de estimación que se abre cuando se ha realizado un muestreo por conglomerados monoetápico. Llamemos X iT valor acumulado (o total) de X por todas las unidades que integran el conglomerado i-ésimo. Puede demostrarse que: 1 M m T [6.1] xI = ∑ Xi N m i =1 es un estimador insesgado de X . Es importante señalar que la ventaja expresada en el punto iii) de la sección precedente, consistente en que no es preciso conocer N para llevar adelante el proceso de selección, desaparece tan pronto entramos en la fase de estimación: efectivamente, uno de los «ingredientes» que aparecen en [6.1] es el tamaño poblacional. Una variante para la estimación del parámetro X que no demanda conocer N es la de emplear, sencillamente, la media muestral que, en este caso, sería igual a: m

x=

T

∑ Xi

i =1 m

∑ Ni

i =1

A x se le llama estimador de razón, pues es una razón de dos variables aleatorias. A diferencia del caso anterior, la media muestral [6.2] no es insesgada. El sesgo suele ser, sin embargo, despreciable; por tanto, siendo [6.2] mucho más simple y natural que [6.1], lo regular es utilizar x como estimación de X cuando se emplea este tipo de diseño. Huelga extenderse en que la situación descrita abarca el caso de la estimación de una proporción P. Si llamamos X iT al número de aquellos individuos del i-ésimo conglomerado elegido que poseen cierta característica, entonces [6.1] y [6.2] son estimadores (insesgado el primero, con un pequeño sesgo el segundo) de la fracción de individuos con dicha característica en toda la población. Respectivamente, los denotaremos mediante p1 y p.

MUESTREO POR CONGLOMERADOS

161

Consideremos el ejemplo, en extremo simple, de una población con 3 conglomerados (M = 3). Supongamos que se tiene: N1=40

N2=60

N3=100

y que se han contado los sujetos de cada conglomerado que tienen cierto rasgo (por ejemplo, ser mujer) con los siguientes resultados:

X 1T = 10

X 2T = 20

X 3T = 40

La fracción poblacional de mujeres es M

P=

T

∑ X1

i =1 M

∑ Ni

=

70 200

= 0, 35.

i =1

Consideremos ahora todas las muestras posibles de tamaño m - 2 (que se reducen a 3) y sus resultados, los cuales se resumen a continuación:

Es fácil constatar que el promedio de las 3 estimaciones posibles, cuando se emplea el estimador p1, coincide con P; en tanto que el de las estimaciones de razón es igual a 0,344, diferente del parámetro. En resumen, al utilizar el económico procedimiento de muestreo monoetápico, se pueden aplicar dos métodos de estimación: el estimador insesgado [6.1] o el estimador de razón [6.2], más simple y natural Ambos son inconvenientes cuando la variabilidad de los tamaños de las UPE es grande y el primero no puede usarse si −como ocurre con frecuencia− el tamaño poblacional N se desconoce.

6.2.3. Estimación de errores Procede considerar ahora el problema de estimación de los errores. Para el estimador [6.1], la varianza se estima empleando la siguiente expresión:

162

DISEÑO RAZONADO DE MUESTRAS

var( x1 ) =

M 2 S12 N2 m

(1 − f )

[6.3]

donde

f =

m

S I2 =

M

1

m

(

T T ∑ Xi − X

m − 1 i =1

)

2

XT=

1 m

m

T

∑ Xi

i =1

Para el estimador [6.2], la fórmula es: var( x ) =

1− f n

2

m m m ⎡m 2 2 T 2 T ∑ ( X i ) + x ∑ Ni − 2 x ∑ X i Ni ⎤ i =1 i =1 ⎦⎥ m − 1 ⎣⎢ i =1

[6.4]

La fórmula [6.4], sin embargo, es una aproximación cuya validez se subordina al cumplimiento de la siguiente condición4:

m(1 − f ) sI2 < (0, 2) n

[6.5]

Para ilustrar estas fórmulas, consideremos ahora otro ejemplo. Se investigan los certificados de defunción acumulados durante varios años en una oficina central, los cuales se hallan almacenados en 480 paquetes de diferentes tamaños. El número de certificados por paquete oscila entre 50 y 300, pero se desconoce para cada uno de ellos. Supongamos que se cuenta, sin embargo, con el número exacto del total de certificados acopiados durante el lapso que se investiga, el cual asciende a 84.228. Se quiere estimar la proporción P de certificados que contienen algún apartado en blanco, u otro defecto apreciable en su llenado. Supongamos que del total de 480, se seleccionan 20 paquetes mediante muestreo simple aleatorio. Los resultados obtenidos al contar el número de unidades Ni y el de certificados defectuosos X IT en los paquetes elegidos son los que se reflejan en la Tabla 6.1. Los datos de resumen relevantes son: M = 480

f = m

1 24

2 ∑ X i = 488.024

i =1

4

N = 84.228

m = 20

m

n = ∑ Ni = 2.704 i =1

m

T 2 ∑ ( X i ) = 30.715

i =1

m

T ∑ X i = 587

i =1 m

T ∑ X i N i = 113.334

i =1

El coeficiente 0,2 es un número esencialmente arbitrario que se sugiere en Kish (1965).

MUESTREO POR CONGLOMERADOS

163

Tabla 6.1. Tamaños de 20 paquetes de certificados de defunción y número de certificados defectuosos por paquete

A partir de ellos, puede calcularse [6.1]: xi = 0,167 y, aplicando [6.3], se tiene: var( xi ) = 0,001105. Por otra parte, la media muestral, según [6.2], es igual a: x=

587 2.704

= 0, 217

Para evaluar la precisión de esta estimación, se utiliza la fórmula [6.4] y se obtiene var( x )= 0,000622, resultado válido ya que, como es fácil corroborar, en este caso se cumple la condición [6.5]. En resumen, la fracción P se ha estimado, con los mismos datos, por dos vías, y los resultados son los siguientes:

164

DISEÑO RAZONADO DE MUESTRAS

O sea, si se usa el estimador de razón, se concluye que entre el 17% y el 27% de los certificados contienen error, mientras que, por el otro método, se concluiría que dicho parámetro está entre 10% y 22%. Se aprecia, por otra parte, que el estimador de razón produjo aparentemente5 un resultado más preciso, pero también que, incluso en este caso, el error es considerable: asciende a un 5%. En términos relativos, esto representa un 23% de la magnitud estimada del parámetro.

6.2.4. Una incongruencia del estimador insesgado Un caso interesante se produce cuando cada elemento puede clasificarse en K categorías diferentes (K ≥ 2) y se desea estimar la distribución de la población según dichas clases; es decir, estimar las fracciones P1, P2,..., PK correspondientes a cada una de dichas categorías. Si se trabajara con los métodos de selección estudiados anteriormente (MSA, MS o MAE), la estimación de dichas fracciones con cada uno de éstos se podría llevar adelante según las fórmulas correspondientes sin incongruencia alguna; es fácil convencerse, sin embargo, de que en el caso del muestreo por conglomerados monoetápico, al estimar los Pi mediante la fórmula [6.1] se obtienen estimaciones K

Pˆ1 , Pˆ¨2 ,..., PˆK cuya suma no es la unidad: ∑ Pˆi ≠ 1 . Esto es obviamente contrai =1

K

producente, ya que por definición se cumple que ∑ Pi =1 . i =1

Por ejemplo, supongamos que se tiene la siguiente situación: en una escuela que tiene N = 850 alumnos en total, ubicados en M = 26 grupos; se han seleccionado m = 4 de estos grupos, la totalidad de cuyos integrantes fue interrogada sobre diversos aspectos relacionados con accidentes. Una de las preguntas clasificaba a cada alumno en una de K = 3 categorías según número de accidentes sufridos durante el último año: 1) No tuvo accidente alguno. 2) Tuvo sólo un accidente. 3) Tuvo más de un accidente. 5

No podemos estar totalmente seguros de ello, porque sólo contamos con estimaciones de las varianzas y no con las varianzas verdaderas, que son de hecho imposibles de conocer a través de datos muéstrales.

MUESTREO POR CONGLOMERADOS

165

Los resultados fueron:

Al aplicar la fórmula [6.1] a cada categoría se obtiene:

M 1 4 T 26 83 Pˆ1 = ∑ X i1 = 850 4 = 0,63 N m i =1 M 1 4 T 26 10 Pˆ2 = X i2 = = 0,08 ∑ N m i =1 850 4 M 1 4 T 26 5 Pˆ3 = ∑ X i3 = 850 4 = 0,04 N m i =1 La suma de estos tres números es 0,75. De modo que, en caso de que se usara [6.1] para estimar cada una de las fracciones, la distribución porcentual de alumnos según estas tres clases −en que necesariamente se ubica todo elemento de la población− no abarcaría al 100% de la población, sino sólo ¡al 75% de ella! K

Pˆi de las estimaciones insesgadas es En general, es fácil probar que la suma ∑ i =1 m

igual a la unidad si y sólo si se cumple la relación, m = n donde n = ∑ N i . Tal i =1 M N condición, como es obvio, ocurre sólo excepcionalmente. En Silva y Rubí (1983) se discute esta situación aberrante, nunca consignada en textos de muestreo que, sin embargo, se regodean en complicados desarrollos formales sobre los estimadores insesgados. El problema que se ha presentado abarca al caso en que K = 2; es decir, al caso hiperfrecuente en que se estima una simple fracción o proporción. En efecto, en esta situación la anomalía se traduce en el hecho de que Pˆ ≠ 1 − Qˆ supuesto que tanto P como su complemento Q se estiman mediante [6.1]. Lo que ocurre es que, en la práctica, se obtiene la estimación de P y, si resulta necesario referirse a la fracción (o porcentaje) de los sujetos que tienen la condición complementaria, directamente se emplea 1 − Pˆ en lugar de reestimar Q a través de Q. Ello explica que esta grosera incongruencia del estimador quede oculta. Para abundar sobre el tema consideremos el mismo ejemplo arriba expuesto pe-

166

DISEÑO RAZONADO DE MUESTRAS

ro considerando sólo dos categorías: no haber sufrido accidente alguno y haber tenido al menos un accidente. La situación sería:

Si se estima la fracción de no accidentados, ésta es, como vimos, 63%; si alguien nos pregunta por el porcentaje de accidentados, usualmente restaríamos 63 de 100 y responderíamos: 37%. Sin embargo, si se aplica [6.1] para estimar este último porcentaje, se obtendría un número aparatosamente diferente: 12% 26 15 ⎞ ⎛ . ⎟. ⎜ resultado de calcular: 850 4 ⎠ ⎝ La solución obvia para eludir esta inconsistencia consiste en usar el simple estimador de razón [6.2] (es decir, el porcentaje muestral). En ese caso, las estimaciones serían: m

pj =

∑X i =1 m

T ij

∑N i =1

i

cuya suma, naturalmente, es la unidad. En el caso inicial (con tres categorías), por ejemplo, se tendría:

p1 =

83 98

p2 =

10 98

p3 =

5 98

6.3. Muestreo en etapas con submuestreo El muestreo monoetápico es en muchas situaciones eficiente y perfectamente aplicable; ello explica que se emplee con bastante frecuencia, especialmente en estudios de magnitud reducida. Tiene algunas desventajas, sin embargo; además de la impredecibilidad del tamaño muestral que, como se vio, pudiera llegar a ser acusada, ha de contemplarse la que se explica a continuación. En ocasiones la población es demasiado grande para que el muestreo por conglomerados monoetápico sea aplicable, ya que, bien no resuelve el problema de la dispersión incosteable de la muestra (a la vez que exige poseer unos listados que por lo general son virtualmente imposibles de conseguir), bien las UPE serían desmesuradamente grandes.

MUESTREO POR CONGLOMERADOS

167

Supongamos que se planifica seleccionar una muestra de unos 2.000 ancianos de una ciudad de alrededor de 1.700.000 habitantes. La población objeto (o diana) consta de unos 148.000 sujetos elegibles (ancianos) para el estudio, los cuales, como es natural, se dispersan por todo el perímetro urbano. Descartados, como es obvio, el MSA, el MAE y el MS por las razones ya consabidas (detalladas en la Sección 6.1), valoremos la posibilidad de emplear un muestreo monoetápico. ¿Cuáles podrían ser las UPE? La ciudad se divide en 98 municipios de tamaños esencialmente similares, y cada uno de ellos se subdivide en circunscripciones (entre 300 y 400 circunscripciones en cada municipio). Supongamos, por mencionar un número realista, la ciudad consta de 32.144 circunscripciones en total. Si se tomara cierta cantidad de municipios en calidad de UPE, se abre un problema evidente: en cada municipio hay no menos de 1.500 ancianos; entonces resulta imposible elegir por muestreo monoetápico alrededor de 2.000 elementos, ya que el número mínimo de UPE que hay que elegir6 (m = 2) produciría un tamaño acusadamente mayor que el deseado (aproximadamente 3.000). Por otra parte, si se optase por seleccionar circunscripciones en calidad de UPE (entre las 32.044 existentes) para luego estudiar todos los ancianos allí radicados, y así completar el muestreo por conglomerados monoetápico, ¿cuántas de tales circunscripciones habría que seleccionar? Un simple cómputo aritmético deja ver que, como promedio, habrá unos 4 ó 5 ancianos en cada una de estas UPE. De modo que, para tener unos 2.000 sujetos, en la muestra, harían falta más de 400 circunscripciones, lo cual implica que la muestra exhibirá una dispersión geográfica muy probablemente indeseable o directamente incosteable (además del engorro que supone procurarse un listado de decenas de miles de circunscripciones y después operar con él). La introducción de al menos una etapa adicional de muestreo resuelve estas dificultades. La estructura del muestreo por conglomerados bietápico y la notación correspondiente se exponen a continuación. Se trata de seleccionar cierto número m de UPE y, dentro de cada UPE seleccionada, elegir una parte de las unidades de análisis que la integran. La Figura 6.2 refleja este diseño para un caso en que hay M = 13 UPE en total, de las cuales se toman m = 3 para aplicarles submuestreo. Por ejemplo, retomando la ilustración de los certificados de defunción desarrollado en la Sección 6.2.3, se podría considerar la elección de una muestra de 3.000 certificados mediante la selección inicial de 60 paquetes al azar del conjunto de los 480 almacenados, y luego tomar 50 certificados de cada paquete así seleccionado.

6 Obsérvese que con un solo conglomerado no podrían estimarse errores, ya que tanto la fórmula [6.3] como la [6.4] contienen el término m − 1 en el denominador.

168

DISEÑO RAZONADO DE MUESTRAS

Figura 6.2. Representación de una muestra por conglomerados bietápica.

En general consideramos que hay M UPE de tamaños N1, N2, ..., NM y que se seleccionan m de ellas; luego, en el i-ésimo conglomerado elegido, se toman ni unidades para formar la muestra7. La notación que usaremos es consistente con la que se introdujo en la sección precedente:

6.3.1. Estimador sin sesgo Si la selección de las m UPE de entre las M existentes se hace mediante MSA, y este mismo método se utiliza para elegir los elementos dentro de las UPE seleccionadas, puede probarse que un estimador insesgado de X viene dado por: 7

Es fácil advertir que, cuando se toman todos los conglomerados (m = M), entonces estamos exactamente ante la estructura de un MAE y que, en el caso en que se tenga ni = Ni para todas las UPE, lo que se realiza no es más que un muestreo por conglomerados monoetápico. O sea: el muestreo por conglomerados bietápico abarca tanto al MAE como al muestreo monoetápico, como casos particulares.

MUESTREO POR CONGLOMERADOS

xc =

169

M m ∑ Ni xi N m i =1

[6.6]

y un estimador insesgado de P, como caso particular, por: pc =

M m ∑ Ni pi N m i =1

[6.7]

donde pi es la fracción muestral de sujetos del i-ésimo conglomerado seleccionado que poseen el atributo que se estudia. Las fórmulas exactas para estimar la varianza de xc y pc son en extremo complicadas y engorrosas. En la práctica, los estimadores [6.6] y [6.7] sólo se emplean raramente, pero considero conveniente reproducirlas, sobre todo para que se pueda apreciar dicha complejidad. Para la media tenemos:

var( xc ) = donde

S x2 =

1 ⎡ M 2 ( M − m) S x2 M + ⎢ N2 ⎣ M m m

1 m ˆ ( X i − Xˆ *) 2 ∑ m − 1 i =1

y

m

∑ Ni2 i =1

Sí2 =

Ni − ni Si2 ⎤ ⎥ ni ni ⎦

1 ni ( xij − xi ) 2 ∑ ni − 1 j =1

[6.8] con Xˆ i = N i xi ,

1 m Xˆ * = ∑ Xˆ i , y donde xij denota el valor de X para la j-ésima unidad elegida en el m i =1 i-ésimo conglomerado de la muestra. Para el caso de una fracción, la fórmula es: var( pc ) =

1 N2

2 ⎡ M 2 ( M − m) m ⎡ 1 m ⎤ M − N p N p ⎢ ∑⎢ i i m ∑ i i⎥ + m i =1 ⎦ ⎢⎣ Mm( m − 1) i =1 ⎣

m

∑ i =1

N i − ni pi qi ⎤ ⎥ ni ni − 1 ⎥⎦

[6.9]

donde qi = 1 − pi. La estrategia general que se ha expuesto no necesariamente produce muestras equiprobabilísticas, circunstancia parcialmente responsable del abigarramiento que exhiben las fórmulas [6.8] y [6.9].

6.3.2. Probabilidades de selección Cabe ahora intercalar la cuestión de cómo se calculan, en general, las probabilidades de inclusión bajo el régimen de selección en dos etapas. La regla de cómputo general de la probabilidad de inclusión/de un sujeto de la población es la siguiente: f = f1 f 2 [6.10]

170

DISEÑO RAZONADO DE MUESTRAS

donde f1 es la probabilidad de que se elija la UPE en que se halla el sujeto y f2 es la probabilidad condicional de que éste resulte seleccionado dado que lo fue la UPE que lo contiene. Adviértase que la fórmula [6.10] no es más que la aplicación de un resultado elemental de teoría de probabilidades, el que establece que P(A∩B)=P(B|A)P(A). En este caso, A representa el suceso de que sea elegido el conglomerado que contiene a la unidad considerada y B el de que esta última sea elegida en la segunda etapa. Si los m conglomerados se eligen por un método equiprobabilístico (por ejemplo, MSA o MS), entonces f1 = m para todas las UPE. M Análogamente, si los ni individuos dentro del i-ésimo conglomerado seleccionado se toman por medio de MSA o por MS, entonces, para los individuos de n esa UPE se tiene que f 2 = i . Aplicando [6.10] se arriba a que la probabilidad Ni final de una unidad perteneciente al conglomerado i-ésimo es igual al producto de esas dos fracciones: m ni f = [6.11] M Ni Para la elección de los tamaños ni no hay ninguna regla; cualquier valor para n, es en principio legítimo. Sin embargo, suelen valorarse dos casos particulares: a) Seleccionar una fracción fija de unidades de análisis dentro de los conglomerados elegidos (es decir, el mismo porcentaje en cada uno de ellos). b) Seleccionar un número fijo, digamos n , de elementos dentro de cada UPE seleccionada (el mismo número de unidades de segunda etapa en todas y cada una de las UPE, independientemente de sus tamaños). En el primer caso se tiene una muestra final equiprobabilística, pero el tamaño 1 final sería aleatorio. En efecto: si f2 es constante (por ejemplo, f 2 = , supo10 niendo que se decide tomar el 10% de los elementos contenidos en cada uno de los m conglomerados), entonces según la fórmula [6.10] se tiene que f =

m f2 , M

un número que no depende de qué conglomerado se trate y por lo tanto igual para todos los elementos de la población. Por otra parte, el tamaño muestral ascendería en ese ejemplo al 10% del número de sujetos abarcados por las m UPE que hayan resultado elegidas; consecuentemente, dicho tamaño se ignorará hasta tanto no concluya la elección aleatoria en la primera etapa. En el segundo caso −cuando se toma un número fijo de unidades en cada UPE− ocurre lo contrario: el tamaño final de la muestra es fijo (igual al producto mn ),

MUESTREO POR CONGLOMERADOS

171

pero, según [6.10], la probabilidad de inclusión de cada sujeto es inversamente proporcional al número de unidades de análisis que integran la UPE que lo conm n tiene: , dependiente de i (igual dentro de cada UPE, pero diferente entre M Ni conglomerados que tengan tamaños diferentes). Al igual que en el caso monoetápico, si los tamaños de las UPE son muy diferentes unos de otros, la variante a) debe evidentemente descartarse porque el tamaño final de muestra sería virtualmente impredecible. De no ser éste el caso, tanto la variante a) como la b) pueden utilizarse, pero las fórmulas [6.6], [6.7], [6.8] y [6.9] sólo pueden emplearse en el infrecuente caso en que se conozca exactamente el tamaño poblacional.

6.3.3. Estimador de razón Además de que muchas veces se desconoce N, debe enfatizarse que, en rigor, lo ideal y más conveniente es prescindir de formulaciones tan abigarradas como las que se asocian a los estimadores insesgados. Una alternativa de mucho mayor aplicación en la práctica consiste en el empleo de un estimador de razón. Si el procedimiento es equiprobabilístico, éste no es otra cosa que la media muestral; si no lo fue, hay que incorporar ponderaciones. Veamos este último caso (el más general). Si llamamos yij al valor de la variable Y para el sujeto j de la unidad de primera etapa i-ésima y wij a la ponderación que corresponde a ese valor (el inverso de ni

la probabilidad de selección que tuvo ese sujeto), se definen yi = ∑ wi j yij ni

j =i

y xi = ∑ wi j . j =1

m

m

i =1

i =1

Con estos valores pueden computarse x e y: x = ∑ xi e y = ∑ yi , y con ellos, finalmente, se produce la estimación: r=

y x

[6.12]

La varianza de r se estima, por último, mediante la fórmula siguiente: var(r ) ≈

m m 1 m ⎛ m 2 ⎞ yi + r 2 ∑ xi2 − 2r ∑ xi yi ⎟ ∑ ⎜ 2 x m − 1 ⎝ i =1 i =1 i =1 ⎠

[6.13]

Nótese que la fórmula [6.13] tiene la misma estructura que [6.4]. Si el diseño es equiprobabilístico, las ponderaciones pueden eliminarse. Los valores de yi y xi se reducen a: m

yi = ∑ yij j =1

m

xi = ∑ xij j =1

172

DISEÑO RAZONADO DE MUESTRAS

y [6.13] coincide enteramente con [6.4] aunque con otra notación, salvo que en [6.13] se ha considerado que f ≈ 0, lo cual es enteramente razonable, ya que el empleo de muestreo bietápico se asocia típicamente a poblaciones considerablemente grandes.

6.3.4. Ilustración Consideremos nuevamente el ejemplo de los certificados de defunción introducidos en la Sección 6.2.3, pero suponiendo que se han tomado ni = 30 sujetos con MSA o MS en cada uno de los m = 20 paquetes. Como se recordará el número total de paquetes era M = 480, de modo que la probabilidad de selección de m ni 20 30 = un sujeto en la i-ésima UPE es igual a , de donde se deduce que a M Ni 480 Ni todos los elementos de esa UPE les corresponde la ponderación: wi = 480 N i = 0,8 Ni . 600 Los resultados son los que recoge la Tabla 6.2. Tabla 6.2. Tamaños de 20 paquetes de certificados de defunción y número de certificados defectuosos por paquete y datos para el cómputo de estimaciones

MUESTREO POR CONGLOMERADOS

173

A partir de estos datos, se obtiene: 20

r=

y = x

∑y

i

i =1 20

∑x

=

12.157,6 = 0,187 64.896

i

i =1

Por otra parte: 20

∑ yi2 = 12.328.714,9 i =1

20

∑ xi2 = 281.101.824 i =1

20

∑x i =1

i

yi = 53.990.073,6

y al aplicar [6.13] para m = 20, x = 64.896 y r = 0,187 se obtiene:

var(r ) = 0,000491

var(r ) = 0,022

De modo que el error de esta estimación se estima en (1,96) (2,2) = 4,3% y el intervalo de confianza, finalmente, resulta ser [14,3 % − 23,1 %].

6.4. Muestreo polietápico Hasta aquí se ha discutido en detalle el caso bietápico. Pero el muestreo en etapas puede aplicarse, desde luego, a poblaciones tan grandes que pudieran exigir la incorporación de tres, cuatro o incluso más etapas de selección. Todos los conceptos desarrollados pueden extenderse fácilmente a tal situación. Por ejemplo, si el número de etapas fuese 4, la fórmula [6.10] pasaría a ser: f= f 1 f 2 f 3 f 4 Las fórmulas [6.12] y [6.13] tienen valor general; es decir, son igualmente válidas en la situación polietápica. Esto quiere decir que lo único que influye de manera sustancial en el cómputo de errores es la variabilidad que exhiben entre sí los datos para las unidades de primera etapa, independientemente de cuántas etapas adicionales se hayan empleado (Kalton, 1979).

6.5. Efecto de diseño En este punto debe insertarse un concepto de cierta importancia, sobre todo teórica: el llamado efecto de diseño. Antes de introducirlo, reparemos en la siguiente circunstancia: el muestreo en etapas es en general menos eficiente que el MSA (supuesto, naturalmente, que no se modifica el tamaño muestral) en lo

174

DISEÑO RAZONADO DE MUESTRAS

que concierne a la precisión de los estimadores. Ello se debe a que, en la práctica, las mismas circunstancias que agrupan o conglomeran, a los sujetos suele hacerlos parecidos entre sí y, por tanto, al tomar información de sujetos procedentes de unos pocos conglomerados, ésta tiende a ser redundante y menos informativa que la que se obtendría a partir de una muestra con el mismo número de individuos, pero dispersa por toda la población. Esta reducción de la representatividad es claramente intuitiva; una rápida mirada a la Figura 6.3 ayuda a persuadirnos de ello: la muestra consta de 28 sujetos, pero en un caso se hallan concentrados en dos conglomerados, y en el otro dispersos por toda la población. El grado en que la conglomeración induce una pérdida de eficiencia puede expresarse formalmente en términos de los errores de muestreo; más específicamente, en términos de la varianza de los estimadores. Concretamente, supongamos que se quiere estimar X con una muestra de cierto tamaño y que se manejan dos alternativas: MSA y muestreo en etapas (ME), en cualquiera de sus variantes. Llamemos VMSA( x ) y VME( x ) a las varianzas respectivas; entonces usualmente se tendrá que VMSA( x ) < VME( x ). A la razón entre tales números se le llama efecto de diseño y se le denota por DEFF. El nombre −un apócope de la expresión inglesa design effect− es sugestivo de la noción subyacente, ya que se entiende que un MSA no es en rigor un diseño, sino que consiste en la toma de información exclusivamente basada en el azar, sin intervención «diseñadora» del muestrista; en cambio, en el proceso del muestreo en etapas hay una serie de decisiones involucradas acerca de cuáles y cuán-

Figura 6.3. Esquema de un muestreo en etapas frente a uno simple aleatorio.

MUESTREO POR CONGLOMERADOS

175

tas son las UPE, cuáles las unidades de segunda etapa, etc. El diseño consiste, precisamente, en el resultado de haber adoptado tales decisiones, y DEFF mide el efecto de hacerlo con respecto al caso en que sólo interviene el ciego azar. Es decir, se define DEFF =

VME ( x ) VMSA ( x )

[6.14]

DEFF es normalmente mayor que 1, y el grado en que excede a este número expresa cuánta eficiencia se ha perdido como consecuencia de haber adoptado un diseño menos preciso (aunque también mucho más económico y práctico) que un MSA. En la práctica, cuando se ha realizado un muestreo en etapas, DEFF puede estimarse mediante deff (inherente a dicho diseño) del modo siguiente: 1. Se hace la estimación varME( x ) de VME( x ) mediante la fórmula que corresponda al diseño elegido (usualmente, algún tipo de muestreo en etapas). 2. Se toman los n elementos resultantes en la muestra como si provinieran de un MSA (sin reparar en las UPE de las que proceden) y se calcula la varianza de los datos muéstrales, exactamente como se habría hecho en un MSA. Por ejemplo, si se trata de la estimación de una media, se calcula 1 n s2 = ∑ ( xi − x )2 donde n es el tamaño de la muestra resultante del din − 1 i =1 seño en cuestión, xi el valor de su i-ésimo integrante. s2 3. Se calcula varMSA ( x ) = que es una estimación de la varianza de x bajo n MSA (donde se suele prescindir del factor de corrección). 4. Se computa: deff =

varME ( x ) varMSA ( x )

NOTA: Se ha desarrollado el caso en que se estima el DEFF correspondiente a una media; si se tratara de una fracción o proporción, la formulación es la misma, pero contemplando que se pondría xi = 1 en caso de que el i-ésimo sujeto tuviera la característica y xi = 0 en el caso opuesto.

Podemos medir ahora el efecto de diseño correspondiente al ejemplo de la sección precedente. Se tenía que la estimación de la fracción de certificados defectuosos era: p = 0,187 y que var(r) = 0,000491 [ésta sería varME( x )]. Ahora varMSA ( p) = y deff =

r (1 − r ) (0,187)(0,813) = = 0,000253 n 600

0,000491 = 1,94. 0,000253

176

DISEÑO RAZONADO DE MUESTRAS

En este ejemplo, el muestreo en etapas es aproximadamente dos veces más ineficiente que el MSA en lo que hace a la estimación de la fracción de certificados defectuosos.

Bibliografía Kish L. Survey sampling. New York: Wiley, 1965. Kalton G. Ultimate cluster sampling. Journal of the Royal Statistical Society, Series A 1979; 142:210-222. Silva LC, Rubi A. On the estimation of proportions using complete cluster sampling. The American Statistician 1983; 37: 53-54.

7 Un diseño especial: selección de conglomerados con probabilidades proporcionales a sus tamaños Este capítulo se destina a explicar un procedimiento que posee especial importancia práctica y cuya esencia estriba en seleccionar las UPE con diferentes probabilidades en lugar de hacerlo a través de un método que −como el MSA− otorgue iguales posibilidades de elección a todas ellas. Consideremos que se quiere diseñar una muestra para estudiar la morbilidad hospitalaria de una región y que se decide hacerlo mediante una muestra de aproximadamente 2.000 historias clínicas correspondientes a altas hospitalarias producidas durante el último año. Supongamos que las altas proceden de 106 hospitales y que en total ascienden a unas 400.000 a lo largo del año. La selección de altas se hará en dos etapas, escogiendo inicialmente hospitales, y luego 200 sujetos de cada uno. Supongamos que, al analizar la distribución de altas por hospitales, se advierte que ésta dista de ser uniforme: hay un pequeño grupo de 12 grandes hospitales que genera en total el 45% de las altas hospitalarias de la región. Consecuentemente, si la selección de las 10 UPE se realizara con MSA, entonces cada uno de estos 12 hospitales grandes tendría la misma probabilidad de ser incluido en la muestra que la de todos los restantes, la mayoría de los cuales son pequeñas unidades municipales que −por su naturaleza− reflejan un tipo muy particular de morbilidad hospitalaria. A partir de estas consideraciones, puesto que las UPE tienen tamaños muy diferentes, es intuitivamente ilógico usar un procedimiento equiprobabilístico en la primera etapa. Se corre el riesgo, por ejemplo, de que muchos hospitales grandes (quizá todos) queden fuera del estudio, lo cual sería obviamente «chocante». Dicho en términos más técnicos: la posibilidad de tener muestras demasiado homogéneas (es decir, poco representativas) sería muy grande.

178

DISEÑO RAZONADO DE MUESTRAS

7.1. Procedimiento de selección Consideremos un método específico destinado a eliminar esta dificultad, el cual −como se verá− exhibe varias virtudes adicionales. Se trata de un maestreo equiprobabilístico que se realiza en varias etapas, pero otorgando a cada UPE una probabilidad de selección proporcional a su tamaño. La versión que se explica a continuación corresponde a un diseño en dos etapas. En la medida que se desarrolle se expondrá, paralelamente, un ejemplo sencillo. Supongamos nuevamente que se tiene una población de N unidades de análisis divididas en M conglomerados de tamaños N1,N2, ..., NM. En la vida real suele ocurrir que los Ni no se conocen de antemano con exactitud. Por tanto, para no perder realismo, en lo sucesivo consideraremos que lo que se conoce son ciertas aproximaciones A1, A2, ..., AM de los tamaños reales. Al tamaño total aproximado lo llamaremos A. Por ejemplo, supongamos que se cuenta con los datos provenientes de un censo no actualizado de los residentes de un sector de salud que tiene aproximadamente A = 2.200 individuos distribuidos en M =8 manzanas del siguiente modo:

La idea es seleccionar una muestra de aproximadamente n elementos en dos etapas: obtener m UPE con probabilidades de selección proporcionales a sus tamaños, y luego tomar aproximadamente n individuos en cada UPE (n = m n )1; por ejemplo, fijemos n = 200, m = 4 y n = 50. Así las cosas, la probabilidad común que se otorgará a todos los sujetos será igual a: f = n = 200 . A

2.200

A continuación se exponen, comentan e ilustran los seis pasos que deben darse para llevar adelante la selección. 1. Crear una lista de las UPE y obtener los tamaños acumulados Ci = A1 + A2 + … + Ai a lo largo de la misma. En el ejemplo, esto significa conformar una tabla como la siguiente:

1

Acerca de la determinación de m y

n nos referiremos más adelante.

UN DISEÑO ESPECIAL: SELECCIÓN DE CONGLOMERADOS...

2. Calcular el intervalo de selección I =

En el ejemplo, esto es I =

179

A . m

2.200 = 550. 4

3. Seleccionar un número aleatorio R entre 1 e I.

Supongamos que el número elegido al azar entre 1 y 550 resultó ser R = 369. 4. Se calculan los números siguientes: Z1 = R Z2 = R + I Z3 = R + 2I … Zm = R + (m − 1) I En nuestro caso, estos m = 4 números son: 369

919

1.469

2.019

5. Asociar cada uno de estos números con una UPE del modo siguiente: se selecciona para cada Zi la primera UPE cuyo tamaño acumulado supere o iguale al número en cuestión.

De ese modo, 369 identifica a la manzana 3 (pues C3 = 860 es el primer valor de Ci no superado por 369); 919 identifica a la UPE número 4 por ser 1.170 el primer acumulado que lo supera; 1.469 identifica a la manzana 6 y 2.019 a la última. Así, en el ejemplo, han quedado elegidos los conglomerados que ocupan los lugares 3, 4, 6 y 8 del listado.

180

DISEÑO RAZONADO DE MUESTRAS

6. Dentro del conglomerado i-ésimo, obtener una muestra equiprobabin lística con probabilidad f 2 = . Ai

En nuestro caso se aplican fracciones de muestreo de magnitud

50 50 , , 525 310

50 50 ,y y respectivamente a los listados de individuos en las manzanas ele190 210 gidas.

7.2. Estructura probabilística Analicemos ahora la estructura probabilística inherente al procedimiento descrito. Se puede demostrar que la probabilidad de que sea elegido el conglomerado i-ésimo es igual a f1 =

Ai A = m i . No es difícil corroborarlo con un ejemI A

plo cualquiera: el conglomerado 6, pongamos por caso, resulta elegido siempre que uno de los números Z, se halle entre 1.376 y 1.565; esto ocurre a su vez si R es uno de los 190 valores que se encuentran entre 276 y 465. El valor de R que se obtuvo en el ejemplo fue 369 y está en ese caso; pero si hubiese sido 466, ya no hubiera producido la selección de esta sexta UPE, pues 666+(2)(550) = 1.566, un número mayor que C5 = 1.565; de modo que hay 190 posibles valores de R que dan lugar a dicha selección. Siendo 550 el número de arranques diferentes (es decir, de valores posibles de R ), la probabilidad de selección 190 190 de la sexta UPE es igual a , que coincide con 4 . 550 2.200 Dentro del i-ésimo conglomerado, se ha fijado que la probabilidad de que un n sujeto resulte seleccionado sea f 2 = . De ese modo se consigue la equiprobaAi bilidad general programada:

f1 f 2 = m

Ai n mn n = = = f A Ai A A

Es necesario tener en cuenta que en el momento de seleccionar los elementos dentro de las UPE elegidas en la primera etapa es preciso contar con listas de los verdaderos elementos que las integran. El número de elementos de esta lista, Ni, es −en general− diferente de Ai (próximo si la aproximación es buena, distante en otro caso).

UN DISEÑO ESPECIAL: SELECCIÓN DE CONGLOMERADOS...

181

Si en cada UPE elegida se tomasen exactamente n elementos (con MSA, por ejemplo)—lo cual pudiera ser resultado de un primer impulso— entonces la n , de modo que la Ni Ai n n , un número diferente de f = , salvo probabilidad general sería: m A Ni A que no se hubieran hecho aproximaciones, sino que se conocieran los tamaños exactos (o, equivalentemente, que se cumpliera que Ai = Ni para todas las UPE). probabilidad de cada elemento en la segunda etapa sería

7.3. Selección de unidades en la segunda etapa En principio, hay dos maneras de conseguir que la subselección se produzca n entre los Ni elementos de la i-ésima UPE: Ai a) Usar muestreo sistemático en fases con dicha probabilidad. N b) Seleccionar xi = n i sujetos mediante MSA u otro procedimiento equiAi probabilístico.

con probabilidad f 2 =

La primera variante resulta en general más expedita, pero cualquiera de estas maneras de practicar el submuestreo produce el mismo efecto: en lugar de obtener exactamente n USE por cada UPE seleccionada, se obtendrá un número aleatorio xi cuya proximidad con n dependerá de cuan buena haya sido la aproximación Ai que se empleó como sucedáneo de Ni. Si Ai>Ni, entonces xi será menor que n , y viceversa. En síntesis, el método es equiprobabilístico y produce una muestra de tamaño aproximadamente igual a n. Consecuentemente, la media y la fracción muéstrales estiman adecuadamente a los parámetros correspondientes. En el ejemplo de la Sección 7.1 se habían seleccionado las manzanas 3, 4, 6 y 8. Para hacer la subselección hay que obtener los listados de los individuos que realmente residen en esas 4 manzanas. Supongamos que para esta segunda etapa se ha optado por el primer procedimiento. Tomemos, por ejemplo, la manzana 8 (cuarta elegida): supongamos que cuando se procede a censar las viviendas, se obtiene un listado de 205 individuos n 50 = = 0, 238 ≈ 0, 24 , (en lugar de los 210 supuestos). Primero se calcula Ai 210 y de inmediato se aplica un muestreo sistemático en fases (nótese que en este ca-

182

DISEÑO RAZONADO DE MUESTRAS

.

so no puede usarse el método regular). En la Tabla 4.2, buscamos los intervalos K1 y K2 que corresponden a f= 0,24 y obtenemos: K1 = 4 y K2 = −25. Admitamos que se obtiene como primer arranque aleatorio (entre 1 y 4) el número r1 = 4, y como segundo arranque r2 = 10; es fácil corroborar que, en ese caso, se eligen exactamente 49 sujetos de los 205 existentes. En el caso de la manzana 3 del listado (primera que se seleccionó), se tenía A1 =525; supongamos que, cuando se va al terreno, se detecta que N1 = 612, ya que, por ejemplo, un edificio que no existía cuando se hizo el registro del que san 50 lieron los Ai fue posteriormente habitado2. Se calcula = = 0,095 ≈ 0,10 Ai 525 En este caso no es preciso acudir a la Tabla 4.2; como f2 = 0,1, es obvio que el problema se resuelve seleccionando 1 de cada 10 elementos del listado de 612. Supongamos que se arranca en r = 7; de este modo serán elegidos x1 =61 individuos3. De manera similar se conduce el proceso para las otras dos manzanas seleccionadas. Como se ve, el número de unidades de análisis tomadas para la encuesta dentro de una UPE no es en general igual a n = 50, sino un número aleatorio cuya magnitud depende básicamente de la diferencia que haya entre Ai y Ni. El ejemplo de la primera manzana de la muestra es un caso extremo (Ai considerablemente menor que Ni) y por ello la diferencia entre x1 y n es notable. Sin embargo, aun cuando se produzca alguna pifia relativamente grande como ésta, si las aproximaciones fluctúan por encima y por debajo de los respectivos tamaños para unas y otras m

UPE, y supuesto que m no es muy pequeño, entonces x = ∑ xi debe ser muy prói =1 ximo a n = m n . NOTA: Ocasionalmente podría ocurrir que 2 o más números de los Zi obtenidos identifica-

ran al mismo conglomerado; esto sólo pasaría para una UPE cuyo valor de Ai fuera muy grande (necesariamente mayor que I). En tal caso, en dicha UPE se aplica

sucesivamente la fracción

2 3

n tantas veces como números la hayan identificado. Ai

Este incidente revela que la fuente de información para obtener los Ai fue bastante defectuosa. Serían 62 sujetos si el arranque fuese 1 ó 2.

UN DISEÑO ESPECIAL: SELECCIÓN DE CONGLOMERADOS...

183

7.4. Notación Una vez seleccionadas las unidades de análisis, se procede a la aplicación de la encuesta propiamente dicha. Como veremos, la estimación de los errores se consigue sin necesidad de conocer más que los totales dentro de cada UPE. Llamaremos yi a dichos totales; o sea, yi es la suma de los valores de la variable en estudio para los xi sujetos elegidos en la i-ésima UPE seleccionada (o el número de individuos que posee cierto rasgo bajo estudio entre los interrogados, si lo que se quiere estimar es una fracción poblacional). Por ejemplo, consideremos que en el problema que venimos considerando se quieren estimar los siguientes dos parámetros: a) la fracción de individuos que tienen anticuerpos a cierto virus. b) el número medio de consultas médicas por habitante que recibió la población durante el último año. En la cuarta manzana se encuestaron 49 sujetos (x4 = 49); supongamos que 14 tenían anticuerpos de modo que y4 = 14. Si entre esos mismos 49 encuestados se acumularon 62 visitas al médico, entonces, a los efectos de la estimación del segundo parámetro, se tiene y4 = 62. La Tabla 7.1 recoge todos los datos relevantes del ejemplo hipotético, supuesto que ya se tienen los resultados de la encuesta. Tabla 7.1. Resultado en el ejemplo de la aplicación del método de muestreo en dos etapas y selección de las UPE con probabilidad proporcional a los tamaños aproximados

El procedimiento explicado −como ya se ha dicho− produce una muestra equiprobabilística. Tal muestra no tiene tamaño fijo; éste es un valor aleatorio x

184

DISEÑO RAZONADO DE MUESTRAS

que no puede −por tanto− predecirse con exactitud. Sin embargo, usualmente se tiene mucho mayor control del tamaño muestral que con el muestreo monoetápico. En el ejemplo, el tamaño final resultó ser 208 en lugar del 200 previsto. La diferencia dista de ser muy apreciable, pero en cualquier caso es debida básicamente a la mala «aproximación» obtenida para la primera UPE elegida4.

7.5. Procedimientos de estimación Para estimar una media o una fracción poblacionales se usan, respectivamente, la media o fracción muéstrales. Sin embargo, debe recordarse el cam

rácter aleatorio del tamaño de muestra. Éste es x = ∑ xi , de modo que dichos esi =1 timadores son razones de variables aleatorias. Tanto la media como la proporción se estiman entonces mediante la fórmula siguiente: m

r=

∑y i =1 m

i

[7.1]

∑x i =1

i

En nuestro ejemplo teníamos, a partir de la Tabla 7.1, que el tamaño muestral es x = 61 + 48 + 50 + 49 = 208. La estimación de la proporción P de individuos m

con anticuerpos en la población es r (1) =

∑y

(1)

i

i =1 m

∑x

=

56 = 0, 269 . y la estimación 208

i

i =1

del promedio de consultas por habitante a lo largo del año resulta ser m

r

(2)

=

∑y i =1 m

(2)

i

∑x i =1

=

277 = 1,33 208

i

Se puede demostrar que, si se tuviera Ai = Ni para todas las UPE (una situación inusual y, por tanto, de muy escaso interés práctico), en cuyo caso xi = n , entonces:

4

En el ejemplo hemos supuesto que para los 208 individuos se pudo obtener respuesta para las dos preguntas. En la práctica ocurrirá que el tamaño de muestra real variará de una pregunta a otra como resultado de la no respuesta.

UN DISEÑO ESPECIAL: SELECCIÓN DE CONGLOMERADOS...

var (r ) =

1 ⎛ m 2 ⎞ y − mr 2 ⎟ 2 ⎜∑ i m(m − 1)n ⎝ i =1 ⎠

185

[7.2]

es una estimación insesgada de la varianza de r. Adviértase que la fórmula de var(r) es en este caso de una sencillez extrema, sobre todo si se tiene en cuenta la complejidad del método. Pero, lamentablemente, la vida es más rica que las mejores previsiones, de modo que en general se trabaja con aproximaciones, y en tal caso la estimación de la varianza del estimador [7.1] viene dada por la misma fórmula utilizada para el caso monoetápico; con la notación que tenemos ahora, ésta es: var (r ) =

m m 1− f m ⎛ m 2 ⎞ 2 2 + − y r x 2 r xi yi ⎟ ∑ ∑ ∑ i i ⎜ 2 x m − 1 ⎝ i =1 i =1 i =1 ⎠

[7.3]

cuya validez se supedita a que se cumpla la condición: m

(1 − f )msx2 < (0, 2)∑ xi

[7.4]

i =1

donde sx2 =

1 ⎛ m 2 x2 ⎞ ⎜ ∑ xi − ⎟ . En las aplicaciones prácticas, usualmente se m − 1 ⎝ i =1 m⎠

tiene que f =

n ≈ 0, de modo que se puede suprimir el factor (1 − f) de la fórA

mula [7.3]. 200 = 0,091 m = 4 sx2 = 33,664, de modo 2.200 que, en efecto, se cumple [7.4], ya que: En nuestro ejemplo se tiene f =

(1 − f )msx2 = 11,546 y (0,2)x = 10,600 Al aplicar [7.3] para calcular la varianza estimada de ambas estimaciones, se tiene lo siguiente: var (r (1) ) = 0,00054 var (r (2) ) = 0,11956 Sumando y restando el error absoluto (1,96) var (r ) en cada caso, los intervalos de confianza al 95% de confiabilidad para P y X son, respectivamente, [0,224-0,315] y [0,654-2,009]. Como se ve, los errores son considerables (0,046 para la fracción y 0,678 para el número medio de consultas); en términos relativos ascienden a 17.1% y 60% respectivamente. Ello se debe a que en este pequeño ejemplo didáctico, el número de UPE seleccionadas (m = 4) es muy reducido, algo inusual en la práctica.

186

DISEÑO RAZONADO DE MUESTRAS

Resumiendo: en esta sección se ha introducido y discutido un procedimiento puntual que posee los siguientes rasgos: a) b) c) d)

es equiprobabilístico; el tamaño muestral está bajo control; otorga probabilidades de selección proporcionales al tamaño de las UPE; el tamaño de muestra dentro de cada UPE es básicamente el mismo.

Los cuatro rasgos mencionados son atractivos por diferentes razones. El carácter equiprobabilístico es favorable porque en ese caso todas las fórmulas son más simples, porque es psicológicamente más admisible por parte del personal lego en la materia y porque la incorporación de ponderaciones siempre resta algo de eficiencia a las estimaciones (Kish, 1965). La ventaja de poder hacer una predicción razonable del tamaño muestral es evidente. Por otra parte, el hecho de que las UPE mayores tengan más oportunidad de ser elegidas que las más pequeñas contribuye, como se explicó antes, a la representatividad. Finalmente, desde el punto de vista logístico, en lo que concierne a trabajo de terreno, tener tamaños de muestra similares dentro de cada una de las UPE, independientemente de la magnitud que tengan, suele ser altamente conveniente, porque ayuda sensiblemente a la organización del trabajo de terreno.

7.6. Manejo práctico de las aproximaciones de tamaño Todo el procedimiento explicado en este capítulo reposa en que se cumpla la siguiente condición: A ñ ≤ Ai ≤ m Ai ñ Esto se debe a que las razones son probabilidades de selección, y y A I como tales tienen que ser números no mayores que 1. La condición Ai < I solo habrá de incumplirse para alguna UPE cuyo tamaño sea extraordinariamente grande respecto del resto. Nótese que el incumplimiento de dicha condición no es muy probable, ya que m es usualmente mucho menor que M, de modo que A (que no es otra cosa que el valor promeM A dio de los Ai) habrá de ser sustancialmente menor que I = . Consecuentem mente, sólo un conglomerado que sea muchísimo mayor que los restantes (y por ende mucho mayor que la media de todos ellos) podría producir tal incumplimiento. No obstante, ¿qué hacer cuando los tamaños de los Ai sean tales que esa condición no se cumpla?

UN DISEÑO ESPECIAL: SELECCIÓN DE CONGLOMERADOS...

187

Hay que recordar que el carácter equiprobabilístico de la muestra es totalmente independiente de la calidad que tengan las aproximaciones. De modo que los Ai que se usen para llevar adelante el procedimiento pueden ser aumentados o disminuidos (si ello resulta conveniente) sin comprometer aquel carácter. Si las modificaciones de las aproximaciones con que se habrá de trabajar no son muy notables, entonces tampoco el tamaño final de muestra se verá afectado de manera apreciable, y aun en caso de que lo sean, puede ocurrir que dicho tamaño no diste mucho del esperado gracias a las compensaciones que podrían producirse si hubiera tanto sobrestimaciones como subestimaciones. A continuación se exponen algunas maniobras que se pueden realizar si fuese menester: 1. Si para algunas UPE se tiene n > Ai a) Una primera variante es actuar según se explica en la NOTA con que concluye la Sección 7.3. b) Otra variante consiste, sencillamente, en atribuir a dicha UPE un tamaño aproximado Ai = n (lo cual equivale a que en la segunda etapa se tomarán todos los integrantes de tal UPE). Esto puede recomendarse si la diferencia entre el tamaño aproximado y n no es muy acusada (digamos, si n no lo supera en más del 20%). c) Una tercera posibilidad consiste en unir las UPE conflictivas a otras contiguas, de modo que el problema desaparezca. En tal caso, la UPE resultante de la unión antedicha tendrá tamaño aproximado igual a la suma de los correspondientes a las UPE que la componen, y será considerada como un solo conglomerado (de ahí la importancia de que sus componentes sean contiguos o, más generalmente, de que luego no constituya un problema práctico a los efectos del submuestreo en caso de ser seleccionadas).

A m a) La primera variante consiste en dividir este conglomerado en dos o más UPE. Tal manipulación se haría de manera que la suma de los tamaños aproximados de estas últimas coincida con el de la UPE que es objeto de la división. Es importante que −en tal caso− las nuevas UPE estén bien delimitadas, de manera que si alguna de ellas resultase seleccionada, no haya ambigüedad en la fase de submuestreo. A b) Si es sólo «un poco mayor» que el tamaño aproximado de la UPE5, m entonces este último valor puede disminuirse. Nótese que no basta con

2. Si alguna UPE tiene tamaño aproximado mayor que

5 Si hubiera alguna UPE cuyo tamaño aproximado fuera mucho mayor que I, entonces el tratamiento del asunto es radicalmente diferente y se aborda en el Capítulo 8.

188

DISEÑO RAZONADO DE MUESTRAS

atribuirle el valor A , ya que tal disminución producirá un nuevo m tamaño aproximado de toda la población y, por tanto, al dividir ese nuevo valor de A por m, el problema se reproduce. Por ejemplo, si los tamaños aproximados en un estrato son iguales a 40, 60, 20 y 180 A (A = 300), y m = 2, se tiene = 150. Si se decidiera atribuir sin más m el tamaño 150 a la cuarta UPE en lugar de 180, se tendría que A 270 = = 35, de modo que no se eliminaría 40+60+20+150=270 y m 2 el problema, ya que 135< 150. Quiere esto decir que, cuando el procedimiento sea utilizado, el Ai«conflictivo» tendría que reducirse bastante por debajo del valor de I y debe replantearse siempre todo el cómputo con el fin de corroborar que la condición que se procura asegurar sea válida para la nueva configuración. Finalmente, cabe señalar que puede ser conveniente conseguir, en el contexto de estas manipulaciones, que todos los Ai sean múltiplos de n . En tal caso, en la fase de subselección se tendrá que cada fracción de muestreo sea igual al inverso de un entero y se podrá entonces aplicar el método regular de selección sistemática en lugar del más engorroso de selección en fases. Consecuentemente, de ser posible, se «redondean» los tamaños de las UPE llevándolos a ser múltiples de n y obtener así intervalos enteros.

Bibliografía Kish L. Survey sampling. New York: Wiley, 1965.

8 Muestreo estratificado polietápico Hasta ahora se han desarrollado diversos procedimientos de selección de muestras con diferentes niveles de complejidad. Puede decirse, sin embargo, que se han manejado tres situaciones alternativas básicas: muestreo «directo» de unidades de análisis (muestreo simple aleatorio o sistemático, tratados en los Capítulos 3 y 4), muestreo estratificado (Capítulo 5) y muestreo por conglomerados (Capítulos 6 y 7). El presente Capítulo presenta un diseño en el que se integran todas las técnicas precedentes: se combina el muestreo estratificado para la elección de unidades en la primera etapa con el muestreo en etapas dentro de las UPE seleccionadas; aunque no se trata de una definición formal, a los diseños de ese tipo se les suele denominar genéricamente diseños complejos. La introducción de estratos al nivel de las UPE es conveniente, ya que puede mitigar el notable efecto negativo para la representatividad que, muy a pesar del muestrista, suele producir el muestreo por conglomerados. La idea es enteramente natural y consiste en introducir la técnica de muestreo estratificado en la primera etapa; o sea: organizar las UPE en estratos y luego seleccionar algunos conglomerados de todos y cada uno de los estratos considerados. Las unidades de análisis se seleccionan posteriormente (en una o más etapas) dentro de cada UPE elegida en los estratos. A esta estrategia se la denomina muestreo estratificado polietápico (MEP).

8.1. Estratificación de unidades de primera etapa La literatura recoge múltiples ejemplos de vocación didáctica sobre la aplicación de este procedimiento. El excelente texto de Moser y Kalton (1971) expone detalladamente un ejemplo de una encuesta de opinión realizada en Gran Breta-

190

DISEÑO RAZONADO DE MUESTRAS

ña; otra ilustración detallada puede hallarse en Lininger y Warwick (1978), uno de los textos más abarcadores sobre la conducción de encuestas. En el terreno investigativo, la aplicación de este diseño es harto frecuente. Fue empleado intensamente, por ejemplo, en ocasión de los estudios desarrollados bajo la égida de la Encuesta Mundial de Fecundidad en las décadas de los setenta y ochenta. En un estudio comparativo de las características básicas de los diseños muéstrales usados en 17 países europeos para realizar la encuesta nacional de fecundidad, Berent, Jones y Siddiqui (1982) consignan la aparición de estratificación de UPE en 15 de ellos, 14 de los cuales usaron más de una etapa (entre 2 y 5). Otra peculiaridad de la inmensa mayoría de los diseños −14 de los 17− fue su carácter equiprobabilístico. Para la creación de los estratos se debe seguir −como en el MAE− el criterio de conformar, en lo posible, grupos homogéneos de población. En ocasiones se utilizan criterios geográficos (provincias o municipios), zonas ecológicas o socioculturalmente diferentes entre sí, o con distintas densidades de población. Estos criterios han merecido atención; en O’Muircheartaigh (1977) se puede hallar, por ejemplo, una discusión sobre las ventajas de este último criterio. Un eje de clasificación muy usado en encuestas de población (ocasionalmente cruzado con otro) es el definido por la localización, en urbano-rural, de las viviendas de los individuos.

8.2. Estructura y notación La presente sección expone el uso del muestreo estratificado polietápico y algunos de los problemas asociados a su aplicación. Supongamos que estamos ante una población finita de tamaño N, dividida en M UPE, así como que este conjunto de conglomerados se ha organizado en L L

estratos y que en el estrato h (h:1, ..., L) hay Mh UPE, de modo que

∑M h =1

h

= M.

El plan consiste en seleccionar una muestra de unidades de análisis según la siguiente estrategia: elegir primero, en cada estrato, cierto número mh de UPE L

(de modo que en total se eligen m = ∑ mh UPE), y realizar luego una subselech =1

ción de unidades de análisis dentro de cada UPE obtenida en la primera etapa. En la Figura 8.1 se representa la estructura de este diseño. En ese ejemplo se ha reflejado el caso en que hay L = 3 estratos y M = 18 UPE, de las cuales m = 6 resultan elegidas y son objeto de subselección. Para llevar adelante este plan general se puede adoptar alguna de un sinnúmero de tácticas diferentes. Lo ideal es que el muestrista domine la teoría general de manera que, atendiendo a cada problema específico, pueda optar por aquella variante que mejor armonice con la situación en que se produce el problema

MUESTREO ESTRATIFICADO POLIETÁPICO

191

Figura 8.1. Representación de una muestra estratificada polietápica. (definida en lo esencial por los objetivos de la encuesta, el marco muestral disponible, la información que se posea sobre la población, los recursos disponibles y el tiempo con que se cuenta). Sin embargo, para ser coherentes con la tónica del presente texto, entre cuyos propósitos se halla el de facilitar el proceso de aplicación de las técnicas muestrales a estudiantes e investigadores no especialistas en la materia, he optado por poner en primer plano un procedimiento particular de muestreo estratificado polietápico que −por sus características− puede ser aplicado en una amplia gama de situaciones de la investigación de salud y del ámbito epidemiológico. Sirve a la vez como ilustración de este tipo de diseño, aunque se trata de un procedimiento equiprobabilístico. En la Sección 8.6.4 se bosquejan casos más generales. Denotemos por Ah al tamaño aproximado del estrato h y por A al de toda la población (por «tamaño aproximado», entiéndase número aproximado de unidades de análisis). Supongamos que se ha considerado que el tamaño muestral requerido es igual a n y que se exigirá que todos los sujetos tengan probabilidad de sen lección igual a f = . Se supone, además, que en cada UPE se tomarán alredeA dor de n unidades de análisis y que se planifica seleccionar m de las M UPE que integran la población. Esto quiere decir que, tal y como se hizo en el capítulo precedente, se deben definir n, n y m de manera que n = n m1. Cabe enfatizar, sin embargo, que, a todos los efectos prácticos, basta con que el tamaño general de muestra, el número de UPE seleccionadas, y el número de unidades que a la postre resulten elegidas en cada UPE seleccionada sean sólo aproximadamente iguales a n, m y n respectivamente. 1

Estos tres números deben responder, en rigor, a un análisis de costo-eficiencia acerca del cual se hacen algunas consideraciones más adelante (Sección 8.7).

192

DISEÑO RAZONADO DE MUESTRAS

Antes de proceder a la selección debe corroborarse que, para toda UPE, se cumple la siguiente relación: el tamaño aproximado que se le atribuya ha de haA llarse entre n y . Es importante advertir que el análisis del cumplimiento de m esta restricción para el tamaño aproximado de las UPE y las eventuales medidas que deben adoptarse en caso de que no se cumpla, pueden y deben realizarse antes de dar por concluida la formación de los estratos. En la práctica, la condición exigida suele cumplirse, sobre todo si, como es usual, las UPE son relativamente grandes y además M es bastante mayor que m. Las acciones que deben desplegarse cuando esto no se cumple son las mismas detalladas en la Sección 7.6. Un caso no tratado allí, que merece especial atención y que sí se presenta con alguna frecuencia, es el que se produce cuando existe al menos una UPE cuyo tamaño es mucho mayor que el de cualquier otra. El manejo de tal situación se explica en la Sección 8.6.1. Una discusión más detallada sobre tamaños inadecuados puede hallarse en Kish (1965) y Kish (1978).

8.3. Método de selección Una vez configurados los estratos, debe procederse a la selección de las UPE. Este proceso es esencialmente el mismo que el explicado en la Sección 7.3; consiste en otorgar a las UPE probabilidades de selección proporcionales a sus tamaños aproximados. El método, concretamente, discurre según los siguientes tres pasos:

A . m 2. Formar una tabla dentro de cada estrato en la que se ordenen las UPE y calcular los tamaños aproximados acumulados. 3. Aplicar en todos los estratos el método de selección de UPE expuesto en la Sección 7.3, usando en todos ellos el intervalo I. 1. Calcular I =

Por ejemplo, supongamos que se quiere hacer un control de calidad en las historias clínicas de individuos que ingresan debido a una intoxicación en los hospitales de cierta región. En la región hay L = 5 provincias (estratos) que abarcan M = 65 hospitales (UPE). En calidad de aproximación se decidió considerar el número de ese tipo de altas en el año anterior y seleccionar m = 20 UPE en total. Como tamaño aproximado total se asumió el valor A = 2.400 (es decir, que se estima que se produjeron alrededor de 2.400 ingresos por concepto de intoxica-

MUESTREO ESTRATIFICADO POLIETÁPICO

193

2.400 = 120. 20 Para seleccionar los hospitales que quedarán en la muestra dentro de cada estrato se procede a ordenarlos y a calcular de inmediato sus tamaños acumulados2. Para el h-ésimo estrato se escoge ahora, aleatoriamente, un número Rh, entre 1 e I = 120, y se construyen los números Rh, Rh +I, Rh + 2I,..., hasta llegar al mayor número que no sobrepase el tamaño atribuido al estrato (Ah). De la manera usual (a través de los tamaños acumulados, como se explicó en la sección 7.3) se identifican las UPE elegidas; al número de UPE que resultan seleccionadas le llamaremos, como se había dicho, mh. Ahora supongamos que en un estrato, por ejemplo el tercero, se tiene M3 = 5 y A3 =270; para elegir las m3 UPE que le corresponden hay que seleccionar aleatoriamente un número R3 entre 1 y 120. En la Tabla 8.1 se resume la información relevante sobre dicho estrato y sobre las alternativas de selección de UPE en el mismo. ción); por tanto, el intervalo de selección que ha de aplicarse es I =

Tabla 8.1. Listado de hospitales en un estrato hipotético con sus tamaños aproximados y los arranques aleatorios que determinarían su elección Hospital (UPE)

A (4,2)

B (6,3)

C (6,4)

D (8,2)

E (9,8)

Tamaño aproximado

20

40

60

70

80

Tamaño aproximado

20

60

120

190

270

1-20

21-60

61-120

1-70

1-30

acumulado Arranques aleatorios que determinan la elección

71-120

de cada UPE NOTA: El número entre paréntesis es el número medio de días de estancia en cada hospital.

Nótese que en el diseño que se está sugiriendo, el número m3 de UPE seleccionadas es aleatorio; por ejemplo, si el R3 que resulte elegido es un número que se halla entre 1 y 20, entonces se seleccionan 3 UPE: A, D y E; pero si fuese, digamos, R3 = 65, entonces resultarán elegidos sólo dos hospitales: C y E. Resumiendo, en este ejemplo se tiene que m3 = 2 si R3 está entre 31 y 120, pero m3 = 3 si R3 resulta estar entre 1 y 30. 2 Puede ser conveniente buscar un índice que refleje de algún modo la eficiencia de la gestión hospitalaria (sobre el supuesto de que podría estar asociada a la calidad de las historias) como pauta para establecer ese orden. Por ejemplo, se podría elegir el tiempo medio de estancia hospitalaria durante el año anterior y ordenar los hospitales de menor a mayor según el valor de dicho tiempo medio. Actuando de ese modo, se asegurará que la muestra de UPE «recorra» todo el espectro de valores inherentes al índice escogido.

194

DISEÑO RAZONADO DE MUESTRAS

Para completar la muestra de manera que toda unidad de análisis tenga pron babilidad de inclusión igual a f = , basta subseleccionar las unidades −dentro A de cada UPE elegida− con fracción de muestreo igual a la razón entre n y el tamaño aproximado que se haya atribuido desde el comienzo a dicha UPE. Ahora bien, el proceso de subseleccionar con dicha probabilidad entre los sujetos que integran la UPE en cuestión puede llevarse adelante de diversas maneras. Si las UPE no son muy grandes, puede actuarse como en el caso explicado en la Sección 7.3 (cuando no se estratificaba); o sea: subseleccionar directamente sobre el listado de los elementos existentes en el listado a través de muestreo sistemático en fases, o mediante un MSA con un tamaño de muestra establecido de suerte que se cumpla forzosamente la demanda probabilística inicial. Sin embargo, la obtención de listados dentro de las UPE seleccionadas puede ser en extremo dificultosa o simplemente prohibitiva. Por ejemplo, si se tratase de una encuesta nacional de fecundidad en la que se hubiesen seleccionado, digamos, m = 52 municipios de las provincias (estratos) del país, entonces habría que encarar la onerosa (acaso irrealizable) tarea de obtener los listados de mujeres de 15 a 49 años en cada uno de los 52 municipios. Pero, afortunadamente, para la aplicación de las fórmulas de estimación de parámetros y de sus errores (que se expondrán más adelante) cualquier procedimiento que produzca la probabilidad requerida en la UPE es lícito. Siendo así, pueden valorarse variantes tales como: - Formar «bloques» de unidades de análisis dentro de cada UPE seleccionada, elegir por muestreo sistemático una parte de ellos con la probabilidad prefijada y luego encuestar a todos los integrantes de dichos bloques. En Silva (1981) se desarrolla un ejemplo en que las UPE son áreas de salud y los bloques son viviendas completas: en ese caso, en lugar de un listado de las mujeres del área, basta contar con uno de las viviendas que dicha área abarca. - Aplicar un muestreo bietápico dentro de cada UPE seleccionada mediante la formación de bloques, los cuales se someten a una selección con probabilidad proporcional a los tamaños aproximados, y luego se submuestrean. Esto es: aplicar una muestra bietápica con probabilidades proporcionales a los tamaños aproximados (tal y como se estudió en el capítulo precedente) dentro de cada una de las UPE elegidas3.

3

Notar que este método lleva el procedimiento a tres etapas de selección.

MUESTREO ESTRATIFICADO POLIETÁPICO

195

8.4. Procedimientos de estimación Cualquiera que sea el método de subselección dentro de la i-ésima UPE del estrato h, se obtendrá un cierto número de unidades de análisis que provienen de dicha UPE; a ese número se le denotará por xhi. También usaremos las notaciones: mh

L

xh = ∑ xhi

x = ∑ xh

i =1

h =1

Para cualquier variable que se esté investigando, se llamará genéricamente yhi al total acumulado para dicha variable por los xhi elementos de la UPE i-ésima del h-ésima estrato. O sea, si se trata de una característica dicotómica (que cada elemento tiene o no), entonces yhi es el número de sujetos en la muestra obtenida dentro de esa UPE (de tamaño xhi) que poseen el atributo; si la variable es cuantitativa, yhi representa la suma de los valores de dicha variable para los xhi sujetos examinados en esa UPE. También se definen, finalmente: mh

L

yh = ∑ yhi

y = ∑ yh

i =1

h =1

Con esta información, se estima la media poblacional de la variable (fracción o proporción en el caso de que la variable sea cualitativa) mediante el ya familiar estimador de razón: r=

y x

La varianza de r se estima mediante la fórmula siguiente: L L 1− f ⎛ L ⎞ var (r ) = 2 ⎜ ∑U h + r 2 ∑Vh − 2r ∑Wh ⎟ x ⎝ h =1 h =1 h =1 ⎠ donde 1 ⎛ mh 2 2⎞ Uh = ⎜ mh ∑ yhi − yh ⎟ mh − 1 ⎝ i =1 ⎠

Vh =

1 ⎛ mh 2 2⎞ ⎜ mh ∑ xhi − xh ⎟ mh − 1 ⎝ i =1 ⎠

Wh =

⎞ 1 ⎛ mh ⎜ mh ∑ xhi yhi − xh yh ⎟ mh − 1 ⎝ i =1 ⎠

[8.1]

[8.2]

La fórmula [8.2] es una aproximación cuya validez se subordina a que se cumpla la siguiente condición:

196

DISEÑO RAZONADO DE MUESTRAS L

(1 − f )∑Vh < (0, 2) x

[8.3]

h =1

Si se desea estimar el total Y de la variable en la población, puede usarse el estimador insesgado: y Yˆ = ¨ [8.4] f cuya varianza puede estimarse mediante: 1 var (Yˆ ) = 2 f

L

∑U h =1

h

[8.5]

8.5. Un ejemplo detallado del Muestreo Estratificado Polietápico A continuación, se ilustran los procedimientos explicados en las Secciones 8.2 y 8.3 mediante la exposición detallada de un minúsculo estudio transversal de la población adulta de una pequeña comunidad con el fin de examinar su situación estomatológica. Imaginemos que, entre otros, se quiere estimar tres parámetros: 1. Tasa de prevalencia de adultos necesitados de atención estomatológica, P. 2. Número total de tales sujetos, Y. 3. Número medio de caries por persona, R. Supondremos que el área cuenta con 5 sectores y abarca en total 38 manzanas. Se quiere que la muestra involucre a los 5 sectores con el fin de asegurar alguna representatividad adicional, y se dispone de los datos sobre el número aproximado de adultos en cada una de las manzanas, tal y como se registra en la Tabla 8.1. Se decide entonces seleccionar una muestra equiprobabilística estratificada bietápica tomando los sectores como estratos (L = 5) y las manzanas como UPE. La Tabla 8.1 permite ver que M1 = 7, M2 = 9, etc. Se ha decidido tomar alrededor de m = 15 manzanas para elegir finalmente unos n = 630 adultos. De modo que se fija ñ = 42, resultado de dividir n entre m. 630 n Es fácil constatar que A = 13.740, de modo que f = = = 0,046; A 13.740 A 13.740 puesto que m = 15, el intervalo resulta ser I = = = 916. También puem 15 de constatarse que los tamaños aproximados de las 38 UPE cumplen con la restricción de estar entre ñ = 42 e I = 916.

MUESTREO ESTRATIFICADO POLIETÁPICO

197

Tabla 8.1. Tamaños aproximados de las manzanas existentes en la población según sectores

NOTA: El símbolo -----denota que las manzanas así marcadas no existen en los sectores respectivos.

Hay que elegir un número aleatorio entre 1 y 916 para cada uno de los 5 estratos. Supongamos que éstos fueron respectivamente los siguientes: R1 = 23

R 2 = 345

R 3 = 105

R 4 = 701

R 5 = 456

Al aplicar la regla de selección basada en los tamaños aproximados dentro de cada sector, resultan elegidas las manzanas cuyas celdas aparecen ocupadas con números en la Tabla 8.2 y, por tanto, quedan fuera de la muestra las restantes (marcadas con tres asteriscos en la tabla)4. En esa tabla aparecen los verdaderos tamaTabla 8.2. Tamaños reales de las manzanas seleccionadas en la primera etapa

4

El lector puede corroborarlo formando los acumulados; es decir, sumando sucesivamente 916 al arranque correspondiente a cada estrato y aplicando la regla de selección explicada en la Sección 7.3.

198

DISEÑO RAZONADO DE MUESTRAS

ños para dichas manzanas (es decir, el número real de unidades de análisis que integraban los listados conformados a posterior i para los conglomerados elegidos): En la Tabla 8.2 se observa que: m1 = 3 m 2 = 4 m 3 = 3 m 4 = 2 m 5 = 4

y, por tanto, que el número final de UPE elegidas ascendió a m = 16. Para hacer la selección dentro de cada UPE, primero se computó la fracción de muestreo que en cada caso correspondía aplicar: se dividió n entre el tamaño aproximado del conglomerado en cuestión. Por ejemplo, para la tercera UPE 42 elegida en el segundo estrato, se calculó: = 0,09. A partir de la Tabla 4.2 450 se determinó el procedimiento sistemático que procedía aplicar (MSF). En la UPE mencionada, por ejemplo, se tomó (del verdadero listado de 440 adultos) por muestreo sistemático uno de cada 10 sujetos y, finalmente, se eliminó uno de cada 10 de los 44 así elegidos. La muestra en este conglomerado resultó ser de 40 sujetos. En la Tabla 8.3 aparecen los tamaños de muestra resultantes después de esta operación en cada una de las 16 UPE seleccionadas. Se ve ahora que x11 = 42, x12 = 43, x13 = 42, x21 = 45, etc. y se puede corroborar que los tamaños muéstrales por estratos fueron:

x1 = 127

x2 = 172

x3 = 118

x4 = 87

x5 = 169

así como que el tamaño de muestra final fue x = 673. Con esta información ya se puede corroborar fácilmente que se cumple ampliamente la condición [8.3]. Los resultados de la encuesta en cuanto a las dos variables relevantes (tener problemas de salud bucal que exigen atención y número de caries) se resumen en Tabla 8.3. Tamaños muéstrales resultante en las 16 manzanas seleccionadas

MUESTREO ESTRATIFICADO POLIETÁPICO

199

Tabla 8.4. Número de sujetos con necesidad de atención estomatológica en cada manzana de la muestra y número de caries acumuladas por ellos

la Tabla 8.4. Allí se recogen los valores de cada UPE de la muestra, necesarios para hacer las estimaciones: número de sujetos con necesidad de atención (yhi) y ! número de caries acumulados por los sujetos encuestados ( yhi ). Este último aparece entre paréntesis. Los resultados de este último cuadro reflejan que, por ejemplo, y52 = 39; es decir, 39 de los 43 elementos examinados en la segunda UPE del quinto estrato ne! cesitaban atención, y entre dichos 43 sujetos habían acumulado y52 = 33 caries5. Se puede apreciar, finalmente, que los totales de adultos enfermos por estratos fueron: y1 = 22 y2 = 44 y2 = 3 y4 = 6 y5 = 141

de modo que y = 216. Para el número total de caries, los resultados respectivos fueron: ! ! ! ! ! y1 = 51 y2 = 42 y2 = 6 y4 = 5 y5 = 154 ! con lo cual, y = 258. Con estos datos, se pueden estimar ahora los tres parámetros: 1. Tasa de prevalencia de adultos necesitados de atención estomatológica (P) y 216 p= = = 0,321 x 673 L L 1− f ⎛ L ⎞ 2 + − U p V 2 p Wh ⎟ = 0,00052 ∑ h ∑ ∑ h x 2 ⎜⎝ h =1 h =1 h =1 ⎠ ! Como se ve, hemos usado el símbolo y para representar el número de caries acumuladas con el fin de dis-

var ( p ) =

5

tinguirlo de y, el número de sujetos que necesitan atención.

200

DISEÑO RAZONADO DE MUESTRAS

e = (1,96) var ( p ) = 0,045 con lo cual se calcula el intervalo de confianza, que en términos de porcentajes es: [27,6-36,6]. 2. Número total de sujetos necesitados de atención (Y): y 216 Yˆ = = = 4.696 f 0,046

var ( y ) =

1 f2

L

∑U h =1

h

= 24.891 e = (1,96) var (Yˆ ) = 309

lo que da lugar al intervalo: [4.387-5.005]. 3. Número medio de caries por persona (R): ! y 258 r= = = 0,383 x 673

var (r ) =

L L 1− f ⎛ L ⎞ 2 + − U r V 2 r Wh ⎟ = 0,00190 ∑ ∑ h 2 ⎜∑ h x ⎝ h =1 h =1 h =1 ⎠

e = (1,96) var (r ) = 0,085 Con esos datos se puede construir, finalmente, el intervalo de confianza: [0,2980,468].

8.6. Otros aspectos del muestreo estratificado polietápico Siendo el diseño más complejo, es por consecuencia el más versátil. A continuación se explican algunos aspectos particulares de interés básicamente práctico.

8.6.1. Unidades autorrepresentadas Procede ahora considerar una situación especial: la que se produce cuando una UPE es extraordinariamente grande respecto de las restantes. En tal caso, el tratamiento es diferente: esa unidad se convierte por sí misma en un nuevo estrato independiente, también llamado unidad autorrepresentada. Con cada UPE autorrepresentada se procede en lo sucesivo como con los restantes estratos. Pa-

MUESTREO ESTRATIFICADO POLIETAPICO

201

Figura 8.2. Diagrama de la población de UPE con una unidad extragrande.

ra ello esta UPE devenida en estrato debe dividirse en subconjuntos que harán las veces de conglomerados, parte de los cuales se seleccionan en una primera etapa para ser luego submuestreados. Esto quiere decir que deben crearse especialmente conglomerados que posteriormente desempeñarán exactamente el mismo papel que las UPE en los estratos comunes. Consideremos el siguiente ejemplo. En una ciudad existen 24 hospitales y se quiere hacer un estudio de satisfacción laboral entre el personal que labora en la atención secundaria. La ciudad puede dividirse en 3 zonas: este, centro y oeste, pero una de las 5 UPE en la zona este es un hospital de grandes proporciones (al que denominamos «Hospital Central»), tal y como refleja el diagrama de la Figura 8.2. Dicho hospital, cuyo número de trabajadores es tal vez 5 ó 6 veces mayor que el número promedio de los restantes, se convertirá en un estrato. Supongamos que se divide dicho centro en 6 «áreas» (área administrativa, área de urgencia, área quirúrgica, etc.). Así la población pasaría a tener 4 estratos y 29 UPE distribuidas en dichos estratos, como muestra la Figura 8.3.

8.6.2. Dos UPE por estrato El planteamiento general presentado en la Sección 8.4 es susceptible de simplificaciones cuya incorporación al diseño no deben soslayarse si se dan las condiciones propicias. El primer y más notable caso particular, valorado por Kish (1965) como «la clave más importante en el diseño contemporáneo de encuestas por mues-

202

DISEÑO RAZONADO DE MUESTRAS

Figura 8.3. Diagrama de la población de UPE reconfigurada tras la creación de un nuevo estrato.

treo»6, consiste en seleccionar exactamente mh = 2 UPE en cada estrato. Este método se identifica con el nombre de selección pareada de unidades primarias. Para su desarrollo es necesario hacer algunos ajustes previos. Si se ha planim ficado seleccionar m UPE, hay que crear L = estratos. Esto debe hacerse de 2 manera tal que los Ah sean iguales para todos los estratos; o sea, hay que forzar las A 2A cosas de manera tal que Ah = = , lo cual se logra mediante la «manipulaL m ción» oportuna de los tamaños aproximados de las unidades de primera etapa y con una definición adecuada de los estratos. Ocasionalmente, además de disminuir o aumentar los tamaños aproximados, hay que dividir o unir diferentes UPE. Un ejemplo detallado de ese proceso puede encontrarse en Silva y Barreras (1983), donde se exponen algunos resultados de una encuesta nacional basada en este tipo de diseño. Una vez establecida la configuración en estratos con las restricciones arriba mencionadas, se sigue exactamente el procedimiento explicado en la sección anterior. Las fórmulas de estimación adoptan en este caso expresiones muy simplificadas: Uh, Vh y Wh pasan a ser:

6

Esta afirmación, que data de hace 35 años, resulta en la actualidad exagerada, pues el advenimiento de las PC ha abierto posibilidades computacionales entonces inalcanzables.

MUESTREO ESTRATIFICADO POLIETÁPICO

203

U h = ( yh1 − yh 2 ) 2 Vh = ( xh1 − xh 2 ) 2 Wh = ( xh1 − xh 2 ) 2 ( yh1 − yh 2 ) 2

8.6.3. Tratamiento de cross-clases Un aspecto hasta ahora escasamente tratado en el presente texto, y que merece especial atención, concierne a las estimaciones que se restringen a una parte de la población. Con extrema frecuencia se presenta la situación siguiente: se proyecta una encuesta para estimar un conjunto de datos poblacionales, pero se tiene tanto o más interés en conocer estos mismos datos para ciertos subconjuntos o clases de dicha población. Por ejemplo, una encuesta nacional puede tener entre sus objetivos básicos la estimación de los niveles de fecundidad en todo el país, pero típicamente también interesará realizar dicha estimación según grupos de edad, según sectores económicos, según tipos de ocupación o número de hijos de la mujer (la mal llamada «paridad»), para cada estado civil, etc. Casi sin excepción estas clases (por ejemplo: mujeres entre 25 y 30 años, mujeres casadas o amas de casa), aparecen representadas en todas las UPE y todos los estratos; de ahí que se les llame cross-clases (clases que «atraviesan» los conglomerados y los estratos, en lugar de concentrarse en sólo algunos de ellos). Cabe preguntarse cómo proceder en caso de que se quiera estimar −por ejemplo− una media o una proporción dentro de una cross-clase. La respuesta es sencilla: como consecuencia del carácter equiprobabilístico de la muestra, aquellos elementos de la muestra que pertenecen a cierta cross-clase constituyen una muestra equiprobabilística de la subpoblación definida por las mismas restricciones que definen dicha cross-clase. Por ejemplo, las mujeres casadas de la muestra constituyen una muestra equiprobabilística de la subpoblación integrada sólo por mujeres casadas. Y tanto la estructura como las propiedades del diseño son «heredadas» por estos subconjuntos. Esto quiere decir que todas las fórmulas desde [8.1] hasta [8.5]7 pueden ser utilizadas en este caso, con una única precaución: xhi representa ahora al número de elementos encuestados en la i-ésima UPE del h-ésimo estrato que pertenezcan a la cross-clase y yhi es el total acumulado de la variable por esos xhi sujetos. Al igual que en los diseños anteriores, puede medirse el efecto de diseño (deff) para la estimación dentro de la cross-clase.

7

Este resultado es válido, naturalmente, también para el caso particular en que no se emplea estratificación, desarrollado en el Capítulo 7.

204

DISEÑO RAZONADO DE MUESTRAS

8.6.4. Caso no equiprobabilístico El diseño explicado en las Secciones 8.2 y 8.3 tenía una forma muy particular. Sin embargo, bien puede ocurrir que, por decisión expresa del muestrista o por razones ajenas al investigador, se haya adoptado un MEP en que los tamaños muéstrales y los procedimientos de selección no hayan seguido ningún patrón específico (en particular, que no sea equiprobabilístico). Imaginemos que estamos ante la situación ya discutida en la Sección 8.4. Como se recordará, el área constaba de 5 sectores (estratos) y abarcaba en total 38 manzanas. Ahora supongamos que se eligieron las manzanas dentro de cada sector mediante muestreo simple aleatorio y que se decidió hacerlo del modo siguiente: m1 = 2

m2 = 3

m3 = 2

m4 = 4

m5 = 2

Supongamos que los conglomerados así elegidos fueron los que refleja la Tabla 8.5, la cual también refleja las probabilidades que les correspondieron a estas UPE en la primera etapa. Tabla 8.5. UPE seleccionadas por sectores y probabilidades de inclusión

Tabla 8.6. Tamaños de las manzanas elegidas y de los tamaños muestrales resultantes tras la selección sistemática

MUESTREO ESTRATIFICADO POLIETÁPICO

205

Una vez en terreno se tomaron muestras sistemáticas de sujetos con el intervalo I = 5 (es decir f2 = 0,2) en todas y cada una de las 13 UPE seleccionadas. Siendo así, los tamaños de las UPE y los tamaños muéstrales correspondientes fueron los que refleja la Tabla 8.6. La Tabla 8.7 recoge los resultados de la encuesta realizada sobre esta muestra (número de sujetos con necesidad de atención estomatológica). Tabla 8.7. Resultados de la encuesta en las manzanas seleccionadas

Las probabilidades de selección que tuvieron en este ejemplo todos los elementos de la muestra son los que se reflejan en la Tabla 8.8. Tabla 8.8. Probabilidades de selección de los elementos de las diferentes manzanas elegidas

Consecuentemente, las ponderaciones que deben emplearse son las que se recogen en la Tabla 8.9:

206

DISEÑO RAZONADO DE MUESTRAS

Tabla 8.9. Ponderaciones que corresponden a los elementos de las diferentes manzanas elegidas

Si llamamos yhij al valor de la variable Y para el sujeto j de la unidad de primera etapa i-ésima en el estrato h, y whij a la ponderación que corresponde a ese valor (usualmente el inverso de la probabilidad de selección que correspondió a ese sujeto), se definen: yhi = ∑ whij yhij y xhij ∑ whij donde j recorre los sujetos de esa unidad de primera j

j

etapa y ese estrato. Con estos valores pueden computarse las siguientes expresiones: mh

xh = ∑ xhi i =1

L

x = ∑ xh h =1

y mh

yh = ∑ yhi i =1

L

y = ∑ yh h =1

donde mh es el número de UPE elegidas en el estrato h, en tanto que L es el número de estratos involucrados. Ahora se pueden aplicar las fórmulas [8.1] y [8.2], válidas en la presente situación. El lector puede corroborar que, aplicadas tales fórmulas se obtiene: r = 0, 436 var (r ) = 0,0425 así como que el intervalo de confianza al 95% es 0,352−0,519. Puede comprobarse, adicionalmente, que si se tratan los datos como si procedieran de un MSA, tendríamos: r = 0, 400 y var (r ) = 0,1642, de modo que la 2

⎛ 0,0425 ⎞ estimación de DEFF sería deff = ⎜ ⎟ = 6,7. ⎝ 0,0164 ⎠

MUESTREO ESTRATIFICADO POLIETÁPICO

207

8.7. Tamaño muestral y efecto de diseño Suponiendo que se ha identificado un parámetro como el más importante del estudio en los diseños multietápicos (involucren o no estratificación), el «discurso oficial» del muestreo plantea que ha de comenzarse por calcular el tamaño de muestra correspondiente a la estimación de ese parámetro bajo la suposición de que se usa MSA; llamemos ns a ese número. Para compensar el hecho de que se trata de un «diseño complejo», usualmente afectado por un efecto debido a la conglomeración, ns debe ser aumentado. Lo que se hace es multiplicarlo por el DEFF correspondiente al diseño en juego. Naturalmente, no es fácil hallar una estimación adecuada de DEFF para ese parámetro «más importante». En la práctica se asume que DEFF se halla entre 1,5 y 3,0: si se piensa que los individuos de una misma UPE son muy parecidos entre sí respecto de lo que se investiga, se toma un valor más bien próximo a 3; de lo contrario, se elige uno más próximo a 1,5 (se aumenta el tamaño correspondiente a un MSA en alrededor de 3 veces y en un 50%, respectivamente). Puesto que a veces es difícil identificar un parámetro como el más importante, se ha sugerido que este procedimiento se aplique para los 3 ó 4 parámetros que se consideren más relevantes y, finalmente, tomar como tamaño definitivo un valor que se halle dentro del recorrido de las magnitudes así obtenidas. El número final planificado debe contemplar la magnitud esperable de la llamada «no-respuesta» (tema que se aborda en la Sección 12.4). Si se espera que el porcentaje de individuos que va a responder sea de alrededor de β, se divide el tamaño deseado por

β

. Por ejemplo, si se sospecha que sólo el 85% de las 100 unidades podrá ser efectivamente interrogado, se calcula el tamaño: ns ( DEFF )100 85 Resulta conveniente que el número que finalmente se establezca para n sea un múltiplo del n que se haya planificado. Con el fin de determinar el número m de UPE que se debe seleccionar se trabaja con este tamaño total «redondeado». En Hansen, Hurwitz y Madow (1953) se sugiere que m esté aproximadamente entre 15 y 50. No obstante, tal regla debe ser observada con espíritu flen xible, de manera que si resultase igual, digamos, a m = 10 o a m = 56, no nen cesariamente tendría que desecharse dicho resultado. En rigor, el elemento determinante es el análisis de recursos a que deben someterse los números m, n y n . En la determinación de n hay que tener en cuenta el significado práctico que tiene tal número de unidades en una UPE. Por ejemplo, quizás se quiere que los interrogatorios en cada UPE sean concluidos a lo largo de un solo día, con el fin n=

208

DISEÑO RAZONADO DE MUESTRAS

de movilizar una sola vez al equipo de encuestadores hacia el sitio en que se ubica dicha UPE. Si se sabe que, en un mismo día, pueden realizarse 20 pero no 30 encuestas, podría decidirse que n fuera igual a 20, 40 u otro múltiplo de 20. Asimismo, debe valorarse el efecto económico de trasladarse a m UPE. En general, es obvio que resulta más conveniente desde el punto de vista de la representatividad tomar m grande y n pequeño (bajo la restricción) que viceversa, pero también lo es que, cuanto mayor sea m, mayores serán los gastos en la generalidad de las situaciones reales. Como se puede apreciar tras la lectura de la presente Sección, el espíritu con que se sugiere enfrentar el problema de decidir los tamaños de muestra dentro de las diferentes etapas del diseño es abiertamente flexible. Se dan algunas ideas y pautas generales, pero al final tal proceso quedará redondeado por el sentido común. Las numerosas formulaciones matemáticas que se han sugerido para resolver este problema (véase el libro clásico de Hansen, Hurwitz y Madow, 1953) son muy interesantes para los estadístico-matemáticos, pero han demostrado ser estériles para los investigadores aplicados.

Bibliografía Berent J, Jones EF, Siddiqui MK. Basic characteristics, sample designs and questionnaires. Comparative Studies No. 18, World Fertility Survey, 1982. Hansen MH, Hurwitz WN, Madow WG. Sample survey methods and theory. New York: Wiley, 1953. Kish L. Survey sampling. New York: Wiley, 1965. Kish L. Exhausted and undersized PSU's. Survey Statistician, 1978. No. 0. Lininger CA, Warwick DP. La encuesta por muestreo. México DE: CECSA, Moser CA, Kalton G. Survey methods in social investigation. 2.a ed. London: Heinemann Educational Books, 1971. O’Muircheartaigh C. Proximum designs for crude sampling frames. Bulletin of the International Statististical Institute 1977; 46, No. 3. Silva LC. Sobre la aplicación de un diseño estratificado polietápico en encuestas de salud. La Habana: Instituto de Desarrollo de Salud. MINSAP, 1981. Silva LC, Barreras M. Sobre la evaluación de la calidad de los registros. Resultados de una experiencia. Revista Cubana de Administración de Salud 1983; 9: 385-393.

9 Otras técnicas de muestreo

En el presente capítulo se pasa revista someramente a diversas técnicas íntimamente vinculadas al muestreo. Si bien no guardan, en general, relación mutua, todas aportan información complementaria de interés y contribuyen a conformar una cultura más sólida tanto en materia de selección muestral como de estimación.

9.1. Muestreo replicado Esta técnica de muestreo, que data de la década del cuarenta y que fue defendida con especial entusiasmo por Deming (1960), procura simplificar el conflictivo proceso de estimación de los errores de muestreo. La idea básica consiste en seleccionar varias muestras independientes (también llamadas muestras interpenetrantes), todas con el mismo diseño y cada una de las cuales pudiera por sí misma ser fuente de estimaciones. Mediante el uso combinado de la información procedente de todas ellas se pueden obtener, efectivamente, estimadores sumamente simples de los errores, lo cual es especialmente atractivo cuando se trata de estadígrafos complejos, tales como coeficientes de regresión o de concordancia, no considerados en este libro. El procedimiento demanda que se seleccionen muestras independientes, cada una resultante de un diseño que puede tener toda la complejidad que se quiera. Supongamos que se tiene un parámetro γ y cierto procedimiento de estimación asociado a algún diseño muestral específico. Llamemos γˆ1 , γˆ2 ,..., γˆk a las estimaciones procedentes de respectivas muestras obtenidas tras haberse aplicado sucesiva1 k mente este diseño, y consideremos su promedio como estimador de γ : γˆM = ∑ γˆ j . k j =1 De esta forma, se puede calcular la varianza de γˆM mediante:

210

DISEÑO RAZONADO DE MUESTRAS k

var (γˆM ) =

∑ (γˆ j =1

j

− γˆM ) 2

k (k − 1)

.

Ilustres muestristas, como Mahalanobis y Lahiri, propugnaban que el número de muestras «interpenetrantes» independientes fuese k = A. Una descripción del método, en que se recomienda enfáticamente tomar k = 10 replicaciones, puede hallarse en Deming (1960). Fuertemente emparentados con este método de las replicaciones reiteradas, se hallan los procedimientos conocidos como jackknife y, más recientemente, los métodos de remuestreo conocidos como bootstrap (Efron, 1982); exposiciones adecuadas pueden hallarse en Rust (1985) y Rao et al. (1986). Todos estos métodos tienen en común que remuestrean de las mismas unidades previamente seleccionadas y producen errores de muestreo que son aproximadamente iguales entre sí (Kish y Frankel, 1974).

9.2. Técnica de respuesta aleatorizada Como se discutió en la Sección 2.3, las investigaciones son a veces de naturaleza tal que los encuestados tienden a negarse a responder o, peor aún, deciden distorsionar la verdad. Esto resulta especialmente verosímil cuando se trata de indagaciones de índole muy personal, o que involucran rasgos embarazosos tales como ciertas prácticas sexuales, conductas socialmente censuradas o prácticas ilegales. En una situación en que las preguntas formuladas sean de naturaleza altamente comprometedora sería iluso esperar que las respuestas fuesen veraces y, por tanto, poco riguroso sacar conclusiones globales de tal información, salvo que se hayan adoptado precauciones metodológicas especiales. El recurso convencional consiste en comprometerse a conservar el anonimato, pero así no siempre se consigue disipar las posibles suspicacias de los encuestados. Con el fin de mitigar estos efectos, Warner (1965) ideó un muy ingenioso procedimiento de interrogatorio basado en la estrategia de que el interrogado «inyecte» cierto error a su respuesta mediante un recurso regido por el azar. La idea central consiste en que el interrogado realice un experimento aleatorio (tal como lanzar un dado) y, sin revelar el resultado obtenido, dé una información que dependa, según cierta regla predeterminada, tanto de tal resultado como de su verdadera situación ante la cuestión indagada. Así, el encuestador nunca conocerá la situación que realmente corresponde al individuo; pero el estadístico, usando los datos recogidos y las leyes probabilísticas que rigen el experimento, podrá obtener datos globales correctos sobre la población. A continuación se expone la descripción que se hace en Silva (1982) y Silva (1997) de un problema de este tipo, y de la solución que se empleó para encararlo.

OTRAS TÉCNICAS DE MUESTREO

211

En 1973 se realizó una encuesta de fecundidad (véase Krotki y McDaniel, 1975) en Alberta, Canadá, sitio donde el aborto provocado era en aquel momento ilegal, salvo que mediaran razones terapéuticas. Entre otras, se formulaban las siguientes dos preguntas: 1. ¿HA TENIDO UN ABORTO PROVOCADO (TERAPÉUTICO O ILEGAL) A LO LARGO DE 1972? 2. ¿SE HA CASADO EN ALGUNA OPORTUNIDAD? Es fácil advertir el carácter altamente sensitivo de la primera pregunta en aquel medio, así como que la segunda carece, en principio, de carácter embarazoso y, por ende, de todo efecto inhibitorio. Se seleccionaron tres muestras independientes, de 327, 269 y 342 mujeres en edad fértil respectivamente. Con cada una de ellas se siguieron sendos procedimientos, diferentes entre sí; para comenzar, expondremos cómo se procedió con las dos primeras. La primera se abordó, sin más, a través del interrogatorio directo; a las integrantes de la segunda se les indicó enviar su respuesta por correo sin consignar el remitente (encuesta anónima). Se procuraba eliminar así, en este segundo grupo, las razones para la distorsión que verosímilmente aquejarían al primero. Los porcentajes de respuestas afirmativas que se obtuvieron para la pregunta comprometedora fueron 0,3% y 0,8% respectivamente: como se ve, el segundo es casi tres veces mayor que el primero, presumiblemente debido al efecto desinhibitorio producido por el anonimato. Para la segunda pregunta, en cambio, estos porcentajes fueron 82,3% y 81,8%; la notable similitud entre estos dos números refleja y confirma la naturaleza no comprometedora de la pregunta. Cabía preguntarse, sin embargo, si los resultados de la encuesta anónima eran realmente confiables. Para valorarlo, se encaró el problema desde otro ángulo. En lugar de centrar la atención en los porcentajes, se consideró el número total de abortos ilegales que se verificaron en la ciudad durante el año 1972. Al tener en cuenta el total de mujeres en edad fértil en la ciudad y el resultado de la primera muestra, se estimó que 1.148 mujeres habían sido objeto de algún tipo de aborto; cuando se utilizó el resultado de la encuesta anónima, el número estimado de abortos, fuesen terapéuticos o ilegales, ascendió a 3.058. Hasta aquí todo parece lógico pero, por su carácter oficial, se conocía el número de abortos de índole terapéutica (y por tanto, legales): ¡fueron 4.040 en el período! Ello revela que incluso la encuesta anónima padeció de un apreciable subregistro, ya que el número de abortos terapéuticos no puede ser mayor que la totalidad de interrupciones1 (terapéuticas e ilegales). Con esto se ilustra con1

Aquí se está equiparando el número de mujeres que abortaron en un año con el de abortos producidos en ese período, ya que el caso de una sola mujer con dos o más interrupciones en tan breve lapso, aunque posible, es muy poco probable.

212

DISEÑO RAZONADO DE MUESTRAS

vincentemente la inoperancia que puede aquejar a una encuesta anónima como recurso para evitar el posible temor que genera el interrogatorio en virtud de que pudieran divulgarse sus respuestas. Este problema venía planteando un desafío a los estadísticos: ¿cómo obtener conclusiones confiables sin dejar de conseguir que cada interrogado sepa (no que crea ni que confíe, sino que sepa) que no es posible establecer su situación respecto de la condición embarazosa? La solución encontrada fue la que se aplicó a la tercera muestra en el estudio canadiense. Se trata de una expresión sencilla del llamado método de respuesta aleatorizada, elegida entre numerosos procedimientos concebidos bajo el mismo principio. En un cartón se dibuja un círculo que se divide en dos secciones dentro de las cuales aparecen afirmaciones complementarias de la manera indicada en la Figura 9.1. La parte más pequeña abarca la cuarta parte del área total del círculo. Fija al centro del círculo hay una saeta metálica que, tras un impulso inicial de la persona interrogada, gira libremente. Cada mujer debe encarar aquella de las dos afirmaciones que resulte señalada por la flecha al detenerse. En dependencia de su situación real, declara si es «verdadera» o «falsa» la afirmación seleccionada por el mecanismo; el encuestador simplemente anota esta respuesta (verdadero o falso), sin conocer, naturalmente, a qué afirmación corresponde. Una vez interrogadas n mujeres, se conocerá el número a de las que contestaron «verdadero». Puede suponerse que sólo a una cuarta parte de las mujeres les haya correspondido evaluar la afirmación contenida en la sección pequeña, y también, obviamente, que el resultado de cada experimento (la región en que cae la flecha) es independiente de que la mujer se haya o no practicado un abor-

Figura 9.1. Dispositivo para interrogatorio con respuesta aleatorizada.

OTRAS TÉCNICAS DE MUESTREO

213

to. Usando la teoría elemental de probabilidades, estas suposiciones permiten a n−a afirmar que P ≈ π + (1 − π ) donde π es la fracción del círculo corresponn n diente a la declaración afirmativa. Es fácil deducir que el porcentaje desconocido P de mujeres que tuvieron un 1 ), puede estimarse mediante la fórmula [9.1]: 4 3n − 4a Pˆ = [9.1] 2n Como se recordará, en la encuesta se habían tomado 3 muestras. Cada una de las 342 mujeres de la tercera fue interrogada mediante el procedimiento descrito; a = 251 de ellas respondieron que era verdadera la afirmación sobre la cual les tocó pronunciarse, de modo que, según [9.1], el porcentaje de mujeres que se habían realizado abortos se estima como 3,2%. Cabe preguntarse ahora: ¿es efectivamente eficaz el procedimiento? Los porcentajes estimados con los tres métodos de encuesta se resumen en la Tabla 9.1.

aborto, en este caso (donde π =

Tabla 9.1. Estimaciones de los porcentajes de mujeres con abortos y de mujeres casadas según método de encuesta

Por otra parte, las estimaciones de los totales para los diferentes tipos de abortos se resumen en la Tabla 9.2. Tabla 9.2. Número estimado del total de abortos según método de encuesta

214

DISEÑO RAZONADO DE MUESTRAS

Las cifras son sumamente elocuentes: según se aprecia en la Tabla 9.1, cuando se emplea respuesta aleatorizada, el porcentaje de abortadoras (pregunta comprometedora) se multiplica por 10, en tanto que el de casadas (pregunta inocua) no exhibe prácticamente variación alguna. Por otra parte, la Tabla 9.2 muestra que, mientras los dos procedimientos convencionales arrojaron conclusiones disparatadas (el total de abortos ilegales era negativo), la técnica de respuesta aleatorizada consiguió arrancar una estimación enteramente razonable de dicho número. Numerosos procedimientos similares al que se ha explicado (en los que se involucran artilugios tales como cartas, dados o monedas) fueron creados para encarar problemas como éste. Uno más simple que el de Warner consiste en solicitar que se lance una moneda y pedir al sujeto que, si sale cara, responda a la pregunta: «¿Ha tenido usted un aborto?»; en tanto que, si el resultado es escudo, responda SÍ. En este caso es fácil ver que la estimación de mujeres que abortaron se estimaría mediante:¨ Pˆ = 2 ps − 1 , donde ps representa la fracción de mujeres encuestadas que respondieron SÍ. Más tarde, se crearon incluso procedimientos para estimar promedios, como muestra el siguiente ejemplo de Dalenius y Vítale (1974), quienes adecuaron el procedimiento de Warner para estimar la media μ de una variable cuantitativa «conflictiva», tal como la edad de la primeras relaciones sexuales (X). Se parte de que X puede tomar cualquiera de los 35 valores que van desde 15 a 49 años y que se trabaja con una muestra de n mujeres que admiten haber tenido tales relaciones en el momento de la encuesta. En un cartón se dibuja un círculo que se divide en 35 secciones iguales que se numeran sucesivamente del 15 al 49. Fija al centro del círculo hay, como antes, una varilla metálica que la interrogada hace girar; cuando el dispositivo se detiene, el extremo de la varilla reposará sobre un número que, naturalmente, el encuestador no conocerá. Cada mujer se circunscribe a decir NO en caso de que sus primeras relaciones sexuales se hayan verificado a una edad estrictamente superior al número señalado por a la saeta, y SÍ en caso opuesto. Puede probarse que μˆ = 15 + 35 es un estiman dor insesgado de la media, donde a es el número de mujeres que contestaron NO. Si, por ejemplo, el porcentaje de respuestas negativas es 40%, entonces μˆ = 15 + (35)(0, 4) = 29; o sea, se estima que la edad media del comienzo de las relaciones sexuales en esa población es 29 años. NOTA: Naturalmente, todas estas estimaciones están afectadas por cierto error. Además del error del muestreo, en este caso está presente un componente de error debido al efecto que produce el mecanismo aleatorio. No se examinará, sin embargo, este problema aquí, ya que desborda el nivel del libro. Su solución puede hallarse, por ejemplo, en Boruch y Cecil (1979).

La técnica de respuesta aleatorizada alcanzó un considerable aval práctico. Muchas experiencias se realizaron en esferas tales como fecundidad, conducta

OTRAS TÉCNICAS DE MUESTREO

215

sexual, consumo de alcohol, actuaciones ilegales y fraude académico. Massey, Ezatti y Folsom (1989) la sugirieron para estimar el porcentaje de personas que niegan falsamente mantener conductas de riesgo en relación con el SIDA. A través de una encuesta basada en esta técnica, Zdep y Rhodes (1971) encontraron, por ejemplo, que la estimación del porcentaje de individuos que golpean a sus hijos era cinco veces mayor que lo que arrojó el método de respuesta anónima por correo. En algunos países de alto desarrollo el procedimiento ha servido para mostrar que la prevalencia de drogadicción es mucho mayor de lo que los métodos tradicionales hacían suponer; por ejemplo, el estudio de Brown y Harding (1973) −en que se encuestaron miles de individuos− produjo estimaciones dos veces mayores para submuestras tratadas con respuesta aleatorizada que para otras manejadas anónimamente. Otros estudios proporcionan resultados igualmente elocuentes; es obvio, sin embargo, que el mero hecho de que las diferencias entre las estimaciones obtenidas con respuesta aleatorizada y por un método convencional sean muy marcadas no constituyen prueba irrefutable de la eficiencia del procedimiento. Los trabajos de validación realizados agregaron en su momento algún aliento adicional a las expectativas creadas por el método. Para llevar adelante tal validación es menester comparar los verdaderos parámetros (suponiendo, claro, que éstos sean conocidos) tanto con las estimaciones obtenidas por conducto de la técnica novedosa como con las que proceden de métodos tradicionales. Lamb y Stem (1978) y Tracy y Fox (1981) obtuvieron resultados bastante estimulantes en esta línea. La experiencia acumulada hace pensar que, en general, el nivel de confianza del sujeto interrogado aumenta considerablemente entre los que acceden a participar; sin embargo, el grado de participación no se ha visto sensiblemente incrementado. En efecto, los métodos estadísticos pueden generar suspicacia y desconcierto entre los interrogados y −según se informa en la literatura− su aplicación no ha producido la disminución esperada en las tasas de no respuesta. La manera en que se explican y aplican los procedimientos, el mecanismo aleatorio utilizado y, especialmente, el nivel cultural de los encuestados, parecen influir decisivamente en el éxito de procedimientos como éste. En este sentido, Silva (1984) apuntaba algunas sugerencias: a) La técnica debe aplicarse a una parte de la muestra piloto y el método regular a la otra parte; así podría evaluarse su comprensión, grado de aceptación y funcionamiento general en la población. b) En su fase de aplicación es preciso constatar que cada interrogado ha comprendido no sólo aquello que se espera de él, sino que entienda que el método, efectivamente, le confiere absoluta privacidad. c) Las preguntas tratadas por respuesta aleatorizada deben aparecer al final

216

DISEÑO RAZONADO DE MUESTRAS

del cuestionario, después de las que se formulan por vías convencionales y previa explicación de que se trata de un procedimiento para cuya aplicación se solicita especial cooperación. Las posibilidades de comunicación horizontal que actualmente ofrece Internet y el correo electrónico abren oportunidades novedosas a la técnica que nos ocupa, ya que si el sujeto encuestado recibe la demanda por esta vía, puede operar según se le indique sin testigos, y el dispositivo físico (dados, ruleta, baraja o lo que sea) puede suplirse por un recurso simulado a través de un programa que se adjunte a la propia encuesta para que el usuario ejecute y responda en función del resultado.

9.3. Estimación por pesca y repesca Un problema interesante surge cuando se quiere estimar el número total (llamémosle N) de animales que habitan una zona; por ejemplo, águilas en un valle o peces en un lago. Una técnica para abordar este problema consiste en emplear el sistema denominado de captura-recaptura o pesca-repesca. En su versión más elemental la técnica consiste en tomar una muestra de n animales (por ejemplo, un conjunto de peces), marcarlos mediante algún procedimiento (un anillo o una cruz de pintura) y devolverlos a la zona (al lago). Una vez que los ya capturados se mezclen con los restantes, se selecciona una nueva muestra, ahora de m animales. Se cuenta el número k de los que están marcados entre estos últimos (es decir, los que fueron capturados en las dos ocasiones). Es muy fácil comprender que, basándose en los supuestos de que la población no se modifica durante el lapso que dura el estudio y de que en ambos procesos de selección todos los animales tienen igual probabilidad de selección, un estimador adecuado del tamaño poblacional es el siguiente: nm Nˆ = [9.2] k De hecho, en Feller (1950) se demuestra que [9.2] es un estimador de máxima verosimilitud2. Un sencillo razonamiento conduce a la fórmula [9.2] de manera natural. Imaginemos que inicialmente se pescaron n = 1.300 peces, que en la segunda ocasión se capturaron m = 2.500 y que k= 125 de éstos últimos habían integrado también la primera muestra. A juzgar por los resultados de la segunda muestra, 2 La «función de verosimilitud» es un recurso usualmente aplicado en Teoría de Estimación cuya definición desborda el nivel del presente texto. La estimación máximo verosímil es el valor que conduce al estimador más razonable dados los datos que se poseen.

OTRAS TÉCNICAS DE MUESTREO

217

el 5% de la totalidad de los peces del lago llevan marca (125 de 2.500). De modo que 1.300 (total de peces marcados) representa el 5% del número desconocido. Concretamente, N debe ser 20 veces mayor que 1.300; es decir: se estima que hay 26.000 peces en total. La fórmula [9.2] produce, desde luego, el mismo resultado: (1.300)(2.500) Nˆ = = 26.000 125 Existen diversas aplicaciones del procedimiento, cuya versión más simple se acaba de exponer (Hook y Regal, 1995). El modelo podría emplearse, por ejemplo, para estimar el número total de ambulancias o de coches policiales en una ciudad3, pero una de las aplicaciones más señaladas en el ámbito salubrista concierne al afán de evaluar la integridad de los sistemas de registro en salud pública, en lo que también se conoce como sistemas duales de registro (Wells, 1971). El más clásico fue propuesto por Chrandasekar y Deming (1949) para estimar ciertos datos globales aprovechando las discordancias entre dos sistemas de registro independientes que traten de obtener información sobre un mismo tipo de acontecimientos. Para estimar el número total de tales acontecimientos, el procedimiento asume que la población de donde procede la información es cerrada (en el mismo sentido en que lo es la población de peces) y que es posible identificar correctamente tanto los casos que aparecen en ambos registros como los que sólo están en uno de ellos pero no en el otro. La información necesaria es el número a de casos registrados en los dos sistemas, el número b de los que registra el registro 1 pero no el 2, y los que se hallan en el segundo pero no en el primero, al que llamamos c. Se definen n1=a + b y n2 = a + c y se obtiene la estimación del total N de sujetos que están en al menos uno de los dos. El estimador [9.2] con esta notación sería: n n Nˆ = 1 2 a Pero también se ha propuesto el estimador: (n + 1)(n2 + 1) Nˆ = 1 a +1 La estimación de la varianza de Nˆ viene dada por:

( n + 1)(n2 + 1)cb Var (Nˆ ) = 1 (a + 1) 2 (a + 2) 3

[9.3]

[9.4]

Se trataría de anotar las matrículas de un conjunto de estos coches mientras circulan «aleatoriamente» durante cierto lapso, y hacerlo nuevamente unos días más tarde.

218

DISEÑO RAZONADO DE MUESTRAS

Una aplicación vinculada a los problemas de muestreo es la siguiente (Teutsch y Churchill, 1994): imaginemos que en una comunidad hay un registro de asmáticos que se pretende emplear en calidad de marco muestral pero que se sabe que es incompleto; se tiene un segundo registro independiente y se quiere estimar la magnitud de las deficiencias de cobertura presentes en el marco inicial. Hay a = 140 sujetos que están en ambos registros; b = 20 están en el registro 1 pero no en el 2 y c = 55 se hallan en el 2 pero no en el 1. El total de sujetos teóricamente elegibles sería, según [9.3], igual a: (164 + 1)(195 + 1) Nˆ = = 229, 4 (140 + 1) La varianza de Nˆ sería: (165)(196)(20)(55) var ( Nˆ ) = = 12,6 (141) 2 (142) De modo que un intervalo de confianza para N sería 229, 4 ± (1,96) 12,6; es decir, puede estarse razonablemente seguro de que el número de asmáticos se halla entre 222 y 236. Para más detalles, véase Wolter (1983).

9.4. Muestreo condicional en dos fases Supongamos que se está realizando un estudio de morbilidad para estimar la prevalencia de cierta dolencia, pero imaginemos que se presenta la siguiente singularidad: el costo de la prueba diagnóstica que se considera óptima (a la que llamaremos T2) es demasiado alto como para realizarla a todos los sujetos de la muestra, a la vez que existe una prueba más barata (llamémosla T1) de relativamente baja especificidad pero muy sensible. Es decir: si el sujeto padece la dolencia arrojará casi con seguridad un resultado «positivo» ante la prueba T1 pero la casi completa confirmación sólo se obtendrá si se repite ese resultado cuando se le aplique la prueba T2. Una estrategia común en tales circunstancias es la siguiente: realizar la prueba T1 a una muestra (que en principio consideraremos elegida simplemente al azar, pero que puede ser seleccionada por cualquier otro método) de tamaño n y luego aplicar T2 sólo a n2 individuos elegidos al azar de los n1 que resultaron «positivos» bajo T1 donde n2 < n 1 . Supongamos que en esta segunda fase son m los positivos. La prueba T1 funciona como una especie de tamizaje o screening inicial y el diseño puede denominarse muestreo condicional en dos fases. La situación es la que refleja la Figura 9.2. El problema consiste en estimar la tasa de prevalencia de la dolencia empleando la información que resulta de aplicar las dos fases. Consideraremos positivo sólo a quienes hayan arrojado el resultado T2+ y T1+ .

OTRAS TÉCNICAS DE MUESTREO

219

Figura 9.2. Muestra condicional en dos fases.

La probabilidad de que se produzca esa conjunción es igual, según el teorema de Bayes, a P (T2 + T1+ ) P (T1+ ), lo cual se estima, si suponemos que se aplicó m n1 . . n2 n Por ejemplo, si el primer tamizaje se llevó adelante con 200 sujetos, de los cuales 120 resultaron ser positivos, y al aplicar T2 a 50 de estos últimos, resultaron 20 positivos, entonces n = 200 n1 = 120 n2 = 50 m = 20, de modo que 120 20 24 . = pˆ = = 0, 24. 200 50 100 La estimación del error de este estimador es complicada por tratarse del producto de una proporción y una razón, especialmente si los diseños empleados en ambas etapas fueron complejos. El problema aquí esbozado está abierto, especialmente para el caso en que se conocen la sensibilidad y la especificidad de las pruebas involucradas, datos que pudieran ser incorporados con provecho en todo el proceso de estimación.

un diseño equiprobabilístico en ambas ocasiones, a través del producto

9.5. Muestreo en el tiempo Se comentan brevemente a continuación algunas estrategias de diseños temporales en las encuestas por muestreo. Por regla general, algunas de estas alternativas se adoptan por simple hábito o por tradición, y con frecuencia no se ha tenido en cuenta la selección probabilística en la dimensión temporal. No pocas veces se usan los llamados períodos «típicos» (representativos), tal y como ocurre con el primero de abril para los censos decenales en Estados Unidos; en su momento se consideró que dicha fecha era «típica» y más conveniente que cualquier otro día, hasta que ya se volvió tradicional, al igual que ocurre con la tercera semana para representar a la población cada mes en el Current Population Survey (US Census Bureau, 1978). Ocurre, en fin, como con las áreas «típicas»,

220

DISEÑO RAZONADO DE MUESTRAS

que también fueron muy utilizadas como paradigmas de representatividad espacial hasta que se generalizó el uso del muestreo probabilístico de áreas. El muestreo a lo largo de un intervalo dado de tiempo representa una posibilidad: de la misma manera que una población se ubica en el espacio, también puede considerarse el tiempo como otra dimensión de la variación. Las poblaciones varían de un año a otro y de una semana a otra, del mismo modo que varían entre regiones o municipios. El muestreo probabilístico de áreas poblacionales sirve como recurso que contempla la variación espacial, pero la variación temporal puede tener tanta o más importancia, especialmente en cuanto a las modificaciones cíclicas (estacionales, semanales o incluso diarias). Cuando por limitaciones de orden práctico, como las existentes para los censos decenales, se requiere un periodo único, la selección basada en criterios subjetivos de un «periodo representativo» puede ser preferible a una elección en que intervenga el azar. Pero cuando se cuente con un número mayor de periodos, cabe considerar la posibilidad de realizar una selección probabilística de los periodos (de igual modo que se haría con las áreas). Los cortes transversales, por regla general, tienden a sacrificar la cobertura temporal, mientras que los estudios longitudinales están limitados espacialmente. Los diseños matriciales para muestrear tanto el espacio como el tiempo mediante muestras periódicas equilibradas pueden constituir una solución integral. Las encuestas periódicas, diseñadas para determinados periodos, pueden ser promediadas para el total del intervalo que abarcan. Con las muestras repetidas podemos estar en condiciones de mejorar la calidad y reducir los costos; por otra parte, las muestras repetidas pueden producir datos para construir series temporales que permitan estimar cambios y tendencias; y, finalmente, las medias y sumas obtenidas con muestras repetidas pueden producir resultados inferenciales mejores que los basados en muestras únicas (Kish, 1989).

9.6. Muestras maestras Sería difícil imaginar muestras periódicas que pudiesen aplicarse sin contar con marcos muéstrales tipo o muestras maestras. Dichos marcos pueden suministrar muchos datos auxiliares para mejorar las muestras periódicas. El término «muestra maestra» alude a una colección de mapas, listas, planos y otras informaciones auxiliares, ya sean referidas a toda la población o a una amplia selección de unidades primarias de muestreo, que a su vez sirven como marco para seleccionar las muestras necesarias. Es posible seleccionar, por ejemplo en una primera fase inicial, una muestra grande (digamos de manzanas) para después elegir a partir de esas listas ya preparadas, y según se necesiten, las unidades de las siguientes etapas para conformar las muestras reales de cada nueva encuesta.

OTRAS TÉCNICAS DE MUESTREO

221

Una «muestra tipo» puede incluso contener datos personales obtenidos en entrevistas realizadas en una primera fase, de modo que sobre una submuestra de estos individuos entrevistos se efectúan las encuestas que vayan siendo necesarias. Tales submuestras, con frecuencia, son objeto de rotación: se conservan las UPE iniciales (con sus probabilidades) y en momentos sucesivos se completan las selecciones correspondientes a etapas posteriores, contemplando para estas subselecciones las probabilidades originalmente previstas. Para ilustrarlo con un ejemplo muy sencillo imaginemos que en una comunidad hay 12 escuelas primarias de las que se han seleccionado 3 con probabilidades proporcionales al número de niños y que luego se eligieron 20 niños, por escuela para completar una muestra equiprobabilística de 60 sujetos. Supongamos que las probabilidades de selección resultaron ser las siguientes:

f1 = 0,12

f2 = 0,43

f3 = 0,28

Dos años más tarde, se realiza otra encuesta con la misma población: los niños de las 12 escuelas existentes. Naturalmente, los niños ya no serán los mismos, ni será igual el número de niños por escuela, ni el número total de niños. Supongamos que en este segundo momento se quiere una muestra equiprobabilística con f = 0,03 como probabilidad general (calculada mediante la determinación del tamaño n deseado y del actual valor de N, o eligiendo la misma f del estudio anterior). En tal caso, pueden usarse las mismas tres escuelas y aplicarse entonces, respectivamente, las siguientes fracciones de muestreo (quizás mediante muestreo sistemático en fases) a las listas de alumnos que ahora se hallan en dichas escuelas:

f1' = 0, 25

f 2' = 0,07

f 3' = 0,11

que son las necesarias para que se cumpla la condición fif i ' = f .

9.7. Muestreo y técnicas de evaluación rápida En los últimos años se ha venido hablando con insistencia de las llamadas técnicas rápidas de evaluación sanitaria. En un número de World Health Statistics Quarterly especialmente destinado al tema de se puede apreciar que abarcan a las técnicas de muestreo. Bennet et al. (1991) exponen lo que ellos denominan «método general simplificado de muestreo por conglomerados» como alternativa a un procedimiento propuesto años antes por Henderson y Sundaresan (1982), consistente en tomar 30 conglomerados y 7 sujetos en cada uno, un diseño simplemente arbitrario. Ahora bien, en mi opinión, el planteamiento de Bennet y sus colaboradores no se distingue en lo esencial del que formula la teoría clásica de muestreo y, en

222

DISEÑO RAZONADO DE MUESTRAS

el fondo, no es otra cosa que el contenido del Capítulo 7 del presente libro. A mi juicio, más que una técnica rápida de evaluación, lo que ellos hacen es una exposición rápida de una técnica convencional.

9.8. Estimación de eventos infrecuentes y muestreo en red Supongamos que se desea estimar el número total de casos de cierta enfermedad (por ejemplo, un tipo de cáncer o de hepatitis) acaecidos en la población durante un lapso dado. El procedimiento convencional sería interrogar una muestra de sujetos e indagar si han tenido o no la enfermedad; pero, si la dolencia es muy poco frecuente, el tamaño muestral debería ser muy grande. Una alternativa sería seleccionar un conjunto de médicos e interrogarlos a ellos en lugar de a los posibles enfermos, y preguntarles cuántos casos diferentes han atendido a lo largo de cierto lapso previo. La dificultad estriba, en principio, en que más de un médico puede informar del mismo caso. Cuando se trata de cuantificar un acontecimiento poco frecuente en una comunidad, este recurso, puede ser, sin embargo, en extremo útil. Cuando se admite una regla de conteo múltiple como la que se describe a continuación con un ejemplo, el método de muestreo suele denominarse muestreo en red. Supongamos que en una escuela hay A = 600 alumnos distribuidos en varios grupos. Cada alumno tiene cierto número de profesores. Dicho número depende del año escolar que curse y de otros aspectos académicos inherentes al estudiante en cuestión; consecuentemente, puede diferir de alumno a alumno. Imaginemos que el número total de docentes es 12 y que se quiere estimar el número de alumnos que cometieron fraude académico a lo largo del último año. La manera natural de realizar la estimación es seleccionar una muestra de alumnos (por ejemplo, a = 50 estudiantes) e indagar en el expediente de cada cual si ha cometido o no un fraude. Si para na de ellos se tiene respuesta afirmativa, entonces la estimación sería: A Xˆ 1 = na a Supongamos que en total se han producido cuatro casos de fraude; es evidente que la inmensa mayoría de las muestras posibles de tamaño 50 producirían na = 0 y, por tanto, la estimación Xˆ 1 = 0 (puede demostrarse que ello ocurrirá concretamente con el 70.5% de las muestras). Como ya sabemos (véase Sección 3.3), la varianza de Xˆ 1 es igual a: ⎛n Var ( Xˆ 1 ) = A2Var ⎜ a ⎝ a

a⎞ ⎞ 2 PQ ⎛ ⎟ = A a ⎜1 − A ⎟ ⎝ ⎠ ⎠

OTRAS TÉCNICAS DE MUESTREO

223

4 , tenemos: 600 6002 4 596 ⎛ 50 ⎞ Var ( Xˆ 1 ) = ⎜1 − ⎟ = 43,71 50 600 600 ⎝ 600 ⎠ Otra posibilidad es tomar una muestra de profesores (digamos, n = 5 de los N = 12) y preguntar a cada cual cuántos de sus alumnos han cometido un fraude en el último año. La dificultad radica en que un mismo alumno puede ser señalado por varios profesores (suponiendo que todos los profesores de un alumno conocen si éste ha incurrido o no en la mencionada transgresión). Una posible solución para evitar este posible sobrerregistro consiste en establecer que un profesor sólo pueda informar los casos de fraude cometidos en su asignatura. Llamemos xi al número de alumnos identificados bajo dicha regla por el i-ésimo profesor de la muestra. Entonces, un estimador insesgado de X sería: N n Xˆ 2 = ∑ xi n i =1 Por ejemplo, si a uno de los cinco profesores de la muestra le correspondieron dos casos de fraude, a otro un caso, y ningún caso a los restantes tres, entonces la estimación sería: Puesto que P =

12 36 Xˆ 2 = (2 + 1 + 0 + 0 + 0) = = 7, 2 5 5 Imaginemos que, estructuralmente, la situación es como la que refleja la Figura 9.3. Allí aparecen los N = 12 profesores de la escuela y los cuatro alum-

Figura 9.3. Muestra en red.

224

DISEÑO RAZONADO DE MUESTRAS

nos que han cometido fraude. Las flechas unen a cada uno de estos alumnos con cada uno de sus profesores. Esto quiere decir que el primer alumno tiene 4 profesores, el segundo tiene 3, el tercero tiene 5 y el cuarto tiene 2. Por otra parte las flechas de trazo grueso indican, para cada alumno, con qué profesor específico se produjo el fraude. Por otra parte, la Figura 9.3 también permite apreciar la situación de los profesores. Por ejemplo, de ella se deduce que sólo a 3 profesores se les ha cometido fraude y que para uno de los 12 se dio la situación de que ninguno de sus alumnos cometió fraude. La situación se resume en la Tabla 9.3. Tabla 9.3. Situación de los profesores de la escuela en relación con el número de alumnos que han cometido fraude

Nota:

X i*

se define más adelante.

OTRAS TÉCNICAS DE MUESTREO

225

La varianza de Xˆ 2 es: S2 ⎛ n⎞ Var ( Xˆ 2 ) = N 2 ⎜1 − ⎟ n ⎝ N⎠

donde S 2 =

1 N 1 N ( ) con X − X X = ∑ i ∑ X i . Es fácil ver que, con los datos de la N − 1 i =1 N i =1

Tabla 9.3, se tiene X =

4 1 = y S 2 = 0, 424, de modo que Var ( Xˆ 2 ) = 2,67. 12 3

Adviértase que en este caso Xˆ 2 será igual a cero para todas las muestras que no contengan a los 3 profesores a los que le cometieron fraude (es decir, a los que hemos numerado 4, 7 y 10). ⎛12 ⎞ El total de muestras posibles es ⎜ ⎟,I = 792, y el número de las que no con⎝6⎠ ⎛9⎞ tienen a ninguno de los profesores mencionados es ⎜ ⎟ = 126, de modo que ahora ⎝5⎠ sólo el 16% de las muestras (126 de 792) da lugar a la estimación Xˆ 2 = 0 . Una tercera posibilidad es admitir para la muestra de profesores el llamado «conteo múltiple»: cada profesor comunica el número de todos sus alumnos que hayan cometido fraude. Obviamente, la probabilidad de que un alumno sea señalado es inversamente proporcional al número de profesores que tenga. Se m

define xi* = ∑

δ ij

para el i-ésimo profesor, donde m es el número total de alumsj nos diferentes que han sido reportados, donde δ ij vale 1 si el profesor i tiene entre sus alumnos al alumno; y δ ij = 0 en otro caso, y donde sj es el número de profesores que tiene el alumno j. Entonces se define: j =i

N n Xˆ 3 = ∑ xi* n i =1 Se puede probar que Xˆ 3 también es un estimador insesgado de X. En el ejemplo, los valores de xi* son los que se hallan en la última columna de la Tabla 9.3. Así, por ejemplo, si en la muestra quedaran seleccionados los primeros 5 pro12 ⎛ 5 2 ⎞ fesores, entonces Xˆ 3 sería igual a ⎜ + ⎟ = 4, 2. Adviértase que en este 5 ⎝4 3⎠ caso ninguna de las muestras produciría la aberración de dar lugar a una estimación de X igual a 0. La varianza de Xˆ 3 tiene la misma estructura que la de

S2 ⎛ 1 N n⎞ ( X i − X )2 . Xˆ 2 : Var ( Xˆ 3 ) = N 2 * ⎜1 − ⎟ donde S 2* = ∑ N − 1 i =1 n ⎝ N⎠ * En este caso, S 2 = 0, 4241 y Var ( X 3 ) = 0,829. Como se aprecia, Var ( X 3 ) es mucho menor que Var ( X 2 ); lo que revela las ventajas de este procedimiento, espe-

226

DISEÑO RAZONADO DE MUESTRAS

cialmente útil para la estimación de totales en caso de que las prevalencias sean muy bajas (digamos, del orden del 3% o menos). Un ejemplo de aplicación de esta técnica puede hallarse en Sirken (1970). La teoría correspondiente a muestreo en red para diseños más complejos que el MSA (por ejemplo, para muestreo por conglomerados) puede hallarse en Levy (1977).

9.9. Medias según unidades de información Según consigna Kish (1965), alrededor de 1957 (después de los primeros éxitos rusos en cosmonáutica) aparecieron en Estados Unidos informaciones sobrecogedoras sobre la enseñanza de las ciencias en este país: en la mitad de los colegios de enseñanza media no se impartía física, la cuarta parte no enseñaba química y otra cuarta parte no enseñaba geometría. No tardó en repararse en que, aunque los colegios con tales expresiones de retraso eran realmente muchos, sólo abarcaban al 2% de los estudiantes de enseñanza media. Había muchos más colegios pequeños que grandes, pero una pequeña fracción de colegios grandes contenía un gran porcentaje de estudiantes, a la vez que los programas de estudio que ofrecían los colegios grandes se diferenciaban radicalmente de los de los pequeños. Por ello, la presentación de las condiciones promedio de los colegios proporcionaba una imagen tergiversada de las condiciones en que se encontraba la inmensa mayoría de los estudiantes. Este problema se puede presentar cada vez que se emplean grupos de elementos de tamaños muy diferentes entre sí que no sólo constituyen unidades de muestreo, sino que también operan como unidades de observación, y ocurre cuando se observa una característica grupal de cada unidad y se asigna tal condición a todos los elementos comprendidos dentro de las unidades. Las posibles diferencias entre las medias simples no ponderadas de las unidades y las medias ponderadas de los elementos son grandes, lo cual supone notables sesgos en caso de que se emplee como recurso descriptivo la media inadecuada. Supongamos que se tienen n unidades de tamaños N1, N2, ..., Nn y una variable Y dicotómica (Yi = 1 si la i-ésima de estas unidades tiene cierto rasgo, e Yi = 0 en 1 n caso contrario). La media simple no ponderada para las unidades es Y = ∑ Yi , n i =1 en tanto que la media ponderada es: n

n

Yw = ∑WiYi = i =1

∑N Y i =1 n

i i

∑N i =1

i

donde Wi =

Ni

.

n

∑N i =1

i

Si los Ni fuesen iguales entre sí, ambos estadígrafos coincidirían, pero las variaciones de tamaño que existen en muchos de los grupos sociales que con frecuencia son sujetos de observación y de promediación, puede ser notable. Uni-

OTRAS TÉCNICAS DE MUESTREO

227

dades como ciudades y provincias, universidades u hospitales, suelen tener tamaños que difieren marcadamente entre sí. Si la correlación entre el tamaño y la variable de estudio no es desdeñable, la diferencia entre la media ponderada y la no ponderada puede ser grande. Consideremos la sencilla situación que sigue: tenemos n = 5 hospitales cuyos tamaños (medidos en términos del número de médicos) son iguales a 300, 510, 820, 60 y 50. Supongamos que sólo en los 2 últimos hay graves problemas de ventilación. Si bien es cierto que el 40% de los hospitales padece el mencionado problema, en realidad sólo el 7% del total de médicos trabajan en tales hospitales y estaría por tanto realmente afectado por el problema (110 de 1.740).

9.10. Diseños con cuestionario parcial En la Sección 2.3 habíamos abogado a favor de que se confeccionaran cuestionarios tan cortos como fuera posible. Sin embargo, no siempre puede conseguirse brevedad; ocasionalmente es imprescindible la inclusión de un gran número de preguntas para satisfacer los objetivos de la encuesta. Para conciliar esta realidad con el afán de que las encuestas sean cortos se ha ideado un ingenioso recurso al que denominaremos diseño con cuestionario parcial (Wacholder, Carroll, Pee y Gail, 1994). La idea consiste en que cada encuestado responda sólo a una parte del cuestionario, a la vez que se procede de modo que cada una de sus preguntas sea contestada, como mínimo, por un subconjunto de sujetos de la muestra. El método en cuestión, también discutido por Williams y Ryan (1996), Raghunathan y Grizzle (1995) y Zeger y Thomas (1997), puede bosquejarse a través del ejemplo siguiente. Supongamos que las preguntas del cuestionario se dividen en cuatro bloques mutuamente excluyentes (Bl, B2, B3, B4) y que la muestra se divide a su vez en tres submuestras (SI, S2, S3) que tampoco se intersecan entre sí. Se decide que todas las preguntas incluidas en Bl se formulen a la totalidad de la muestra, en tanto que a los integrantes de cada una de las tres submuestras se le formulan las preguntas incluidas en sólo uno de los tres bloques restantes. Por ejemplo, a la submuestra S1 se le aplican −además de B1− las preguntas del bloque B2; a la S2 las preguntas de Bl y B3, y a la tercera submuestra, S3, las del bloque B1 y B4. Esquemáticamente, la situación sería la que se recoge en la Tabla 9.4. En una situación como la descrita, la limitación básica que se presenta es que resultaría imposible «cruzar» preguntas pertenecientes a bloques diferentes, salvo que uno de dichos bloques sea el primero. Por ejemplo si la condición de

228

DISEÑO RAZONADO DE MUESTRAS

Tabla 9.4. Diseño con cuestionario parcial para tres submuestras y cuatro bloques de preguntas con un bloque común

enfermo crónico se pregunta en el bloque B2 y la ocupación en el B4, entonces será imposible computar tasas de prevalencia de enfermos crónicos según ocupación. Por otra parte, las estimaciones correspondientes a las preguntas de los bloques B2, B3 y B4 se realizan a sólo una tercera parte de la muestra, con la consecuente disminución de precisión en las estimaciones correspondientes. Una partición menos «radical» pudiera ser acorde al diseño de la Tabla 9.5. Tabla 9.5. Diseño con cuestionario parcial para tres submuestras y cuatro bloques de preguntas con un bloque común y una replicación de los otros

En este caso, cada pregunta de los bloques 2, 3, y 4 quedaría incluida en las dos terceras partes de la muestra total y ya sería posible hacer cruzamientos de dos preguntas cualesquiera de la encuesta, aunque en ellos participarían a lo sumo los dos tercios de la muestra (si una de ellas procede de B1 y la otra no) y en muchos casos, un tercio (si una es, por ejemplo, de B2 y la otra de B4). Lo lógico es que en B1 se ubiquen todas las preguntas generales (nombre, ubicación, etc.), así como aquellas más importantes (las que exijan estimaciones más precisas) y, finalmente, las que puedan ser útiles como variables auxiliares, en el sentido que se explica más abajo. Consideremos dos preguntas Pl y P2, ambas politómicas. Supongamos que se ha seleccionado una MSA de tamaño n de una población con N unidades de análisis y que se quiere estimar Nij: el número de sujetos incluidos en la categoría i respecto de Pl y en la categoría j respecto de P2, donde Pl es una pregunta que pertenece a B1 (bloque para el cual n sujetos han respondido) y donde P2 es una pregunta de algún otro bloque a la cual responden sólo m individuos, que conforman a su vez una MSA de la muestra inicial. La estimación natural o directa de Nij se deriva de aplicar una simple «regla de tres»:

OTRAS TÉCNICAS DE MUESTREO

229

N Nˆ ij = mij [9.5] m donde mij es el número de personas de la muestra que caen en la celda ij de la tabla de contingencia. La varianza de este estimador se estima mediante: mij N 2 ⎛ m ⎞ mij [9.6] (1 − ) ⎜1 − ⎟ m ⎝ N⎠ m m Una alternativa para realizar la estimación consiste en hacer uso de los resultados de la muestra completa para la pregunta Pl, además de los que arroja la submuestra: var ( Nˆ ij ) =

N mij Nˆ ija = ni . m mi

[9.10]

donde ni. y m i. representan el número de personas que están en la categoría i-ésima de la pregunta Pl para la muestra y para la submuestra respectivamente. La varianza de este segundo estimador se estima mediante: N2 ⎛ n ⎞ mij ⎛ mij ⎞ N 2 ⎛ m ⎞ ni. mij ⎛ mij ⎞ Var ( Nˆ ija ) = ⎜1 − ⎟ ⎜1 − ⎟+ ⎜1 − ⎟ ⎜1 − ⎟ n ⎝ N⎠ m⎝ m ⎠ m ⎝ n ⎠ n mi . ⎝ mi . ⎠ Veamos un ejemplo de este proceso. Imaginemos que N = 400 y n = 120. A todos los sujetos se les aplica el bloque B1. Supongamos que B2, B3 y B4 se aplican respectivamente a submuestras disjuntas de tamaño m = 40. Consideremos dos preguntas dicotómicas: Pl (que pertenece a Bl) y P2 (que pertenece a B2). Se desea estimar N12, el número de sujetos que tienen el rasgo de interés en relación con ambas interrogantes. Supongamos que para Pl la condición es poseída por 60 de los 120 sujetos encuestados, que para P2 la respuesta positiva fue dada por 30 sujetos de la submuestra de 40, y que hay 20 individuos que respondieron afirmativamente a ambas interrogantes. De modo que, en resumen, tenemos que: n = 120, m = 40, N = 400, m12 = 20, m1., = 30 y n1. = 50. Con estos datos se computa: 400 Nˆ 12 = 20 = 200 40 var ( Nˆ 12 ) =

(400) 2 ⎛ 40 ⎞ 20 ⎛ 20 ⎞ ⎜1 − ⎟ ⎜ 1 − ⎟ = 450,0 40 ⎝ 400 ⎠ 40 ⎝ 40 ⎠

y por otra parte 400 60 a 50 = 133,3 Nˆ 12 = 120 30

230

DISEÑO RAZONADO DE MUESTRAS

(400) 2 ⎛ 120 ⎞ 20 ⎛ 20 ⎞ a )= var ( Nˆ 12 ⎜1 − ⎟ ⎜1 − ⎟ + 120 ⎝ 400 ⎠ 40 ⎝ 40 ⎠ 400 ˆ N12 = 20 = 200 40 (400) 2 ⎛ 40 ⎞ 6 20 ⎛ 20 ⎞ ⎜1 − ⎟ ⎜1 − ⎟ = 413,0. 40 ⎝ 120 ⎠ 120 30 ⎝ 30 ⎠ a La situación del ejemplo, donde Nˆ 12 tiene menor varianza (y es por ende un a estimador más preciso) que Nˆ 12 , es típica.

Bibliografía Bennet S et al. A simplified general method for cluster-sample surveys of health in developing countries. World Health Statisties Quarterly 1991; 44: 98-106. Boruch RF, Cecil JS. Assuring the confidentiality of social research data. Pennsylvania: University of Pennsylvania Press, 1979. Brown GH, Harding FD. A comparison of methods of studying illicit drug usage. Arlinton: HUMRO Technical Report 73, 1973. Chrandasekar C, Deming WE. On a method of estimating birth and death rates and the extent of registration. Journal of the American Statistical Association 1949; 44:101 -15. Dalenius T, Vitale RA. A new randomized response design for estimating the mean of a distribution. Report No. 78 of the Errors in Surveys Research Project. University of Stockholm (mimeo), 1974. Deming WE. Sample desing in business research. New York: Wiley and Sons, 1960. Efron B. The jackknife, the bootstrap and other resampling plans. Filadelfia: SIAM, 1982. Feller W. An Introduction to probabiliry theory and its applications, vol. II. Nueva York: Wiley, 1950. Henderson RH, Sundaresan T. Cluster sampling la assess inmunization coverage: a review of experence with a simplifield sampling method. Bulletin of the World Health Organization 1982; 60:253-260. Hook EB, Regal RR. Capture-recapture methods in epidemiology: methods and limitations. American Journal of Epidemiology 1995; 17: 243-264. Kish L, Frankel M. Inference from complex samples. Journal of the statistical Society, Series B, 1974; 36: 1-37. Kish L. Sampling organizations and groups of unequal sizes. American Sociological Review 1965; 20:564-572. Kish L. Sampling methods for agricultural surveys. FAO Statistical Development. Series 3, Roma, 1989 Krotki KJ, McDaniel SA. Three estimates of illegal abortion in Alberta, Canada: survey, mail-back questionnaire and randomized response technique. Trabajo presentado en la 40.a Sesión del International Statistical Institute, Varsovia, 1975. Lamb CW, Stem EE. An empirical validation of the randomized response technique. Journal of Marketing Research 1978; 15: 616-621.

OTRAS TÉCNICAS DE MUESTREO

231

Levy PS. Simple cluster sampling with multiplicity. Proceedings of the American Statistical Association: 963-966, 1977. Massey JT, Ezzati TM, Folsom R. Survey methodology requirements to determine the feasibility of the national household seroprevalence survey. Quality Assessment Task Force Report, NCHS, 1989. Raghunathan TE, Grizzle JE. A Split Questionnaire Survey Design. Journal of the American Statistical Association 1995; 90: 54-63. Rao JNK, Platek R, Sarndal CE, Singh MR Small Area Statistics: An International Symposium. Nueva York: Wiley-Interscience, 1986. Rust F. Variance estimation for complex estimators in sample surveys. Journal of Official Statistics 1985; 1: 381-398. Silva LC. La confidencialidad: Un desafío aleatorio. Revista Juventud Técnica 1982; 776:33-35. Silva LC. La técnica de respuesta aleatorizada: un método para la reducción de conductas evasivas en las encuestas de población. Revista Cubana de Administración de Salud 1984; 10: 53-59. Silva LC. Cultura estadística e investigación en el campo de la salud. Madrid: Díaz de Santos, 1997. Sirken MG. Household surveys with multipicity. Journal of the American Statistical Association 1970; 65: 257-266. Teutsch SM, Churchill RE. Principies and practice of public health surveillance. New York: Oxford University Press, 1994. Tracy PE, Fox JA. The validity of randomized response for sensitive measurements. American Sociological Review 1981; 46: 187-200. US Census Bureau. The Current Population Survey: Design and methodology. Technical Paper 40, 1978. Wacholder S, Carroll RJ, Pee D, Gail MH. The Partial Questionnaire Design for CaseControl Studies. Statistics in Medicine 1994; 13: 623-634. Warner S. Randomized response: a survey technique for eliminating evasive answer bias. Journal of the American Statistical Association 1965; 60: 63-69. Wells HB. Dual record systems for measurement of fertility change. Working Papers of the East-West Population Institute, N° 13, Honolulu East-West Population Institut, 1971. Williams P, Ryan L. Design of Multiple Binary Outcome Studies With Intentionally Missing Data. Biometrics 1996; 52.1498-1514. Zdep SM, Rhodes IN. Making the randomized response technique, 1971. Zeger LM, Thomas N. Efficient Matrix Sampling Instruments for Correlated Latent Traits: Examples From the National Assessment of Educational Progress. Journal of the American Statistical Association 1997; 92: 416-425.

10 Muestreo y técnicas estadísticas convencionales Históricamente, el cuerpo teórico clásico de la inferencia estadística nació de manera independiente al del muestreo para poblaciones finitas y se mantuvo esencialmente separado de él durante largo tiempo. Aunque las inquietudes al respecto vienen de antaño, sólo en los últimos diez años se han dado pasos productivos que puedan considerarse, además, integradores. En este capítulo se agrupan diversos tópicos que, si bien son relativamente inconexos entre sí, comparten el hecho de ubicarse en esas zonas comunes a ambas esferas concernientes al muestreo.

10.1. Técnicas estadísticas aplicadas a muestras complejas Como es bien conocido, virtualmente todos los desarrollos teóricos conseguidos en materia de inferencia estadística parten del supuesto de que la muestra es simple aleatoria y procedente de una población infinita (es decir, que los datos son independientes y provienen de una distribución teórica dada). Sin embargo, en la práctica diaria −tanto en la clínica como en la epidemiológica− se utilizan procedimientos concebidos bajo tal supuesto de independencia, aun cuando la muestra provenga de diseños muéstrales complejos como los explicados en capítulos precedentes. La serie de aportes teóricos concretos destinados a ir cubriendo esa laguna entre la teoría y una parte no despreciable de la práctica, concierne a esfuerzos para resolver problemas tales como, por poner un ejemplo, realizar «adecuadamente» un análisis de regresión múltiple con datos procedentes de una muestra por conglomerados bietápica. Si bien el vínculo entre el muestreo en poblaciones finitas y las técnicas inferenciales clásicas (tales como teoría de estimación, pruebas de hipótesis, mo-

234

DISEÑO RAZONADO DE MUESTRAS

delos lineales, métodos no paramétricos, técnicas de correlación o análisis multivariante), ha ganado en formalización, la situación sigue dando motivos para el debate y margen para el esclarecimiento. El problema central radica, como sabemos, en que la conglomeración (presente en la inmensa mayoría de los diseños que se aplican realmente) casi siempre entraña cierto grado de dependencia mutua -mayor o menor, dependiendo de la población y de las variables- entre las observaciones. Consecuentemente, proceder como si se cumpliera la condición de independencia suele producir anomalías tales como sesgos en las estimaciones e incrementos indebidos en la potencia de las pruebas de hipótesis. Este asunto exhibe gran complejidad teórica (véanse Kish y Frankel, 1974; Lee, Forthofer y Lorimor, 1989; Skinner, Holt y Smith, 1989: Lethonen y Pahkinen, 1995). Las fórmulas aproximadas para realizar las estimaciones de parámetros simples (medias y totales) y sus varianzas bajo diseños complejos pueden deducirse de diversos modos; los que se han recogido en capítulos precedentes se han conseguido, básicamente, a partir de desarrollos en series de Taylor. Las fórmulas para resolver problemas inferenciales más complejos (por ejemplo, estimación de coeficientes de regresión o pruebas de independencia entre variables) parten de demandas matemáticas tanto o más avanzadas, de modo que su solución desborda ampliamente el nivel del presente material. Ahora bien, es preciso recordar que, como se explicó en el Capítulo 1, los problemas que se centran en la estimación son teórica y prácticamente diferentes de aquellos cuyas preguntas demandan de la comparación. Justamente, para los primeros se han conseguido soluciones más claras. Para aquellos centrados en la comparación, en cambio, el empleo de técnicas complejas de muestreo como las discutidas en el presente libro ha recibido poca atención. Lo que suele hacerse en la práctica es llevar adelante el análisis asumiendo que la muestra es simple aleatoria y prescindiendo totalmente de que se hayan usado o no diseños complejos. Debe señalarse, sin embargo, que tal realidad dista de ser grave; y no lo es por la sencilla razón de que la inmensa mayoría de los estudios se llevan adelante con datos que no sólo no proceden de muestras complejamente diseñadas, sino que ni siquiera corresponden a muestras formales en sentido alguno. Usualmente se trata de datos empíricos que procuran representar poblaciones definidas por situaciones abstractas generales, tales como el conjunto de los pacientes hipertensos tratados de cierto modo especificado y el de los tratados de otra forma. La exigencia de trabajar con muestras obtenidas formalmente seria simplemente paralizante, tanto por las dificultades prácticas que supone conseguirlo como por el hecho de que algunas de estas poblaciones abstractas no admiten, por definición, la conformación de un listado. Y aquí, como suele ocurrir tantas veces, es mejor colaborar con lo inevitable. (Véanse comentarios adicionales en la Sección 10.4 y una amplia discusión de este tema en la Sección 12.3.)

MUESTREO Y TÉCNICAS ESTADÍSTICAS CONVENCIONALES

235

10.2. Muestras transversales y causalidad A continuación y en este contexto se valora un problema de máxima importancia. No obstante su aparente simplicidad, es ciertamente insidioso, hasta el punto de que puede provocar no pocos estropicios. Es sumamente frecuente la situación en que, aunque no se ha manejado un diseño concebido con vistas a la comparación, sino que se ha obtenido una muestra «representativa» de cierta población (háyase empleado o no un método formal de selección), se considera la posibilidad de realizar «cruzamientos» para medir asociación entre variables. Se trata de una zona donde, en mi opinión, reina apreciable confusión metodológica, la cual merece, por tanto, consideración detenida.

10.2.1. Premisa de precedencia temporal En 1965, Sir Austin Bradford Hill pronuncia su famoso y trascendente discurso ante la Sección de Medicina Ocupacional de la Royal Society of Medicine. Los criterios allí expuestos aportan bases teóricas universalmente reconocidas y por su utilidad para el examen de las relaciones de causalidad en medicina y, especialmente, en epidemiología. Hill (1992) enumera nueve pautas que han de considerarse en estudios epidemiológicos y cuya corroboración incrementaría la convicción de que cierta relación observada es de naturaleza causal. Se parte de que se ha observado una asociación claramente definida entre dos fenómenos dinámicos, representados por medio de sendas variables X e Y, y que se ha descartado la posibilidad de que dicha asociación sea exclusivamente atribuible al azar'. La asociación registrada entre una variable X y otra Y puede deberse, además de al azar, a la presencia de errores sistemáticos en la medición (sesgos) o a la distorsión introducida por los llamados factores de confusión2. Los nueve rasgos de tal asociación que este autor identifica como elementos que aumentan su valor en tanto indicio de causalidad, son: intensidad, consistencia, especificidad, gradiente dosis-respuesta, coherencia, fundamento experimental, analogía y adecuada secuencia temporal. El papel de las primeras ocho pautas es, precisamente, consolidar la idea de que no resulta aceptable ninguna de aquellas tres posibles explicaciones (azar, sesgos, confusión). En tal caso sólo quedan, formalmente, dos alternativas: X es causa de Y, o Y es causa de X. Para poder inclinarnos por una de ellas, hay que atender a la precedencia tem1

Ése es −exacta y únicamente− el papel que desempeñan las pruebas de hipótesis: si la asociación es significativamente diferente de 0, entonces puede afirmarse con escaso margen de error que la relación entre X e Y no se ha observado por mera casualidad. 2 Variables que se relacionan tanto con X como con Y y cumplen la condición de no ser un estadio intermedio en la secuencia causal entre la exposición y el efecto.

236

DISEÑO RAZONADO DE MUESTRAS

poral que guarden los datos, la última de las premisas de Hill. Nos concentraremos entonces en ella, la única que nada tiene que ver con aspectos teóricos. Es la más obvia, la menos discutible ( y a que es condición sine qua non) y. quizá por eso mismo, lamentablemente, una de las menos contempladas. Más formalmente, se trata de la pauta basada en que la acción de un agente causal siempre precede al efecto: «Para que una modificación en cierta condición X pueda considerarse responsable de los cambios que se producen en otra condición yV, es imprescindible que .X haya actuado antes de que Y se haya modificado». Toda hipótesis de causalidad involucra a un efecto y a una presunta causa: lo que plantea dicho postulado (y esto es lo relevante) es que para considerar empíricamente avalado el hecho de que la supuesta causa produce tal efecto, los acontecimientos han de haberse observado de suerte que haya certeza acerca de que la precedencia temporal con que se generaron los datos sea compatible con la afirmación causal que se valora. Subrayo nuevamente que en este caso no nos referimos a una condición cuyo cumplimiento aumente la convicción de que la hipótesis sea cierta: es mucho más que eso: se trata de una premisa metodológicamente imprescindible. Tal condición, a la que denominaremos premisa de precedencia temporal (PPT), está directamente vinculada al diseño del estudio, ya que es éste el que puede (y debe garantizar la validez de aquélla. Los estudios prospectivos, en los cuales, como su nombre indica, los hechos supuestamente se miden o registran en el mismo orden temporal en que se producen, se prestan a menos suspicacias en cuanto a que se haya cumplido o no la PPT. De hecho, en el caso particular de los estudios experimentales no existe siquiera este peligro: en los observacionales de cohorte, dado que la observación comienza cuando aun no se han producido los desenlaces que se están considerando, tal riesgo esta casi siempre conjurado por el propio diseño. Los estudios transversales y retrospectivos, en los cuales sólo puede intentarse la reconstrucción histórica de los acontecimientos, son, en cambio, altamente vulnerables al no cumplimiento de la PPT. En este tipo de estudios, con más frecuencia que la deseada (Silva y Benavides, 1999), se soslaya toda consideración sobre esta premisa, o directamente se actúa sin reparar en que no ha sido satisfecha. Aunque existen trabajos que advierten la necesidad de eludir esta falacia (véanse, por ejemplo, Susser, 1973, y Gray y Krainer, 1988), se trata de un error frecuente, poco enfatizado, escasamente ilustrado, que asume diferentes formas, y cuyos efectos han sido poco estudiados.

3

El asunto es suficientemente insidioso como para que, incluso en tal caso, pueda producirse, por excepción, el problema (véase Silva, 1997).

MUESTREO Y TÉCNICAS ESTADÍSTICAS CONVENCIONALES

237

10.2.2. ¿Computar o no computar asociaciones en estudios transversales? La problemática tratada en la sección precedente desde la perspectiva que nos interesa, nos lleva a la constatación de que ante la tentación natural de calcular asociaciones entre variables, en el caso de los estudios considerados «transversales», coexisten tres puntos de vista: a) Hacer el cálculo en cuestión sin el menor reparo. b) Negar taxativa y terminantemente el «derecho» a realizar cruzamientos (y por tanto a computar indicadores que miden asociación, tales como riesgos relativos u odds ratios) con el argumento de que. en un estudio transversal, tal maniobra es ilegítima. c) Admitir que si bien tales estudios no permiten sacar conclusiones causales, consienten al menos la medición de asociaciones como un recurso que se emplea sin más pretensiones que complementar o enriquecer la descripción. La primera opción es claramente errónea y es responsable de la mayor cantidad de los errores. En cuanto a las dos últimas, tal y como están formuladas, cabe decir que tanto una como otra originan confusión; ambos principios son por razones diferentes, cuestionables. Para fundamentarlo, consideremos la situación detenidamente. En el primero de esos dos casos, la «prohibición» que suele esgrimirse es la siguiente: siendo el estudio transversal, ¿cómo puede soslayarse un principio como el de la PPT (véase Sección 10.2.1), que tal tipo de estudios es intrínsecamente incapaz de garantizar? Procede dejar sentado, en primer lugar, que si bien la descripción no constituye un procedimiento explicativo per se, es, sin embargo, una forma legítima de investigación biomédica y constituye un pilar básico de cualquier otra expresión. No en balde, Greenland (1990) llega a afirmar que «la primera tarea del epidemiólogo es descriptiva». Pero ese argumento es netamente irrelevante a los efectos que nos ocupan Lo crucial ahora es distinguir nítidamente entre dos conceptos que suelen manejarse como si fueran idénticos aunque distan de serlo: investigación descriptiva e investigación transversal. Mientras la primera clasificación alude al propósito del estudio, la segunda concierne al marco metodológico en que se verifica. La confusión se ha originado en la ambivalencia del adjetivo «transversal», el cual tiene dos acepciones radicalmente diferentes: por una parte, sirve para indicar que los datos se toman temporalmente en un único «corte» indagatorio (por oposición a aquellos en que los datos se van recopilando en la medida que acaecen los hechos de los que proceden): y por otra, para aludir al hecho de que la información concierne a lo que está ocurriendo ahora (lo que rige en el momento en que se verifica el interrogatorio o la medición).

238

DISEÑO RAZONADO DE MUESTRAS

Veremos más abajo que si lo que se ha hecho es estrictamente esto último, la estimación de medidas de asociación nunca tiene sentido claro: cuando el estudio es «transversal» en el sentido de la primera acepción, sin embargo, sí puede tenerlo. Para fijar ideas imaginemos que se valora el posible efecto del consumo de golosinas sobre la obesidad infantil; o sea, que se quiere cuantificar en qué grado ese consumo constituye un factor de riesgo (concepto que, dicho sea de paso, en su sentido epidemiológico ha dado lugar a una vasta producción teórica y práctica, pero también a no pocas confusiones y falacias4; véanse Silva. 1997b y García. 1999). Supongamos que se realiza un estudio con ese fin en 1999 y que se interroga a todos los niños de una muestra (tanto a quienes en el momento de la encuesta padecen de obesidad como a los que en dicho momento están libres de la dolencia); y supongamos que se recogen ciertos datos, tales como si en la actualidad consumen regularmente golosinas, o si practican ejercicios. Estos datos pueden ser útiles para estimar la prevalencia de obesidad o el monto en que se consumen golosinas, pero no permiten evaluar el posible efecto causal, por ejemplo, del consumo de golosinas sobre el desarrollo de la enfermedad, pues lo que realmente interesaría conocer no ha sido registrado. Si el sujeto las consume en estos momentos carece de todo interés; lo que verdaderamente importa es si lo hacía o no antes de cierto momento para el cual se sabe (o se puede legítimamente suponer) que ninguno de los interrogados tenía la enfermedad. Si durante la entrevista se pregunta a obesos y a no obesos si comían regularmente chocolates en 1994 (cinco años antes) y se eliminan del análisis a aquellos individuos que eran obesos en aquella época, entonces sí podría hacerse dicha valoración, independientemente de que el estudio sea «transversal». De hecho, a los efectos que interesan, no lo es. Tal inadvertencia, llamativamente frecuente, es sumamente insidiosa. Cuando se desdeña este «detalle», se pierde la lógica del estudio y se arruina cualquier interpretación potencial de sus resultados. Ello puede ser catastrófico, aunque muchos investigadores no lo tomen en cuenta, o lo consideren como un problema menor que se resuelve consignando en la discusión que fue una «limitación» del estudio. Un ejemplo como el que sigue ilustra situaciones frecuentes de este tipo. Consideremos las variables insatisfacción laboral y estrés, y contemplemos el planteamiento de una pregunta tal como si hay asociación entre ambas condiciones. Si lo que se hace es determinar la situación vigente para ambas cuestiones,

4

Piédrola et al. (1990) definen un factor de riesgo como aquel «factor endógeno o exógeno, que puede ser controlado, precede al comienzo de la enfermedad, está asociado a un incremento de la probabilidad de incidencia de una enfermedad y tiene responsabilidad en su producción».

MUESTREO Y TÉCNICAS ESTADÍSTICAS CONVENCIONALES

239

entonces la asociación que se mida tendrá un sentido inexorablemente borroso. Obviamente, «malas» condiciones de trabajo pueden contribuir al deterioro de la estabilidad emocional y traducirse en altos niveles de estrés. Pero también ocurrirá que algunos sujetos estresados experimentarán insatisfacción laboral −incluso en un entorno de trabajo favorable− como consecuencia exclusiva de su estado emocional. Cada factor puede ser causa contribuyente o retroalimentadora del otro, de modo que una pregunta neutra sobre la existencia de asociación suele no conducir a ninguna parte. El acto de investigación podría servir para examinar, o bien el efecto del primer factor sobre el segundo, o bien el del segundo sobre el primero (e incluso, ocasionalmente, ambos efectos), pero ello exige un diseño que contemple la observación de los hechos de manera que el orden temporal en que ellos ocurren quede debidamente registrado, de suerte que la PPT pueda ser debidamente considerada. Cuando el «diseño» no es otra cosa que la selección de una «muestra representativa», entonces o bien no se dispone de información temporal alguna (y por tanto el análisis no procede), o bien la información necesaria acerca del orden en que ocurrieron los hechos puede establecerse gracias al modo en que se formulan las preguntas, en cuyo caso sí pudiera ser adecuado. El tercer posicionamiento arriba consignado consistía en computar medidas de asociación, pero aclarando que se hace sin pretensiones de arrojar luz en materia de causalidad. Esta alternativa para dar «solución» al problema está ciertamente preñada de ingenuidad: consiste en curarse en salud mediante el subterfugio de comunicar que «sólo se quiere cuantificar la asociación entre X e Y», como si las palabras pudieran dar un salvaconducto, y como si medir la asociación pudiera tener un interés intrínseco (lo cual es absurdo, puesto que no solo éste, sino ningún procedimiento puede ser un fin en sí mismo); como si tal cuantificación, en fin, tuviera algún sentido cuando no se inserta en el contexto de una conjetura causal. A nadie se le ocurriría investigar, por ejemplo, si hay asociación entre tiempo de estadía hospitalaria de un sujeto ingresado y el color de la vivienda de dicho paciente. ¿A qué se debe? Simplemente, a que siempre que se mide una asociación es porque se tiene una sospecha fundamentada, aunque sea subconsciente, de que tal medición pudiera brindar una prueba de causalidad o, por lo menos, ser indicio de ella. El mero acto de cuantificación de una asociación (sea a través de coeficientes de correlación, diferencias de porcentajes, odds ratios o de cualquier otro medio) entraña, implícita o explícitamente, un afán explicativo puesto que dimana, necesariamente, de una sospecha razonable en esa dirección. Está muy extendido el temor a admitir explícita y claramente que se quiere «probar que X influye en Y» o «evaluar el grado en que X puede considerarse causa de Y». Parcialmente, ello se debe a la dificultad que supone la tarea de evaluar causalidad, a la multitud de sesgos que se pueden cometer, así como al te-

240

DISEÑO RAZONADO DE MUESTRAS

mor que genera el compromiso que siempre se contrae cuando se anuncia que lo que se busca es una explicación. De ahí que, aun cuando se proceda a calcular medidas de asociación, algunos investigadores se apresuren a dejar claro que no tienen intenciones explicativas. Lo que pasa es que tal declaración es en el fondo falsa pues, si no las tuvieran carecería de todo sentido llevar adelante tal maniobra computacional. El asunto no se resuelve, por tanto, declarando una u otra intención, sino asegurándose de que el cómputo es interpretable siempre que se haga. En síntesis: a) Si se generan «cruzamientos» o se calculan medidas, de asociación, es necesariamente porque se piensa en términos causales, independientemente de que se procure enmascararlo proclamando otra cosa. b) Si el estudio es «epidemiológicamente transversal» (se registra el status prevaleciente al margen de la temporalidad), entonces realizar esta acción es un acto, cuando menos, estéril, y con frecuencia pernicioso.

10.2.3. Una ilustración detallada Con el fin de consolidar las ideas precedentes, consideremos más detalladamente el mismo ejemplo ya esbozado. Supongamos que en el año 2000 se ha seleccionado una muestra de niños de 10 años, representativa de una comunidad donde la prevalencia de obesidad en esa edad es, aproximadamente, del 10%; admitamos que la muestra contiene 450 niños «normales» y 50 obesos, y supongamos que se formulan dos preguntas de naturaleza dicotómica (la respuesta es SÍ o NO) a las madres de estos 500 niños. A saber: 1. ¿Come su hijo golosinas regularmente? 2. ¿Era obeso el padre del niño en el momento del nacimiento?

Tabla 10.1. Distribución de la muestra según se trate o no de obesos y según consumo de golosinas (año 2000) Niño obeso

Consume golosinas



No

Total



10

400

410

No

40

50

90

Total

50

450

500

MUESTREO Y TÉCNICAS ESTADÍSTICAS CONVENCIONALES

241

Al procesar los resultados que se derivan de la primera pregunta, se obtiene la Tabla l0.1. Cualquier examen que se haga de la tabla conduciría en principio a la conclusión de que la asociación entre obesidad y consumo es negativa; es decir, tiende a ocurrir que quienes no consumen son obesos y viceversa. En efecto, el porcentaje de obesos entre consumidores (2,4%) es casi 20 veces menor que entre no consumidores (44,4%). El odds ratio es muchísimo menor que la unidad:

ψ=

10.50 = 0,03 40.400

Pero el asunto es que ninguna de estas valoraciones permite arribar a conclusión alguna. La clave del problema radica en que la pregunta no tiene en cuenta el orden en que aparecieron los acontecimientos que se registran: de hecho, es imposible establecerlo. Todas las alternativas son posibles (obesos que consumían golosinas antes de serlo, no obesos que dejaron de serlo cuando abandonaron el consumo, obesos que dejaron de consumir golosinas precisamente por estar enfermos, etc.). Lo que no es posible es determinar cuál de esas alternativas correspondió a cada sujeto de la muestra. Imaginemos que tenemos una máquina del tiempo y que retrocedemos 6 años. Descubrimos que estos 500 niños (todos de cuatro años) eran entonces normopesos, pero que 100 de ellos eran consumidores regulares de golosinas en tanto que los restantes 400 no lo eran. Con el paso del tiempo, digamos, a los dos años, 40 de los primeros desarrollan obesidad, al igual que 10 de los no consumidores, sin que se modificara esencialmente el patrón de consumo. En ese punto un corte transversal hubiera producido la Tabla 10.2 Las tasas de incidencia son, entonces, de 40,0% y 2,5% respectivamente, indicio de una intensa asociación positiva. Supongamos que en esa etapa hay una gran ofensiva publicitaria a favor del consumo de golosinas entre escolares, con la que se consigue que 340 de los 390 que no consumían ni eran obesos pasen a consumir; paralelamente, 30 de los 40 obesos consumidores abandonan el hábito por prescripción médica de modo que Tabla 10.2. Distribución de la muestra según se trate o no de obesos y según consumo de golosinas (año 2000) Niño obeso

Consume golosinas



No

Total



40

60

100

No

10

390

400

Total

50

450

500

242

DISEÑO RAZONADO DE MUESTRAS

Tabla 10.3. Distribución de la muestra según fuese o no obeso el padre en el momento del nacimiento del niño Niño obeso Sí Consume golosinas

No

Total



30

50

80

No

20

400

420

Total

50

450

500

se llega a la situación actual (Tabla 10.1). La falacia implícita en el hecho de no reparar en la temporalidad cuando se analiza dicha Tabla 10.1 es obvia. El problema es típico de las situaciones en las que aparecen involucradas las enfermedades crónicas: el conocimiento de lo que ocurrió antes de su comienzo puede ser muy difícil (o imposible), debido a la dificultad (o imposibilidad) para identificar el momento en que comenzó el trastorno. Supongamos ahora que en relación con la obesidad del padre se obtienen los resultados recogidos en la Tabla 10.3. La Tabla 10.3 permite apreciar una intensa asociación positiva entre ambas condiciones morbosas (padece obesidad el 38% de los niños de padres que eran obesos, y sólo el 5% de aquellos cuyos padres no lo eran). En este caso, sin embargo, a partir de los resultados, sí puede prosperarse cualitativa y conceptualmente. Que fuera o no obeso es una condición del padre anterior a la situación que pueda tener su hijo ahora, de modo que la asociación tiene, al menos en principio5, una interpretación razonable en términos causales.

10.2.4. Consideraciones finales Como resumen de toda la discusión anterior, cabe concluir lo siguiente: Cuando se ha seleccionado una muestra de cierta población y se han indagado ciertas características de sus elementos, la interpretación de los «cruzamientos» entre variables se supedita a que se haya contemplado la temporalidad de los datos registrados ya sea en el diseño del estudio o en el de las preguntas. No hay reglas generales para establecer en qué caso estamos. Tales cruzamientos pueden ser fructuosos o pueden estar condenados a no tener sentido alguno, pero ello nunca dependerá exclusivamente de etiquetas tales como «transversal», «longitudinal» que se le apliquen a los estudios. 5

Naturalmente, no me detengo en el examen del efecto de posibles factores confusores ni en otras consideraciones metodológicamente imprescindibles para el examen de relaciones causales, además de las que nos ocupan.

MUESTREO Y TÉCNICAS ESTADÍSTICAS CONVENCIONALES

243

10.3. Tamaño de muestra en estudios clínicos y de epidemiología analítica Una necesidad harto frecuente entre investigadores de la clínica y la epidemiología consiste en la determinación de los tamaños muéstrales necesarios para los grupos que serán objeto de comparación. Ésta es una demanda formal de los financiadores, y también una obvia necesidad práctica de los autores. Hay dos alternativas fundamentales: resolverlo a través de fórmulas matemáticas, o tomar la decisión por medios más informales. En este capítulo nos circunscribiremos a exponer e ilustrar el caso en que se opta por un procedimiento matemático formal. Entre muchas variantes, consideremos un ejemplo típico: se quiere discutir la hipótesis que afirma que dos porcentajes P1 y P2 son iguales, con la hipótesis alternativa de que son diferentes. Imaginemos que se trata de un ensayo clínico en que P1 es la tasa de recuperación de pacientes que reciben un tratamiento convencional, y P2 la de los que reciben uno experimental. El problema consiste en determinar el tamaño de muestra mínimo n con que debe conformarse cada grupo (el mismo para ambos), de modo que la prueba estadística con que se va a valorar la hipótesis sea capaz de detectar como significativa (no atribuible al azar) una diferencia mínima prefijada entre P1 y P2. La fórmula correspondiente6 es la siguiente: ⎡ Z1−α / 2 2 P * (1 − P*) + Z1− β P1 (1 − P1 ) + P2 (1 − P2 ) ⎤ ⎦ n= ⎣ 2 ( P1 − P2 )

2

[10.1]

donde α y β representan las probabilidades máximas admisibles de cometer, respectivamente, los errores de tipo I (rechazar indebidamente la hipótesis nula) y P +P de tipo II (no rechazarla a pesar de ser falsa), y donde P* = 1 2 . 2 En esta situación el investigador ha de prefijar α (por ejemplo, puede elegirse el sacralizado α = 0,05) y β (se toma con frecuencia β = 0,2). Supongamos que P1 es conocido en la práctica clínica y que asciende a 60% (P1 = 0,6), así como que la diferencia se considerará «clínicamente relevante» si la tasa de recuperación se eleva, desde ese supuesto 60%, por lo menos, hasta 70% (P2 = 0,7). En tal caso la aplicación de [10.1] arrojaría n ≈ 745. Lo que se ha expuesto aquí es sólo un ejemplo que ilustra el modo en que teóricamente habría que conducirse; no nos interesa reproducir aquí un recetario, no sólo por el resquemor que nos producen las recetas (véase Sección 12.3), sino 6

Debo advertir que ésta es una de las múltiples situaciones posibles (aunque, tal vez. también una de las más frecuentes). Incluso para esta misma situación, sin embargo, existen otros enfoques.

244

DISEÑO RAZONADO DE MUESTRAS

porque para ello ya tenemos el libro de Lemeshow, Hosmer, Klar y Lwanga (1990), el cual incluye además un conjunto de tablas que relevarían al usuario de aplicar por sí mismos las fórmulas. Adicionalmente, existen diversos programas computacionales que ofrecen solución a éste y a problemas similares (véase Sección 11.1), de modo que tales tablas son, incluso, prácticamente innecesarias.

10.4. Selección de casos y controles Los estudios de casos y controles constituyen un recurso metodológico de notable prominencia en la investigación biomédica contemporánea; de ahí la conveniencia de comentar algunos aspectos relevantes en relación con las muestras en que se basan. La selección de la muestra en estos estudios es a menudo problemática y presenta rasgos y exigencias específicas que han de considerarse con rigor para dar validez al estudio. La definición de caso es particularmente importante para tomar decisiones en materia de selección, tanto para elegir los propios casos como para definir y seleccionar los controles. Resulta crucial delimitar muy cuidadosamente qué es un caso; sólo entonces procede identificarlo operacionalmente con vistas a la selección real. Lasky y Stolley (1994) ponen como ejemplo la definición conceptual del VIH (una persona para la cual, en caso de que se le aplicara la prueba del VIH, se obtendría un resultado positivo), fre n te a una definición operacional (personas a las cuales, habiéndoseles practicado la prueba, se les declaró VIH positivas). Aquellos factores que influyan en la decisión de realizar la prueba, así como sus características intrínsecas ( s e n s i b i l i d a d y especificidad), son los elementos que a la postre determinan quién se convierte operacionalmente en un caso positivo. Según estos autores, mediante la comparación del grupo definido conceptualmente con el definido operacionalmente, los investigadores serán capaces de enumerar posibles sesgos de selección que pueden afectar el grupo final de casos. Vale decir, el ejercicio de pensar en la posible brecha existente entre las definiciones conceptual y operacional ayuda al investigador a reconocer sesgos potenciales y a idear procedimientos para minimizarlos, o por lo menos estimarlos. Resulta crucial que se actúe en función de que todos los casos verdaderos tengan la misma probabilidad de quedar incluidos en el estudio, pero también de que entre los casos no se introduzcan sujetos que no lo son. Típicamente, sin embargo, el requerimiento de equiprobabilidad no se lleva adelante de manera formal (en el sentido de aplicar el azar a un listado de candidatos). Los casos pudieran ser, por ejemplo, todos los niños ingresados con leucemia durante cierto número de años en los hospitales de una región; lo que se requiere es que tal

MUESTREO Y TÉCNICAS ESTADÍSTICAS CONVENCIONALES

245

muestra sea «representativa» del conjunto genérico de «niños leucémicos» y el esfuerzo debe orientarse en dirección a evitar que determinados niños tengan, sea por razones administrativas, criterios de ingreso u otras, menor oportunidad que otros de ser incluidos. De modo que en una situación como la mencionada, lo que está en juego es si ese conjunto de hospitales y los niños que ingresan en ellos aportan una muestra que pueda considerarse «representativa». El tema de la selección de controles ha generado una enconada discusión en la literatura epidemiológica (véanse Feinstein y Horwitz, 1983, Pearce y Checkoway, 1988 y Wacholder, McLaughlin, Silverman et al., 1992). Esta elección se subordina en buena medida a la definición de caso, ya que los controles deben provenir de la misma población que estaba en riesgo de padecer la enfermedad. El principio es intuitivamente aceptable. Los niños, por poner un ejemplo obvio, son inaceptables como controles en un estudio sobre el efecto del hábito de fumar que procura evaluar la demencia senil, puesto que si bien ellos cumplen con la condición central (no tener demencia senil), tampoco están en riesgo de tener la condición presuntamente generadora de la enfermedad (hábito de fumar). En la mayoría de los casos, sin embargo, este debate en mucho más sutil. Cuando los casos provienen de un centro asistencial que los ha detectado como tales, a veces ocurre que es precisamente la presencia del factor cuyo efecto se quiere estudiar la responsable de que el sujeto haya acudido, y por ende los portadores del factor tienen a priori más oportunidad de convertirse en casos. Entre las fuentes más comunes para conseguir controles están los pacientes de hospitales o clínicas, las listas de certificados de defunción, los registros de morbilidad, amigos, familiares o vecinos de los casos, y la «población general». En lo que parece haber claro consenso es en cuanto a que la teoría formal de diseños muéstrales tiene escasa incidencia en este tipo de estudios. Otro aspecto de interés se relaciona con los tamaños muéstrales; en esa materia, el contenido de la Sección 10.3 es esencialmente válido aquí. Una particularidad radica en tomar más de un control por caso. Gail, Williams, Byar et al. (1976) demuestran que, cuando el número de casos es limitado, un aumento en el grupo de controles (varios controles por cada caso) aumentará la potencia del estudio. El aumento en la razón de controles por caso produce ganancias en este sentido hasta que se llega a una razón de 4 por 1; a partir de este punto, el incremento de la potencia es casi siempre demasiado pequeño para compensar los gastos que supone. En cualquier caso, aumentar la razón de controles por caso parece ser útil y factible sólo cuando hay pocos casos disponibles.

10.5. Análisis contextual Los estudios ecológicos son aquellos en que las mediciones, tanto de factores condicionantes como de daños, se verifican a nivel de grupos poblacionales y no

246

DISEÑO RAZONADO DE MUESTRAS

al de los sujetos que portan dichos factores o sufren los daños (Susser, 1998). Esta modalidad ha sido crecientemente desdeñada y excluida de la investigación epidemiológica contemporánea. Como dato elocuente, repárese en que, por poner un ejemplo, a lo largo del bienio 1996-1997 el American Journal of Epidemiology publicó 999 artículos originales: sólo 9 de ellos eran de este tipo. Ello se debe en parte al temor que despierta la «falacia ecológica», descrita por primera vez hace medio siglo por Robinson (1950): el hecho de que una asociación que se produce entre grupos de sujetos pudiera no existir, o incluso tener signo opuesto cuando las mismas variables se miden al nivel de los individuos (véase una ilustración en Silva, 1997a). El riesgo de incurrir en tal falacia es real pero, ¿por qué dar por sentado que, en el fondo, siempre se quiere elucidar el problema a nivel individual? Esta premisa ha tomado una dimensión tal en nuestra mente, que ha conseguido obstaculizar que centremos la discusión, precisamente, en un marco social. Si en un estudio, por ejemplo, se demostrara que la presencia de niños con bajo peso al nacer es más frecuente en las comunidades con altos índices de desempleo que en las que lo tienen bajo, entonces la afirmación no puede trasladarse automáticamente al nivel de los sujetos (es decir, tal vez no pueda concluirse que los hijos de los desempleados nazcan con la condición de «bajo peso» con mayor frecuencia que los hijos de los que tienen un puesto de trabajo regular), so pena de incurrir en la susodicha falacia ecológica. Pero lo importante es que (al vez no haya ningún afán en hacer ese traslado; quizás el interés esté directamente orientado a evaluar el efecto de ese indicador sobre todos los miembros de la comunidad, tengan o no vinculación laboral remunerada. Consideraciones similares pueden hacerse sobre los efectos de «variables ecológicas» tales como regulaciones jurídicas, formas de organización laboral, valores religiosos predominantes o grado de desigualdad. Pero el desdén hacia los estudios ecológicos también se debe, en buena medida, a prejuicios injustificados (Schwartz, 1984); tanto es así que estos estudios han llegado a conceptualizarse sólo como sucedáneos −como un mal menor− de aquellos en que las unidades de análisis son los individuos, a pesar de que, como recuerda Susser (1994), constituyen una herramienta de la salud pública y la epidemiología, con su propio peso específico, y con cuyo concurso se ha producido conocimiento enteramente vigente aun después de muchos años. Los rasgos contextúales pueden y suelen tener impactos globales sobre todos los sujetos abarcados por ellos. Esto es así no sólo en el sentido en que operan condiciones intrínsecamente ecológicas que, como la contaminación ambiental, no distinguen entre unos y otros individuos y los afecta a todos en una u otra medida. También ocurre con rasgos globales conformados a partir de características de los sujetos, tales como el porcentaje de analfabetos en una comunidad, los cuales frecuentemente influyen sobre todos los individuos, analfabetos o no.

MUESTREO Y TÉCNICAS ESTADÍSTICAS CONVENCIONALES

247

Uno de los más arraigados y perniciosos prejuicios se concentra en el postulado de que las condiciones grupales, asociadas a variables medidas a nivel de grupos, no representan agentes causales de enfermedad. Esta corriente de pensamiento científico, coherente con la insistente convocatoria actual al individualismo en muchas esferas de la vida (que en el campo de la salud se concreta en la práctica de culpabilizar a la víctima, trasladar los costos operativos de la asistencia a quien la recibe, y promover la privatización de los servicios), tiene un importante componente ideológico. Se ha perdido de vista incluso que cuando se mide un rasgo individual muchas veces se está midiendo algo distinto que cuando se trata de ese mismo rasgo pero mirado a nivel colectivo. Por ejemplo, el concepto de pobreza referido a un sujeto no es el mismo que el que corresponde a la pobreza de la comunidad en la que él vive; tanto es así que quien resida en una comunidad empobrecida, por ejemplo, se verá afectado por todos los condicionamientos globales derivados de esa pobreza (tales como violencia o falta de higiene comunal), independientemente de que su personal nivel económico sea más o sea menos elevado. Hasta la expresión «variable medida a nivel de grupo» es tendenciosa, pues parece descartar a priori el posible interés hacia aquellas variables que sólo pueden medirse a ese nivel por ser intrínsecamente concernientes a una agrupación (Diez, 1998). Sin embargo, existen importantes constructos que no tienen sentido a nivel individual, sino sólo cuando se trata de un colectivo. Por poner un ejemplo, cualquier médico de familia sabe que un individuo que vive en una «familia desestructurada», en cuyo seno se verifican tensiones graves, suele no ser un individuo sano en el sentido amplio del concepto, incluso aunque entendiéramos la enfermedad sólo como mera desviación de la fisiología normal del sujeto. El ejemplo ilustra el posible papel etiológico de un rasgo grupal, así como que tal rasgo (desestructuración familiar, en este caso) sólo tiene sentido para el colectivo y nunca para sus integrantes como entes aislados. Quizás la más emblemática declaración que refleja hasta dónde ha llegado la esterilizante contracción de la epidemiología al nivel individual de análisis sea la que hizo Rothman (1986) cuando escribió que «la clase social no se relaciona causalmente con ninguna o casi ninguna enfermedad». Para dar sólo un elemento persuasivo en dirección contraria, bastaría detenerse en algunos de los numerosos trabajos que ponen en evidencia la notable persistencia a lo largo de decenas de años de una marcada diferenciación de la esperanza de vida y de otros indicadores de salud entre estratos socioeconómicos (véase Syme, 1989). En síntesis, puesto que la búsqueda de factores etiológicos ubicados al nivel del individuo ha resultado ser tan poco fructuosa (Silva, 1997b), y dado que no quedan dudas de que existen factores colectivos cuyo valor etiológico puede ser crucial, eludir el examen de los problemas en su dimensión socio-epidemiológica resulta absurdo. Ha de reconocerse que estas nuevas líneas de pensa-

248

DISEÑO RAZONADO DE MUESTRAS

miento aún esperan por aportes operativos más concretos, pero ya se aprecian resultados interesantes en esta dirección (véanse, por ejemplo, Evans, Morris y Marmor, 1994 y Wilkinson, 1996). Tras estas consideraciones teóricas, lo que importa destacar es que las técnicas muéstrales clásicas se concentran en la selección de sujetos y no de grupos (salvo, como paso intermedio, para seleccionar los sujetos de su seno): pero, de hecho, tales procedimientos se pueden aplicar análogamente para diversos niveles de agregados. Los métodos estadísticos integradores de variables medidas a diversos niveles de agregación (multilevel analysis y modelos jerárquicos) parten del supuesto de MSA y aún reclaman un marco teórico sólido para el caso de los diseños muéstrales formales.

10.6. Asignación aleatoria Como es bien conocido, la metodología de los ensayos clínicos controlados reposa sobre dos pilares fundamentales: el enmascaramiento de los tratamientos y la asignación aleatoria de los sujetos a las distintas alternativas terapéuticas consideradas. El primero de estos recursos no es de índole estadística, sino estructural: concierne al hecho de que los pacientes involucrados no conozcan cuál de los tratamientos en juego es el que le ha correspondido (Hulley y Cummings, 1988). Cuando esto se consigue, se dice que el estudio es «ciego». Variantes más sofisticadas involucran otros niveles de enmascaramiento: si quienes evalúan los resultados también ignoran el tratamiento que corresponde a cada paciente, el estudio es «doble ciego»: y si otro tanto ocurre, además, con los que administran el tratamiento (los propios terapeutas), se dice que es «triple ciego». Sin embargo, lo que se relaciona directamente con el muestreo es la tarea de asignar los sujetos a los grupos experimentales. Supongamos que se planifica un ensayo clínico para evaluar la eficacia de la homeopatía en la curación de cierto tipo de conjuntivitis, y que se compararan tres tratamientos: remedio homeopático (A), agua destilada (B) y un colirio convencional (C). Supongamos que se ha decidido aplicar cada uno de ellos a 50 pacientes. Asumamos que es entonces necesario distribuir aleatoriamente a cada uno de los próximos 150 portadores de esa forma de conjuntivitis que acudan a la consulta a uno de los tres tratamientos, y hacerlo de modo que queden 50 en cada cual. Aplicar una asignación aleatoria a los tres grupos en las condiciones mencionadas no es otra cosa que lo siguiente: primero, sacar una muestra simple aleatoria de tamaño 50 de dicho listado y asignarle el tratamiento A a sus integrantes: luego obtener otra muestra simple aleatoria de 50 entre los 100 que restan y asignar el tratamiento B a éstos, y finalmente ubicar en el C a los 50 pacientes no elegidos hasta entonces.

MUESTREO Y TÉCNICAS ESTADÍSTICAS CONVENCIONALES

249

El procedimiento es algo engorroso, aun contando con un programa informático que realice una selección simple aleatoria dentro de un listado. En efecto, después de seleccionar el primer grupo de 50 habría que renumerar del 1 al 100 a los sujetos no elegidos, y aplicar entonces por segunda vez el programa. Por eso es conveniente contar con programas ad hoc para realizar la asignación, aunque lo que tales programas hacer, en esencia es aplicar sucesivamente el MSA. Para obtener información sobre programas informáticos que solucionan esta tarea. Véase la Sección 11.1. Debe aclararse, sin embargo, que hemos descrito una situación ideal, no necesariamente acorde con las circunstancias o restricciones reales. Ocasionalmente no se puede delimitar de antemano con exactitud cuántos pacientes que darán en el estudio. Eso ocurre, por ejemplo, si en lugar de precisar el número de individuos que quedarán incluidos, lo que se fija es un lapso durante el cual se irán incorporando pacientes al ensayo. Puesto que es conveniente que cuando se haga el análisis, los grupos tengan tamaños similares entre sí, una manera de ayudar a conseguirlo consiste en asignar los pacientes del modo siguiente: imaginemos que se trata de k tratamientos y que en determinado momento se han asignado m1, m2, …, mk sujetos respectivamente. k

Llamemos m = ∑ mi . El sujeto m + 1 se asigna al grupo i con probabilidad i =1

mi m ; es decir con probabilidad variable, más concretamente, menor Pi = k −1 cuanto mayor sea el número de sujetos ya asignados a dicho grupo hasta ese momento. De ese modo, la asignación va prosperando «equilibradamente». El programa de asignación aleatoria a tratamientos que se incluye dentro de SIGESMU (véase la Sección 11.5.4), contempla esta posibilidad. 1−

Bibliografía Hullev SB. Cunimings SR. Designing clinical research: An epidemiological approach. Baltimore: Williams and Wilkins. 1488. Diez AV. Bringing context back into epidemiology: variables and fallacies in multilevel analysis. American Journal of Public Health 1998; 88: 216-222. Evans RG. Morris LB, Marmor TR. Why are some people healthy and others not? The determinants of health of populations. New York: Aldine de Gruyter, 1994. Feinstein AR. Horwitz RI. On choosing the control group in case-control studies. Journal of Chronic Diseases 1983: 36: 3 11-313. Gail MH. Williams XX. Byar DP et al. How many controls? Journal of Chronic Diseases 1976; 29: 723-731. García FM. Factores de riesgo: una nada inocente ambigüedad en el corazón de la medicina actual. Atención Primaria 1999: 22: 585-595.

250

DISEÑO RAZONADO DE MUESTRAS

Gray A, Kramer G. Causality inference in observational vs. experimental studies. American Journal of Epidemiolology 1988; 127: 885-892. Greenland S. Randomization, statistics and causal inference. Epidemiology 1990: 1: 421-429. Hill AB. Ambiente y enfermedad: ¿Asociación o causación? Boletín de la Oficina Sanitaria Panamericana 1992: 113: 233-242. Kish L, Frankel M. Inference from complex samples (with discussion). Journal of the Royal Statistical Society. Series B. 1974: 36: 1-37. Lasky T, Stolley PD. Selection of cases and controls. Epidemiologic Reviews 1994; 16: 6-17. Lee EL, Forthofer RN, Lorimor RJ. Analyzing complex survey data. Beverly Hills, CA: Sage Publications. Inc., 1989. Lemeschow S, Hosmer Jr DW, Klar J, Lwanga SK. Adecuacy of sample sized in health studies. Wiley, New York and Community Health 1990; 52:608-611. Lehtonen R, Pahkinen EJ. Practical methods for design and analysis of complex surveys. Chichester: Wiley. 1995. Pearce N, Checkoway H. Case-control studies using other diseases as controls: problems of excluding expesure-related diseases. American Journal of Epidemiology 1988: 727:851-856. Piédrola G el al. Medicina preventiva y salud pública. Barcelona. Salvat: 1990. Robinson WS. Ecological correlations and the behavior of individuals. American Sociological Review 1950; 75: 531-537. Rothman JK. Modern epidemiology. Boston: Little. Brown and Col., 1986. Schwartz S. The Fallacy of the ecological fallacy: The potential misuse of a concept and the consequences. American Journal of Public Health 1984: 84: 819-824. Silva LC. Cultura estadística e investigación científica en el campo de la salud: una mirada crítica. Madrid: Díaz de Santos, 1997a. Silva LC. Hacia una epidemiología revitalizada. Dimensión Humana 1997b; 1: 23-33. Silva LC, Benavides A. Causalidad e inobservancia de la premisa de precedencia temporal. Revue Methodological (en prensa), 1999. Skinner CJ, Holt D, Smith TMF. Analysis of complex surveys. Chichester: Wiley, 1989. Susser M. The logic in ecological: I. The logic of analysis. American Journal of Public Health 1994; 84: 825-829. Susser M. The logic in ecological: II. The logic of design. American Journal of Public Health 1994; 84: 830-833. Susser M. Causal thinking in the health science. New York: Oxford University Press, 1973. Syme L. La investigación sobre la salud y la enfermedad en la sociedad actual: la necesidad de una epidemiología más relevante. Anthropos 1989; 118/119: 39-46. Wacholder S, McLaughlin JK. Silverman DT y col. Selection of controls in case-control studies. American Journal of Epidemiology 1992; 7J5: 1019-1050. Wilkinson RG. Unhealthy societies: The afflictions of inequality. London: Rutledge. 1996. Wolter KM. An introduction to variance estimation. New York: Springer-Verlag, 1985.

11 Recursos computacionales para el tratamiento de datos muestrales En este capítulo se pasa revista a las más importantes aplicaciones informáticas disponibles que se relacionan con los procesos de selección de muestras en poblaciones finitas y con la estimación de parámetros y el manejo de problemas inferenciales en ese contexto. La información aquí contenida corre el riesgo evidente de envejecer rápidamente, habida cuenta de la vertiginosa renovación de recursos computacionales de que disfrutamos (y que padecemos) desde hace ya varios años. Siempre he defendido el punto de vista según el cual el dominio de los recursos informáticos debe adquirirse de manera esencialmente autodidacta y, en particular, mediante el proceso de «hurgar» individualmente dentro de los programas para comprenderlos. Por lo general es recomendable prescindir de cursos y con bastante frecuencia resulta posible desentenderse, incluso, de manuales detallados (Silva, 1997). Por esa razón, el contenido subsiguiente se circunscribe casi enteramente1 a reseñar los recursos disponibles sin explicar en detalle cómo explotarlos.

11.1. Programas para determinar tamaños muestrales Existen varios programas para establecer el tamaño muestral adecuado para un estudio. Casi todos se reducen, sin embargo, al caso del MSA (para problemas de estimación) y a la determinación de tamaños de dos grupos cuyos resultados habrán de compararse (en problemas analíticos simples). Estas dos situaciones, claramente distintas entre sí, se manejan mediante enfoques también 1

Se hace una cierta excepción en la Sección 11.4.1.

252

DISEÑO RAZONADO DE MUESTRAS

diferentes. Algunos paquetes, como por ejemplo, dos módulos de EPIINFO (STATCALC y EPITABLE) y, especialmente, el sistema EPIDAT (Vázquez et al., 1997), contienen soluciones de ese tipo. En EPIDAT se recogen muchos de todos los procedimientos descritos y tabulados en el libro ya mencionado anteriormente y destinado exclusivamente al tema (Lwanga y Lemeshow, 1991). Otro programa (Study Design Pack) que contiene diversos recursos para el diseño, el que nos ocupa entre ellos, ha sido divulgado por el laboratorio Glaxo Wellcome. Puesto que las mencionadas aplicaciones informáticas son sumamente «amigables» y, por otra parte, dado que considero que la solución algorítmica de este importante asunto es intrínsecamente cuestionable (véanse Seccciones 10.3 y 12.3), no me extenderé más en este punto.

11.2. Tratamiento de datos en una muestra simple aleatoria Como se explicó en el capítulo precedente, la teoría estadística clásica se ha desarrollado durante varias décadas partiendo del supuesto de que la muestra disponible es simple aleatoria. Consecuentemente, con el desarrollo de los nuevos microprocesadores, se generó una copiosa producción de software vertebrado en torno a ese supuesto; en efecto, a partir de los años ochenta proliferaron los grandes paquetes con aplicaciones estadísticas (SPSS, BMDP, EGRET, MINITAB, SYSTAT, SAS, S-PLUS y GLIM entre otros), los cuales no han dejado desde entonces de desarrollarse cualitativa y cuantitativamente a través de versiones sucesivas, aunque sin separarse nunca, en lo esencial, del supuesto en cuestión. Aparentemente, al menos cuando se trata de un MSA, la interfaz entre muestreo formal y técnicas estadísticas clásicas quedó computacionalmente resuelta. Cabe advertir que, en rigor, casi ninguna de estas aplicaciones informáticas incorpora los factores de corrección que formalmente exigiría una muestra simple aleatoria obtenida de una población finita (es decir, de un listado). Éste, sin embargo, es un asunto de importancia marginal, pues los resultados son virtualmente equivalentes, contémplese o no dicha corrección. De modo que lo que realmente interesa examinar es el abanico de soluciones computacionales disponibles cuando se han aplicado diseños muéstrales de mayor complejidad, tales como los que se han estudiado en los capítulos 5, 6, 7 y 8.

11.3. Diseños no equiprobabilísticos y empleo de ponderaciones Cada uno de los diseños muéstrales formales que hemos venido considerando es susceptible de clasificación en alguno de los cuatro grupos que pueden formarse al cruzar dos ejes: el que separa a los procedimientos según se manejen o

RECURSOS COMPUTACIONALES PARA EL TRATAMIENTO DE DATOS MUESTRALES

253

no estratos en algún punto del diseño, y el que concierne al empleo o no de conglomerados (independientemente del número de etapas involucradas en caso afirmativo). La Tabla 1 1.1 recoge la ubicación de cada uno de los siete diseños diferentes que se han abordado en este libro en las cuatro celdas generadas por la combinación de posibilidades a que dan lugar estos dos ejes. Tabla 11.1. Distribución de métodos de muestreo según empleen o no estratificación y según usen o no etapas EMPLEO DE ESTRATIFICACIÓN NO

E E M T P D A L E P E A O S



NO

• Simple aleatorio • Sistemático

• Aleatorio estratificado

• Estratificado polietápico



• Monoetápico • Bietápico • Multietápico

Tres de estos procedimientos son, por definición, equiprobabilísticos: el muestreo simple aleatorio, el muestreo sistemático y el muestreo monoetápico2. Los restantes cuatro pueden serlo o no. en dependencia de los recursos empleados para la selección y de los tamaños de muestra elegidos para los estratos y las UPE. Para los diseños no equiprobabilísticos, las más recientes versiones de algunos paquetes estadísticos, como SPSS, han procurado mitigar el problema que nos ocupa (suponer MSA sin que lo sea) mediante la incorporación de ponderaciones que permitan corregir los resultados con acuerdo a la probabilidad de inclusión que hayan tenido los sujetos. Concretamente, esto significa que se brinda la posibilidad siguiente: en l u gar de operar con los datos resultantes de las mediciones, los valores de xi, se ofrece la posibilidad de trabajar con datos transformados, xi* = xiωi donde ωi, es un número positivo por cuyo conducto se pondera el valor correspondiente al i-ésimo individuo. La ponderación natural consiste en definir ωi como el inverso 1 de la probabilidad de selección πi, correspondiente al i-ésimo sujeto: ωi = .

πi

2

En rigor, en cualquiera de los tres casos podrían haberse introducido modificaciones que los hubieran convertido en procedimientos no equiprobabilísticos. Por ejemplo, se podría realizar un muestreo por conglomerados monoetápico tomando las UPE con probabilidad proporcional a sus tamaños, o un muestreo directo de unidades de análisis que. por ejemplo, forzara la presencia de algunas de ellas y continuara con la aplicación de un MSA sobre el resto. S i n embargo, tal y como los hemos estudiado, en los tres casos se trata de diseños equiprobabilísticos.

254

DISEÑO RAZONADO DE MUESTRAS

La lógica de este procedimiento estriba en que si cierto individuo I1 tuvo mayor probabilidad de inclusión (digamos, el doble) que otro I2, el grado de representación implícita que supone la presencia de I2 en la muestra es diferente al de I1; en este ejemplo, I1 «sobrerrepresenta» a los sujetos de su tipo. Consecuentemente, el «peso o influencia» de dicho sujeto en el análisis debe ser menor (en este caso, la mitad) que el de aquél: es decir, debe cumplirse que ω1 =

ω2

. 2 Este recurso, si bien compensa los desequilibrios que afectan a la muestra en materia de representatividad, no soluciona el hecho de que el método estadístico maneja los datos como si fueran independientes, cuando es bien sabido que la estructura de los diseños complejos introduce dependencias, a veces fuertes, entre los individuos de la muestra3. Por esa razón se han desarrollado sistemas informáticos de estadística que contemplan cabalmente esa eventual complejidad de los diseños, como se reseña en la siguiente sección.

11.4. Programas para la estimación de errores en muestras complejas En los últimos años se ha ido conformando una creciente producción de software especializado para el manejo de procedimientos estadísticos asociados a muestras procedentes de diseños complejos. A continuación se expone con cierto detalle el que a juicio nuestro es más sencillo y «amistoso»: el módulo CSAMPLE de la versión 6.0 de EPIINIFO para DOS4. Posteriormente se reseñan muy brevemente otros programas disponibles.

11.4.1. Módulo CSAMPLE de EPIINFO EPIINFO es un sistema informático de distribución gratuita, subvencionado por la Organización Mundial de la Salud (OMS) y desarrollado por el Centro de Control de Enfermedades (CDC) de Estados Unidos. A diferencia de otros sistemas similares, al menos en lo que concierne al procesamiento estadístico de datos, EPIINFO se ha caracterizado hasta ahora por evitar en lo posible todo «maximalismo»: ofrece sólo los recursos analíticos fundamentales y exhibe un marcado afán de simplificar las cosas al investigador. En lugar de atiborrarlo con posibilidades que muchas veces resultarán desconcertantes al usuario, sobre todo 3

Más concretamente, los sujetos de un mismo conglomerado se parecen, típicamente, más entre sí que los que proceden de conglomerados diferentes. 4 En el momento que este libro vea la luz. probablemente ya esté disponible la versión de EPIINFO para Windows (EPI2000). El tratamiento que allí se da al tema que nos ocupa, no es muy diferente del que aquí se explica en cuestiones de fondo. El usuario hallará, sin embargo, diversas diferencias de forma o de procedimiento. Por ejemplo, la nueva versión incluye la posibilidad de trabajar con ficheros de EXCEL y ACESS.

RECURSOS COMPUTACIONALES PARA EL TRATAMIENTO DE DATOS MUESTRALES

255

cuando éste no conoce los recursos que se le ofrecen, en EPIINFO éstas se han reducido a lo verdaderamente esencial. Además, en lugar de pedir frecuentemente al usuario que opte entre varias alternativas, EPIÍNFO (especialmente en sus módulos STATCALC y ANÁLISIS) suele proceder sin más a hacer los procesamientos esenciales, de manera que el usuario luego escoge los resultados que considere relevantes o procedentes a los efectos de su estudio. A partir de la Versión 6.0, EPIINFO incorporó el módulo CSAMPLE, cuyo propósito exclusivo es el cómputo de estimaciones puntuales y por intervalos de algunos parámetros en diseños muéstrales complejos. El programa parte de que toda la información necesaria se halla en una base de datos que contiene tantos registros como individuos tenga la muestra. En dicha base, además de las variables sustantivas de interés para cada sujeto, tales como pudieran ser edad, talla, número de hijos, etc., se incluyen, cuando procede, los tres campos necesarios a los efectos de que CSAMPLE identifique la posición de dicha unidad dentro del diseño muestral empleado (estrato al que pertenece, conglomerado en que se halla y ponderación que le corresponde). Cuando se invoca el programa, se presenta un cuadro de diálogo que solicita la identificación de un fichero con extensión REC (el formato de los ficheros con que opera EPIINFO y que se crean en otro de sus módulos5) que es el que ha de contener la información muestral (con un número de records o registros igual al tamaño muestral, como ya se dijo). Una vez cargado ese fichero, se presenta la siguiente pantalla:

5

Naturalmente. EPIINFO cuenta con posibilidades de importación que permiten «traducir» al formato REC los ficheros originalmente confeccionados en otros sistemas, tales como hojas electrónicas o bases de datos.

256

DISEÑO RAZONADO DE MUESTRAS

A través del llenado de los cuatro primeros campos presentes en esta pantalla (Main, Strata, PSU y Weight) se informa a CSAMPLE cuál es la variable con que se va a operar (en el primero) y cuál el diseño muestral que se usó (en los otros tres). El sistema exige que en el campo Main se consigne la variable del fichero cuya media o distribución será objeto de estimación. Los campos Strata (estratos), PSU6 (unidades de primera etapa) y Weight (ponderaciones) son opcionales: su función se reduce a informar a CSAMPLE del diseño muestral que se aplicó y del cual se obtuvo la muestra cuyos resultados se hallan en el fichero de trabajo. La regla fundamental para completar esta tarea es la siguiente: si uno de esos campos se deja en blanco, significa que el elemento correspondiente no ha intervenido en el diseño. Así, dejando el campo Strata en blanco se estaría indicando que en el diseño no se ha empleado estratificación: si no se llena PSU, ello significa que no se han empleado etapas en el proceso de selección y, finalmente, dejar el campo Weight sin rellenar, es el modo de comunicar que el método muestral aplicado es equiprobabilístico. Así, una vez que se mencione una variable en Main, si se dejaran las otras tres en blanco, el programa entiende que se trata de una muestra simple aleatoria. Pero cuando cualquiera de estas tres circunstancias se haya producido (estratificación, conglomeración o ausencia de equiprobabilidad), hay que ocupar los espacios correspondientes con los nombres de aquellos campos de la base de datos que contengan la información que corresponda. Resumiendo, si el diseño no es MSA, entonces el modo en que se indica a CSAMPLE de qué diseño se trata es, como ya se expuso, muy simple: basta llenar los campos Strata, PSU y Weight según proceda. Para captar cuan sencillo es este proceso, remitámosnos a la Tabla 1 1 . 1 . Strata y PSU indican a qué celda de dicha tabla pertenece el diseño muestral empleado. Weight (si procede) se llena solamente cuando el diseño no es equiprobabilístico: en tal caso, ha de colocarse aquel campo de la base que contiene para cada sujeto el inverso de su probabilidad de selección. Por ejemplo, si la muestra se ha obtenido mediante maestreo aleatorio estratificado con asignación proporcional, entonces los campos PSU y Weight deben quedar vacíos, ya que el diseño no implicó uso de conglomerados y es equiprobabilístico, pero se colocará en Strata el campo de la base que designa a qué estrato pertenece cada individuo. Si la muestra fuese estratificada, pero no hubiese sido seleccionada con asignación proporcional, sino con otro tipo de asignación muestral en los estratos, entonces el carácter no equiprobabilístico de la muestra se debe informar explícitamente poniendo en Weight el nombre del campo donde se han ubicado las ponderaciones que compensen dicha falta de equiprobabilidad. 6

Primary Sampling Units.

RECURSOS COMPUTACIONALES PARA EL TRATAMIENTO DE DATOS MUESTRALES

257

La casilla Crosstab también es opcional: se usa sólo en caso de que se quiera, hacer un tipo especial de análisis, como se verá más adelante. La siguiente información se emplea para comunicar la vía por la cual obtener las salidas; las posibilidades son tres: Screen (pantalla), Printer (impresora) o File (archivo); si se opta por esta última, entonces has que declararen File name un nombre que identifique el fichero de texto donde se ubicarán los resultados del procedimiento. Finalmente hay dos órdenes de ejecución posible: Tables y Jeans. La primera se reserva sólo para el caso en que la variable original que se estudia sea nominal (u ordinal), tal como sexo o religión, pero no de tipo continuo; Means puede usarse para variables cuantitativas de cualquier tipo: discretas, como número de hijos, o continuas, tales como toalla o hemoglobina. Las singularidades inherentes a cada una de estas órdenes se verán de inmediato a través de ejemplos. Debe advertirse que el fichero de trabajo exige que los records estén organizados de manera que los códigos correspondientes a la variable usada para indicar los estratos aparezcan en orden creciente; otro tanto debe ocurrir con el campo que identifica los PSU (la que indica a qué unidad de primera etapa pertenece el record) dentro de cada uno de los estratos. No es preciso que los códigos sean números naturales consecutivos, pero sí que respeten el orden mencionado; si ello no ocurre en la base original, se puede accionar la orden Sort para «preparar» la base antes de invocar una de las dos órdenes posibles. Esta indicación no modifica el fichero de trabajo que se encuentra en el disco, sino solamente a su representación en memoria. Supongamos que la muestra tiene 1.370 sujetos y que en Main se menciona una variable dicotómica (códigos 0 y 1); cuando se da la orden Tables, CSAMPLE produce una tabla de frecuencias para la variable en cuestión, que tiene en lo esencial el aspecto siguiente:

1

283

Obs Percent SE % LCL % UCL %

20.657 1.094 18512 22.802

Obs Percent SE % LCL % UCL %

1.087 79.343 1.094 77.138 81.488

0

7

En el archivo debe llevar un código numérico).

258

DISEÑO RAZONADO DE MUESTRAS

Percent da la estimación puntual de cada porcentaje; SE % es el error estándar de esta estimación (raíz cuadrada de la varianza); LCL es la sigla que identifica el límite inferior de confianza (lower confidence limit) y UCL el superior (upper confidence limit). Si se dejaron las tres condiciones en blanco, entonces en la salida aparecerán las siguientes tres líneas: Sampling Weights—None Primary Sampling Units—None Stratification—None por conducto de las cuales se indica que el diseño empleado es MSA en este caso. Debe notarse que, en el caso de la orden Jabíes, los resultados de CSAMPLE se expresan en forma de porcentajes. Para computar los límites de confianza, el programa siempre trabaja con confiabilidad del 95% y por tanto procede, cualquiera sea el método de muestreo, restando de, y sumando a la estimación puntual el valor e = (1,96) se(p). En este caso, por ejemplo, el error con que se estima el porcentaje de sujetos para los que la variable tiene código 1 es: (1,96) (1,094) = = 2,14, que a su vez coincide con 22,802 − 20,657 y con 20,657 − 18.512. Por otra parte, mediante la orden Tables, CSAMPLE procede a la estimación de los porcentajes (y sus intervalos) que correspondan a todas las categorías que existan (dos en el caso de una variable dicotómica, como en el ejemplo). Si en Main se pone una variable cuantitativa como la EDAD y se indica la orden Means, entonces se obtiene un resultado como el siguiente:

Analysis of EDAD

Total

Obs

Mean

Std Error

Confidence Lower

Limits Upper

1.370

64,092

0,593

62,930

65,254

donde, igualmente, los extremos del intervalo, se computan mediante: 64,092 − (1,96) (0,593) = 62,930 y 64,092 + (1,96) (0,593) = 65,254 Supongamos ahora que se quiere evaluar si la edad media de los sujetos es diferente entre los que tienen cierto rasgo R = 1 y aquellos para los que R = 2, don-

RECURSOS COMPUTACIONALES PARA EL TRATAMIENTO DE DATOS MUESTRALES

259

de R es el nombre que se ha dado a cierta variable dicotómica para clasificar a los sujetos con y sin el rasgo en cuestión. Se pone Edad en Main y R en Crosstab con los códigos 1 y 2. El resultado es: Analysis of EDAD by R R 1

Ob 667

Mean 44,844

Std Error 0,493

Confidence Lower 43,878

Limits Upper 45,810

2

703

82,354

1,375

81,619

83,089

1.370

64,092

0,593

62,930

65,254

−37,510

−0,620

−38,724

−36,296

Total Difference

Nótese que −37,510 es la estimación de X 1 − X 2 , donde X 1 es la edad media para los 667 individuos con R = 1 y X 2 la media para los 703 para los cuales R=2. Esa diferencia tiene como intervalo de confianza: [−38,724: −36,296]. El hecho de que éste no contenga al cero, desde la lógica de las pruebas de hipótesis, indicaría que la edad media para R = 2 es significativamente mayor que para R = 1. Lo trascendente es que esa prueba de significación se ha verificado respetando el diseño muestral realmente empleado y no como lo haría cualquier software tradicional (tratando la muestra como si fuera un MSA). Si el intervalo calculado por CSAMPLE no contiene al 0, entonces la prueba convencional (t de Student en este caso) también arrojaría, por lo general, significación; pero puede ocurrir que dicha t dé significación al suponer MSA, pero que el intervalo «correcto» sí abarque al cero. Es decir, el empleo de CSAMPLE a estos efectos nos precavería de rechazar H0 a pesar de ser falsa con mayor facilidad de la que se fijó de antemano. Finalmente, el programa da la posibilidad de computar la distribución de una variable politómica dentro de cada uno de dos subconjuntos (subclases) determinados por cierta variable. Consideremos, por ejemplo, cierta variable dicotómica8 llamada VARDI (con valores 0 y 1) y. que para hacer el cruzamiento, se elige la variable R. El resultado será de la forma siguiente:

8

Podría tener más de dos categorías, aunque se ha elegido el caso dicotómico para la ilustración.

DISEÑO RAZONADO DE MUESTRAS

260

CTABLES COMPLEX SAMPLE DESIGN ANALYSIS Analysis of VARDI by R Comparison between R 0 and 1 R

VARDI 0

1 Obs Percent Percent SE % LCL % UCL % Deff.

V

H

1

Total

569

98

667

52,346 85,307 1,371 82,620 87,995 1,001

34,629 14,693 1,371 12,005 17,380 1,001

48,686 100,000

2

Obs Percent Percent SE % LCL % UCL % Deff.

V

H

518

185

703

47,654 73,684 1,661 70,428 76,941 1,001

65,37 1 26,3 16 1,661 23,059 29,572 1,001

51,314 100,000

1,087 100,000 79,343 1,094 77,198 81,488 1,001

283

1,370

100,000 20,657 1,094 18,512 22,802 1,001

Total

Obs Percent Percent SE % LCL % LICL % Deff.

V

H

100,000

Como se ve, aparecen los porcentajes por filas (horizontalmente) y por columnas (verticalmente) −H y V respectivamente−, aunque el intervalo de confianza sólo aparece para las filas. En este caso (Tabla 2.2) también se obtienen tres estimaciones de interés para los epidemiólogos (odds ratio, riesgo relativo y diferencia de riesgos) y sus respectivos intervalos de confianza, como se muestra a continuación:

RECURSOS COMPUTACIONALES PARA EL TRATAMIENTO DE DATOS MUESTRALES

261

CTABLES COMPLEX SAMPLE DESIGN ANALYSIS OF 2 X 2 TABLE Odds Ratio 95 % Conf. Limits Risk Ratio 95 % Conf. Limits

(OR) (RR)

RR = (Risk of VARDI = 0 if R = 0) Risk Difference 95 % Conf. Limits

(RD)

RD = (Risk of VARDI = 0 if R = 0)

2,074 (1,58; 2,72) 1,158 (1,10; 1,22) / (Risk of VARDI = 0 if R = 1) 11,623 % (7,40; 15,85) - (Risk of VARDI = 0 if R = 1)

Nuevamente, lo singular que tienen estos intervalos es el hecho de que se han

computado teniendo en cuenta los diseños verdaderos. Por último, en las salidas que se producen cuando se da la orden Tables, aparece el valor de Deff. Se trata de una estimación de la magnitud del valor del efecto de diseño explicado detalladamente en la Sección 6.3.

11. 4.2 Otros programas para cálculo de errores en diseños complejos A continuación se presentan muy sucintamente los s i e t e programas más reconocidos en la materia que nos ocupa. 1. SUDAAN

Se trata de una aplicación comercial desarrollada en el Research Triangle Institute que provee facilidades para estimar un buen número de parámetros tales como medias, porcentajes, razones, cuantiles y odds ratios, así como para aplicar métodos de regresión (lineal, logística y hazards) y de tablas de contingencia. (Barnwell, Bieler y Shan, 19%) 2. PC-CARP PC-Carp es la versión para PC del programa SUPER CARP, uno de los pioneros en este campo, desarrollado y comercializado por la Universidad de Iowa. Permite computar errores para medias, porcentajes, cuarteles, razones, diferencias de razones, así como para realizar pruebas de hipótesis sobre tablas de contingencia (Fuller et al., 1989).

262

DISEÑO RAZONADO DE MUESTRAS

3. CENVAR Según se describe en Megill (1997), el paquete CENVAR (Census Variance Calculation System) es una parte de IMPS (Integrated Microcomputer Procesing System) desarrollado por el Buró del Censo de Estados Unidos. De hecho es una derivación de PC-CARP, al cual procura superar en materia de tablas de salida. 4. WESVARPC Según describen en el manual para la Versión 2.1 Brick, Broene, James y Severyn se (1997), WesVar PC es un paquete «para computar estimaciones puntuales y estimaciones replicadas de las varianzas a partir de datos obtenidos de muestras complejas». Se trata de una aplicación implementada sobre Windows que trabaja con técnicas de muestras replicadas como las descritas en la Sección 9.1. Una valoración de la versión 3 (Wesvar Complex Samples) puede encontrarse en Nixon (1998); a ésta se ha añadido la posibilidad de estimar curvas de regresión lineal y logística. 5. STATA STATA es una de las grandes aplicaciones informáticas que presuntamente cumple de manera cabal con el propósito que nos ocupa, además de realizar todas las tareas de los grandes sistemas para aplicaciones estadísticas. Se trata de un sistema programable desarrollado por una corporación (Stata Co.) con una amplísima gama de prestaciones. La validez de los algoritmos en que se basan las prestaciones que ofrece STATA para el caso de diseños complejos se ha prestado, sin embargo, a cierta suspicacia informal en medios especializados, y en mi opinión merece un examen valorativo profundo del que aún se carece. 6. VPLX Este sistema ha sido diseñado por el Buró del Censo de Estados Unidos y emplea replicaciones y estimaciones tipo jackknife. El sistema WESVAR PC arriba mencionado tiene, a mi juicio, una interfaz máquina-usuario más amigable. 7. CLUSTERS Nacido del proyecto World Fertility Survey. CLUSTERS se limita, como CSAMPLE, a computar errores para medias y proporciones en subclases, aunque opera en un ambiente de hoja electrónica. 8. SAS Este es el otro gran paquete de aplicaciones estadísticas de propósito general que incluye procedimientos de análisis acordes a métodos complejos de muestreo (en la versión 8), Anthony, Watts y Stokes (1999) dan cuenta de un módulo pa-

RECURSOS COMPUTACIONALES PARA EL TRATAMIENTO DE DATOS MUESTRALES

263

ra la selección de muestreo de diversos tipos, otro para estimar medias y porcentajes y un tercero para análisis de regresión lineal.

11.5. Programas para la selección de muestras Los programas hasta aquí descritos se relacionan con la determinación de tamaños muéstrales y con el análisis de datos; pero no se involucran en el proceso de selección. Los que hacen esto último son virtualmente inexistentes. Algunos paquetes contienen la posibilidad de realizar la selección de una muestra simple aleatoria (con y sin reemplazo) o sistemática de un listado, pero típicamente no se pasa de ahí. De hecho, en su sección de Preguntas y Respuestas, la revista especializada The Survey Statistician de diciembre de 1998 recoge el señalamiento de Kish (1995) acerca de la inexistencia de programas de este tipo y la urgente conveniencia de contar con ellos. Recientemente, como se consignó en la sección anterior, SAS ha incluido un módulo creado con ese fin. El otro programa que conocemos que aborda este asunto es SIGESMU, objeto de la siguiente sección.

11.6. Sistema general de simulación de diseños y aplicaciones muestrales (SIGESMU) El programa SIGESMU fue creado especialmente para acompañar este libro. En las cuatro subsecciones que siguen, se comunican sus rasgos y prestaciones fundamentales.

11.6.1. Programas de selección El libro que constituye la versión precedente del actual (Silva, 1993) venía acompañado de un disco que contenía algunos programas muy simples para facilitar algunos procesos de selección elementales. Ahora, intentando hacer una contribución más relevante en este sentido, hemos diseñado (Suárez, 1998) un sistema denominado Sistema General de Simulación y Selección de Muestras (SIGESMU), parte de cuyas prestaciones conciernen específicamente al proceso de selección. SIGESMU puede instalarse en ambiente Windows haciendo uso del disco compacto que se adjunta9. El propósito de este sistema informático general de simulación de diseños y aplicaciones muéstrales es proveer al usuario de las siguientes posibilidades: 9

El sistema fue programado utilizando el lenguaje de 32 bits Delphi 3.0 para Windows 95 ó 98.

264

DISEÑO RAZONADO DE MUESTRAS

Figura 11.1. Ventana principal de SIGESMU. − Visualizar y practicar distintos diseños muéstrales. − Valorar las virtudes \ limitaciones de las técnicas de selección más importantes. − Contar con herramientas de interés didáctico que permitan la consolidación de nociones básicas relacionadas con el maestreo. − Avadar en el proceso de selección de muestras equiprobabilísticas sobre marcos de muestreo explícitos e implícitos. En lo que sigue se describe brevemente cada uno de los componentes de los dos módulos básicos de SIGESMU (Figura 11.1) . SIGESMU incluye recursos de selección de muestras equiprobabilísticas aplicables a una base de datos cuyo formato sea compatible con dBase, la cual ha de ser proveída por el usuario en calidad de marco muestral. Con el subconjunto resultante del proceso de selección ( l a muestra), el sistema crea una base de ciatos idéntica a la original (salvo el hecho, naturalmente, de que ésta sólo contiene los registros correspondientes a los sujetos elegidos). Los métodos de selección incluidos en este componente son: a) b) c) d)

muestreo simple aleatorio muestreo sistemático en tases muestreo aleatorio estratificado muestreo por conglomerados monoetápico

RECURSOS COMPUTACIONALES PARA EL TRATAMIENTO DE DATOS MUESTRALES

265

e) muestreo por conglomerados bietápico con probabilidades proporcionales a los (amaños de las unidades de primera etapa f) muestreo estratificado polietápico Por otra parte. SIGESMU también ofrece la posibilidad de aplicar métodos de selección cuando no se cuenta con bases de datos explícitamente conformadas: es decir, para realizar la selección sobre unidades de análisis genéricas, que el usuario identificaría a posteriori en un marco muestral externo. Para este caso, se han incluido los siguientes diseños: a) muestreo simple aleatorio. b) muestreo sistemático en fases. c) muestreo por conglomerados bietápico con probabilidades proporcionales a los tamaños de las unidades de primera etapa.

11.6.2. Simulación de muestras Los programas que procuran resolver o encarar el proceso de selección pueden ser útiles, además de por su función operativa, para la formación del usuario. Tal es el caso cuando este puede percibir cómo fluye el proceso de selección y comparar los resultados provenientes de métodos diferentes sobre la misma población, va que pueden constituir una vía importante para identificar las ventajas y desventajas relativas que tienen los diseños, así como para valorar el efecto del tamaño de muestra sobre la calidad de ¡as estimaciones. SIGESMU posee un rasgo singular en este sentido. Se trata de un recurso para simular selecciones muestrales según diversos métodos posibles. Este submódulo permite computar estimaciones en muestras simuladas y facilitar por esa vía la comparación de resultados de los diferentes métodos utilizables. Con ese fin, se ha creado artificialmente una «población t i p o » . Para conformarla se construyó mediante simulación una base de datos, con características que se ajustan a la estructura de una población real, adecuada en principio para la aplicación de cualquier procedimiento de muestreo. Se simularon varios miles de sujetos, cada uno de los cuales se ubicó en una de 4 zonas, después en alguno de los distritos existentes dentro de éstas, y finalmente, en viviendas dentro de los distritos. A los sujetos simulados, una vez distribuidos en zonas, distritos y viviendas, se les atribuyeron valores para cuatro variables personales, definidas del modo siguiente:

Nivel socioeconómico: Valor entero entre 1 y 4: 1 para los de más bajo nivel y 4 a los que poseyeran mejor nivel socioeconómico. Así se representa a una variable sintética supuestamente conformada a partir de cierta información y de un algoritmo validado de asignación en una de las 4 categorías.

266

DISEÑO RAZONADO DE MUESTRAS

Se atribuyó el mismo nivel socioeconómico a todos los integrantes de una misma vivienda.

Edad: Valor entero entre 0 y 100, expresado en años. Número de caries: Número entero entre 0 y 8, que identifica para cada sujeto el número de piezas dentales afectadas por caries. Necesidad de atención estomatológica: Variable dicotómica, cuyos valores posibles son: 0 si el sujeto no requiere atención estomatológica, y 1 en caso contrario. La base de datos constituida, denominada POBLADO.DBF, e incluida en el CD que se adjunta, es compatible con dBase; en ella cada sujeto ocupa un artículo. Gráficamente, la estructura de la población creada se ha representado en la Figura 11.2. Como resultado de la aplicación de un conjunto de reglas probabilísticas aplicadas para simular la población, se obtuvo una base de 2.393 viviendas (distribuidas por zonas y distritos), y dentro de ellas se simularon 9.234 sujetos. Este componente sirve como entrenamiento para la selección de muestras por medio de los seis diseños incluidos en el módulo de selección, ya que todos ellos han si-

Figura 11.2. Estructura de la población tipo creada para la simulación.

RECURSOS COMPUTACIONALES PARA EL TRATAMIENTO DE DATOS MUESTRALES

267

do incluidos como posibilidad para que el usuario elija aquél con el que quiere trabajar con vistas a la simulación. Las seis tablas siguientes dan una semblanza de los rasgos de esta población artificial. Como puede observarse en la Tabla 11.1, la distribución de sujetos según grupos de edad tuvo predominio de los grupos de edad de entre 20 y 60 años. El porcentaje de sujetos según ZONA y NSE, así como las medias y varianzas del NSE, se presentan en la Tabla 11.2; la media del NSE aumenta desde la zona 1 a la 4, con varianzas similares entre las zonas, siempre menores que la variabilidad total (indicando que las zonas son internamente homogéneas en materia de nivel económico-social). El comportamiento de la media de caries por persona y el porcentaje de personas con caries según zonas se aprecia en la Tabla 11.3. Tabla 11.1. Distribución de los sujetos por grupo de edad SUJETOS GRUPO EDAD %

NO

0-9 10-19 20-29 30-39 40-49 50-59 60-69 70-79 80-89 90-99

772 911 1.486 1.547 1.534 1.498 555 450 256 225

8,4 9,9 16,1 16,8 16,6 16,2 6,0 4,9 2,8 2,4

TOTAL

9.234

100,0

Tabla 11.2. Distribución porcentual de los sujetos con cada nivel de NSE según ZONA, medias y varianzas de NSE por zonas NSE ZONA 1

1 2 3 4 TOTAL

49.5 37,7 14,9 9.7

2

3

29,4 28,7 14,8 13,0

13,5 19,8 30,7 30,8

X

S2

1.792 2.098 2.949 3.141

0.890 1,120 1,138 0,964

2.419

1.332

4

7,6 13,8 39,5 46,5

268

DISEÑO RAZONADO DE MUESTRAS

Tabla 11.3. Tasas de sujetos con caries y número medio de caries por zonas CARIES

ZONA

x

tasa (%)

1 2 3 4

30,1 29.0 19.3 16,3

0,744 0,675 0,375 0,343

TOTAL

0,561

Tabla 11.4. Tasas de sujetos con caries medias y varianzas del número de caries según NSE NSE

tasa (%)

Promedio de CARIES

S2

1

38.6

1.014

2.292

9

27,5 19,3 9.7

0,613 0,371 0,135

1.306 0,727 0,193

0,561

1.311

3 4 TOTAL

Tabla 11.5. Tasas de sujetos con necesidad de atención estomatológica según zonas ZONA

tasa (%)

1

39,8

2 3 4

37,6 25,5 23,2

TOTAL

32.7

Atendiendo a la presencia de caries según nivel socio económico, encontramos diferencias acusadas entre las medias, con varianzas notablemente alejadas entre sí (Tabla 11.4). Finalmente, los porcentajes de sujetos con necesidad de atención estomatológica según zonas y según NSE se recogen respectivamente en las Tablas 11.5 y 11.6.

RECURSOS COMPUTACIONALES PARA EL TRATAMIENTO DE DATOS MUESTRALES

269

Tabla 11.6. Tasas de sujetos con necesidad de atención estomatológica según NSE NSE

tasa (%)

1

49.1

2 3 4

37.1 27.0 13.7

TOTAL

32,7

La estructura impuesta a la matriz de datos procuraba generar un efecto de diseño bastante grande mediante el recurso de hacer las UPE bastante homogéneas internamente, aunque también las zonas se diseñaron para que fueran relativamente homogéneas.

11.6.3. Otras aplicaciones informáticas relacionadas con el muestreo SIGESMU incluye, por otra parte, programas destinados al desarrollo de algunas tareas de simulación. Expuestos a grandes rasgos, se trata de los siguientes tres procedimientos: JUEGO DE LAS URNAS Gracias a este componente, el usuario podrá percatarse fácilmente de un elemento crucial del muestreo: para lograr buenas estimaciones, no importa mucho cuan grande sea el tamaño relativo de la muestra en relación a la población de la cual proviene, lo verdaderamente crucial es el tamaño absoluto de la muestra. Lo que se simula es el «juego de urnas» descrito en la Sección 3.9. Naturalmente, el usuario podrá decidir los tamaños de las urnas, de las muestras, del parámetro de interés y del número de replicaciones. El sistema mostrará los resultados en una tabla y a través de una representación gráfica. ASIGNACIÓN DE PALABRAS A LISTAS Como sabemos, para muestras medianamente grandes, el azar es capaz de lograr que la mayoría de las muestras seleccionadas por su conducto sean representativas de las poblaciones de las cuales proceden. En particular, la asignación aleatoria de unidades a varios grupos suele conseguir que dichos grupos sean muy parecidos entre sí a casi cualquier efecto que se desee. Contribuir a que este hecho pueda palparse de manera elocuente es el objetivo de este componente.

270

DISEÑO RAZONADO DE MUESTRAS

Esta simulación se basa en la idea de tomar palabras en calidad de unidades de análisis. Para cada una de éstas pueden «medirse» varios rasgos, tales como número de letras en ellas contenida, o el hecho de que empiece con vocal o consonante. Para llevar adelante el proceso de asignación en que se basa esta aplicación de índole demostrativa, se parte de un archivo de texto (con formato ASCII) elegido por el usuario, cuyas palabras son objeto de la asignación aleatoria a varias listas (2, 3 ó 4, según defina el usuario). El archivo de textos original para llevar adelante el proceso descrito se indica por el usuario por medio de una ventana de petición tipo Windows. Al escoger dicho archivo, la ventana de la simulación se activa y el usuario puede definir los parámetros para los cuales desea realizar estimaciones: número de veces que aparece una letra determinada y porcentaje de palabras cuya longitud sea igual o mayor a cierto valor. Se estiman asimismo el porcentaje de palabras que comienzan con vocal y la longitud media en letras de cada una de las listas. Realizado el cómputo, se muestran los resultados para cada grupo así como los valores poblacionales, de modo que se puedan comparar con los que corresponden a los listados conformados. A su vez, al cotejar los resultados de cada una de las listas se podrá constatar que, salvo casos excepcionales, especialmente si el número de palabras contenidas en el fichero es grande, el azar «equipara» las submuestras de la población: es decir, se observará la proximidad entre las estimaciones hechas y la proximidad de éstas con el valor poblacional. ASIGNACIÓN DE SUJETOS A TRATAMIENTOS Supongamos que se está diseñando un estudio que exige la comparación de dos drogas, una conocida y la otra de nueva generación. Se precisa asignar a cada uno de 56 sujetos el tratamiento que habrá de recibir una vez que sea declarado «elegible», de forma tal que los grupos resultantes, además, sean de igual tamaño. Para resolver un problema como ese, basta con disponer de un programa que extraiga muestras aleatorias: cuando el número de tratamientos es superior a dos, ya resulta conveniente contar con un programa ad hoc, como el que nos ocupa. En la ventana de asignación no existen más complicaciones que indicar el número de tratamientos y el de los sujetos que han de distribuirse: de tal forma, al indicar que se efectúe el procesamiento, la ventana mostrará los listados de los sujetos que han de incluirse en cada uno de los grupos. Se pueden crear hasta cinco listas para tratamientos Una alternativa a la conformación de grupos de igual tamaño, en que la probabilidad de asignación es la misma para todos los sujetos, es optar por la construcción de «grupos equilibrados». En la asignación equilibrada, los sujetos se van asignando a los tratamientos con probabilidades que varían dependiendo del número de sujetos ya incluidos en cada lista: se otorga a un nuevo sujeto mayor

RECURSOS COMPUTACIONALES PARA EL TRATAMIENTO DE DATOS MUESTRALES

271

probabilidad de inclusión en las listas con menor tamaño (véase Sección 10.6). Tal recurso se aplica con el fin de conseguir que en cualquier punto de este proceso los listados hasta ese momento conformados sean básicamente de igual tamaño. La utilidad de actuar de tal modo se deriva de que, ocasionalmente, en lugar de fijar de antemano un número de unidades por grupo, se fija un lapso durante el cual se estarán acopiando casos para el estudio; en tal situación no se sabe cuántos sujetos habrá finalmente, y el proceso de asignación quedará truncado cuando se alcance la fecha límite. También puede ser que se desee hacer cortes parciales a lo largo del estudio. Al seguir este método de asignación quedará esencialmente garantizado que los tamaños de los grupos en ocasión de dichos cortes sean aproximadamente iguales. Cabe señalar que las listas formadas pueden guardarse en ficheros de texto y por tanto, en su momento, podrían imprimirse para trabajar con ellas en terreno.

11.6.4. Requerimientos y rasgos generales del sistema Para la instalación de SIGESMU se necesita una computadora IBM compatible 486 o superior con sistema operativo Windows 95 o superior; debe tener al menos 16 Mb de memoria RAM y ocupa aproximadamente 11.5 Mb de disco duro disponible. Para la instalación se exige una Unidad de lector de CD y una tarjeta de vídeo SVGA (800 600, 256 colores). El programa cuenta con un detallado sistema de ayudas, similar al implementado por conocidas aplicaciones desarrolladas sobre Windows 95, con todas las posibilidades de búsqueda y manejo de información previstas por dicho sistema operativo. La ayuda cuenta con descripciones de los campos de entrada de cada una de las ventanas incorporadas al sistema, así como con definiciones de algunos conceptos del muestreo esenciales para el usuario. La instalación se realiza a través de un archivo ejecutable con el nombre SETUP.EXE, de manera análoga a cualquier aplicación convencional sobre Windows 95.

Bibliografía Anthony A, Watts D, Stokes M. SAS procedures for analysis of sample survey The Survey Statistician 41: 10-13, 1999 Barnwell BG, Bieler GS, Shah BV. SUDAAN Technical Report: The MULTILOG Procedure, Release 6.6, Research Triangle Institute. Research Triangle Park, North Caroline, 1996. Brick, JM, Broene P, James P, Severynse J. A User's Guide to WesVar PC. Rockville, MD; Westat, Inc., 1997.

272

DISEÑO RAZONADO DE MUESTRAS

Fuller, WA, Kennedy W, Schnell D, Sullivan G, Partk HJ. PC CARP. Ames, IA: Statistical Laboratory, Iowa State University. 1989. Kish L. Questions and answers, Paris: IASS, 1995. Lwanga SK, Lemeshow S. Sample size determination in health studies: A practical manual. Ginebra: Organización Mundial de la Salud, 1991. Megill DJ. CENVAR software for tabulating samplig errors. The Survey Statistician 1997; 37: 11-14. Nixon M. WesVar complex samples software. The Survey Statistician 1998; 39:8-11. Silva LC. Muestreo para la investigación en ciencias de la salud. Madrid: Díaz de Santos, 1993. Silva LC. Cultura estadística e investigación científica en el campo de la salud: una mirada crítica. Madrid: Díaz de Santos, 1997. Suárez R. Sistema General de Simulación y Selección de Muestras (SIGESMU). Tesis de Especialista en Bioestadística. La Habana: Escuela Nacional de Salud Pública. 1998. Vázquez E et al. EPIDAT: Análisis epidemiológico de datos tabulados. Santiago de Compostela: Xunta de Galicia. 1997.

12 Reflexiones críticas sobre la práctica muestral contemporánea En este capítulo se abordan críticamente diversos aspectos de interés práctico, tales como errores que se cometen con relativa frecuencia por parte de muestristas inexpertos, que son víctimas de «tradiciones» discutibles, o que actúan según criterios directamente improcedentes. Simultáneamente, se desarrollan algunas ideas y procedimientos pendientes de examen cuya discusión suele esquivarse. Finalmente, se hacen diversas precisiones conceptuales que tienen repercusión considerable a los efectos de aplicar o de comprender las técnicas muéstrales.

12.1. Marco de extrapolación La legitimidad de las extrapolaciones es uno de los temas más espinosos en la práctica; parece mucho menos escabroso de lo que realmente es, debido a que responde al tipo de asuntos que suelen eludirse olímpicamente en la literatura. Es de los temas que, de ser posible, no «bajan» a los textos de nivel medio o elementales; y sólo raramente se abordan, incluso, en círculos muy especializados.

12.1.1. Una regla rígida Entre los estudiantes de muestreo es bien conocida la pauta que establece que las inferencias que se produzcan a partir de una muestra han de circunscribirse a la población que fue objeto del acto de selección. Desde una óptica rigurosa, esto es impecablemente cierto. Pero un apego estricto a dicha regla tendría efectos tan paralizantes que en la práctica suele pasarse por alto. En efecto, debemos reconocer que con frecuencia el método de selección es tal que, por una razón u otra, no todos los individuos de la población objeto de análisis tienen oportunidad de integrar la muestra y, sin embargo, la inferencia

274

DISEÑO RAZONADO DE MUESTRAS

objetivamente realizada abarca a toda la población y no sólo a la porción de la que procede la muestra. El grado en que una transgresión como esa resulte «perdonable» no es por lo general un asunto de naturaleza estadística, sino algo inherente al problema que se aborda: depende de la valoración que hagan los investigadores, basada en su sentido común y en su «cultura» sobre el problema, elementos a partir de los que se dirá la última palabra. Por ejemplo, supongamos que se hace un estudio sobre la información que poseen los jóvenes de la enseñanza media acerca del SIDA usando una muestra de 120 alumnos de una escuela de Madrid, que sobre esas bases se estima que solo el 20% tiene «conocimientos adecuados» sobre el tema, y que se obtiene un intervalo de confianza al 95% de [16% − 24%], ¿qué quiere decir esto? La respuesta canónica sería que «podemos estar razonablemente confiados en que el porcentaje de jóvenes de esa escuela que tenía conocimientos adecuados en el momento de la encuesta se hallaba entre 16% y 24%». Ni más ni menos. Lo que importa subrayar es que, formalmente, la inferencia se reduce a lo que prevalecía en esa escuela y en ese momento. Sin embargo, nadie (con excepción quizás de la dirección de esa escuela) haría el estudio para obtener tan magro dividendo, reducido a una anécdota histórica. Si tal resultado se publica es porque tácitamente se cree que los resultados son indicativos de algo que ocurre más allá de la escuela y más allá del momento de la encuesta. Lo que pasa es que la decisión de cuál es el alcance geográfico y temporal de tal extrapolación suele dejarse en un limbo que, si bien releva al investigador de comprometerse explícitamente, no resuelve el hecho real de que la inferencia que objetivamente se está haciendo trasciende el ámbito de la selección en que se basa. Es evidente que la realidad desvelada por el estudio no será vigente 10 años después de realizado el estudio ni tampoco extrapolable a la ciudad de Copenhague, pero es verosímil que también refleje lo que ocurre en otras escuelas de Madrid, y que sea esencialmente válida mientras no cambien los factores que determinan el grado de conocimiento de los jóvenes madrileños sobre el SIDA. Por otra parte, a veces es simplemente imposible hacer extrapolación alguna. Por ejemplo, en un artículo titulado Consumo de drogas en una muestra de médicos rurales de la provincia de Valladolid, Carvajal, García, Holgado y Velasco (1984) dan cuenta de un estudio basado en una encuesta realizada por medio del correo a la que 73 médicos aportaron testimonios sobre sus hábitos de consumo de drogas (tanto de las llamadas «institucionales» -alcohol, cafeína y tabaco- como de las que no lo son, tales como anfetaminas, ácidos, opiáceos y alucinógenos). En principio, la población de interés estaba conformada por 211 médicos, a todos los cuales les fue originalmente remitido el cuestionario; solo respondió, sin embargo, el 34,5% de ellos. Dada la naturaleza obviamente comprometedora de algunas de las respuestas posibles (los propios autores adelantan en el traba-

REFLEXIONES CRÍTICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA

275

jo un juicio moral negativo hacia un médico que consuma estas sustancias), resulta altamente dudosa la representatividad de una muestra autoconfigurada por sus integrantes. Nótese que el propio título del trabajo anuncia algo anómalo: lo que ocurra en una muestra, como allí se consigna (en este caso, la magnitud o forma del consumo), no es algo que interese. Lo que puede interesar es esta información para la población de médicos. La muestra es un intermediario metodológico, ajeno por completo al propósito de un estudio, cualquiera que sea éste. Si hay motivos para pensar que la muestra representa adecuadamente a cierta población, entonces es posible que los resultados obtenidos de aquélla puedan extenderse o extrapolarse a esta última. En tal caso, es posible que se haya alcanzado aquel propósito; vale decir que nunca interesa un resultado muestral per se, sino sólo el que se deriva de ese proceso de extrapolación. En el caso que nos ocupa, resulta muy difícil establecer a qué población podría representar la muestra que nos ocupa: ¿A los que no tienen nada que ocultar? ¿A quienes no tienen aprensión en admitir sus hábitos? ¿A los que aprovechan la ocasión para dar pistas falsas sobre sus hábitos reales? Considero imposible responder estas preguntas. Sin embargo, de lo que no quedan dudas es de que la muestra representa exclusivamente a los médicos que acceden a contestar, subgrupo cuya diferencia con el de los que optan por no responder es algo más que verosímil. Se trata a todas luces de una muestra llamada a arrojar estimaciones sesgadas. Por otra parte, aun cuando la totalidad de los médicos hubiese respondido, habría motivos para sospechar la presencia de un sesgo: es bien conocido que cuando se formula una pregunta embarazosa, los resultados suelen arrojar subestimaciones (o sobrestimaciones, según sea lo que se investigue). El trabajo, por poner un ejemplo, comunica que el porcentaje de médicos que consumen cocaína (ya fuese habitual o esporádicamente) es nulo; ni hombres ni mujeres de la muestra admiten tal consumo. ¿Podrá razonablemente confiarse en que, si la realidad fuese otra, habría quedado fielmente reflejada en las respuestas? La endeblez fundamental que tiene este artículo no radica, sin embargo, en que una parte de la muestra no responda; esto suele ocurrir siempre en una u otra medida y existe un vasto campo teórico al respecto (véase Sección 12.4). Si bien la tasa de «no respuesta» es ciertamente desmedida, el defecto fundamental del trabajo estriba en que no se dice (ni es posible decirlo) a qué población cabe atribuir los resultados hallados1. Supongamos ahora que se quiere estimar la prevalencia de insuficiencia renal crónica (IRC) en una ciudad pero que, por razones prácticas, la muestra se ele1

El artículo analizado es bastante antiguo. Actualmente es difícil hallar trabajos publicados que padezcan de tan notables insuficiencias, pues los editores (y los autores) han alcanzado niveles de versación, experiencia y rigor mucho mayores que los que tenían entonces.

276

DISEÑO RAZONADO DE MUESTRAS

girá de un listado incompleto, que contiene solamente al 90% de la población actual (por ejemplo, sólo incluye a los que poseen teléfono, ya que, supongamos, el marco muestral será la guía telefónica; en tal caso, la muestra resultante comprenderá solamente a poseedores de teléfono). La pregunta clave, que evidentemente no es de índole estadística, sería: ¿hay motivos para sospechar que la posesión o no de teléfono se relaciona de algún modo con el hecho de padecer IRC? Si la respuesta fuera positiva, no habrá «perdón». Pero si, por mucho que salubristas y nefrólogos especulen «teóricamente», no aparece ningún vínculo, ni directo ni indirecto, entre ambos rasgos, yo me inclino por la «absolución metodológica». Me baso en que, de todos modos, el conocimiento que se obtenga por vía muestral habrá de ser provisional, perfectible y sujeto a refinamiento. Por otra parte, si somos flexibles con la extrapolación en el tiempo, ¿por qué no serlos con la extrapolación en el espacio? En última instancia, se trata de ser flexible en el marco de un talante riguroso, que es mucho mejor que ser rígido sobre un substrato conceptualmente borroso, como ocurre con tanta frecuencia y en tantos contextos sin que ello genere tanto escándalo. En mi opinión, tal flexibilidad tiene fundamentos claros. Supongamos que se estudian las dimensiones antropométricas de los niños de una ciudad a través de una muestra equiprobabilística de hogares de una ciudad. Supongamos asimismo que el proceso discurrió sin ningún tipo de anomalías: el marco muestral estaba actualizado, todos los hogares fueron elegidos según lo planeado y los niños de la muestra fueron medidos en su totalidad. Hecho el estudio, se obtiene un amplio conjunto de estimaciones, entre ellas, pongamos por caso, que la talla media de un varón de 5 años es igual a 104 cm y que el percentil 5 de la distribución de esa variable es 96 cm. Tras un examen estadístico adecuado de los datos, los auxólogos deciden recomendar que aquellos niños de esa edad cuya talla esté por debajo de 96 deben ser examinados por personal especializado. Esta pauta sale publicada y se difunde mucho después de realizadas las mediciones (con buena suerte, un año más tarde). Ahora bien, ¿para qué población son válidas las estimaciones que, tras la mencionada elaboración, dan lugar a tal recomendación? Obviamente, no para los niños que tenían 5 años en el momento de la encuesta. Dichos niños ni siquiera existen ya como tales, pues en el momento de la publicación ellos tendrán por lo menos seis años. Por otra parte, la pauta en cuestión seguirá vigente durante mucho tiempo (quizás un decenio). De modo que la extrapolación verdadera se extiende formalmente a una población enteramente diferente a la que fue muestreada. A nadie se le ocurriría sugerir la repetición del estudio dos meses después, del mismo modo que difícilmente se aceptaría que sus resultados guarden vigencia durante los 40 años siguientes, ya que es bien conocido que existe una «tendencia secular» que obliga a actualizar cada cierto tiempo las curvas de crecimiento y desarrollo. La decisión al respecto está condenada a ser informal y, en cualquier caso, ajena a una aplicación rígida de la regla enunciada al comienzo de esta sección.

REFLEXIONES CRÍTICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA

277

Ésta es la realidad de todos los días: las medidas que se adopten tras un estudio de satisfacción de pacientes hospitalizados se aplicarán a una población diferente de la que se estudió, el nivel de educación sexual que se atribuye a una población de adolescentes se conoce a través de una muestra de una población de adolescentes que «ahora» son adultos, y así sucesivamente. Muy posiblemente, los niños que hoy tienen 5 años, los hospitalizados y los adolescentes actuales no difieran en lo esencial de los que en su momento fueron estudiados; por eso la inferencia que realmente se hace verosímilmente será legítima aunque no responda al esquema formal de que sólo se extrapola a la población muestreada. Sin embargo, el hecho de que lo sea (y hasta cuándo seguirá siéndolo) escapa a la estadística y al muestreo para caer en la órbita del sentido común y la reflexión crítica. En síntesis, el nivel de extrapolación adecuado suele ser un problema en que participan por igual las técnicas formales de muestreo y los recursos informales centrados en el sentido común.

12.1.2. Pruebas de significación en «muestras poblacionales» En un libro clásico, aunque en buena medida olvidado, Hagood (1941) encara el tema desde una perspectiva general, que desborda el marco del muestreo en poblaciones finitas con fines descriptivos y abarca también el de las pruebas de hipótesis. Lo que allí se discute es la situación en que la «muestra» no es tal en sentido estricto, sino que constituye toda la información disponible. Por ejemplo, supongamos que contamos con las tasas de mortalidad infantil de las 50 provincias de un país y con las correspondientes 50 tasas de analfabetismo en un año dado, y supongamos que se calcula el coeficiente de correlación de Spearman con esos 50 pares. ¿Tiene sentido evaluar si dicho coeficiente difiere significativamente de cero? El asunto es cuándo y sobre qué bases se pueden hacer inferencias a un universo hipotético, un superuniverso del cual nuestro universo finito (es decir, lo que se ha observado) puede ser considerado una muestra aleatoria. Hagood baraja varias posibles interpretaciones según las cuales lo observado puede considerarse la realización de una experiencia aleatoria (configuraciones espaciales posibles o variabilidad en el tiempo); se trata de alternativas que justificarán teóricamente la posibilidad de conducirse con flexibilidad en esta materia. Es bien conocido que la teoría formal ubica a l a s pruebas de significación en el ámbito inferencial; de modo que para ellas también rige el principio que reza: a partir de los datos muéstrales se infieren conclusiones sobre aquella población supuestamente representada por la muestra. Consecuentemente, desde un punto de vista teórico y formal, no tiene sentido aplicar tales pruebas cuando los datos, en lugar de conformar una muestra, coinciden con todo el universo. Esa regla, no obstante se presta a gran confusión y por ello

278

DISEÑO RAZONADO DE MUESTRAS

resulta de máxima importancia establecer con claridad qué significa este enunciado. Imaginemos que en un hospital se estudian todos los pacientes intervenidos quirúrgicamente durante 1995 y que se calculan las tasas de infección postoperatoria en cada uno de dos grupos de edad bien diferenciados, digamos «jóvenes» y «viejos». ¿Procede en este caso aplicar una prueba de hipótesis? Una de las fuentes de errores más importantes en el empleo incorrecto de la estadística deriva de un hecho muy simple: no se ha planteado con claridad el problema que se quiere resolver con su ayuda, no se ha formulado con transparencia una pregunta antes de emplearla. En este caso, resulta crucial saber cuál es el problema que se encaró, para qué se computaron las tasas mencionadas. Si los investigadores quieren simplemente describir el comportamiento de la infección postquirúrgica de ese año y para ese hospital, entonces no tiene sentido hacer prueba de hipótesis alguna para comparar las tasas específicas entre grupos de edad, pues la información disponible se maneja en su totalidad. Si se realizara una prueba de hipótesis para evaluar la diferencia entre estas tasas, entonces necesariamente tiene que estarse suponiendo que los sujetos estudiados conforman una muestra. En tal caso, cabe preguntarse, ¿una muestra de qué población? Para profundizar en este tema, en la siguiente sección se amplían algunas ideas en buena medida ya desarrolladas y consideradas en Silva (1997).

12.1.3. Necesidad de un superuniverso Para obtener una respuesta razonable, procede considerar el ya mencionado concepto de superuniverso, que fuera introducido por Stouffer (1934), quien lo definió como «un universo infinito de posibilidades, formado por todos los universos finitos que pudieran haberse producido en el momento de la observación y del cual nuestra población finita puede considerarse una muestra aleatoria». En efecto, si la prueba se lleva a cabo, es porque la verdadera pregunta formulada, aun en el caso de que los investigadores no lo declaren así, no se remite a ese hospital ni a ningún hospital específico, sino genéricamente a un superuniverso. La pregunta de investigación concierne genéricamente a « l a enfermedad nosocomial en sujetos operados»; es decir, atañe a un aspecto de la fisiología humana (la propensión a infectarse en función de la edad). De modo que la población sobre la que se infiere abarca a todos los sujetos operados, pasados y futuros. Es en ese sentido que la población estudiada puede entenderse como una muestra. La dificultad teórica de mayor entidad, sin embargo, radica no tanto en el hecho de que haya que «inventar» un superuniverso que dé sentido a la aplicación de la prueba, sino en valorar si hay derecho a «ver» esta «muestra» como el resultado de haber aplicado un procedimiento aleatorio de selección en el superuniverso.

REFLEXIONES CRITICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA

279

De hecho, la «solución» de imaginar un superuniverso es muy singular, pues parecería que viene a decir, poco más o menos, lo siguiente: «como la aplicación de la prueba de significación exige cierta condición que en principio no se cumple, y puesto que se va a aplicar de todos modos, ha de inventarse una elaboración teórica que le dé sentido». Sin embargo, el asunto no es tan burdo. Supongamos que la tasa de infección en ancianos asciende a 19,2%, mientras que entre adultos jóvenes es sólo de 8,6%, y que al realizar una prueba de hipótesis, esta apreciable diferencia resulta ser estadísticamente significativa2. Como se ha dicho, la conclusión de que la tasa es mayor para ancianos que para quienes no lo son, obviamente no recae sobre los pacientes de ese año en dicho hospital; para establecer que 19,2 es un número mayor que 8,6 no hace falta una prueba estadística: bastan los conocimientos de un escolar. ¿Puede decirse entonces que hay mayor propensión a infectarse entre ancianos que entre jóvenes, independientemente del país en que se realiza el estudio, del tipo de hospital y de las características de los pacientes? Desde luego, no. Pudiera ocurrir que este hospital estuviera enclavado en un área de bajo nivel económico, y que si el estudio se repitiera usando pacientes con mejor situación (y por ello mejor alimentados, con más instrucción o con hábitos de vida más saludables), las dos tasas fueran esencialmente iguales, quizás porque en tal caso la desventaja fisiológica inherente a la vejez no se expresaría a través de la infección. De modo que en un caso como el que nos ocupa, en el que el enfoque de identificar un superuniverso parece ineludible, la identificación de aquel que resulte adecuado no es una tarea susceptible de ser resuelta mecánicamente, sino que, una vez más, reclama el concurso del sentido común, del conocimiento profundo de la materia y, al fin, de una inevitable dosis de subjetividad. Ahora imaginemos que se ha hecho el mismo estudio y que se obtuvieron los mismos resultados pero a partir ele una muestra de pacientes del hospital en cuestión. Se hace la prueba estadística y se consigue rechazar la hipótesis de nulidad. Lo usual es que el investigador afirme sin más que «se ha hallado suficiente evidencia muestral de que la incidencia de infección es mayor entre ancianos que entre jóvenes». Pero, ¿en qué población es esto así?, ¿cuál es el alcance poblacional de la inferencia? Normalmente la respuesta a esta pregunta queda en un limbo conceptual puesto que, bajo el amparo de que se ha trabajado con una muestra, la pregunta no llega a formularse explícitamente. Sin embargo, el hecho de que se haya operado con una parte de los pacientes de ese hospital durante ese año, y no con todos ellos, no cambia la realidad de que el verdadero interés del investigador no se concentra en lo que pudo haber ocurrido en ese sirio y en ese momento. El papel que en este caso pudo haber tenido una selección formal no radica en que cambie la naturaleza de la pregunta, sino en la contribución a la imparcialidad de la selección que aporta tal procedimiento dada la inconveniencia o im2

Por cierto, si esto ocurre o no con esas dos magnitudes depende de los tamaños de los grupos comparados.

280

DISEÑO RAZONADO DE MUESTRAS

posibilidad de estudiar a toda la población. La necesidad de un superuniverso, por tanto, sigue igualmente vigente. Por otra parte, en estrecha relación con todo el problema está la necesidad de superar la convicción, presente en algunos equipos investigadores, de que su trabajo es el que dará la respuesta a la pregunta planteada, cuando en realidad seguramente se tratará de un trabajo más, llamado a sumarse al debate que la comunidad científica desarrolla sobre el problema. Ese trabajo debería arriesgar una propuesta de superuniverso, se haya sacado una muestra formal o no; en su momento se irán produciendo las acotaciones o enmiendas que procedan. Sólo el cotejo con otros esfuerzos y el examen integrado de resultados −acaso ayudado por enfoques como el del metaanálisis y en medio de un permanente proceso de ajustes− será capaz de generar respuestas científicamente fructíferas. Hace casi medio siglo que el célebre estadístico Frank Yates advirtió (Yates. 1951): El énfasis en las pruebas de hipótesis v la consideración de los resultados de cada experimento separadamente han tenido la desafortunada consecuencia de que los trabajadores científicos han considerado con frecuencia la ejecución de una prueba de significación o un experimento como el objetivo último; actúan sabré la base de que las resultados o son o no son significativos v de que éste es el fin de todo.

Los propios creadores de las pruebas de hipótesis, Egon Pearson y Jerzy Neyman, advirtieron con toda transparencia que éstas no fuesen utilizadas a la manera en que, en definitiva, se hace a diario: como instrumentos para evaluar la validez o la falsedad de una ley científica. En sus propias palabras (Neyman y Pearson, 1933), advertían: Ninguna prueba basada en la teoría de probabilidad puede por sí misma generar índices válidos sobre la verdad o la falsedad de una hipótesis. Las pruebas de hipótesis deben ser miradas desde otra perspectiva. Siguiendo la regla de aceptar o rechazar una hipótesis no estamos diciendo nada definitivo sobre si la hipótesis es o no verdadera... Lo que se puede demostrar es que si somos consecuentes con esa regla, a la larga, la rechazaremos cuando sea cierta no más, digamos, que una de cada 100 veces: adicionalmente, la rechazaremos con alta frecuencia cuando sea falsa. Nota: Cabe intercalar que la problemática que estamos considerando (¿procede o no hacer inferencias cuando se trabaja con una población y no con una muestra formal?) queda intrínsecamente despejada cuando el análisis se desarrolla en el marco bayesiano en lugar de en el entorno frecuentista habitual.

REFLEXIONES CRÍTICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA

281

El enfoque bayesiano asume como algo natural el hecho de que los parámetros de interés (en este caso, la diferencia entre las tasas teóricas de infección) son variables sujetas a las leyes probabilísticas. La tarea que esta teoría se traza, justamente, es la de caracterizar nuestro conocimiento del problema por conducto de dichas leyes. Más concretamente, ofrece herramientas para combinar lo que en un momento dado consideramos que constituye una presentación atinada de nuestro conocimiento del problema con datos empíricamente obtenidos como los del mencionado estudio hospitalario para producir una nueva representación probabilística «actualizada». La teoría bayesiana desborda claramente el nivel y el contexto natural del presente libro, pero consideramos oportuno consignar al menos su existencia, así como señalar la pujanza con que ha venido revitalizándose en los últimos años, tal y como queda fundamentado en trabajos como Davidoff (1999), Goodman (1999) y Silva (1999).

12.1.4. Información autorrepresentada Consideremos, para concluir, una situación cualitativamente diferente. El decano de la facultad de medicina observa que en 1998 el 84% de los alumnos terminó exitosamente el primer año, en tanto que en 1999 este porcentaje «cayó» al 77%. Ante tales datos, acudir a un estadístico para que los analice y le informe si tal reducción es o no «significativa» carece de todo sentido. Es imprescindible comprender que el problema que en ese punto está considerando el decano no es de naturaleza estadística; disciplina que terminó su función tan pronto como los datos fueron resumidos. Ahora corresponde a un especialista pedagógico, a un político o (si se quiere demorar el asunto) a una comisión, pronunciarse sobre la significación cualitativa de los datos. Si esa diferencia de 7% es o no alarmante, si merece o no una indagación más profunda, si cabe adoptar o no medidas especiales, ya son cuestiones que no pertenecen a la órbita estadística. Lo que ocurre es que en este caso no hay ninguna población razonable, ni hipotética ni real, ni finita ni infinita, a la cual extrapolar los resultados: tenemos toda la información posible y el papel de la estadística se redujo a resumirla con el fin de facilitar la descripción, sin margen alguno para la extrapolación.

12.2. Problemas del marco muestral El marco muestral disponible suele no ser perfecto. Raras veces el marco cumple todas las condiciones relevantes: contener exactamente a todas las unidades, que éstas aparezcan dentro del marco en una y sólo una ocasión y, además, que todo elemento ajeno a la población de interés esté excluido. La falta de cobertura fue considerada en la Sección 12.1.1. Pero a veces se presenta el problema contrario: el marco disponible contiene individuos regis-

282

DISEÑO RAZONADO DE MUESTRAS

trados en más de una ocasión o sujetos que no conciernen al estudio. La primera situación sólo se mitiga procurando «limpiar» el marco de duplicidades, pero el segundo caso suele ser inevitable, aunque tiene una solución relativamente simple. Imaginemos que nuestro estudio concierne a médicos con al menos cinco años de experiencia como tales, pero que contamos con una base de datos en que aparecen registrados todos los médicos actuantes en cierta región, de los cuales desconocemos el dato mencionado. Probablemente sea impracticable la idea de «limpiar el marco»; es decir, eliminar del listado, antes de la selección, a los médicos con menos de 5 años de experiencia. Mucho más económico (y. por tanto, más eficiente) sería obtener una muestra empleando ese marco o listado disponible y retener en ell a sólo a quienes cumplan la condición de poseer más de 5 años de experiencia laboral. Habría que seleccionar, eso sí, un número mayor de sujetos para luego quedarnos con el número deseado del tipo de individuos que interesan. Si se hubiera planificado contar con n sujetos en la muestra y se piensa que una fracción β (0 ≤ β ≤ 1) del listado está formado por individuos ajenos a nuestro interés, se tomarán n*, resultado de dividir n por 1 − β. Es importante notar que tal estrategia no modifica las probabilidades originales otorgadas a los sujetos que verdaderamente integran la población de interés. Así, si la muestra de n* fuera, por ejemplo, equiprobabilística, la submuestra que resulte tras la eliminación, seguirá siéndolo. Kish (1965), en diversos segmentos de su libro, incluye consideraciones prácticas de suma utilidad para el enfrentamiento de estos problemas.

12.3. El problema del tamaño muestral He tratado este tema con mucho detalle en un libro reciente (Silva. 1997). No agregaré ahora mucho más a aquellas ideas. Sin embargo, considero oportuno incluirlas nuevamente en este texto más específico (con algunas matizaciones adicionales) en virtud de la singular relevancia que le confieren dos circunstancias: por una parte, que la tarea de determinar un tamaño muestral es obviamente ineludible y, por otra, que el tema sigue produciendo abundantes malentendidos. No obstante haber sido profusamente tratado en libros y artículos, a pesar de que se explica en clases y conferencias y de que existen programas informáticos y tablas ad hoc para hacer determinaciones de tamaños muéstrales, el asunto parecería renuente a dejarse dominar por los interesados. Llegado el momento de calcular el tamaño muestral, muchos investigadores, yo diría que la mayoría, se sienten incapacitados para hacerlo por sí solos o, en el mejor de los casos, inseguros con lo que han hecho.

REFLEXIONES CRÍTICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA

283

En la Sección 11.1 ya se había subrayado que debían reconocerse dos situaciones bien diferenciadas: a) aquella en que se necesita determinar el tamaño muestral necesario para realizar estimaciones, b) cuando se está planificando un estudio analítico, sea de tipo observacional o experimental, y lo que se quiere es determinar los tamaños muéstrales correspondientes a los grupos involucrados en una futura prueba de hipótesis. La primera de ellas corresponde, en esencia, a los llamados estudios descriptivos. Por ejemplo, diagnósticos de salud, caracterizaciones epidemiológicas, o estudios de prevalencia que requieren de estimaciones paramétricas (fundamentalmente de porcentajes, razones, medias, varianzas y totales poblacionales), así como estudios que, también con afán descriptivo, requieren de la estimación de otros parámetros como coeficientes de correlación o de regresión. En la segunda situación, el análisis no se ciñe a conocer la magnitud de algo, sino que exige en algún punto hacer uso de la comparación entre parámetros correspondientes a distintas subpoblaciones. En efecto, en el entorno analítico, el examen estadístico de los datos suele conducir a maniobras tales como la comparación estadística de porcentajes o medias, o a la evaluación de la significación de coeficientes de concordancia o de correlación3. Ambos procesos demandan el manejo de muestras, y es natural que, trátese de lo uno o de lo otro, se desee operar con la menor cantidad posible de unidades de análisis con el fin de economizar recursos. El problema consiste en hallar ese número mínimo de unidades con el cual puedan resolverse eficientemente tales tareas.

12.3.1. Repasando la teoría oficial En las Secciones 3.7 y 10.3 se expuso lo que pudiéramos llamar «la teoría oficial» sobre el tema; es decir, lo que uno puede hallar al respecto en un texto convencional. Curiosamente, a pesar de ser uno de los temas más borrosamente solucionados por la estadística, la uniformidad del tratamiento que le dan los textos es casi total (y se reduce en lo esencial al contenido que se expuso en aquellas Secciones); ello hace pensar a muchos que la interfaz entre la teoría y la práctica correspondiente está completamente consolidada y carece de fisuras. Desde hace relativamente poco tiempo contamos, incluso, con una especie de portavoz de ese oficialismo: un libro exclusivamente destinado al tema, debido a Lemeshow, Hosmer, Klar y Lwanga (1990), publicado entonces por la prestigiosa editorial Wiley, pero heredero del manual de Lwanga y Lemeshow (1989), 3

Nótese que, de hecho, en este último caso se trata también de comparar; lo que se compara es el coeficiente (por ejemplo, de correlación) con el número cero.

284

DISEÑO RAZONADO DE MUESTRAS

publicado varias veces por la Organización Mundial de la Salud. La existencia de este libro, titulado Corrección del tamaño muestral en estudios de salud, constituye, por su alta especificidad temática, una magnífica referencia para el examen que sigue. Para el caso de estimar un porcentaje bajo MSA, se recordará (Sección 3.7) que la fórmula universalmente aceptada es la siguiente: n0 n −1 1+ 0 N

[12.1]

Z12−α / 2 P(100 − P) E02

[12.2]

n=

donde

n0 =

en la cual Z1−α/2 representa al percentil (1 − α/2) 100 de la distribución normal estandarizada (por ejemplo, si α = 0.05, entonces Z1−α/2 = Z0,975 = 1.96). N es el tamaño poblacional y E0 es el máximo error absoluto que el investigador está dispuesto a admitir al estimar P. Se plantea que usualmente «se puede tener una idea aproximada» del valor de P a partir de un estudio piloto, o de una investigación similar realizada anteriormente4. Imaginemos que se trata de una población de N = 2.800 sujetos hospitalizados sobre la que se realiza un estudio de satisfacción. Admitamos, como es usual, que se trabajará con una confiabilidad del 95% (α = 0,05) y que un E0 = 3% se considera aceptable. Finalmente, consideraremos P= 86%, «idea aproximada» que se ha obtenido, por ejemplo, a partir de un estudio anterior. Así las cosas, la aplicación de [12.1] y [12.2] arroja que n = 434. Ahora bien, ésta es la solución que se da al caso en que se usa el muestreo simple aleatorio. Si el diseño muestral es otro, en particular si se trata de un muestreo en etapas (que es el que se utiliza por lo menos 90 de cada 100 veces en la práctica), el error que regularmente se comete al estimar P es mayor que el que corresponde al MSA (supuesto, desde luego, que se está usando el mismo tamaño de muestra). Dicho de otro modo: con muestreo por conglomerados, para alcanzar el grado de precisión prefijado, es necesario seleccionar una muestra de tamaño mayor que el que demanda el MSA. La sugerencia que se da entonces es, simplemente, multiplicar el tamaño surgido de [12.1] por un número mayor que la unidad: el llamado efecto de diseño, usualmente denotado como deff (véase Sección 8.6). 4 Otra variante consiste en poner directamente P ≈ 50; de ella ya nos ocuparemos específicamente en la Sección 12.8.2.

REFLEXIONES CRÍTICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA

285

Es decir, el tamaño corregido n, sería: nc = (deff)(n)

[12.3]

Lemeshow y sus tres coautores, refiriéndose al MSA, dicen textualmente lo siguiente: Éste nunca sería el diseño empleado en una encuesta de terreno verdadera. Como resultado de ello, el tamaño de muestra ha de elevarse en una magnitud igual al efecto de diseño. Por ejemplo, si se fuera a utilizar maestreo por conglomerados, pudiera estimarse que el efecto de diseño es igual a 2.

12.3.2. Seis realidades escamoteadas Hasta aquí, la síntesis de la «solución oficial» para la situación más simple dentro de los estudios descriptivos. Como veremos de inmediato, este planteamiento contiene demasiadas píldoras difíciles (algunas, imposibles) de tragar. Lamentablemente, el discurso oficial tiende a ejercer un tipo de censura que silencia casi todos los problemas reales, o suple su solución con formulaciones académicas de escasa o nula aplicabilidad. Varios puntos son usualmente omitidos (algunos, a cal y canto) cuando se aborda el tema. A continuación se analizan seis de ellos tomando como paradigma, nuevamente, el caso más simple: la estimación de P en el contexto descriptivo y del MSA5. A) La demanda inicial es directamente absurda Retomemos el ejemplo de la sección precedente: para conocer el porcentaje de pacientes satisfechos se había fijado E0 = 3% y Z1−α/2 = 1,96, y se sabía que N − 2.800; pero para hacer uso de [12.2] es necesario conocer nada menos que el propio valor de P, el porcentaje de pacientes satisfechos. ¡Menudo círculo vicioso!: todo el proceso tiene como finalidad conocer el valor de P pero, para empezar a desarrollarlo, es necesario conocer precisamente P. Nótese que no se trata de un detalle lateral: un enfoque riguroso aconsejaría detener el proceso en este punto por elementales razones de coherencia. El planteamiento es análogo, por poner un ejemplo, a que un viajero que se halle en La Habana y quiera trasladarse a Madrid, sólo pueda adquirir el billete de avión que lo conduzca a Madrid acudiendo personalmente... a una oficina radicada en Madrid. B) Subjetividad en la determinación de los datos que exigen las fórmulas La «pre-estimación» de P es, desde luego (lo anterior ya nos convence de ello), un acto intrínsecamente cargado de subjetividad. Pero vale la pena recalcarlo con la siguiente consideración: puesto que vamos a trabajar con «una 5

Para casos más complejos, la situación no hace sino agravarse.

286

DISEÑO RAZONADO DE MUESTRAS

idea aproximada» del valor de P, estamos condenados a conocer sólo «una idea aproximada» del valor del n necesario. Si aquella aproximación fuera mala (muy errónea), así será el tamaño muestral, algo altamente inconveniente. Pero si, en cambio, estuviéramos verdaderamente persuadidos de que la pre-estimación de P fuera muy cercana a su verdadero valor, entonces la situación sería directamente absurda, porque en tal caso no haría falta hacer tal estimación, y. consiguientemente, mucho menos necesario sería el cómputo de n. Examinemos ahora los otros elementos de la fórmula. En el ejemplo, verosímilmente podría contarse, como supusimos antes, con un estudio previo que hubiese arrojado un 86% de hospitalizados que estuvieran satisfechos; pero también es posible que una pequeña encuesta piloto hubiese producido una pre-estimación de, por ejemplo, 80%. ¿Cómo escoger entre ambas alternativas? ¿Qué argumentos puede esgrimir alguien que defienda una de las dos para rechazar la otra? Por otra parte, se supone que hay un «error máximo» que se puede aceptar; sin embargo, no siempre resulta fácil la identificación a priori de esa cota. Esta tarea exige del investigador que piense en unos términos para los que con frecuencia no está preparado. Pero esto no es atribuible al método, sino a sus usuarios. Lo verdaderamente crucial es comprender que, ineludiblemente, se trata de una decisión esencialmente subjetiva. Volvamos al ejemplo: ¿qué error ha de considerarse suficientemente pequeño como para que resulte admisible? No parece existir árbitro alguno que determine sin margen para el debate si un error de un 3% (como habíamos supuesto en el ejemplo) es admisible: o si, para que lo sea, éste no debe exceder, por ejemplo, el 2% de pacientes satisfechos. Algo muy similar ocurre con la confiabilidad 1 −α. ¿Tomar 0.95%?, ¿o 0.99%, como sugieren otros con no menos argumentos? A todo este monto de subjetividad hay que añadir la que se deriva de que los diseños son, por lo general, totalmente diferentes al muestreo simple aleatorio. Como bien sabemos, los errores muéstrales −en el caso de muestras complejas− no sólo dependen del tamaño total de la muestra, sino también de las asignaciones muestrales a los estratos y de los tamaños de muestra en las etapas intermedias (es decir, del número de conglomerados en cada etapa y de los tamaños muéstrales dentro de los que se elijan) cuando, como ocurre casi siempre, se usa muestreo polietápico. Este hecho, cuando no se pasa por alto, se resuelve a través del coeficiente expansor del tamaño muestral: deff. Aquí comparece un acto de prestidigitación numérica: el libro destinado a dar soluciones técnicamente fundamentadas se limita (como consignamos en la Sección 12.3.1) a comunicar que el deff «pudiera estimarse como igual a 2». Naturalmente, lo esperable es que el investigador que acuda al libro para buscar su receta, proceda siempre de ese modo: multiplicar por dos el tamaño muestral obtenido bajo el supuesto de MSA. En el recurso de ayuda que aparece en el módulo STATCALC de EPIINFO, en concordancia con el talante más realista que caracteriza a este sistema, se sugiere elegir un deff entre 1.5 y 2,0, variante más flexible, pero no menos subjetiva (e, incluso, arbitraria).

REFLEXIONES CRITICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA

287

Uno se pregunta: ¿para qué tantas fórmulas previas y tantas tablas, si a la postre hay que multiplicar el número tan arduamente obtenido por dos, un factor balbuceado a partir de una especulación cuya pertinencia es totalmente discutible? Se podría argüir que el efecto de diseño «suele ser de esa magnitud». Pero es falso: basta echar una ojeada a algunos estudios que calculan los deff para corroborar que este número cambia radicalmente de una encuesta a otra, de un diseño muestral a otro y que, incluso dentro de la misma encuesta y del mismo diseño, suele modificarse notablemente en dependencia del parámetro elegido. Por ejemplo, en un estudio ad hoc relacionado con encuestas demográficas y de salud, Verma y Le (1996) comunican valores de deff que van desde 1 hasta 9, con una media de 2,25. Lo cierto es que con el deff' se hace la contribución final a la de por sí abultada colección de elementos subjetivos que inexorablemente intervienen en este proceso. A modo de ilustración del efecto que puede tener tal carga subjetiva, computemos los tamaños de muestra que se obtendrían con dos juegos de posibles decisiones adoptables en el marco de las alternativas que hemos venido considerando. La Tabla 12.1 recoge los resultados correspondientes a dichos dos juegos (ambos igualmente razonables y, ciertamente, escasamente discordantes), computados usando [12.1], [12.21 y [12.3J. Tabla 12.1. Tamaños muestrales necesarios para estimar cierta prevalencia según dos juegos de decisiones iniciales Alternativa 1

Alternativa 2

Tamaño poblacional (N) Prevalencia (P) Máximo error (E0)

2.800 86 % 3%

2.800 80 % 2%

Confiabilidad (1−α) Efecto de diseño (deff)

0,95

0,99

1,5

2,0

Tamaño muestral

651

2.726

Quiere esto decir que dos investigadores independientes, siguiendo la misma estrategia general (usando las mismas fórmulas para la estimación del mismo parámetro), obtendrían tamaños abismalmente diferentes, sólo por el hecho de que aprecian (legítimamente ambos) de manera ligeramente distinta6 los valores que deben darse a los elementos que las fórmulas demandan. ¿Podrá mantenerse que, al usar las fórmulas, se está empleando un método medianamente objetivo? 6

Pudiera pensarse que la diferencia entre una confianza del 95% y una del 99% no es «pequeña»: pero debe recordarse que, si se decidiera trabajar con confiabilidad mayor del 95%, según el ritual consagrado, se escogerá 99%, nunca 96,7% o 98,3%. De modo que si alguien siente que 95% no es un número suficientemente grande, habrá de admitir que 99% es «cualitativamente» el número más cercano a 95% por el que se optaría.

288

DISEÑO RAZONADO DE MUESTRAS

Por otra parte, cualquier investigador honesto reconocerá que, usualmente, ha llevado el proceso de determinación de tamaños muéstrales al revés: ha ido escogiendo los valores de P, α, E0 y deff de manera tal que la fórmula [12.3] arroje aquel valor que, más o menos, ha decidido de antemano. Es precisamente el marco de subjetividad que inevitablemente padece el proceso el que permite, promueve, e incluso da cierta legitimidad a tal manipulación. C) Casi nunca se quiere estimar un único parámetro Una encuesta, en la realidad, nunca se proyecta para estimar uno o dos parámetros, sino que normalmente exige realizar decenas o incluso cientos de estimaciones. Debe notarse que una tabla demanda una estimación por cada celda y, en ocasiones, suelen construirse muchas tablas con varias celdas en cada cual. Es evidente, entonces, que no resulta demasiado práctico aplicar fórmulas como la examinada para cada uno de estos parámetros. Por lo pronto, a nadie, que yo sepa, se le ha ocurrido sugerir tal absurdo. Pero, aunque ello fuese factible, y aunque se contara con información disponible para hacerlo, nos encontraríamos con un panorama contraproducente: los tamaños que demandarían las diferentes estimaciones recorrerían, probablemente, un amplísimo espectro de valores, todos candidatos a ser el tamaño muestral con el que a la postre se trabajaría (éste sí, necesariamente único). Esta polivalencia suele ocultarse bajo la premisa de que se puede elegir el parámetro «más importante» (en el mejor de los casos, «los dos o tres más importantes»). Obviamente, incluso suponiendo que tuviera sentido hacer tal discriminación7, el margen de subjetividad para decidir cuáles son tales «parámetros más importantes» es enorme. Y aun así, esos «más importantes» pueden dar lugar a números muy dispares entre sí. D) Carácter reductor de los tamaños muéstrales inducidos por la necesidad de realizar estimaciones dentro de subclases Lo usual es que se seleccione una muestra general de unidades y luego se hagan, además de análisis globales, otros circunscritos a subconjuntos de la población, basados −naturalmente− en los correspondientes subconjuntos muestrales, cuyos tamaños son necesariamente menores (a veces mucho menores) que el de la muestra original. Por ejemplo, en el estudio de los pacientes hospitalizados que se ha bosquejado, es muy probable que se quieran hacer estimaciones del porcentaje de sujetos satisfechos, no sólo para toda la población de hospitalizados, sino también para cada uno de los sexos, o según servicios del hospital, o con acuerdo a lapsos de estancia hospitalaria. 7

Es muy probable que no existan parámetros «más importantes»: los problemas suelen exigir enfoques integrados, que superen su desconcatenación metafísica en parcelas.

REFLEXIONES CRÍTICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA

289

De hecho, muchas sesudas formulaciones para determinar tamaños de muestra pasan totalmente por alto que más tarde se harán estimaciones dentro de subconjuntos para los que las muestras necesariamente se reducen, en algunos casos muy notablemente. En síntesis, lo que se quiere subrayar en este punto es que, al computar un tamaño muestral empleando fórmulas, normalmente se actúa pensando en estimaciones para la población completa; pero el error «máximo» que se está dispuesto a cometer y que se usa con el fin de realizar aquella determinación, resulta mucho menor que el que verdaderamente se comete en «el fragor» de la tabulación verdadera. Ejemplos reales de este fenómeno se exponen detalladamente en las Secciones 12.6 y 12.8.3. E) El costo de los procesos es casi siempre mucho más determinante que cualquier consideración teórica Realizar el análisis del tamaño muestral sin pensar en términos de eficiencia carece de sentido: si no hubiese limitaciones de recursos, en muchos casos no se plantearía siquiera el uso de muestras, sino que se investigaría íntegramente la población. Las disponibilidades de tiempo, personal y presupuesto deben ocupar (y de hecho ocupan) un lugar determinante en las decisiones, aunque muchas veces la influencia de esta limitante se ejerza de manera implícita o solapada. Debe decirse que existen numerosos esfuerzos teóricos para hacer intervenir los aspectos económicos en la solución del problema del tamaño de muestra. Por ejemplo, a lo largo del libro de Hansen, Hurwitz y Madow (1953) el lector hallará no pocos desarrollos formales acerca de cómo determinar valores óptimos para el número de conglomerados, o para las asignaciones de tamaños a estratos, en diseños que involucran ese tipo de decisiones. Se trata, sin embargo, de fórmulas −en general extremadamente abigarradas− cuya aplicación exige especificaciones cuantitativas previas sobre costos y variabilidades que sólo pueden conocerse de antemano mediante el procedimiento de... inventarlas. Consideremos el siguiente ejemplo, en que se quiere realizar un muestreo trietápico de escolares para estimar una media poblacional. Según el diseño, primero se eligen m escuelas, en cada una de ellas se tomarán como promedio n grupos o aulas y, finalmente, dentro de cada uno de estos últimos, se elegirá un número medio de q alumnos. Los números m, n y q que maximizan la precisión para un presupuesto total disponible igual a C unidades monetarias, según Hansen, Hurwitz y Madow (1953) (concretamente, véase Capítulo 19. Sección 19 de dicho libro) se determinan a través de [12.4].

q=

Ww Wb2 − Ww2 / Q

C2 C3

1 Ww n= q B

C2 C3

C m= C1 + C2 n + C3 nq

[12.4]

290

DISEÑO RAZONADO DE MUESTRAS

donde Q es el número medio de alumnos por escuela (computado usando el total de escuelas de la población). C1 es el costo que supone acceder a una escuela, C2 el de contactar a un grupo, y C3 el de encuestar a un alumno. Ww, Wb, y B son complejísimas expresiones que representan medidas de variabilidad relativa entre y dentro de las unidades de muestreo. Los valores de estos 8 parámetros (C, C1, C2, C3, Ww, Wb, B y Q) han de conocerse antes de realizar el estudio8. Creo que no es menester extenderse demasiado enfatizando el carácter quimérico que tiene la aspiración de aplicar toda esta parafernalia formal, habida cuenta del laberinto en que ya nos colocaba el sencillísimo problema del tamaño muestral para estimar un modesto porcentaje en el contexto del MSA. La influencia del presupuesto disponible se concreta en la práctica de manera sencilla y directa; fórmulas como [12.4] posiblemente no se hayan aplicado jamás a lo largo de los últimos 40 años. F) Se deben estimar parámetros de diversa naturaleza Usualmente se computa un tamaño muestral para estimar una media o un porcentaje dados, y se opera con la fórmula correspondiente. Pero más tarde, en el estudio propiamente dicho, suelen hacerse estimaciones de todo tipo de parámetros, tales como coeficientes de correlación, pendientes de regresión o coeficientes de concordancia. En el mejor de los casos, se construyen intervalos de confianza para estos parámetros (saludable práctica que permite aquilatar el grado de conocimiento alcanzado sobre el parámetro en cuestión); pero casi nunca se utilizan procedimientos formales para establecer el tamaño muestral con que sería necesario trabajar en estos casos. Desde luego, tales fórmulas existen9, aunque nadie las recuerde, quizás debido a que son muy complicadas y sobre todo por las exigencias de conocimiento previo que las reducen a ser ejemplos de interés meramente académico. Pero si los cultores de la «objetividad» quieren ser coherentes, no deberían actuar como si dichos parámetros no fueran luego a ser estimados. Tal conducta recuerda el conocido chiste de quien busca las llaves extraviadas en la vecindad de un farol, no porque se hayan perdido allí, sino porque ésa es la zona iluminada.

8 Nótese que en esta formulación no aparecen la confiabilidad ni el error máximo admisible porque el criterio usado no se basa en poner una cota al intervalo de confianza, sino en optimizar la precisión dentro de una restricción presupuestaria. 9 Por ejemplo, Hsieh (1989) ha hallado una solución para el tamaño muestral exigido al aplicar una regresión logística en el caso del MSA. No creo que exista para el caso de la regresión logística bajo muestreo en etapas, aunque no sería demasiado difícil construir una propuesta.

REFLEXIONES CRÍTICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA

291

12.3.3. El caso de las pruebas de hipótesis Aunque el pormenorizado recorrido que hemos hecho se ha ceñido a la situación en que lo que se quiere es hacer una estimación, virtualmente todo lo que se ha dicho es válido para el caso en que se procura determinar el tamaño muestral para un estudio analítico, como se deriva de las siguientes observaciones. a) Las decisiones previas (véase Sección 10.3) sobre α, β, P 1 , P2. etc., son necesariamente, en una u otra medida, dependientes de la subjetividad. b) A menudo no solamente se aplica aquella prueba de significación que fue tomada como base para fijar el tamaño muestral10: no es extraño que se apliquen 5. ó 10. o más pruebas diferentes. ¿Qué sentido puede tener un complejo análisis acerca de la potencia de «la» prueba, si en la práctica se realizan luego, con todo desenfado, 17 pruebas de significación? c) Ocasionalmente se hacen comparaciones entre parámetros no inherentes a la población original, sino a subconjuntos de ésta. Ése es el caso frecuente, por ejemplo, de la postestratificación. Por ejemplo, se determina que el estudio debe abarcar 200 casos y 200 controles. Pero en el curso del análisis se discuten problemas para subconjuntos de esos casos y controles; se toman, digamos, sólo los ancianos (por ejemplo. 43 casos y 56 controles) y se examina con esa información si cierto odds niño difiere significativamente de la unidad o no; otro tanto se hace con las mujeres, con los hipertensos, con los que poseen nivel universitario, etc. Y no es que tales maniobras sean condenables; todo lo contrario: es por ser enteramente lógicas, e incluso inevitables, que en este tipo de estudios la discusión inicial del tamaño muestral global termina siendo casi un ejercicio numerológico intrascendente. d) Los problemas de costo son tanto o más influyentes en este tipo de estudios que en los descriptivos. Siempre recuerdo que, a poco de concluir mis estudios universitarios especializados en estadística matemática, me tocó asesorar a un bioquímico que planificaba un experimento con ratones de alta pureza génica, quien quería conocer a cuántos de ellos debía aplicar cierto tratamiento estrogénico y a cuántos no. Empleadas las fórmulas de mis libros, obtuve cifras del orden de las centenas; pero unos minutos más tarde quedé paralizado por el dato de que, bajo concepto alguno, se podía aspirar a trabajar con mas de 40 ratones en total, debido al elevadísimo costo de cada uno. Tal restricción, por otra parte, era consistente con lo que recogía la literatura al uso sobre el tema. 10

Debe consignarse que este fenómeno se produce con menos intensidad que en los estudios descriptivos. En algunos estudios (sobre todo en el ambiente clínico) puede ocurrir que se realice una única prueba de significación.

292

DISEÑO RAZONADO DE MUESTRAS

e) Aunque se estime el tamaño de muestra necesario para probar la diferencia de dos porcentajes o evaluar la diferencia entre un odds ratio y la unidad, no es infrecuente que en el mismo estudio se hagan pruebas para contrastar, además, otras hipótesis no consideradas en el proceso de elegir el tamaño, relacionadas por ejemplo con coeficientes de correlación de un modelo de regresión múltiple o logístico. f) Una fórmula como [10.1] se deduce a partir del supuesto de que se ha realizado un MSA, circunstancia casi desconocida en la epidemiología y la investigación clínica actuales.

12.3.4. Reconocimiento de lo subjetivo Algunas de las fuentes de subjetividad que plagan, como hemos visto, a este proceso son ocasionalmente reconocidas en tal calidad por la literatura, pero lo típico es que no se haga mención alguna a ellas, o se den «explicaciones» doctrinarias como la que aparece en un reciente artículo (Mejía, Fajardo, Gómez et al., 1995): ... podría parecer que la suposición de estos valores es extremadamente arbitraria; sin embargo, es mejor intentar esta aproximación a llevar a cabo el estudio sin intentarlo... Curiosa afirmación; lamentablemente, lo que no nos dicen Mejía y sus ocho colaboradores es por qué es mejor hacer suposiciones extremadamente arbitrarias sobre los datos de que depende el tamaño muestral antes que elegir ese tamaño directamente desde nuestra subjetividad. Como ya expuse antes, la mayoría de los textos y de los profesores pasan por alto estas realidades. Afortunadamente, hay algunas excepciones; una de ellas es, en mi opinión, notable, pues se encuentra en el famoso libro de Rothman (1986) quien, aunque sin desarrollar las ideas in extenso, reconoce con crudeza la inviabilidad de una solución teórica cuando escribe: En resumidas cuentas, el problema de determinar el tamaño de muestra más adecuado no es de naturaleza técnica; no es susceptible de ser resuelto por vía de los cómputos, sino que ha de encararse mediante el juicio, la experiencia v la intuición. En la redimensionada versión de este libro, Rothman y Greenland (1998) aluden vagamente a la existencia de fórmulas, pero reiteran el carácter relativo de su utilidad. Sin embargo, lo que se ha consolidado entre estudiantes e investigadores es la convicción de que para cada problema existe un número que puede ser «descu-

REFLEXIONES CRÍTICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA

293

bierto» por los especialistas, independientemente del enfoque personal; un número que puede determinarse técnicamente por aquellos «elegidos», capaces de desentrañar complejas formulaciones. Muchos metodólogos profesionales pueden poner (y, de hecho, lo hacen) en un serio aprieto a modestos investigadores exigiéndoles que justifiquen formalmente el tamaño muestral que han elegido por analogía con lo que han visto en la literatura, o porque es el que permiten sus recursos. Irónica circunstancia, pues me temo que la inmensa mayoría de los propios inquisidores se verían en similar dificultad si, en lugar de dedicarse a pedir respuestas, tuvieran que producirlas11. En tal caso, quizás acudirían a la aplicación de fórmulas que, como se ha explicado e ilustrado, contienen una carga de subjetividad acaso mayor que la de quien elige el tamaño muestral guiado por su propio y saludable sentido común.

12.3.5. Finalmente, ¿qué hacer? Lo más importante es comprender que cualquiera que sea el tamaño ele muestra, tanto los errores de muestreo como la probabilidad de rechazar erróneamente una hipótesis de nulidad pueden ser calculados a posteriori. O sea, tanto las fórmulas para el cómputo de errores como las de los estadígrafos en que se basan las pruebas de hipótesis contemplan explícitamente los tamaños muestrales empleados; en ambos casos la estructura de esas fórmulas es tal que el investigador se verá imposibilitado de sacar partido concluyente a la información si el tamaño de la muestra fuera insuficiente. Los investigadores se sienten a menudo desconcertados e inseguros por la simple razón de que se les impone una teoría desconcertante e insegura, plagada de inalcanzables exigencias. Los teóricos hacen sus elegantes propuestas y. si surgen cuestionamientos a los absurdos en que se basan o a las endebleces que padecen, miran hacia otro lado. Uno no puede menos que recordar la frase de Churchill: «En ocasiones, el hombre tropieza con la verdad; pero, casi siempre, evita caerse y sigue adelante». Los investigadores reales, en cambio, no pueden usar el cómodo recurso de hacerse los entretenidos, pues verdaderamente necesitan de un tamaño muestral concreto, no para hacer manuales basados en recetas mágicas, sino para llevar adelante estudios tangibles. ¿Cuál es, finalmente, la recomendación que han de seguir estos últimos ante tan acuciante exigencia práctica, que no puede esperar por soluciones que hoy se ignoran?

11

No en balde el notable sociólogo norteamericano Wright ( 1 9 6 1 ) lanzaba varias décadas atrás la exhorta-

ción: «¡Metodólogos: a trabajar!».

294

DISEÑO RAZONADO DE MUESTRAS

Como siempre, roto el hechizo, todo es simple. No me sonrojo al decir que, a partir de los recursos disponibles, resulta preferible usar el sentido común y tener en cuenta los tamaños usados en trabajos similares (es decir, incorporar el sentido común de los demás). Porque cada problema tiene, no lo olvidemos, una historicidad a la que debe prestarse atención. Así, por ejemplo, un estudio longitudinal de 200 sujetos sanos para estudiar los factores de riesgo convencionales para las cardiopatías resulta, a estas alturas, «históricamente» absurdo. Después de contar con resultados como, por poner un ejemplo, el estudio de Framingham, en que se ha operado con cohortes de miles y miles de sujetos, ninguna fórmula puede justificar que trabajemos con 200 individuos. Cabe aclarar, por lo demás, que no tengo ninguna enemistad principista hacia las fórmulas; no necesariamente me parece mal que se empleen en ciertos casos siempre que se haga de modo flexible, se reconozcan sus enormes limitaciones y se complementen con una reflexión crítica y abarcadora. En cualquier caso, es ilustrativo reparar en que no casualmente la inmensa mayoría de los trabajos serios y trascendentes (por ejemplo, los que aparecen en revistas de impacto real como Lancet o British Medical Journal), no se detienen a explicar con taparrabos técnicos sus tamaños muéstrales: usualmente se circunscriben a comunicar los que fueron usados y punto. Los juicios que nos puedan merecer sus conclusiones no se modificarían en absoluto por el hecho de que consiguieran o no persuadirnos de la legitimidad técnica de aquella decisión, sino, en todo caso, por la longitud concreta de los intervalos de confianza o por el valor concreto que tenga la probabilidad de los resultados que arrojó el estudio bajo el supuesto de que es válida la hipótesis nula. Muchos de estos investigadores, sin embargo, tuvieron en su momento que explicar el origen de los tamaños al presentar el proyecto en procura de financiación. En ese contexto la aparición de las fórmulas es, con frecuencia, puntualmente demandada, aunque a mi juicio no sea ésa la conducta más racional por parte de dichos funcionarios técnicos. Pero, siendo así, los investigadores pueden verse obligados a colaborar con lo inevitable y proceden a insertar en el proyecto fórmulas como la [12.1] (u otra similar) para serenar a los tesoreros. Es natural que los financiadores reclamen argumentos para el tamaño muestral propuesto, ya que de él dependen vitalmente los recursos que habrían de asignarse. Lo que no es razonable es que se consideren relevados de responsabilidad tan pronto se les ofrezca un artificio numerológico. Acaso sean estos personajes quienes deben hacer una reflexión más profunda sobre el tema y tratar de hallar, en todo caso, argumentos racionales en contra del talante flexible que yo defiendo. Nunca las acusaciones de herejía confirieron verdadero aval al dogmatismo, y es bien conocido que la pseudociencia reacciona con irritación y no con argumentos ante las refutaciones racionales. Incidentalmente agrego que cualquier intento de objetar razonadamente uno por uno los argumentos aquí desarrollados sería bienvenido.

REFLEXIONES CRITICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA

295

12.4. El problema de la no-respuesta Un tópico que ha producido gran cantidad de literatura especializada concierne al hecho inevitable de que parte de la información llamada a ser recogida no puede ser registrada por una u otra razón; se trata de la llamada «no-respuesta», problema que puede llegar a tener enorme importancia. En rigor, bajo esta denominación quedan abarcadas dos circunstancias diferentes: la no respuesta de una unidad de análisis completa, y la que se asocia a una pregunta específica. La negativa a colaborar, como fenómeno social, ha ido creciendo con el tiempo (Steeh. 1981; Kessler, Little y Groves, 1995) hasta el punto de haberse triplicado las tasas de no-respuesta en 20 años desde los años cincuenta, especialmente en sociedades de mayor desarrollo económico. Es hoy un problema de gran vigencia (véase, por ejemplo, Smidt y Tortora, 1998). Intuitivamente, casi cualquier persona involucrada en la conducción de una encuesta siente que, al incrementarse la no-respuesta, crecen los sesgos, salvo que se den circunstancias especiales o se adopte alguna medida correctora. Al enfoque técnico de este asunto se destinan las próximas secciones.

12.4.1. El modelo esencial Para examinar este problema adecuadamente consideremos la siguiente situación, relacionada con el caso de la no respuesta a una pregunta. Supongamos que se realizara una encuesta en una población con N individuos, de los cuales N1 son respondedores potenciales a cierta pregunta asociada a una variable X (sujetos que no rehúsan dar una respuesta), en tanto que N2 = N − N1 individuos no responderían a tal pregunta en caso de que les fuera formulada. Supongamos que la media de X para los N1 respondedores es X 1 , y que llamamos X 2 a la media entre los N2 que no responderían. Obviamente, la inedia poblacional sería igual a:

X=

N1 X 1 + N 2 X 2 N

Supongamos que se toma una MSA de n unidades, pero que de ellas sólo responden n 1 . Estas n 1 respuestas no serían más que las que corresponden a los integrantes de una muestra (que puede considerarse simple aleatoria) de la subpoblación de respondedores. Llamemos x a dicha media muestral, que es, como sabemos, un estimador insesgado de X 1 . Si recordamos que el sesgo de x es igual a E( x − X ), puede corroborarse, tras un poco de álgebra, que dicho sesgo es igual a: ⎛N ⎞ E ( x ) − X = X1 − X = ⎜ 2 ⎟ ( X1 − X 2 ) ⎝ N ⎠

La magnitud del sesgo depende entonces tanto de la que tenga

[12.5] N2 como de N

296

DISEÑO RAZONADO DE MUESTRAS

la correspondiente a X 1 − X 2 , ya que es igual al producto de ambas. Si no hubiera diferencia entre X 1 , y X 2 , el sesgo sería nulo independientemente de cuán grande sea N2; otro tanto ocurriría si se cumpliera N2 = 0, sea cual sea la diferencia entre las medias por este concepto. Esto quiere decir que si los que no respondieran tuvieran el mismo valor medio de X que los que sí lo hiciesen (es decir, si no difieren unos de otros), no habría sesgo alguno (el problema se reduciría a la pérdida de tamaño muestral) y, naturalmente, que si todos respondieran, tampoco se produciría sesgo alguno. Ambos resultados son muy intuitivos. Pero [12.5] nos dice algo más: si hay diferencias entre las medias para las dos subpoblaciones, entonces la magnitud del sesgo se incrementa en la medida que crezca la fracción de sujetos que no responden. Lamentablemente, es frecuente que X 1 , sea diferente de X 2 ; cuando esto ocurre, se dice que la respuesta a X es selectiva. Eaton et al. (1992), por ejemplo, han comunicado que en sus estudios de salud mental la no respuesta es significativamente mayor en personas con desórdenes psiquiátricos que en el resto. Consecuentemente con [12.5], para disminuir el sesgo se puede hacer una de dos cosas (o ambas): tratar de disminuir la fracción

N1 , y tratar de conocer la N

magnitud de X 1 − X 2 para suplir el estimador inicial x por un estimador corregido que emplee tal información. Antes de examinar estas alternativas, veamos una ilustración. Imaginemos que en una pequeña comunidad hay N = 1.500 adultos y que se quiere estimar el porcentaje de sujetos que se cepillan los dientes al menos tres veces al día. Supongamos que el 30% de ellos se negaran a responder tal pregunta. Supongamos también que sólo el 50% de estos últimos (225) tienen el hábito en cuestión, mientras que lo tiene el 80% de los N1 = 1.050 que estarían dispuestos a contestar. Así las cosas, el sesgo ascendería a (0,3) (80 − 50) = 9; es decir, en estas condiciones se produciría una sobreestimación del 9%. En efecto, el verdadero porcentaje es

(1.050)(80) + (450)(50) = 71 y no 80, como arroja1.500

ría la muestra.

12.4.2. Técnicas para reducir la no respuesta Distintos procedimientos se han sugerido para reducir la no respuesta. En primer lugar, desde luego, se halla el recurso de volver una y otra vez a intentar el contacto con la persona que no sea hallada en el primer intento, pero éste es simplemente un acto administrativo y solo concierne al caso en que el individuo no responde porque no se tomó contacto con él. Con un basamento sociológico de otro orden, se han sugerido estrategias tales como avisar de antemano a los sujetos seleccionados que serán visitados, elegir

REFLEXIONES CRÍTICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA

297

racional y cuidadosamente la apariencia del encuestador, así como pautarle escrupulosamente el modo en que habrá de conducirse, y el empleo de incentivos materiales o monetarios para el encuestado. El aviso a través de una carta (recurso que no siempre procede) parece tener un efecto significativo en el aumento de las tasas de respuesta (véanse los estudios experimentales de Dillman, Gallegos y Frey, 1976). Los incentivos (monetarios y materiales) con vistas a incrementar las tasas de respuesta en las encuestas han sido empleados desde hace muchos años. Se han aplicado dos modalidades fundamentales: la entrega a priori del incentivo, y el ofrecimiento de éste en un primer contacto. Tal recurso ha sido objeto de estudio cuidadoso, tanto para el caso de «encuestas cara a cara» como en el de las telefónicas. Erdos (1970) discute detalladamente el tema para el caso de las encuestas postales, y un examen reciente puede hallarse en Church (1993), quien realizó un meta-análisis que involucró cerca de 40 estudios y concluyó que los estudios en que se aplicaba un prepago conseguían incrementar como promedio las respuestas en casi 20 puntos de porcentaje. Cuando se daban regalos (gifts) en lugar de dinero, el efecto era mucho menor. Resulta interesante que, según este trabajo, el monto del pago monetario era ciertamente reducido (menos de 1,50 dólares como promedio). Singer et al. (1996), en un estudio similar de 30 artículos destinados a evaluar el efecto de tales incentivos, corroboraron en lo esencial aquellos resultados. Un problema que se ha señalado en relación con los incentivos materiales no monetarios radica en que éstos pueden ser más atractivos para ciertos subgrupos poblacionales que para otros, con la posible generación de sesgos (Levy y Lemeshow, 1980).

12.4.3. Técnicas para la imputación Una de las vías más aplicadas y estudiadas para encarar la ausencia de un dato (los missing data de la literatura sajona) es la llamada imputación. Esto significa que los datos faltantes son suplidos por otros, usualmente surgidos de los cuestionarios que sí los contienen. Además del interés que despierta como solución ante posibles sesgos, el proceso de imputación genera matrices de datos rectangulares sin omisiones en sus celdas, lo cual es altamente conveniente a los efectos de ciertos análisis avanzados. Los métodos de imputación son diversos. El más simple consiste en sustituir cada valor faltante por la media aritmética de los valores procedentes de la parte de la muestra para la que dicho dato se conoce. Es también el más burdo. Un defecto importante es que, si hay muchos valores perdidos y sustituidos por la media, se producirá una homogeneidad artificial erróneamente reductora de la estimación de errores. Un refinamiento dentro de la mima línea consiste en for-

298

DISEÑO RAZONADO DE MUESTRAS

mar grupos de sujetos «similares» y computar las medias dentro de cada grupo, de modo que el valor faltante se suple con la media de la variable para el subgrupo al que pertenece. Otra alternativa similar, pero aun más refinada, consiste en atribuir valores resultantes de un análisis de regresión. La curva de regresión se estima empleando los records (sujetos) para los que se cuente con las respuestas a todas las variables involucradas en el proceso; es decir, usando tanto la variable que será objeto de imputación como las variables que, por considerarse que tienen algún valor predictivo, se hayan incorporado en dicho modelo. Si el valor que ha de imputarse es un número (edad, salario, hemoglobina, etc.), puede emplearse la regresión múltiple; si fuese una condición categorial (grupo religioso, status laboral, condición de hipertenso o no) podría emplearse regresión logística y hacer la atribución o imputación de la categoría desconocida con acuerdo a la probabilidad que el modelo de regresión estimado otorgue a cada categoría de respuesta para el sujeto en cuestión. Otro procedimiento empleado es el método conocido como cold deck. En esencia se trata de tomar los valores de un «sujeto parecido» al que tiene valores perdidos y atribuírselos. Se pueden hallar detalles de éste y otros procedimientos (como el hot deck method) en Allen (1990), Verboon y Nordholt (1997) y en Nordholt (1998). Finalmente, cabe mencionar técnicas más especializadas, como la imputación múltiple, descrita en Rubin (1996) y Fay (1996).

12.4.4. Corrección de estimadores Finalmente, está la posibilidad de corregir el estimador. La idea convencional, que se remonta a la propuesta de Hansen y Hurwitz (1946), consiste en hacer un submuestreo de no respondedores. Supongamos que se ha seleccionado una muestra simple aleatoria de tamaño n y que, para cierta variable X, tenemos respuesta para n 1 , individuos (n 2 = n − n 1 no respondieron). Asumamos que mediante algún esfuerzo especial se consigue ahora la información para m indivin duos de los n2 que no respondieron. Si llamamos w = 1 , y denotamos mediann2 te x1 a la media de los que respondieron inicialmente y x2 a la media de X para la submuestra de no respondedores, entonces la estimación corregida de X sería:

xc = wx1 + (1 − w) x2 con varianza igual a: Var ( xc ) =

(1 − f )[ S 2 + (h − 1)WS 22 ] n

REFLEXIONES CRÍTICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA

299

n n , W es la fracción poblacional de no respondedores, h = 2 , S 2 es la N m 2 varianza de X para toda la población y S 2 la de los no respondedores. Ocasionalmente se asume que S2 = S22 , con lo cual se simplifica el proceso. Nótese que si se cumple esta condición y, además, h = 1 (es decir, que todos los no respondedores son submuestrados), entonces las fórmulas de xc , y Var( xc ) se reducen a las conocidas para MSA.

donde f =

12.5. Determinación de valores normales Un problema de gran trascendencia tanto para la práctica clínica como para la epidemiológica, y en cuya solución el muestreo desempeña un papel protagonista, es el que consiste en establecer «valores de referencia»; es decir, algún tipo de marco referencial o escala que permita conocer la posición relativa de un sujeto dado en relación con la población a la que pertenece. Por su naturaleza, todos los enfoques para resolver este problema pasan, de un modo u otro, por el uso de la estadística. Los aspectos polémicos, como se verá de inmediato, conciernen sólo tangencialmente al proceso de selección. Se vinculan, más bien, con la identificación adecuada de la población que debe investigarse y al tratamiento que se dé a los datos, y por ende con la estimación. Esta sección reproduce en buena medida ideas desarrolladas en Silva (1997) debido a que también son relevantes en materia de muestreo.

12.5.1. El recorrido normal El modo más común de presentar valores de referencia para los parámetros fisiológicos es a través del llamado recorrido de normalidad. Por ejemplo, para la creatinina, se plantea que los valores normales correspondientes a un hombre adulto están dentro del intervalo que va de 7 a 18 mmol/24 h. Consecuentemente, un sujeto que tenga un valor por debajo de 7 o por encima de 18 mmol/24 h sería considerado, en lo que a la creatinina concierne, «anormal». Uno de los procedimientos estadísticos más utilizados para fijar ese tipo de intervalos es en extremo simple. Comienza con la selección de una muestra de una población de individuos que supuestamente no tienen patológicamente alterado el parámetro en cuestión. El procedimiento habitual exige establecer ciertos «criterios de exclusión» (que usualmente se aplican a la muestra una vez elegida, y no a la población) concebidos para eliminar individuos evidentemente «anómalos». Por ejemplo, para hallar valores de referencia para la talla, se eliminarían de la muestra los acromegálicos y los que padecen de enanismo (si los hubiera). A continuación se realiza para cada sujeto elegido la determinación de laboratorio o, más generalmente, la medición (llamémosle X), y se procede a com-

300

DISEÑO RAZONADO DE MUESTRAS

putar tanto el valor medio x como la desviación estándar .v de los datos12. Finalmente, se resta de, y se suma a x la magnitud 2s. De este modo, el intervalo determinado por los extremos x − 2s y x + 2s es considerado un recorrido de normalidad para la dimensión fisiológica de interés. Este procedimiento corresponde al propósito (explícito o no) de fijar dos límites (L1 y L2) para los que se cumplan tres condiciones: A) que por debajo de L1 quede el 2.5%/c de los valores. B) que entre L1 y L2 se halle el 95% de los datos, C) que por encima de L2 se ubique el restante 2,5% de las observaciones. Si la distribución de la variable X es gausiana o normal, entonces los límites L1 = x − 2s y L2 = x + 2s satisfarán aproximadamente las tres condiciones. Esta estrategia nace de una propuesta formulada por Ronald Fisher con el afán de identificar los «valores más comunes» (los que se ubican en el intervalo [L1, L2]) y los «poco comunes»: el 5% que se reparte entre los extremos. Buscar valores L1 y L2 que cumplan A), B) y C) es una decisión totalmente arbitraria, vinculada a una propiedad de la distribución normal, pero sin verdadero asiento en consideraciones relacionadas con el problema visto desde una perspectiva clínica o fisiológica. Pueden mencionarse cuatro objeciones a este procedimiento: a) Con todo derecho uno puede preguntarse: ¿por qué elegir el 5% para identificar a aquellos individuos que están «fuera de la normalidad»? ¿Por qué no 4%, o 6,2%? b) ¿Por qué exigir una relación de simetría? Si se decidió que 95 iba a ser el porcentaje de «normales», ¿cuál es la razón para repartir el 5% restante en partes iguales? c) En cualquier caso, los límites x − 2s y x + 2s cumplen las tres condiciones solo si la distribución de X es normal. Este rasgo no tiene que regir necesariamente, como quedó demostrado hace más de medio siglo por Rietz (1927), en ocasión de su medular trabajo sobre estadística matemática. Es bien conocido que variables tales como el calcio sérico o las proteínas totales siguen distribuciones muy alejadas de la gausiana. De hecho, autores como Elveback, Guillier y Keating (1970) afirman que la mayoría de las variables fisiológicas distan de ajustarse a una distribución normal. d) Finalmente, puede ocurrir que 2s sea mayor que x ; en ese caso L1 sería inferior a cero, situación que, salvo excepciones, carecería de todo sentido, ya que usualmente los parámetros fisiológicos no pueden alcanzar valores negativos. 12

Naturalmente, si la muestra no fuera equiprobabilística, se emplearían las ponderaciones correspondientes.

REFLEXIONES CRÍTICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA

301

Supuesto que se admite el procedimiento de hallar L1 y L2 con «la regla del 95%», una solución para las objeciones c) y d) consiste en trabajar con la misma muestra pero usar estimaciones no paramétricas de L1 y L2; concretamente, operar con percentiles empíricos: una vez ordenados todos los valores de la muestra de menor a mayor, L1 se define como aquel número por debajo del cual se ubica el 2,5% de sus integrantes; análogamente, el número por debajo del cual queda el 97,5% de los individuos de la muestra se puede aceptar como L2. Obviamente, por una parte se cumplirán las tres condiciones, sea la distribución gausiana o no y, por otra, la última dificultad (límite inferior negativo) nunca habrá de presentarse.

12.5.2. ¿Qué población ha de muestrearse? Ahora bien, fijar L1 y L2 como límites para establecer la normalidad, cualquiera sea la vía utilizada, parece entrañar algunas contradicciones difíciles de pasar por alto. Se exige partir de una muestra de cierta población que sea considerada, en principio, sana. Pero el método es tal que el 5% de la muestra que se elija para establecer los límites necesariamente terminará siendo «anormal», hecho que nos coloca en una aparente contradicción, pues si los integrantes de la población son sanos a los efectos de ese parámetro, también lo serán los de la muestra, y por tanto ella no puede a la vez contener sujetos con valores patológicos. Como veremos, la contradicción no es tal, siempre que hagamos una conceptualización adecuada de estos «valores de referencia». Para introducir el asunto, consideremos un problema inquietante que no concierne al modo de definir los límites, sino al proceso de selección; más concretamente, a la población que será objeto de muestreo. Imaginemos que se quieren conocer los «valores normales» para las funciones pulmonares (capacidad vital, capacidad vital forzada en un segundo, etc.). ¿Qué debemos entender por una población sana de la cual tomar la muestra? Algunos opinan que debe tomarse una muestra representativa de la población general, excluyendo sólo a aquellos de cuya condición patológica (en lo que se refiere a dolencias que comprometan la función respiratoria, tales como la silicosis o el cáncer pulmonar) se tenga constancia. Otros consideran que deben eliminarse a priori, por ejemplo a los fumadores, ya que la función pulmonar de éstos se ha modificado artificial y negativamente como consecuencia del tabaquismo. Pero, en esa misma línea, otros podrían exigir que tampoco se admitieran sujetos sedentarios en la muestra, pues el buen funcionamiento pulmonar demanda practicar ejercicios regularmente. Y aún podría exigirse que la muestra estuviese exclusivamente integrada por montañeses, que no sólo no fuesen fumadores ni sedentarios, sino que nunca o casi nunca hubiesen respirado monóxido de carbono, con lo cual su sistema respiratorio conservaría el estado más próximo posible a su constitución fisiológica original.

302

DISEÑO RAZONADO DE MUESTRAS

En este punto cabe recordar que las acciones como las que estamos discutiendo nunca son un fin en sí mismo, sino que se llevan adelante para algo concreto. Imaginemos que, empleando estos límites obtenidos a través de una muestra de personas con su sistema respiratorio en óptimas condiciones con acuerdo al más restrictivo de los criterios, se valora al conjunto de trabajadores de una planta textil en el contexto de un tamizaje organizado por autoridades de salud ocupacional. Con ese rasero, ¡quizás todos resulten ser anormales! La muestra elegida para fijar el criterio diagnóstico sería tan «normal» que lo más común y corriente resultaría ser anormal. Es imposible escapar de este laberinto mientras no se delimite para qué se está procurando encontrar los susodichos valores de referencia. Si lo que se quiere, por ejemplo, es conocerlos con la finalidad de establecer una regulación de carácter jurídico, según la cual un trabajador que presente valores anómalos resulte beneficiado con un período de descanso o algún tipo de compensación, entonces la muestra apropiada sería la de la población general, fumadores incluidos. Si lo que se estudia es el efecto de cierta exposición ocupacional a través de la desviación atribuible a los contaminantes ambientales cuando se comparen dichos valores con los de referencia, entonces la muestra más adecuada sería la de los montañeses no fumadores. Si los valores en cuestión se desean como elementos orientativos para la práctica clínica regular, entonces es menester que razonemos en términos relativos a la circunstancias socio-históricas del espacio o enclave en que dicha práctica ha de ejercerse, tal y como se fundamenta en la sección siguiente.

12.5.3. Carácter histórico de la normalidad Para comenzar hay que reparar en cuan artificial resulta el afán dicotomizador que lleva las cosas al plano polar: «normal-anormal». En un magnífico artículo sobre este tema, Murphy (1973), refiriéndose al conflictivo ejemplo de las dolencias mentales, escribe:

Los defectos mentales se discuten a menudo, al menos por el hombre común, como si hubiera dos grupos, el de aquellos con un desarrollo mental normal y el de los que no lo tienen: dos clases distinguibles sin ambigüedad, del modo en que pueden distinguirse las plantas de los insectos. Y tras un análisis de las consecuencias y los riesgos implícitos en tal enfoque, señala que la línea divisoria entre la normalidad y la anormalidad es muy frecuentemente arbitraria (aunque no caprichosa, que es algo bien diferente) y que, cuando se establece, ello se debe solamente a un imperativo operacional, ya que sin tal demarcación sería imposible adoptar ciertas decisiones, por ejemplo, en el ámbito jurídico. En relación con esto, reflexiona:

REFLEXIONES CRITICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA

303

¿En qué punto de su desarrollo la sociedad decidió que el tonto del pueblo ya no debía ocuparse de barrer las calles o llevar las vacas a pastar y fue puesto bajo el amparo de una institución? Es difícil evitar la conclusión de que la respuesta simplemente es: «Cuando la sociedad estuvo en condiciones de asumirlo». Este carácter relativo de las acciones, que se verifican más en función de las posibilidades reales que a partir de identificaciones intrínsecas de «anormalidad», se aprecia en hechos como que el desarrollo de la sociedad contemporánea consiente, al menos en los países económicamente más avanzados, que los oftalmólogos receten gafas graduadas al 95% de la población adulta general, cuya capacidad visual estaría, por definición, «dentro del recorrido normal». Cabe recordar a Illich (1975) cuando señalaba que «toda dolencia es una realidad que posee una configuración social; tanto su significado como la reacción a que da lugar tienen una historia». Paradójicamente, a la vez que solemos reiterar doctrinariamente que el hombre es un ser bio-psico-social, aspiramos a manejar reglas dicotómicas y unidimensionales que nos digan para cada parámetro fisiológico si un valor específico es o no normal. El carácter «normal» de ciertas funciones no puede ser descontextualizado, ni de su relación con otras variables fisiológicas conexas, ni del entorno económico, histórico, social y psicológico en que se desempeña el individuo analizado. De hecho, parece haberse enraizado un enorme malentendido al trasladar el término «normal», proveniente del descubrimiento del físico-matemático Karl F. Gauss, relacionado con las mediciones sucesivas de un mismo objeto, y el alcance semántico que tiene en la clínica para separar a los sujetos que no están enfermos de los que sí lo están. En principio, no hay ningún derecho a considerar que los límites que definen al intervalo en que se ubican los valores menos habituales o menos distanciados de la mediana −por ejemplo, los correspondientes al 95% de los individuos que no se hallan en los extremos de la distribución− sirvan para marcar la «normalidad» en el sentido clínico del término. Así lo han advertido varios autores; por ejemplo, Riegelman y Hirsh (1992) sintetizan adecuadamente esta realidad al señalar que «el intervalo de lo normal es descriptivo y no diagnóstico». En general, cuando un clínico eficiente examina un conjunto de parámetros fisiológicos integralmente, lo hará sin desdeñar la historia del individuo concreto, y su juicio dependerá del enclave histórico, económico y cultural en que se halle. Es muy conveniente que disponga de datos que le informen cuáles son los valores más comunes para cada parámetro, cuál el recorrido usual de éstos en la población de la que procede el paciente, pero sin etiquetar a priori el dato como «normal» o «anormal», algo que él decidirá después del complejo análisis cuyos ejes básicos se han bosquejado arriba. Tal matización, por cierto, cabe también para el examen epidemiológico a nivel poblacional.

304

DISEÑO RAZONADO DE MUESTRAS

Por otra parte, estas consideraciones nos llevan de la mano a la siguiente recomendación: los recorridos de normalidad exigen correcciones periódicas en el tiempo; en la medida de lo posible, además, deben establecerse para diversos subgrupos poblacionales bien definidos (géneros, etnias, grupos de edad, zonas geográficas, etc.), que a su vez han de interpretarse mediante la conjunción de valoraciones técnicas y socioculturales. Sólo en tal caso adquieren un sentido cabal.

12.6. Las encuestas en la prensa Últimamente se han ido consolidando determinados estereotipos para comunicar resultados de las encuestas a la población, a la vez que se han aplicado ciertos procedimientos que resultan tan pseudocientíficos como el horóscopo o la homeopatía. A pesar de que implica que nos separemos por excepción del ámbito de la salud, es insoslayable encarar este problema con rigor, aunque sólo fuera porque estos hechos comprometen gravemente la imagen y el prestigio de las técnicas estadísticas y del muestreo ante la opinión pública y, peor aun, distorsionan la visión que puedan tener de esta disciplina otros profesionales de la ciencia no especializados en el tema.

12.6.1. Estereotipos para no decir nada En mayo de 1993 se produjo en Madrid un debate televisado entre dos candidatos presidenciales: José María Aznar y Felipe González. Tres días más tarde, el periódico español El País (1993) comunicó el resultado de una encuesta realizada por la empresa Demoscopia en la que se sondeaba la opinión popular conformada al día siguiente de producido el mencionado debate. La llamada «ficha técnica», contenida en el artículo de prensa, incluye el texto que se reproduce textualmente a continuación: Tamaño y distribución de la muestra: 800 entrevistas fijadas mediante muestreo estratificado por región y tamaño de hábitat proporcional a la distribución de la población y con ampliación de cuotas de sexo y edad. Error de muestreo: asumiendo los criterios de muestreo aleatorio simple, para un nivel de confianza de 95,5% (dos sigrnas) y para la hipótesis más desfavorable (p = q = 50), el error para el total de la muestra sería de ±3,5%.

Comencemos examinando ahora el primero de los dos párrafos.

REFLEXIONES CRÍTICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA

305

Confieso que el texto me resulta críptico: no consigo entender cabalmente casi nada a partir de la palabra «entrevistas». Y sospecho fuertemente que a los lectores regulares de El País les pasará lo mismo, aunque quizás muchos de ellos queden más bien anonadados con la «cientificidad» que, a juzgar por su apariencia, destila tal enunciado. Si se quiere comprender esa información, es menester tener las respuestas para las siguientes preguntas: ¿Qué debe entenderse por «fijar» entrevistas? ¿A qué le llaman «región»? ¿Qué es «hábitat» en este contexto? ¿Qué significa «ampliación de cuotas de sexo y edad»? Demasiadas dudas para un texto de 30 palabras. Uno se pregunta: ¿qué sentido tiene brindar una información «técnica» que resulta ininteligible, incluso para especialistas? Es curioso, además, constatar que un texto tan alejado de la transparencia deseable para una comunicación que, aun siendo de prensa, supuestamente tiene carácter científico, parece constituir una cómoda horma general. Por ejemplo, cinco años después, y a raíz de las elecciones primarias del Partido Socialista Obrero Español, El País (1998b) publicaba la siguiente «ficha técnica» en el contexto de una de sus encuestas habituales:

Tamaño y distribución de la muestra: 1.200 encuestas fijadas mediante maestreo estratificado por región y tamaño de hábitat proporcional a la distribución de la población v con ampliación de cuotas de sexo y edad. Error de muestreo: asumiendo los criterios de maestreo aleatorio simple, para un nivel de confianza de 95,5% (dos sigmas) y para la hipótesis más desfavorable (p = q = 50), el error para el total de la muestra sería de ±2,9%.

Un cotejo detallado entre el contenido de los recuadros precedentes permite apreciar lo que no pasa de ser un acto de clonación; ¿será que estos dos diseños carecen de especificidades propias dignas de ser comunicadas? Sería sorprendente que así fuera, máxime cuando la encuesta de 1993 fue telefónica y la de 1998 cara a cara. Otra formulación recurrente en muchas de las susodichas «fichas técnicas» consiste en afirmar algo como lo siguiente: «la encuesta tiene un nivel de confianza del 95,5% y un margen de error de ±2,9 para datos globales» (véase, por ejemplo, El País, 1997). Como bien sabemos, es completamente injustificable decir que la encuesta tiene tal o más cuál nivel de confianza. Con ese recurso se da una falsa imagen de alta calidad. La afirmación carece de sentido, pues la confianza que se pueda depositar en una estimación será mayor o menor en dependencia de que se haya decidido trabajar con una u otra confiabilidad (es decir, el error estimado se supedita al coeficiente de confiabilidad que se haya elegido). Sin embargo, tal y

306

DISEÑO RAZONADO DE MUESTRAS

como está escrito en la susodicha ficha, da la impresión de que la confianza que uno puede tener en la encuesta es muy alta (del 95,5%). De hecho, se está jugando con la ambivalencia del término confianza, que en el lenguaje habitual tiene un valor semántico diferente del sentido técnico con que se emplea en el muestreo. A finales de 1997 me dirigí al «Defensor del lector» de ese periódico para comentarle este desatino. Me permito reproducir una parte sustancial de su respuesta (Gor, 1998): Este lector cuestiona, por incomprensible y errónea, la fórmula empleada para expresar el nivel de confianza y el margen de error del sondeo. (...) Hay que señalar, en todo caso, que la fórmula cuestionada («Tiene un nivel de confianza X y un margen de error de ± X») es la habitual. Lo cual no resta fundamento a la observación, (...) la cual es acertada aunque de difícil encaje en una fórmula inteligible para legos, ajuicio de José Ignacio Wert, presidente de Demoscopia. «Debo empezar reconociendo», señala Wert en su respuesta al lector, «que su argumento sobre el nivel de confianza de la encuesta y la forma de expresarla es absolutamente inobjetable. En efecto, técnicamente hablando, el nivel de confianza es un parámetro que responde a una convención y no se tiene sino que se adopta. En puridad terminológica, sería más correcto decir “adoptando un nivel de confianza del 95,5%” o “para un nivel de confianza del 95,5%”». Wert admite: «Hemos utilizado una convención lingüística inapropiada para dar cuenta de un dato técnico no del todo fácil de traducir en lenguaje no técnico». (...) Queda, en todo caso, a la capacidad de los expertos insistir en la cuadratura de esta especie de círculo (una fórmula inteligible para el lego al tiempo que técnicamente correcta), antes de optar por suprimir −una alternativa posible que señala Wert− «cualquier referencia a la confiabilidad y referirse tan sólo al error del muestreo, parámetro, al menos en apariencia, más inteligible».

Unos meses después, ante otra de las encuestas a cargo de esa empresa, me interesó, naturalmente, ver qué solución se había hallado para no incurrir en el error tan rotunda y honestamente admitido. Me asombró encontrar que los técnicos de Demoscopia, impertérritos, incluían el siguiente texto: «la encuesta tiene un nivel de confianza del 95,5% y un margen de error de ±2,9 para el total de la muestra» (El País, 1998a). Es evidente que hay algo, nebuloso e inquietante en todo esto. En ocasión de aquel intercambio de opiniones, tuve a bien sugerir una solución que me parecía (y me sigue pareciendo) óptima para resolver con toda transparencia el conflicto (la «cuadratura del círculo» a que aludía el defensor del lector): publicar la encuesta con una ficha informativa muy general, que sólo abarque aquello realmente comprensible por cualquiera −por tanto exenta de todo tecnicismo−, y que comunique que todo aquel lector interesado en los detalles técnicos se dirija al sitio WEB de la empresa responsable del estudio. Naturalmente, si se colocara dicho informe técnico detallado en el sitio WEB

REFLEXIONES CRITICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA

307

de Internet, no habría que preocuparse por las lógicas restricciones de espacio que rigen en la prensa. Todos, al menos teóricamente, ganaríamos: la empresa podría explayarse, los especialistas podrían satisfacer cualquier duda, y los lectores tendrían la tranquilidad de que la encuesta puede ser evaluada, llegado el caso, por especialistas cualificados. Lamentablemente, las empresas que se ocupan de estos temas parecen preferir que no se adopte una solución tan simple y eficiente como ésta. Ignoro con qué argumentos, pues hasta ahora no se han dado, a la vez que se mantiene la práctica habitual sin mayor (ni menor) rubor.

12.6.2. Lo que ocultan las afirmaciones globales Ahora volvamos a la encuesta sobre el debate entre aspirantes a la presidencia española de 1993 y concentrémonos en que nos han informado de que el tamaño muestral es n = 800. La primera pregunta que se formuló a los encuestados fue: ¿VIO ENTERO O EN PARTE EL DEBATE? Nos comunican que sólo 431 entrevistados lo vieron durante un lapso suficientemente largo como para opinar, y casi todo el resto del análisis se remite a ese número de espectadores. Por ejemplo, a continuación se preguntó: CON INDEPENDENCIA DE SUS SIMPATÍAS POLÍTICAS, ¿QUIÉN LE HA RESULTADO MÁS CREÍBLE? y registran los siguientes resultados según las tres grandes agrupaciones políticas españolas13: Partido Socialista %

Partido Popular %

Izquierda Unida %

Felipe González

55

0

25

José María Aznar Los dos por igual Ninguno de los dos No sabe/no contesta

28 7 13 3

94 3 1 1

34 29 12 0

Lamentablemente, los autores no comunican cuántos entrevistados correspondieron a cada una de estas tres agrupaciones pero; teniendo en cuenta datos conocidos, cabe esperar que, por ejemplo, los simpatizantes de Izquierda Unida hayan sido alrededor de 40, ya que esa fuerza agrupaba en aquel momento algo menos del 10% del electorado. De modo que, para estimar el porcentaje de in13

Nótese que la suma de porcentajes dentro del Partido Socialista asciende absurdamente a 106%. No es una errata de este libro: así aparece en el informe de Demoscopia.

308

DISEÑO RAZONADO DE MUESTRAS

dividuos de Izquierda Unida a quienes resultó más creíble el señor González, se trabajó con una muestra de 40, un número 20 veces menor que el tamaño de muestra original. Esta situación es enteramente típica: aunque «la ficha técnica» informe que la muestra fue de 800 entrevistados, el tamaño efectivo varía en dependencia de los vericuetos computacionales que exige el estudio. Ahora detengámonos a examinar qué efecto tiene este hecho. Si se computa el error de muestreo en que se ha incurrido (suponiendo que se usó muestreo simple aleatorio), como se recordará de la Sección 3.6 hay que aplicar la fórmula siguiente: p (100 − p ) [12.6] n −1 Recordemos lo que textualmente decía en su ficha técnica el artículo que nos ocupa sobre el error de muestreo: «asumiendo los criterios de muestreo aleatorio simple, para un nivel de confianza de 95,5% (dos sigmas) y para la hipótesis más desfavorable (p = q = 50), el error para el total de la muestra sería de ±3,5%». La frase «para la hipótesis más desfavorable (p = q = 50)» aparece sistemática y casi obsesivamente en todas las fichas técnicas de este tipo. ¿Qué se quiere decir exactamente con ella? Se trata de que el valor p(100 − p) que está bajo el radical de [12.6] alcanza su máximo en el caso en que P se suple por 50 (véase una explicación detallada en la Sección 12.8). Consecuentemente, el mayor valor que puede alcanzar e corresponde a dicha magnitud de P. Por ejemplo, tomando n = 800 y Z1−α/2 = 2, el valor del error será, a lo sumo, igual a 3,5, que es el que figura en la ficha técnica. Pero, ¿es ésta realmente «la hipótesis más desfavorable»? Ciertamente no. Consideremos otra pregunta del cuestionario; según el informe, el 6% de los 800 encuestados comunicó que probablemente no vería el segundo debate, programado para una semana más tarde. El error asociado a tal estimación, aplicando la fórmula [12.6], sería entonces: e = Z1−α / 2

e=2

(6)(94) ≈ 1,7 799

Este número es, en efecto, menor que 3,5 en términos absolutos; sin embargo, la calidad de la estimación es inferior, pues 1.7 representa el 28% de p = 6 mientras que 3.5 es solamente el 7% de p = 50. e En general, el error relativo, definido como er = , se incrementa en la medip da que p disminuye, de manera que es absurdo afirmar que el caso en que la calidad de la estimación es más desfavorable corresponde a preguntas para las cuales la estimación es p = 50.

REFLEXIONES CRÍTICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA

309

Sin embargo, lo verdaderamente grave es que para casi ninguna de las estimaciones de la encuesta se trabaja con ese tamaño de muestra, sino con números muchísimo menores. Tomando p = 25% (dato registrado en la tabla como estimación de la credibilidad de González dentro de Izquierda Unida), n = 40 y Z1−α/2 = 2, la estimación del error máximo en que se ha incurrido es e = 13.9%. Por otra parte, ésta sería la estimación del error si se hubiera tratado de un muestreo simple aleatorio. Siendo un diseño complejo (como se colige del texto incluido en la ficha técnica), entonces el error verdadero ha de ser mayor. Concretamente, si llamamos ec al error correspondiente al verdadero diseño, se tendrá (Kish, 1965): ec = e deff . Supongamos que al diseño muestral que nos ocupa le corresponde un deff igual a 2,25 (el valor medio que se produce en una encuesta común y corriente, como consignamos en la Sección 12.3.2). Es un supuesto conservador, ya que por la naturaleza del problema (obvia tendencia a la homogeneidad de opiniones y valores dentro de una misma localidad o región), cabría esperar un deff mayor. Pero considerémoslo así para prosperar sin riesgo de que se considere que nuestro análisis es extremista. En tal caso, el error estimado, una vez hecho el ajuste, resulta igual a: ec = 13,9 2, 25 = 20,3

Quiere esto decir que el error cometido al estimar ese porcentaje de 25% podría razonablemente ser como mínimo de 20%. Se trata de un error enorme: casi igual a la magnitud de lo que se estima (concretamente, las cuatro quintas partes). Es tan poco informativo como si cuando me preguntaran mi edad, yo dijera que ésta se halla entre 9 y 80 años. Algo similar ocurre con la mayoría de las estimaciones de la encuesta.

12.6.3. Falsos vaticinios Entre las grandes áreas de trabajo en las que se emplea el muestreo fuera de la investigación biomédica se hallan las encuestas electorales, aquellas que se realizarán sobre una población de votantes, ya sea para estudiar «la intención de voto» como para vaticinar los resultados. Tal vaticinio, a su vez, puede hacerse en un momento previo pero ya muy próximo al acto electoral, o en un momento posterior a la votación, antes de contar con resultados oficiales. A veces, tales encuestas consiguen identificar aceptablemente con antelación los resultados (el ganador de la presidencia, la repartición de escaños, la respuesta que emerge victoriosa tras un referéndum, o el desenlace que sea). Con sospechosa frecuencia, sin embargo, se producen aparatosos fracasos de las empresas encargadas de hacer el vaticinio, como ocurrió en ocasión de la derrota

310

DISEÑO RAZONADO DE MUESTRAS

del Sandinismo en la elección presidencial de Nicaragua en 1991. En aquella ocasión se atribuyó el fiasco a la falta de cultura política de la población nicaragüense, a la tendencia secular a ocultar sus verdaderos pensamientos y a una larga serie de explicaciones de ese tenor. Pero he aquí que fenómenos muy similares se produjeron años después en el Reino Unido en 1992, en España e Italia en 1993 y en Francia en 1995. En este último caso, todas las encuestas sin excepción anunciaron que Jacques Chirac sería el ganador con el 25% de los votos; Edouard Balladour alcanzaría alrededor del 20% en tanto que Lionel Jospin, no llegaría siquiera a esta última cifra; el resultado fue otro: Jospin ganó con más del 23% y quien no llegó a 19% fue Balladour. El día 3 de marzo de 1996 se celebraron las elecciones generales en el Estado español, en las cuales se disputaban 350 escaños parlamentarios. Conquistar al menos 176 de ellos por parte de uno de los partidos significaba contar con la «mayoría absoluta» y poder, consecuentemente, prescindir de alianzas políticas. De antemano, sólo el Partido Popular parecía tener posibilidades reales de alcanzar dicha cifra. En las semanas previas se produjo la consabida avalancha de encuestas preelectorales que, al precio de más de 4 millones de dólares, intentaban vaticinar los resultados. El panorama de lo acaecido resulta en extremo interesante, no sólo por el estruendoso fracaso de dichos vaticinios, sino por el patrón que exhibían. Hagamos un sucinto resumen de lo más significativo; para simplificar la exposición nos circunscribiremos a los vaticinios concernientes a las dos grandes formaciones políticas españolas: Partido Popular (PP) y Partido Socialista Obrero Español (PSOE). El día 14 de febrero, el periódico ABC publicó los resultados de una «macroencuesta» conducida por el Centro de Investigaciones Sociológicas (CIS) según los cuales el PP alcanzaría una apabullante victoria con más de 50 escaños de ventaja, a la vez que al PSOE correspondería el número más bajo de su historia. Esta encuesta se basó en 25.000 entrevistas, y sus responsables se adelantaban a declarar que «El fenómeno de voto oculto al PSOE, encuestados que no reconocen su intención de volver a votar a ese partido, se tiene muy en cuenta en todos los estudios después de las anteriores elecciones» y adicionaban que «La gran cantidad de entrevistas con que se hace la macroencuesta del CIS permite afinar más que las empresas privadas a la hora de distribuir escaños» (ABC, 1996). Las Tablas 12.2 y 12.3 recogen vaticinios y realidades para los dos grandes partidos. Como puede apreciarse, el fiasco no sólo es enorme y palmario, sino sorprendentemente uniforme: mientras la diferencia real en el porcentaje de votos fue un escaso 1,3%, todas las encuestas anticipan una diferencia enorme (de 6,0 puntos la que menos yerra, y nada menos que de 11,6 la que se equivoca de manera más sensacional).

REFLEXIONES CRÍTICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA

311

Tabla 12.2. Vaticinios realizados por las empresas contratadas por grandes medios de prensa españoles del número de escaños que alcanzarían el PP y el PSOE en las elecciones generales de 1996 Periódico

PP

PSOE

ABC El País El Mundo La Vanguardia El Periódico

176- 184 170- 178 170- 179 160- 170 165 - 175

117- 125 118- 128 113- 123 135- 145 119- 129

Resultados reales

156

141

Tabla 12.3. Porcentajes de votos vaticinados para el PP y el PSOE por las empresas contratadas por los grandes periódicos españoles en las elecciones generales de 1996 Periódico

PP

PSOE

Diferencia

ABC El País El Mundo La Vanguardia El Periódico

44,1 42.4 42,3 41,0 41.2

32.5 33.4 31.4 35,0 33.5

11.6 9,0 10.9 6,0 7.7

Resultados reales

38,8

37,5

1,3

Por si fuera poca «coincidencia», debe notarse que si bien las encuestas mencionadas en la Tabla 12.2 se realizaron días antes de la votación, tres estudios realizados «a pie de urna», una vez consumada la votación, arrojaron resultados parecidos, como se aprecia en la Tabla 12.4. Tabla 12.4. Resultados de las encuestas a pie de urna sobre el número de diputados alcanzados por el PP y el PSOE en las elecciones generales de 1996 Empresa

PP

PSOE

Tabula Demoscopia Sigma 2

164 - 174 160 - 171 164 - 174

120 - 132 125 - 135 124 - 131

Resultados reales

156

141

312

DISEÑO RAZONADO DE MUESTRAS

De hecho, los 6 intervalos de confianza estuvieron muy lejos de «atrapar» al parámetro. Ante el estupor de legos y especialistas producido por tal desaguisado, las reacciones de los responsables de los sondeos y las estimaciones son diversas y harto elocuentes. No creo que valga la pena examinarlas exhaustivamente, pero sí apreciarlas a grandes rasgos. Una de las explicaciones más mencionadas consiste en que existía un «voto oculto»; es decir un «voto vergonzante» de quienes no están dispuestos a admitir el que a la postre sería su voto verdadero (en este caso, desde luego, atribuible a votantes del PSOE). La notable consistencia del error hace pensar en una clara sistematicidad. Si el error fuera aleatorio, no se hubiera escorado siempre hacia el mismo lado, de modo que la explicación en sí misma es bastante verosímil. Lo que ella no explica es el fallo de las encuestas. Por una parte, tal eventualidad no pudo haber sido imprevista, como refleja el texto de ABC arriba citado. Por otra parte, algunos llegan por ese camino a culpar al electorado de su fracaso. Por ejemplo, el responsable de la encuesta realizada por Tabula V, la más desatinada de todas, comunicó que «creía hasta ahora que estaba en una democracia estable». Es como decir: «la responsable del error es la realidad, no el instrumento que he empleado para conocerla». Algo similar había declarado Fréderic de Saint Sernin, responsable de la encuesta encargada por Jacqes Chirac en 1995, cuando las urnas desmintieron espectacularmente su vaticinio: «la gente puede comportarse de manera totalmente irracional cuando acude a votar». Esto es como si al equivocarse en el pronóstico del tiempo, el Instituto de Meteorología comunicara que la culpa del error la tuvieron las nubes. Si un equipo técnico de muestristas y analistas se propone hacer un vaticinio electoral, no puede escudarse en tales excusas: parte de su responsabilidad consiste precisamente en conducirse con el rigor necesario para contemplar la realidad tal como es. Esto significa, en primer lugar, que han de emplearse tamaños muéstrales adecuados: en mi opinión, por ejemplo, una muestra nacional en España que se proponga «repartir escaños» no puede bajar de 20.000 sujetos y casi todos estos estudios trabajaban con menos de 5.000. Pero mucho más importantes son: el método de selección (¿son realmente probabilísticos los diseños?, ¿se adoptan medidas para que no haya sobrerrepresentación de encuestados «fáciles». como pueden ser ancianos o amas de casa?), el manejo de la no respuesta (¿se manejan técnicas adecuadas de imputación, reducción de las tasas de no respuesta y corrección de estimadores?), la realización de controles de calidad rigurosos del dato primario (¿se retribuye adecuadamente a encuestadores y supervisores?, ¿se controla con rigor su desempeño?, ¿se hacen reencuestas de control?). Es imposible responder estas seis preguntas, ya que la transparencia metodológica es nula, como ya vimos en las secciones precedentes, aunque no sea imposible imaginarse las respuestas. Personalmente, sospecho que las contestaciones a todas o casi todas esas interrogantes son esencialmente negativas.

REFLEXIONES CRÍTICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA

313

12.7. Cálculo y presentación de errores muestrales Como ya sabemos, tras una encuesta verdadera se produce usualmente la estimación de decenas o cientos de parámetros. Es bastante natural que nos preguntemos: ¿es necesario calcular y presentar los errores de muestreo asociados a todas las estimaciones? La respuesta es obviamente negativa. Hacerlo daría lugar a un informe tan farragoso que podría desnaturalizarlo. La conducta más recomendable es la de escoger un grupo de parámetros, típicamente aquellos que se consideren más representativos del estudio, y exponer para ellos los errores de muestreo (y, ocasionalmente, los valores de deff). En algunas tablas suele ponerse entre paréntesis, al lado de las estimaciones, los errores absolutos o relativos de dichas estimaciones14. En ocasiones se pone, por lo menos, una nota en que se consigne que todos los errores relativos estimados son inferiores a cierto valor (el que corresponda). No es una solución óptima, pero es mucho mejor que no aludir al tema. Un trabajo en que se desarrollan y ejemplifican profusamente las diversas técnicas de presentación (incluyendo recursos gráficos) es el de González, Ogus, Shapiro y Tepping (1975). Otra variante posible (Levy y Lemeshow, 1980) para evitar que el informe crezca insoportablemente, no excluyente de las anteriores, es ingeniárselas para dar la información necesaria que permita al lector hacer sus propios cómputos si lo desea.

12.8. Conjurando errores comunes Para concluir este capítulo, se enumeran y comentan varios errores que suelen cometerse en la práctica, algunos de los cuales están tan extendidos que incluso han llegado reiteradamente a la imprenta.

12.8.1. Fracción de muestreo versus tamaño muestral En ocasiones se hacen recomendaciones como la siguiente15: Si UD. NO TIENE ELEMENTOS PARA DECIDIR EL TAMAÑO MUESTRAL DE MANERA RIGUROSA, TOME EL 10% DE LA POBLACIÓN PARA FORMAR LA MUESTRA

En más de una oportunidad, tras explicarme un problema concreto, me han consultado directamente en esos términos: ¿qué porcentaje de la población debe ser muestreada? 14

Atención: no confundir con la desviación estándar de la variable correspondiente. No conozco, ciertamente, textos serios que hagan esta recomendación. Este comentario se incluye no para hacer una crítica a lo que he llamado «teoría oficial del muestreo», sino para precaver a los lectores sobre la improcedencia de una regla que aparece ocasionalmente en ambientes técnico-administrativos. 15

314

DISEÑO RAZONADO DE MUESTRAS

En el texto de una normativa para realizar una auditoría de la gestión hospitalaria, en la que se fijan los pasos que debe dar el equipo auditor, puede aparecer una orientación del tipo siguiente: SELECCIONAR EN CADA HOSPITAL UNA MUESTRA ALEATORIA FORMADA POR EL 15% DE LAS HISTORIAS CLÍNICAS INICIADAS DURANTE EL ÚLTIMO TRIMESTRE Y, SI EL PORCENTAJE DE HISTORIAS QUE TIENEN DEFICIENTEMENTE RELLENADO LA CAUSA DE INGRESO EXCEDE EL 25%, ENTONCES...

Todos son ejemplos de un enfoque improcedente: el de establecer el tamaño muestral fijando un porcentaje poblacional, como si éste fuera relevante. Por ejemplo, en el caso de la auditoría, contrariamente a lo buscado y a lo que podría pensarse, para la evaluación de los hospitales grandes la muestra será de tamaño probablemente excesivo, y por tanto se verificará con extraordinario rigor, en tanto que para la de los pequeños el tamaño muestral puede llegar a ser minúsculo, y como consecuencia resultar en extremo imprecisa, ya que el azar tendría mucho más margen para influir en las conclusiones de lo que resulta conveniente o aceptable. Es bien sabido que la calidad de una estimación depende vitalmente del tamaño absoluto de la muestra, y solo mínimamente del porcentaje que éste representa con respecto al poblacional. El juego de las urnas descrito en la Sección 3.8 procura subrayar esta realidad; uno de los componentes incluidos en el módulo de simulaciones de SIGESMU permite al usuario apreciar vividamente este hecho. Si se quieren o se necesitan indicaciones de tipo general, hay que darlas a través de números absolutos. Por ejemplo, en World Fertility Survey (1975) se recomienda que los estudios nacionales de fecundidad se realicen con tamaños elegidos entre 2.000 y 8.000 mujeres en edad fértil. Nótese, por una parte, el enorme margen que se da para la elección, pero por otra parte y sobre todo, repárese en que, puesto que el tamaño muestral puede oscilar entre esas dos magnitudes independientemente del país estudiado, entonces la fracción de muestreo puede variar notablemente de un país a otro, ya que los tamaños poblacionales entre países exhiben un recorrido cientos de veces mayor. Si se tomara una muestra de 2.000 uruguayas (de una población con alrededor de un millón de mujeres en edad fértil), la fracción de muestreo será 0.2%; si se toman 8.000 para un estudio en la India, entonces la fracción de muestreo se reduce a, 0,0008%, un número 250 veces menor que la fracción correspondiente a Uruguay. Sin embargo ambas muestras producirán estimaciones similarmente eficientes. A la hora de establecer el tamaño muestral, en síntesis, hay que pensar en términos absolutos sin dejarse impresionar por el hecho de que ese número pueda representar una pequeña (o grande) parte del tamaño poblacional.

REFLEXIONES CRÍTICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA

315

12.8.2. ¿Un 50% mágico? Al asumir que si el porcentaje de sujetos con cierto rasgo asciende al 50% entonces se obtiene el mayor tamaño de muestra simple aleatoria posible, se incurre en una falacia que parece muy extendida. Es posible hallarla tanto en textos de muestreo (Azorín y Sánchez-Crespo, 1986), como de metodología de la investigación (Argimón y Jiménez, 1991) y de epidemiología (Jenicek y Cleroux, 1987) así como en manuales de estadística (Domenech, 1990). Por cierto, también figura en el recetario que debemos a Lemeshow y sus tres colaboradores (Lemeshow, Hosmer, Klar y Lwanga, 1990). Allí, por ejemplo, se hace textualmente la tajante afirmación siguiente:

Cuando el investigador no renga la menor idea acerca de cuál puede ser el valor de P. sustituya 50 en su lugar y siempre obtendrá suficientes observaciones, cualquiera que sea el verdadero valor de P.

Para examinar la fundamentación de esta curiosa receta recordemos una vez más las formulas [ 12.1) y f 12.2] correspondientes a la estimación de un porcentaje en el marco del MSA. Dicha fundamentación sería la siguiente: Puesto que 50 es el valor de P para el cual el producto P (100−P) es máximo, al suplir P por 50 se asegura el mayor valor posible para n0. Este tamaño nunca podría ser menor que lo cine resulta de tal manipulación ya que, como se deriva de [12.2], n0 es directamente proporcional a P (100 − P). Finalmente, puesto que, según la fórmula [12.1], a mayor valor de n0, mayor es n, ningún otro valor de P puede producir una muestra mayor que la que se alcanza fijando P = 50. Como ya he expuesto con detalle en otro sitio (Silva, 1997), se trata de una regla totalmente falaz, cuya fundamentación es inaceptable y carente de interés práctico. Sin embargo, el problema ha concitado controversia, como pone de manifiesto la publicación de una serie de defensas y réplicas en torno a la posible invalidez del principio que se ha resumido en el recuadro; a saber: Campell (1993). Seuc (1998), García y Almenara (1999), Marrugat, Vila, Pavesi y Sanz (1999), Suárez y Alonso (1999), Marrugat, Vila y Pavesi (1999) y Silva (2000). Antes de entrar en detalles, sugiero al lector que, valiéndose sólo de su intuición, intente responder por sí mismo el siguiente problema. Dos investigadores quieren hacer respectivas estimaciones concernientes a la población adulta de una misma ciudad: uno de ellos quiere estimar la tasa de prevalencia de ciegos; el otro se interesa por conocer el porcentaje de individuos que han acudido al médico al menos una vez en los últimos 5 años. Guiándose

316

DISEÑO RAZONADO DE MUESTRAS

simplemente por el sentido común, ¿cuál de los dos investigadores necesitará a su juicio una muestra mayor? Es bastante intuitivo que en el segundo caso una muestra de, por ejemplo, solamente 50 sujetos podría servir. No se afirma que la estimación resultante en tal caso sea «buena»; sólo que no sería descabellado trabajar con dicho tamaño. Por otra parte, un par de cálculos elementales nos permiten comprender que una muestra de 50 personas tomada de la población general será flagrantemente insuficiente para estimar el primer parámetro. Veamos: es casi seguro que ella no contenga ciego alguno (en cuyo caso sacaríamos la absurda conclusión de que no hay ciegos en la ciudad, ya que no sólo la estimación puntual sería igual a cero, sino que también el error estimado sería nulo); pero si apareciera al menos un invidente en la muestra, en principio se concluiría que la tasa de ceguera es por lo menos 2%, dato casi tan absurdo corno el anterior, pues se sabe positivamente que la verdadera tasa de ceguera es marcadamente menor (nótese que el intervalo de confianza en caso de que hubiera un ciego en la muestra sería aproximadamente [-2%, 6%], lo cual equivale a no decir nada que no sepamos). Tales despropósitos no ocurrirán con el porcentaje de individuos que acudieron al médico; si por ejemplo, 20 de los 50 encuestados estuvieran en ese caso, la estimación de la tasa sería muy imprecisa, pero no sería ni mucho menos disparatada. Sin embargo, este último porcentaje está muchísimo más cerca de 50% que la tasa de ceguera. ¿Cómo sostener entonces que el cómodo recurso de suplir p por 50 produce el tamaño muestral mayor que pudiera exigir el problema? Dicho de otro modo: tanto la intuición como un simple análisis cuantitativo nos conducen inevitablemente a pensar que para estimar adecuadamente la prevalencia de un fenómeno muy raro necesitamos una muestra muy grande, lo contrario de lo que ocurre cuando se trata de estimar una prevalencia próxima a 50%. De modo que la afirmación del último recuadro entra en franca colisión contra nuestro sentido lógico. Las reflexiones que siguen reafirman que, esta vez, no se trata de que la intuición nos traicione, sino de que el contenido del recuadro intercalado al inicio de esta Sección es erróneo.

(1,96)2 P(100 − P) como fun, E02 ción de P, alcanza su máximo valor para P = 50. Nótese que en tal caso: Formalmente, es cierto que la expresión, n0 =

n0 =

(1,96)2 2.500 10.000 ≈ E02 E02

y que cualquier otro valor de P producirá un n0, menor. Por ejemplo, para P = 30 (al igual que para P = 70), tendríamos: n ≈

8.400 . E02

REFLEXIONES CRÍTICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA

317

Tabla 12.5.1. Magnitud del producto P (100 - P) para diferentes valores de P en el recorrido que va de 0 a 100 P

0

5

10

30

50

70

90

95

100

P(100−P)

0

475

900

2.100

2.500

2.100

900

475

0

La Tabla 12.5.1 muestra el comportamiento de P(100 − P) para varios valores escogidos de en su recorrido posible de 0 a 100. Como se aprecia, P(100 − P) disminuye en la medida que P se aleja de 50, cualquiera sea la dirección en que ello ocurra. Ahora bien, n0 es una función de P, pero también lo es de E0, de modo que la relación entre P y n0 sólo es válida siempre que se suponga que E0 está fijado de antemano. Sin embargo, y aquí radica la esencia de todo: el máximo error absoluto E0 que se puede admitir a la hora de estimar no puede establecerse razonablemente sin tener en cuenta la de P; no se podrá fijar hasta que no se tenga una idea de dicha magnitud. Imaginemos que se ha estimado la prevalencia de cierta dolencia específica, y que se sabe que el error que se ha cometido al hacerlo no excede al 1%. ¿Es grande o pequeño ese error? ¿Se ha conseguido estimar razonablemente bien el valor de esa prevalencia P? Si el lector medita durante unos segundos y procura responder a estas dos preguntas, no demorará en comprender que es imposible darles respuesta hasta tanto no conozca cuál es el valor de P. Esto es así, del mismo modo que no sabemos si resulta caro un objeto que se vende al precio de 100 dólares mientras no sepamos de qué objeto se trata. En efecto, si se trata, por ejemplo, de la prevalencia de cáncer pulmonar (un número próximo a 1 en 20.000), un error de 1% sería descomunal; pero, si se trata de la prevalencia de hipertensión arterial (que podría ser un 15% quizás), tal error sería perfectamente admisible, pues con seguridad es menor que la décima parte de P. Dicho de otro modo: cuando se va a calcular n0 en el caso que analizamos, hay que preestimar P, no sólo porque lo demanda explícitamente la fórmula [12.2], sino porque sin ese conocimiento es imposible decidir el valor del error absoluto que también aparece en ella. Imaginemos que le pedimos al señor Lemeshow que calcule el tamaño muestral para un estudio que realizaremos en una población de 2.000 habitantes. Para simplificar las cosas le diremos que se trata de un MSA y que queremos estimar un solo parámetro: el porcentaje de sujetos que poseen cierto componente sanguíneo denominado farsemia. Se trata de un componente que está presente (o no) en la sangre de cada individuo; pero «no tenemos ni la menor idea» de cuál será el porcentaje de sujetos que posee ese rasgo. Él conoce N, puede decidir, por ejemplo, que α en 0,05, y suponer que P = 50 (no porque crea que ése es el valor, sino «para tener la muestra mayor posible»); ahora bien, ¿qué valor coloca-

318

DISEÑO RAZONADO DE MUESTRAS

rá en lugar de E0 dentro de [12.2]? Es simplemente imposible fijar ese número de manera racional mientras no se tenga una idea de la verdadera prevalencia de farsemia entre los seres humanos. Cualquier valor de E0 que él surgiera pudiera ser enorme (o exageradamente pequeño) comparado con la prevalencia de farsemia, ya que sobre ese número se ignora todo. Es para mí un excitante misterio conocer qué respuesta daría a dicha pregunta. Lo que sí podría fijarse de antemano es el valor del error relativo. Por ejemE plo, podría decidirse que éste no sobrepase al 10% de P: Er = 0 = 0,1. para poP ner n0 en función de Er, se divide tanto el numerador como el denominador de [12.2] por P2 y se tendrá:

n0 =

100 − P P Er2

(1,96) 2

[12.7]

100 − P . P Ya no aparece el fastidioso E0 en la fórmula. Pero es fácil ver que, a diferencia de De modo que para Er = 0,1, al aplicar [ 12.7] se tiene que n0 = 384

P (100−P), la expresión (100 − P ) que ahora tenemos no está superiormente P acotada ni alcanza su máximo para P = 50, sino que tiende a infinito en la medida que P se aproxima a 0. Dicho de otro modo: cuando se prestablece el error en términos relativos, n0 crece en la medida que P disminuye, resultado que no nos puede sorprender, pues −como ya vimos en el ejemplo de los ciegos− es coherente con la intuición: si el rasgo cuya prevalencia se quiere estimar es muy poco frecuente, entonces el tamaño de muestra necesario ha de ser muy alto. En síntesis, la regla que se ha examinado es absurda porque olvida que el conocimiento previo del valor de la prevalencia es necesario no sólo para sustituirlo en la fórmula, sino también para poder fijar E0, «detalle» que la mágica sustitución de P por 50 no resuelve. Si no se tiene la menor idea de cuál es el valor de p, lo único sensato es procurar alguna información al respecto usando un tamaño muestral elegido sin emplear fórmula alguna. Consideraciones conexas a las que se acaban de abordar pueden hallarse en la Sección 3.8.7.

12.8.3. Diseños convertidos en un esfuerzo estéril Con frecuencia se realiza un diseño probabilístico (a veces complejo), pero luego no se calculan errores de muestreo, o se hacen vagas declaraciones en torno a ellos. Es decir, se trabaja con rigor en la fase de diseño, se acude incluso a

REFLEXIONES CRÍTICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA

319

un especialista con el fin de conseguir que la muestra sea probabilística, pero en la fase de análisis se prescinde del cálculo de errores. Se reducen así los esfuerzos iniciales a un formalismo. Probablemente, quienes así se conducen creen erróneamente (véase Sección 1.7) que al hacer un diseño formal con participación del azar están insuflando representatividad a la muestra, cuando lo único que asegura tal procedimiento es la objetividad del muestrista y la posibilidad de estimar el grado de precisión de las estimaciones. No es raro encontrar afirmaciones como ésta: «los porcentajes de esta encuesta se han estimado dentro de márgenes de error inferiores al 5%». Cabe preguntarse: ¿qué se quiere decir con tal afirmación? ¿Significa que el error relativo es para todas las estimaciones inferior a la vigésima parte de los respectivos valores puntuales? Si es así, hay que decirlo con toda claridad17. Si se trata de que es el error absoluto el que no excede el 5%, probablemente no haya motivo alguno para el regocijo, ya que cualquier característica cuya presencia se haya estimado por debajo del 30% estaría afectada por un error relativo posiblemente muy grande, y quizás enorme. En cualquier caso, así formulada, se trata de una información borrosa y equívoca, y no es improbable que tal afirmación concierna exclusivamente a la variable elegida para determinar el tamaño muestral. En una encuesta para evaluar actitudes sociales ante el SIDA entre el colectivo de trabajadores de la salud en España, por poner un ejemplo real, Arredondo, Coronado, De la Fuente y Luengo (1990) incurren en la omisión que nos ocupa. Se obtuvo una muestra estratificada bietápica de 1.325 trabajadores y se identificaron cuatro subclases, a saber: Médicos (491), Personal de Enfermería (399), Personal Auxiliar de Enfermería (389) y Asistentes Sociales (46). A lo largo del texto no se trabaja con errores de muestreo ni con intervalos de confianza. Al respecto, sólo se comunica textualmente lo siguiente: Los márgenes de error pueden aproximarse por las fórmulas habituales para muestreo aleatorio simple en el caso de distribuciones de variables con dos categorías igualmente distribuidas (p = q = 50%). A un nivel de confianza del 95% los errores de muestreo absolutos serían: Total de la muestra ........................... 2,7 % Médicos ............................................ 4,4% Personal de enfermería .................... 4,9% Personal Auxiliar de Enfermería...... 4,4%

Dicha declaración suscita en principio los siguientes dos comentarios críticos: 17

Incidentalmente, de ser ese el caso se estaría ante una magnífica encuesta.

320

DISEÑO RAZONADO DE MUESTRAS

a) Dado que se realizó un diseño complejo, no es correcto actuar como si se tratara de un MSA y aplicar esa aproximación que se afirma que «puede» hacerse y de hecho se hace. Nótese, por ejemplo, que 2.7% es el valor del error (fórmula [12.6]) cuando se tiene p = 50% con una muestra de 1.325 en MSA (trabajando con f = 0). b) ¿Por qué no se comunica el error que afecta a las estimaciones de porcentajes correspondientes a los asistentes sociales? Siguiendo los mismos cálculos que realizaron estos autores y teniendo en cuenta que el tamaño muestral en este caso es 46, para el mismo caso p = 50, dicho error ascendería a 14,6%. O sea. un número enorme (casi un 30% de error relativo), sin contar el hecho de que, en realidad, es aún más grande, ya que el muestreo no fue simple aleatorio. Si p = 7%, entonces −incluso para MSA− sería 7,4% (¡error relativo del 100%!). Por otra parte, el hecho de que no se mencione el error asociado a las estimaciones en este grupo, no quiere decir que luego éstas no se hagan: a lo largo del texto hay numerosas estimaciones circunscritas a esta subclase, así como juicios que reposan en las diferencias encontradas entre éstas y las que se hallaron en los otros grupos.

12.8.4. Sustitución mecánica de unidades A veces se sigue la táctica de suplir una unidad que no fue posible encuestar por la que ocupa el siguiente lugar de la lista o la que subsigue dentro de la zona en que se trabaja. Por ejemplo, una casa deshabitada que estaba en la muestra se sustituye por la siguiente vivienda habitada según cierto orden preestablecido. Tal práctica debe evitarse, porque rompe con la estructura probabilística establecida. Imaginemos una situación muy simple: se quiere seleccionar una muestra sistemática con intervalo K = 4 de una población de N = 20 viviendas: supongamos que la regla preestablecida sea tomar la siguiente vivienda cada vez que se tropiece con una deshabitada y que en nuestro listado la tercera vivienda tenga esa condición. De tal suerte, la probabilidad de selección de la cuarta vivienda sería la suma de su probabilidad inicial (0,25) y la de la tercera vivienda (0,25). A la cuarta vivienda se le está otorgando la probabilidad de selección que inicialmente se le había asignado, más la de la unidad precedente, debido a que no se pudo localizar o a que no procedía encuestarla. Siendo así, las unidades próximas a las «conflictivas» aumentan indebidamente su presencia en la muestra, con lo cual pueden sesgarse los resultados. La conducta técnicamente correcta es la de no hacer sustitución alguna, sino retener en la muestra solamente a los que, habiendo sido elegidos, son también localizados y encuestados. Asociada a la idea de sustituir unidades mecánicamente, se halla otra, a la vez más perniciosa y aun más frecuente: determinar un tamaño muestral e ir selec-

REFLEXIONES CRÍTICAS SOBRE LA PRÁCTICA MUESTRAL CONTEMPORÁNEA

321

cionando elementos de un listado hasta que se alcance dicho tamaño. Es evidente que, actuando de ese modo, se pierde el control probabilístico del proceso; por decirlo rápido, las unidades que se hallan al final del listado tienen probabilidad mínima o nula de ser elegidas, en tanto que las primeras saldrán con certeza total o casi total.

12.8.5. Rutas aleatorias Con alguna frecuencia las empresas que se ocupan de encuestas (raras veces en el marco de la investigación científica de salud) mencionan en sus fichas técnicas que se han empleado las llamadas «rutas aleatorias» dentro del diseño. Supuestamente, se trata de la aplicación del azar para determinar los movimientos sobre el terreno de los encuestadores, de manera que se produce una especie de random walk; a partir de tales rutas, ellos siguen ciertas reglas de conducta, muchas veces difusas, para decidir las viviendas que han de encuestarse. El procedimiento carece de un marco teórico claro y abre evidentes conflictos en materia de control del carácter probabilístico de la muestra, generando la consiguiente suspicacia en materia de sesgos. Autoridades de fama mundial, como Leslie Kish, no sólo han desestimulado y criticado el uso de este recurso, sino que han instado a las empresas a «responder» a tales señalamientos (Kish, 1994).

Bibliografía ABC. La macroencuesta del CIS encargada por el Gobierno reconoce al PP una ventaja de más de 50 escaños. Madrid: 14 de febrero, pág 22. 1996. Alien JD, An overview of imputation procedures. (Staff Report SMB90-06. US Department of Agriculture, Washington, DC), 1990. Argimón JM, Jiménez J. Métodos de investigación: Aplicados a la atención primaria de salud. Barcelona: Doyma, 1991. Arredondo C, Coronado A, de la Fuente M, Luengo S. Actitudes sociales ante el SIDA entre el colectivo de trabajadores de la salud. Madrid: Ministerio de Sanidad y Consumo. 1990. Azorín F. Sánchez-Crespo JL. Métodos y aplicaciones del maestreo. Madrid: Alianza. 1986. Campbell MJ. Sample sized in audit. British Medical Journal 1993: 307: 735-736. Carvajal A. García JL, Holgado E, Velasco A. Consumo de drogas en una muestra de médicos rurales de Valladolid. Medicina Clínica 1984; 83: 444-446. Church AH. Estimating the effect of incentives on mail survey response rates: A metaanalysis. Public Opinion Quarterly 1993; 57:62-79. Davidoff F (ed). Standing Statistics Right Side Up. Annals of Internal Medicine 1999:730:1019-1021.

322

DISEÑO RAZONADO DE MUESTRAS

Dillman D, Gallegos JG, Frey J. Reducing refusal rates for telephone interviews. Public Opinión Quarterly 1976; 40: 6678. Domenech JM. Métodos estadísticos en ciencias de la salud. Unidad Didáctica 5. Barcelona: Gráficas Signo. 1990. Eaton WW, Anthony JC, Tepper S. et al. Psychopathology and attrition in the catchment area study. American Journal of Epidemiology 1992: 135: 1051-1059. El País. Triunfo claro de Amar en el primer debate. 26 de mayo, página 15. Madrid. 1993. El País. Barómetro de otoño. 30 de noviembre, página 18. Madrid, 1997. El País. Los votantes del PSOE creen que ganará Almunia. 27 de marzo, página 15. Madrid. 1998a. El País. Borrell aventajaría a Aznar por 10 puntos. 26 de abril, página 19, Madrid. 1998b. Elveback LR, Guillier CL, Keating FR. Health, normality, and the ghost of Gauss. Journal of the American Medical Association 1970: 211: 69-75. Erdos P. Profesional mail surveys. New York: McGraw Hill. 1970. Fay, RE. Alternative paradigms for the analysis of imputed survey data. Journal of the American Statistical Association 1996; 91: 490-498. García C. Almenara P. Determinación del tamaño de muestra en variables cualitativas en las que se desconoce el valor del parámetro. Medicina Clínica.\999: 112: 797-798. González ME, Ogus JL. Shapiro G. Tepping. BJ. Standards for discussion and presentation of errors in survey and census data. Journal of the American Statistical Association 1975: 70. Number 351. Part II. Goodman SN. Toward evidence-based medical statistics. 1: The P value fallacy. Annals of Internal Medicine 1999; 130:995-1004. Gor F. La verdad de las encuestas. Madrid: El País, 4 de enero. 1988. Hagood MJ. Statistics for sociologists. New York: Reynal and Hitchcock. 1941. Hansen MH. Hurwitz WN. The problem of nonresponse in sample surveys. Journal of the American Statistical Association 1946; 41: 516-529. Hansen MH. Hurwitz WN. Madow WG. Sample survey methods and theory. New York: Wiley and sons. 1953. Hsieh FY. Sample size tables for logistic regression. Statistics in Medicine 1989;