Evaluación de la calidad de los sistemas de información
 9788497568777, 849756877X

Citation preview

EVALUACIÓN DE LA CALIDAD DE LOS SISTEMAS DE INFORMACIÓN

PROYECTO EDITORIAL CIENCIAS DE LA INFORMACIÓN Área de publicación: BIBLIOTECONOMÍA Y DOCUMENTACIÓN Coordinador: José López Yepes

Queda prohibida, salvo excepción prevista en la ley, cualquier forma de reproducción, distribución, comunicación pública y transformación de esta obra sin contar con autorización de los titulares de la proNO fotocopies el libro piedad intelectual. La infracción de los derechos mencionados puede ser constitutiva de delito contra la propiedad intelectual (arts. 270 y sigs. Código Penal). El Centro Español de Derechos Reprográficos (www.cedro.org) vela por el respeto de los citados derechos.

EVALUACIÓN DE LA CALIDAD DE LOS SISTEMAS DE INFORMACIÓN M.ª Francisca Abad García

Consulte nuestra página web: www.sintesis.com En ella encontrará el catálogo completo y comentado

© M.ª Francisca Abad García

© EDITORIAL SÍNTESIS, S. A. Vallehermoso, 34 - 28015 Madrid Teléf.: 91 593 20 98 http://www.sintesis.com ISBN: ISBN: 978-84-975687-7-7 978-84-9756-- Impreso en España - Printed in Spain

Reservados todos los derechos. Está prohibido, bajo las sanciones penales y el resarcimiento civil previstos en las leyes, reproducir, registrar o transmitir esta publicación, íntegra o parcialmente, por cualquier sistema de recuperación y por cualquier medio, sea mecánico, electrónico, magnético, electroóptico, por fotocopia o por cualquier otro, sin la autorización previa por escrito de Editorial Síntesis, S. A.

A Gabriela y José María

ÍNDICE

PRESENTACIÓN ...............................................................................................

13

PARTE I FUNDAMENTOS

1. CONCEPTO Y PAPEL DE LA EVALUACIÓN ...................................

17

1.1. Introducción ............................................................................................ 1.2. Concepto de evaluación ......................................................................... 1.3. Objetivos de la evaluación .................................................................... 1.3.1. Medir la consecución de objetivos ............................................ 1.3.2. Disponer de un instrumento para diagnosticar los puntos débiles del funcionamiento ......................................................... 1.3.3. Facilitar el proceso de la toma de decisiones ........................... 1.3.4. Permitir la comparación entre sistemas mediante la construcción de estándares de referencia ............................. 1.3.5. Justificar la existencia de los servicios y sistemas de información ............................................................................. 1.4. Papel de la evaluación en el ciclo vital de los sistemas de información ........................................................................................ 1.4.1. Fase de planificación ................................................................... 1.4.2. Fase de viabilidad ........................................................................ 1.4.3. Fase de diseño .............................................................................. 1.4.4. Fase de implantación ................................................................... 1.4.5. Fases de funcionamiento y evaluación ..................................... 1.5. Clasificación de la evaluación ...............................................................

17 18 19 20 20 21 21 22 22 23 24 25 27 28 30

8

Evaluación de la calidad de los sistemas de información

1.6. Rasgos de la evaluación ......................................................................... 33 1.7. Factores relacionados con el desarrollo de la evaluación de los sistemas de información ............................................................. 34 Bibliografía ...................................................................................................... 37

2. EL MÉTODO GENERAL DE LA EVALUACIÓN .............................

39

2.1. Introducción ............................................................................................ 2.2. Fases del método de la evaluación ....................................................... 2.2.1. Obtener los datos sobre la situación actual .............................. 2.2.2. Determinar los criterios de la evaluación ................................. 2.2.3. Concepto y tipos de indicadores ................................................ 2.2.4. Técnicas para la recogida de datos ............................................ 2.2.5. Comparación de los datos obtenidos con una situación de referencia o patrón ................................................................. 2.2.6. Averiguar el origen de las discrepancias encontradas ............ 2.2.7. Establecer acciones y recomendaciones ................................... Bibliografía ......................................................................................................

39 41 41 42 43 49

3. TÉCNICAS DE RECOGIDA DE DATOS .............................................

59

3.1. Introducción ............................................................................................ 3.2. Técnicas cuantitativas ............................................................................ 3.2.1. Los cuestionarios ......................................................................... 3.2.2. La recogida sistemática de datos ............................................... 3.3. Técnicas cualitativas ............................................................................... 3.3.1. La entrevista en profundidad ..................................................... 3.3.2. La observación ............................................................................. 3.3.3. Las técnicas de consenso: la técnica del focus group o grupo focal ............................................................................................... 3.3.4. Análisis de documentos .............................................................. 3.4. La Técnica del Incidente Crítico .......................................................... Bibliografía ......................................................................................................

59 60 61 66 67 70 71 73 74 75 77

4. EVALUACIÓN DE LA CALIDAD .........................................................

79

49 54 56 56

4.1. Introducción ............................................................................................ 79 4.2. Concepto de calidad ............................................................................... 80

Índice

4.3. Modelo de sistema de información para la evaluación ..................... 4.4. Perspectivas para definir los atributos de calidad de los sistemas de información ........................................................................................ 4.4.1. Criterios e indicadores de calidad de los sistemas de información desde una perspectiva operativa .................... 4.4.2. Criterios e indicadores de calidad desde la perspectiva del usuario .................................................................................... Bibliografía ......................................................................................................

9 80 84 84 89 92

PARTE II EVALUACIÓN DE LA CALIDAD DESDE LA PERSPECTIVA OPERATIVA DE LOS SISTEMAS DE INFORMACIÓN

5. EVALUACIÓN DEL INPUT .....................................................................

97

5.1. Introducción ............................................................................................ 5.2. Estudio del alcance y continuidad de la cobertura ............................ 5.3. Evaluación de la exhaustividad de la cobertura ................................. 5.3.1. Obtención del indicador de exhaustividad de la cobertura ... 5.3.2. Interpretación de los resultados ................................................ 5.4. Evaluación del solapamiento y exclusividad de la cobertura de dos o más sistemas de información ............................................................. 5.4.1. Obtención de los indicadores ..................................................... 5.4.2. Limitaciones y utilidad de los indicadores ............................... 5.5. Evaluación de la actualización y de la puntualidad ........................... Bibliografía ......................................................................................................

97 99 101 102 105 108 109 114 117 121

6. EVALUACIÓN DEL PROCESO DOCUMENTAL .............................. 123 6.1. Introducción ............................................................................................ 6.2. Evaluación del análisis formal .............................................................. 6.2.1. Evaluación de la falta de consistencia en la aplicación de las normas de transcripción ................................................... 6.2.2. Evaluación de los errores ortográficos y tipográficos ............. 6.3. Evaluación de la indización ................................................................... 6.3.1. Evaluación de la calidad en la indización .................................

123 124 125 126 130 132

10

Evaluación de la calidad de los sistemas de información

6.3.2. Evaluación de la consistencia o reproducibilidad de la indización ............................................................................ 136 Bibliografía ...................................................................................................... 140

7. EVALUACIÓN DE LA RECUPERACIÓN ........................................... 143 7.1. Introducción ............................................................................................ 7.2. Concepto y tipos de relevancia ............................................................. 7.2.1. Tipos de relevancia ...................................................................... 7.2.2. Niveles de relevancia ................................................................... 7.3. Contextos de la evaluación y de la recuperación ............................... 7.3.1. Evaluación de la eficacia en un entorno experimental ........... 7.3.2. Evaluación de la recuperación en entornos reales u operativos .................................................................................. Bibliografía ......................................................................................................

143 145 145 147 147 148 154 165

PARTE III EVALUACIÓN DE LA CALIDAD DESDE EL PUNTO DE VISTA DEL USUARIO

8. EVALUACIÓN DE LA SATISFACCIÓN DE LOS USUARIOS ...... 8.1. Introducción ............................................................................................ 8.2. Concepto y naturaleza de la satisfacción ............................................. 8.3. Método para la valoración de la satisfacción ...................................... 8.3.1. Identificación de las dimensiones de calidad ........................... 8.3.2. Confección del cuestionario: Traducción de las dimensiones de calidad en preguntas y selección del formato de las respuestas ........................................................................... 8.3.3. Evaluación de la fiabilidad y validez del cuestionario ............ 8.4. Utilidad práctica ..................................................................................... Bibliografía ......................................................................................................

171 171 174 177 178

180 182 184 185

9. EVALUACIÓN DE LOS RESULTADOS ............................................... 189 9.1. Introducción ............................................................................................ 189 9.2. Qué es la evaluación de los resultados ................................................ 192

Índice

9.3. Tipos de resultados y niveles para su valoración ............................... 9.4. Dimensiones para la evaluación de los resultados de los sistemas de información ........................................................................................ 9.5. Métodos para la evaluación de los resultados .................................... 9.5.1. Cuestionarios y entrevistas ......................................................... 9.5.2. Análisis coste-beneficio .............................................................. 9.5.3. Método de simulación ................................................................. 9.5.4. Paneles de usuarios ..................................................................... Bibliografía ......................................................................................................

11 192 193 195 195 197 200 200 201

PRESENTACIÓN

En los últimos años el interés por la calidad ha ido en aumento en el contexto de la Biblioteconomía y Documentación ya que se trata de un requisito imprescindible para la supervivencia y competitividad de los servicios y de los productos informativos. En este contexto se está generando abundante literatura que aborda el tema de la calidad desde distintos ángulos, como el de las políticas de calidad, estilos de gestión, normas de calidad, etc. En concreto, esta monografía trata este tema mostrando el método que poseemos los profesionales para poner en evidencia si los sistemas de información que manejamos cumplen los requisitos de calidad establecidos. Esta monografía está concebida como un manual básico, dirigido a los alumnos de los estudios de Biblioteconomía y Documentación y a los profesionales. Sus contenidos están orientados a mostrar al lector los entresijos del método de la evaluación. No se pretende con esto convertirlo en un evaluador, sino darle a conocer el modo en el que se realizan estas investigaciones para fomentar una lectura más crítica de los trabajos donde se presentan los resultados de una evaluación y promover la incorporación de estos resultados a su toma de decisiones. Como manual introductorio se ha puesto un especial énfasis en sentar las bases conceptuales. De este modo, la primera parte del libro, cuya extensión equivale prácticamente a la mitad del mismo, está formada por cuatro capítulos en los que se abordan los fundamentos del método de la evaluación. En esta parte se desgranan el concepto, los objetivos y el papel de la evaluación, así como se exponen detalladamente el método para su puesta en práctica, las principales características de las técnicas utilizadas para la recogida de datos y los

14

Evaluación de la calidad de los sistemas de información

parámetros de referencia que definen la calidad de un sistema de información. La segunda y la tercera parte de la monografía están dedicadas a describir pormenorizadamente la puesta en marcha de las investigaciones llevadas a cabo para evaluar la calidad de los principales aspectos de los sistemas de información. Así, la segunda está centrada en los aspectos operativos de la evaluación de la calidad de los componentes de un sistema de información, y la tercera y última parte lo está en la evaluación de los sistemas de información desde una perspectiva más global basada, sobre todo, en la opinión del usuario. En cuanto a la bibliografía, además de las citas en texto, el apoyo bibliográfico utilizado tiene sólo como misión poner al alcance del lector un ejemplo práctico de aquello que se explica. Por este motivo, muchas veces las referencias que acompañan a cada uno de los capítulos no son abundantes y no reflejan ni por asomo lo publicado sobre el tema. Cierto es que aumentan a medida que el tema tratado es más novedoso. De este modo, los aspectos metodológicos o de la investigación más consolidados han recibido un número menor de citaciones que los temas de incorporación más reciente al espectro de la evaluación. Los contenidos de este libro vienen a complementar la oferta, poco abundante por cierto, de monografías que sobre este tema existen en el panorama español. Entre ellas cabe mencionar la inestimable obra de Lancaster dedicada a la evaluación de bibliotecas y la monografía del profesor Fuentes, también dedicada a la evaluación de bibliotecas y centros de documentación y que podría considerarse como antecedente de ésta, que lleva por título Investigación evaluativa en Documentación: su aplicación a la Documentación Médica. Sin duda quien haya leído esta última puede encontrar semblanzas con la presente, e incluso puede reconocer fragmentos que se han reproducido. Sin embargo, el lector de ambas tendrá que convenir conmigo que ni su propósito, orientación, contenido ni audiencia son lo mismos. Cabe por último comentar que este libro es moralmente una obra colectiva, pese a estar firmado por un solo autor. Los autores anónimos que la sustentan pueden englobarse en tres grandes categorías: los que ayudan, los que apoyan y los que no molestan. Entre los primeros quiero señalar la inestimable e infatigable colaboración de la profesora Aurora González Teruel y la ayuda recibida de Celeste Martínez, Vanesa Armengol, Lluis Sanjuán, Rosa Perea y Alfons Herraiz. A estas personas y a muchas otras que no he mencionado, gracias.

PARTE I

FUNDAMENTOS

1

CONCEPTO Y PAPEL DE LA EVALUACIÓN

1.1. Introducción Cuando se plantea por primera vez el estudio de la materia de evaluación de sistemas y servicios de información, se suele pensar que nos vamos a enfrentar a un tema completamente nuevo, sin sospechar lo conocidas que resultan para la mayoría de las personas situaciones donde sistemáticamente se manejan los principios y procedimientos que caracterizan al proceso evaluador. Para poner esto de relieve se utilizará como ejemplo el análisis de dos circunstancias que son familiares casi para cualquier individuo: la realización de un examen y someter un vehículo a la Inspección Técnica de Vehículos (ITV). A partir de este análisis se introducirá el concepto general de evaluación que posteriormente será aplicado al contexto de los sistemas de información. En el primer caso se trata de un proceso en el que se desea poner en evidencia la adquisición de conocimientos por parte de un alumno sobre una determinada materia. Los conocimientos serán juzgados por el examinador contrastando lo contestado por el alumno con un “modelo” de referencia constituido habitualmente por los contenidos impartidos en clase, la bibliografía cuya lectura se ha recomendado, etc. Cuando lo contestado por el alumno coincide con aquello que debía contestar de acuerdo con el modelo de referencia, el juicio del examinador es positivo y el alumno aprueba el examen. Cuanto más se parezca la respuesta al modelo de referencia, mejor será la puntuación obtenida. Cuando no exista esa coincidencia, el juicio de valor será negativo y el alumno suspenderá el examen. Como consecuencia, deberán realizarse acciones encaminadas a resolver esa situación (volver a estudiar, volver

18

Parte I: Fundamentos

a examinarse, etc.) y probablemente el alumno recibirá recomendaciones para mejorar el aprendizaje. En el caso de la ITV se trata de un proceso mediante el que se intenta poner en evidencia si un determinado vehículo cumple unos estándares de referencia (que se especifican en la normativa vigente) que lo hacen apto para la circulación. El cumplimiento de tales estándares se juzgará inspeccionando las condiciones de cada una de las piezas y componentes del coche cuya revisión esté marcada por la ley. Las características y funcionamiento real de cada uno de los componentes se contrastan con el modo en el que éstas deberían funcionar según dicta la normativa de la ITV. Cuando el estado del vehículo cumple dicha normativa, la revisión se salda con un certificado de aptitud para la circulación. Cuando existen diferencias, este certificado no puede obtenerse hasta que las anomalías detectadas se hayan subsanado llevando a cabo las acciones pertinentes en cada caso (cambio de neumáticos excesivamente desgastados, alineamiento de faros, etc.). Lo que tienen en común estas dos situaciones es que se trata de evaluaciones que se realizan de acuerdo con un modo de actuación similar. Lo único que cambia en cada ocasión es el objeto evaluado. Si nos damos cuenta, en las circunstancias descritas de lo que se trata es de pronunciar un juicio de valor acerca del cumplimiento de unas determinadas expectativas. Estas expectativas quedan definidas por unos modelos de referencia o estándares predefinidos (por ejemplo, los contenidos de un libro de texto, los grados de alineación correcta de los faros del coche, etc.). La medición de la diferencia entre lo que sucede y ese modelo de referencia es lo que marca en cada momento el resultado de ese juicio de valor y lo que también determinará las acciones y recomendaciones que pudieran derivarse. Esto que se acaba de exponer refleja la esencia de lo que se conoce como el proceso evaluador. En nuestro caso, este proceso lo aplicaremos al caso concreto de los sistemas de información como medio para diagnosticar de una forma objetiva cómo están funcionando y para poner en evidencia sus fortalezas y también las debilidades que deberemos modificar para mejorar.

1.2. Concepto de evaluación Los ejemplos anteriores son de gran utilidad para ilustrar el sentido de la definición que, de un modo más formal, proporciona el Diccionario de la Real Academia de la Lengua Española para el término “evaluación”. Según esta fuente, la evaluación se define como la “acción y efecto de evaluar”, proporcionando dos significados para el término “evaluar”: “señalar el valor de una cosa” y “estimar el valor de una cosa”. En esta definición queda implícito el que para

Capítulo 1: Concepto y papel de la evaluación

19

poder valorar algo deberemos medir de una forma u otra y que esa medición, como ha quedado patente en los ejemplos anteriores, no se refiere sólo a la obtención de datos sobre una determinada situación, sino que hace referencia a la medición de diferencias entre situaciones. Para la asignación de un valor a un objeto o a una situación, es necesario tener un referente respecto del que decir si, por ejemplo, un objeto es caro o barato, bonito o feo, grande o pequeño. De este modo, en la evaluación la medida es sólo uno de sus componentes y el juicio de valor se obtiene de interpretar la diferencia que resulta de la comparación de dos medidas: la que es y la que debería ser o, lo que es lo mismo, la que es y una expectativa de resultado. Las medidas por ellas mismas no son buenas ni malas, son simplemente el reflejo de una situación. El significado de las mismas dependerá de lo que se considere como lo que “tendría que ser” (Van House et al., 1990). De una forma muy general podríamos concluir que la evaluación es aquel proceso mediante el cual se intenta obtener un juicio de valor o una apreciación de la bondad de un objeto, de una actividad, de un proceso o de sus resultados (Swanson, 1975). Esto supone la puesta en práctica de un procedimiento con el que destacar las cualidades, ventajas y debilidades de aquello que se evalúa. En el caso que nos ocupa, alguna cualidad de un sistema de información, de sus componentes, alternativas o, entre otros, de sus efectos.

1.3. Objetivos de la evaluación El desarrollo de líneas de investigación sobre evaluación corre paralelo a la madurez de una disciplina pues significa la adquisición, por parte de los profesionales, de la capacidad de ser críticos con su trabajo y con los resultados que de este se derivan. Farradane (1974) señala los años sesenta como fecha de comienzo de la consolidación de la Documentación como disciplina científica. De principios de los sesenta datan también unas de las evaluaciones más tempranas y emblemáticas llevadas a cabo en Documentación. Se trata de los experimentos de Cranfield dirigidos por Cleverdon (1967) con el fin de determinar la eficacia en la recuperación de distintos tipos de lenguajes de indización. Estas evaluaciones tuvieron una gran repercusión al sentar unas sólidas bases para el desarrollo de la Documentación y particularmente de la línea de investigación de Recuperación de Información. Su aportación se debió no tanto a la envergadura de las investigaciones y a la relevancia de los resultados obtenidos, sino al establecimiento de la necesidad de que los méritos atribuidos a una determinada técnica o procedimiento, en este caso concreto la eficacia de diferentes tipos de sistemas de indización, debían ser demostrados

20

Parte I: Fundamentos

científicamente y que la adopción de una u otra técnica debía estar basada en datos objetivos y no en opiniones ni en la voz de la experiencia. Las razones para poner en marcha una evaluación son variadas, pero probablemente la mayoría de ellas podría incluirse bajo uno de los cinco epígrafes siguientes: 1. Medir la consecución de los objetivos previamente establecidos. 2. Disponer de un instrumento para diagnosticar los puntos débiles en el funcionamiento. 3. Facilitar el proceso de la toma de decisiones. 4. Permitir la comparación entre sistemas mediante la construcción de estándares de referencia. 5. Justificar la existencia de los servicios y sistemas de información.

1.3.1. Medir la consecución de objetivos Esta función la cumplen sobre todo las evaluaciones encaminadas a determinar la eficacia, la eficiencia o, por ejemplo, el impacto de un determinado servicio o sistema de información. Este cometido coincide prácticamente con la definición que de la evaluación da la norma UNE 50137: “la evaluación es la estimación de la eficacia, eficiencia, utilidad y relevancia”. En este sentido se trata de investigaciones planteadas para dar respuesta a preguntas de la siguiente índole: – – – – – –

¿Funciona el sistema de acuerdo con sus objetivos operativos? ¿Es el sistema coste efectivo? ¿Produce el sistema los efectos deseados? ¿Funciona el sistema mejor que los procedimientos a los que sustituye? ¿Tiene el sistema algún impacto en los usuarios? ¿Tiene el sistema algún impacto en la organización?

1.3.2. Disponer de un instrumento para diagnosticar los puntos débiles del funcionamiento Éste y el anterior serán probablemente los cometidos que con mayor frecuencia impulsen la realización de evaluaciones. Para la gestión de los servicios y de los sistemas de información es importantísimo saber si los procesos implicados en la producción y provisión de los productos se realizan correctamente de acuerdo con las normas y parámetros preestablecidos. En esta línea, por

Capítulo 1: Concepto y papel de la evaluación

21

ejemplo, se plantean evaluaciones para dar respuestas a preguntas similares a las siguientes: – ¿Cumple la información que maneja el sistema los requisitos de calidad necesarios para producir los resultados deseados? – ¿Se llevan a cabo con corrección las operaciones documentales en el sistema? – ¿Contiene el sistema toda la información necesaria para dar respuesta a las necesidades de los usuarios?

1.3.3. Facilitar el proceso de la toma de decisiones Al hilo de lo comentado con relación a la aportación de los experimentos de Cranfield, otra de las razones fundamentales para poner en práctica evaluaciones es obtener información que ayude a tomar decisiones basadas en datos lo más objetivos posibles y no en opiniones, suposiciones o en la fuerza de la jerarquía. Estas decisiones pueden ser de variada índole, como por ejemplo: – – – – –

Continuar o suprimir el servicio que se evalúa. Añadir o desechar técnicas y procedimientos. Modificar estrategias. Establecer nuevos sistemas de información. Aceptar la introducción de nuevas teorías o técnicas.

1.3.4. Permitir la comparación entre sistemas mediante la construcción de estándares de referencia De acuerdo con los grandes objetivos que se han enumerado hasta el momento, se puede apreciar que la evaluación cumple una importante función desde la perspectiva de la toma de decisiones y desde la del análisis de la realidad de los servicios y sistemas de información concretos. Además de ello, hay que tener en cuenta que la evaluación puede cumplir también un papel esencial en la comparación del funcionamiento entre servicios y sistemas de información similares, de modo que los resultados de evaluaciones de aspectos concretos pudieran servir para la creación de estándares de referencia que permitieran la comparación de unos sistemas con otros. En este sentido Manuela de la Mano (1998) se refiere, en el contexto de las bibliotecas, a la evaluación endógena y a la evaluación exógena, para diferenciar el papel que cumple la evaluación para determinar el cumplimiento de las metas y objetivos de una biblio-

22

Parte I: Fundamentos

teca en particular, del que puede cumplir cuando se evalúa el rendimiento de una biblioteca respecto de otras de similar naturaleza. Disponer de este tipo de estándares de funcionamiento permitirá saber a una biblioteca si su rendimiento es mejor, igual o peor que otras de su mismo tipo.

1.3.5. Justificar la existencia de los servicios y sistemas de información Otro de los objetivos de la evaluación es poner de manifiesto el valor de un determinado sistema de información con la finalidad de defender su continuidad o para apoyar la solicitud de recursos (económicos, de personal, de espacio, etc.) que permitan su mantenimiento o una mejora de los servicios prestados. Se defenderá el valor, tanto poniendo en evidencia que el sistema cumple con sus objetivos y que el nivel de los productos ofertados es bueno (calidad operativa), como desde la óptica de que el sistema satisface al colectivo de usuarios al que va destinado el sistema. La probabilidad de defender con éxito la continuidad de un sistema de información será mayor si, además de funcionar correctamente, se es capaz de demostrar, mediante la presentación de indicadores objetivos, que se trata de un sistema que se utiliza en un grado aceptable, que los usuarios están satisfechos, que la información que proporciona mejora la realización de sus tareas y que, en definitiva, resulta de gran beneficio para la organización en su conjunto.

1.4. Papel de la evaluación en el ciclo vital de los sistemas de información Al igual que los seres vivos, los sistemas y servicios de información tienen ciclos vitales configurados por fases que se suceden unas a otras, cada una de las cuales tiene un cometido distinto. La denominación de ciclo vital pone en evidencia que los sistemas de información se gestan, desarrollan, llegan a su madurez y desaparecen o se transforman. Durante todo este tiempo deberán existir sometidos a la extremada presión que supone la necesidad de una continua adaptación a los cambios de su entorno. En este sentido, la herramienta de la que nos valdremos para saber cuándo debemos cambiar y qué debe ser cambiado es la evaluación. Las fases que definen el ciclo vital de los sistemas de información son (figura 1.1): – – – –

Planificación. Viabilidad. Diseño. Implantación.

Capítulo 1: Concepto y papel de la evaluación

23

– Rutina. – Evaluación. Para cada una de estas fases se expondrán sus cometidos generales y el papel específico que puede jugar la evaluación en su cumplimiento (que se resumirá al final de este epígrafe en el cuadro 1.1). El objetivo que se persigue es poner en evidencia que la evaluación no es una fase aislada en el ciclo del sistema, sino que tiene una función específica prácticamente en todas las que lo componen.

Planificación Evaluación

Rutina

Sistema de información

Implantación

Viabilidad

Diseño

C

A

M B I

O

Figura 1.1. Fases del ciclo vital de un sistema de información.

1.4.1. Fase de planificación La fase de planificación tiene como cometidos determinar los propósitos y objetivos que deben ser alcanzados por el sistema proyectado, especificar los productos informativos concretos que éste debe proporcionar para satisfacer las necesidades del colectivo y de la organización a la que pretende servir y determinar las estrategias o planes de acción para su consecución, incluyendo, si es el caso, la selección o el desarrollo de herramientas específicas (informáticas o no) que formarán parte de sus componentes. Pese a ser la primera fase del ciclo, normalmente no se trata de un punto de partida ya que es poco frecuente que se planifique un sistema de información desde lo que podría denominarse punto cero. Es decir, un entorno caren-

24

Parte I: Fundamentos

te de sistemas de información o fuentes alternativas de características similares al sistema que se quiere establecer. Lo habitual es que se quiera poner en marcha un sistema de información y que existan otros de variada naturaleza en su entorno, o que se pretenda reorganizar uno ya existente en el que previamente se han detectado fallos. La contribución de la evaluación a la planificación dependerá de en qué situación nos encontremos. De este modo, si lo que se planifica es un nuevo sistema de información, la evaluación ayudará a determinar la posible redundancia del nuevo sistema de información con otros que ya existan en el entorno mediante el estudio comparativo de las características del sistema proyectado con las de los que ya están en funcionamiento. Los resultados servirán para poner de manifiesto las áreas comunes y las que lo diferencian, lo que permite argumentar el beneficio que supondría la incorporación de este nuevo sistema al espectro de los que ya se hallan en el medio. En el supuesto de la remodelación de un sistema ya existente, este papel es evidente si han sido los resultados de evaluaciones previas los que han puesto de manifiesto las áreas y aspectos del sistema que funcionan de forma defectuosa. La evaluación habría reiniciado el ciclo del sistema de información y la planificación partiría de las recomendaciones que se hayan establecido a partir de los resultados de la misma.

1.4.2. Fase de viabilidad La fase de viabilidad es aquella que actúa de intermediaria entre la de planificación y la de diseño. En la fase de planificación se trabaja en un plano teórico en el que se deben especificar formalmente las características que permitirían a un sistema de información un funcionamiento óptimo. Después, en la fase de diseño, se deberá trabajar en el terreno de lo posible pues es cuando se deberá diseñar el sistema de acuerdo con las condiciones económicas, de personal o espacio existentes. Los estudios que pueden proporcionar la respuesta sobre si lo mejor es lo posible se conocen como estudios de viabilidad. Los estudios de viabilidad se definen como investigaciones que determinan las ventajas, desventajas y la capacidad de llevar a cabo un plan, estudio o proyecto propuesto. Este tipo de estudios a veces recibe el nombre de estudio piloto. Los cometidos de la fase de viabilidad consisten en determinar si las estrategias propuestas para el logro de los propósitos y objetivos, previamente definidos para un sistema en la fase de planificación, son adecuadas y pueden llevarse a cabo con los medios disponibles y en las condiciones del entorno real donde éste debe ubicarse.

Capítulo 1: Concepto y papel de la evaluación

25

Por ejemplo, si en la fase de planificación se plantea que el sistema de información será accesible on line vía Internet para todos los usuarios, deberemos plantearnos al menos tres cuestiones antes de hacer definitiva esta decisión y diseñar el sistema con esta característica. La primera es si existe accesibilidad a la red desde todos los puntos de la organización, la segunda es si esta red soportaría el uso continuado y simultáneo del sistema, y la tercera, no menos importante, es si los usuarios poseen las habilidades y la formación adecuada para el uso autónomo del sistema. La fase de viabilidad constituye en si misma una evaluación del sistema proyectado. Los aspectos que se suelen evaluar en un estudio de viabilidad de un sistema de información son variados y responderán a las características de cada contexto en particular. De modo ilustrativo se expone a continuación una lista de preguntas cuya respuesta sería típica de un estudio de viabilidad: – ¿Existe en el entorno información en cantidad y calidad suficiente para garantizar una correcta cobertura del sistema? – ¿Se adaptan las estrategias para la obtención de información a la dinámica y prioridades de aquellos que deben producirla? – ¿Posee el personal existente la formación adecuada para llevar a cabo las tareas y procedimientos que se han establecido? – ¿Existe infraestructura tecnológica suficiente en el medio para soportar las características del sistema proyectado? – ¿Existen condiciones económicas suficientes soportar el logro de los objetivos que se proponen a corto, medio y largo plazo? – ¿Existen recursos materiales y de personal para poner en marcha el sistema proyectado? – ¿Poseen los usuarios una cultura informacional que les permita utilizar el sistema de información y sus servicios de forma autónoma? – ¿Las actitudes y las aptitudes de los usuarios con relación a los sistemas de información permiten prever la aceptación del sistema?

1.4.3. Fase de diseño La fase de diseño de un sistema de información recoge los planes de acción propuestos en la fase de planificación y los adapta a las recomendaciones derivadas del estudio de viabilidad. La fase de diseño trata de coordinar las características deseadas para el sistema con aquellas que se pueden conseguir dadas las condiciones reales existentes en el medio. Además del diseño del software, esta fase incluye el desarrollo de los flujos de información, de los procedi-

26

Parte I: Fundamentos

mientos y de las tareas a realizar, así como el establecimiento de las rutinas de trabajo (impliquen o no la utilización de la informática). La relación entre el diseño y la evaluación es indirecta pero necesaria, por varios motivos: primero, porque es el momento en el que se debe prever que el sistema de información se tendrá que evaluar posteriormente y, segundo, porque si se han de incluir mecanismos de control de calidad, éste será el momento de decidirlos y diseñarlos. Uno de los aspectos importantes para facilitar la evaluación de un sistema de información es que su funcionamiento se rija por unos objetivos operativos debidamente documentados y establecidos del modo más objetivo posible (valga la redundancia). Estos objetivos se establecerán definitivamente en la fase de diseño, que es cuando se especifican las condiciones reales en las que va a funcionar el sistema o servicio de información. En un futuro los objetivos de un sistema de información pueden actuar como patrón de referencia en la evaluación. Para que esto sea posible la definición de objetivos debe ser clara y expresarse siempre que sea posible en términos cuantificables. De este modo, no es suficiente especificar que el sistema debe ser puntual en la prestación de un servicio, sino que además se deben establecer los límites de tal puntualidad definiendo un intervalo de tiempo; por ejemplo, “la entrega se realizará en un plazo de 24 horas”. Cuando los objetivos quedan definidos de este modo se posibilita la evaluación posterior del sistema al disponer de parámetros de referencia. Los controles de calidad están enfocados al aseguramiento de calidad, es decir, a la generación de mecanismos y rutinas que eviten, en la medida de lo posible, que se cometan errores y, en el caso de que éstos se cometan, a detectarlos de forma precoz para que no tengan repercusión en la calidad del producto final. Los mecanismos de control de calidad afectan habitualmente al proceso de la información y pueden ser de variada naturaleza. Esto incluye desde el diseño de aplicaciones informáticas que no permitan dejar en blanco campos de cumplimentación obligada, hasta el diseño de procedimientos y tareas que incluyan de forma rutinaria la obtención de indicadores cuya misión es “dar la alarma” de una forma precoz ante situaciones anómalas. Un ejemplo de este tipo de control sería que se estableciera la previsión de que el sistema o servicio proporcionara de forma periódica estadísticas que permitieran el análisis de las variaciones en su utilización (n.º de usuarios, tipos de recursos utilizados, etc.). Estos tipos de indicadores básicos podrían detectar de forma rápida que “algo pasa” cuando sin motivo aparente el número de usuarios baja de una forma desproporcionada. Evaluación no es lo mismo que control de calidad. Sin embargo, los resultados del control de calidad pueden servir para enfocar aquellos aspectos del

Capítulo 1: Concepto y papel de la evaluación

27

sistema que deben ser evaluados en profundidad para conocer sus causas y poner soluciones para la mejora.

1.4.4. Fase de implantación La etapa inicial de funcionamiento, también llamada de implantación, es una fase de rodaje donde todos los componentes deben ser acoplados de tal forma que garanticen un funcionamiento adecuado del sistema de información en su rutina posterior. En esta fase los esfuerzos del sistema se dirigen, por una parte, a adecuar sus componentes (personas, procedimientos, máquinas) para que las tareas se lleven a la práctica de la forma más parecida posible a como se ha establecido en su diseño y, por otra, a integrar el sistema en el entorno de los usuarios al que va dirigido. Los resultados de determinadas evaluaciones pueden contribuir a mejorar la implantación de los sistemas de información en los dos frentes antes descritos. En cuanto a adecuar sus componentes, uno de los aspectos que más atención suele requerir cuando comienza a funcionar un sistema de información es el modo en el que se procesa la información. Para conocer si esto sucede así, los resultados de la evaluación de la coherencia y corrección del proceso documental serán de gran utilidad para detectar, desde el principio, posibles errores que aparecen, por ejemplo, por una mala comprensión de la política de indización, por falta de experiencia o como resultado de la baja cohesión del equipo de trabajo. Los resultados de estos estudios permitirán enfocar mejor la formación y el adiestramiento del personal en esas tareas y, entre otras cosas, cimentar progresivamente el funcionamiento de los miembros del equipo de trabajo. Así, por ejemplo, supongamos que se ha establecido un nuevo sistema de información en el que una de las tareas a desarrollar es la catalogación de recursos con una nueva clasificación. La lógica indica que en las fases iniciales es necesario evaluar la adecuación y la coherencia en la catalogación. Se tratará con esto de conocer si estas operaciones se llevan a cabo de acuerdo con las normas establecidas, sobre todo para ver dónde se producen los fallos, si éstos son aleatorios o se producen sistemáticamente cuando se dan determinadas circunstancias. La información así obtenida servirá para lograr una retroalimentación que mejore tanto la calidad en el proceso como el adiestramiento recibido. En esta fase, la evaluación tiene un claro componente formativo. Además del frente operativo, está el de la integración del sistema con sus usuarios. Desde este punto de vista, en la fase de implantación es muy importante evaluar la aceptación del sistema de información por sus usuarios potenciales y averiguar cómo esto se está traduciendo en uso del sistema. En este

28

Parte I: Fundamentos

sentido, la realización de estudios de uso enfocados a conocer qué segmentos de usuarios utilizan el sistema y cuáles no, y los motivos de no uso serán de gran utilidad para permitir que se diseñen acciones encaminadas a difundir la existencia y características del sistema y a formar al usuario para que le pueda sacar el máximo provecho.

1.4.5. Fases de funcionamiento y evaluación Un sistema de información está en fase de funcionamiento cuando ya ha superado su implantación, tiene una rutina fluida y una clientela más o menos fidelizada. Sus cometidos se fundamentan en el cumplimiento de las metas y objetivos que el sistema ha establecido y que generalmente se traducen en la generación de servicios y de productos informativos. En esta fase se encuentra la mayoría de los sistemas de información con los que tenemos contacto en nuestro entorno. Durante el período de funcionamiento o vida activa, es previsible que el sistema se evalúe una o más veces de tal forma que esta fase convive con la evaluación. Por este motivo es realmente cuestionable que la evaluación sea en sí misma una fase. El haberla considerado como tal obedece fundamentalmente a criterios de orden lógico de la exposición, ya que realmente la evaluación del sistema entraría dentro de los cometidos a realizar por todo sistema cuando éste lleva tiempo en funcionamiento. De una forma general podemos decir que la finalidad que persigue la evaluación en la fase de funcionamiento es determinar si el sistema de información cumple con las metas y objetivos propuestos y cómo los cumple. Las investigaciones en esta etapa pueden centrarse tanto en evaluar el comportamiento de los componentes del sistema de información como el de su funcionamiento global, ya sea desde una óptica operativa como desde la de la integración del sistema en el entorno de sus usuarios y de la organización. Desde el punto de vista de sus componentes, la evaluación puede centrarse en: – Evaluación del input del sistema, entendida como el estudio de las características y condiciones de los datos y de los documentos primarios que determinarán su cobertura. – Evaluación del proceso documental, referida a la organización y uso de los recursos de modo que sea posible la transformación del input en productos. En esta monografía se hará mención al proceso con referencia a las tareas y procedimientos puestos en práctica para la realización del análisis documental y para la actualización de la memoria del sistema.

Capítulo 1: Concepto y papel de la evaluación

29

CUADRO 1.1. Papel de la evaluación en el ciclo vital del sistema de información Fase

Cometidos

Papel de la evaluación

Planificación

Establecer misión, metas y Estudio comparativo entre el objetivos. sistema proyectado y sistemas ya Diseñar estrategias y planes existentes. de acción. Reactivación del ciclo.

Viabilidad

Conocer si existen las conPuesta en práctica de estudios diciones (recursos, infor- piloto. mación, características de Fase de evaluación intermelos usuarios, etc.) para poner dia entre la planificación y el en marcha el sistema proyec- diseño. tado.

Diseño

Desarrollo definitivo de las Relación indirecta con la evacaracterísticas del sistema. luación: – Establecimiento de los objetivos operativos. – Diseño de posibles mecanismos de control de calidad.

Implantación

Acoplar los componentes Papel formativo. del sistema. Formación del personal del sisIntegrar el sistema en el tema en la realización de tareas. entorno de sus usuarios. Conocimiento del uso y aceptación del sistema por sus usuarios para facilitar la difusión y formación en el uso del sistema.

Funcionamiento o rutina

Cumplir con los objetivos y Evaluación de los componenmetas propuestos. tes del sistema: – Input. – Proceso documental. – Recuperación. Evaluación del funcionamiento global: – Eficacia de recuperación. – Eficiencia. – Satisfacción. Evaluación de los resultados.

30

Parte I: Fundamentos

Desde el punto de vista del funcionamiento global del sistema, se puede plantear: – Evaluación de los productos (output) desde la perspectiva operativa del sistema. Se propone de este modo la evaluación de la eficacia en la recuperación entendida como la capacidad del sistema de proporcionar información relevante para el usuario. – Evaluación global del sistema desde la óptica de sus usuarios, entendida como la medida en la que el sistema satisface las necesidades y expectativas de sus usuarios. – Evaluación de los resultados del sistema, entendida como la valoración del impacto o beneficio que el sistema tiene para el usuario, la organización y la sociedad en su conjunto. Además, en los sistemas de información, la evaluación puede tratar aspectos de tipo financiero en lo tocante a la evaluación de recursos económicos, de personal, e incluso de espacio. En esta monografía estos aspectos no serán abordados. La realización de una evaluación normalmente no surge porque sí, pues se trata de una actividad costosa en tiempo, recursos y necesitada de personal con una formación específica; por eso, cuando se pone en práctica suele ser para dar cumplimiento a uno de los objetivos que detalladamente se han enunciado en el apartado 1.3. En muchas ocasiones lo que impulsa la realización de una evaluación y a centrarla en uno u otro aspecto de los que acabamos de enunciar serán los problemas que se han ido detectando en el día a día; por ejemplo, problemas de actualización del sistema que han ocurrido por situaciones varias (bajas de personal, discontinuidad de dotación económica, etc.), cambios frecuentes en el personal encargado del proceso documental que hacen sospechar una posible variabilidad en los criterios de indización, o quejas recibidas por parte de los usuarios. A la hora de detectar estos fallos, cobra especial importancia la información que proporcionan los mecanismos de control de calidad de los que puede estar dotado el sistema.

1.5. Clasificación de la evaluación A la evaluación se le pueden aplicar muchos calificativos según se considere el papel que desempeña, cuándo se realiza, quién la realiza, etc., lo que permite su clasificación según varias facetas, entre las que señalaremos el momento en el que se realiza, el papel que cumplen sus resultados, la procedencia del personal que lleva a cabo la evaluación, el método de recogida de datos, la perspectiva de la evaluación y, por último, el propósito de la misma.

Capítulo 1: Concepto y papel de la evaluación

31

Así, por ejemplo, para poner de relieve el momento en el que se evalúa, algunos autores clasifican la evaluación en tres categorías: evaluación ex ante o anterior, evaluación durante o simultánea y evaluación ex post o posterior (Fuentes, 1999; Herman, et al., 1987); categorías que guardan equivalencias con las fases del ciclo vital de un sistema de información antes apuntadas. De este modo, se habla de evaluación ex ante cuando se hace referencia a las investigaciones que tienen lugar en las fases previas de establecimiento de los sistemas de información (fases de planificación, viabilidad y diseño). Se refieren a evaluación simultánea cuando se trata de investigaciones llevadas a cabo durante el proceso de implantación. Finalmente, se utiliza la denominación de evaluación ex post cuando se alude a las evaluaciones llevadas a cabo en la fase de funcionamiento del sistema, en la que se analizan de forma pormenorizada los productos y resultados con relación a los objetivos planteados originalmente. Además, podemos encontrar también otras clasificaciones de la evaluación, esta vez relacionadas con la función que cumplen sus resultados. Según este criterio se establecen las categorías de evaluación formativa y evaluación sumativa. Una investigación será clasificada como formativa si el uso de los resultados tiene sobre todo una finalidad educativa. El caso más representativo es la evaluación llevada a cabo en las fases tempranas de implantación de los sistemas de información con la finalidad de llevar a cabo la formación y adiestramiento del personal implicado en la realización de tareas como, por ejemplo, la catalogación, la indización, etc. Por el contrario, cuando se habla de evaluación sumativa se hace referencia a aquella que se realiza en la fase de rutina del sistema con la finalidad de dar respuestas relacionadas con su funcionamiento (por ejemplo, la eficacia en la recuperación, puntualidad en la respuesta, etc.) Adicionalmente, la evaluación también puede clasificarse según quién la realice. De acuerdo con este criterio pueden considerarse las categorías de evaluación interna, evaluación externa o evaluación mixta. La evaluación interna es aquella en la que el personal implicado en el diseño, recogida y análisis de los datos está vinculado con el sistema de información que se evalúa. Por el contrario, en el caso de la evaluación externa esas tareas corren a cargo de especialistas no vinculados con la rutina del sistema. En el caso de la evaluación mixta, es evidente que en ella participa personal tanto vinculado como no vinculado con el sistema objeto de estudio. También es posible considerar como criterio clasificatorio la técnica de recogida de datos utilizada en la evaluación según el cual es posible considerar las categorías de evaluación cualitativa, en la que se encuadran aquellas investigaciones cuyas técnicas de recogida de datos son principalmente de tipo cualitativo (observación, entrevistas, estudios de caso, etc.), y de evaluación cuantitativa, que hace referencia a aquellas que utilizan principalmente técni-

32

Parte I: Fundamentos

cas cuantitativas de recogida de datos (cuestionarios, recogida sistemática de datos, etc.). Otra de las facetas que sirven para clasificar la evaluación es su orientación. Desde este punto de vista es posible clasificar la evaluación en evaluación operativa u orientada al sistema y evaluación orientada al usuario. La primera de ellas enfocará la evaluación a determinar las características y funcionamiento de los componentes del sistema y la calidad de sus productos. La segunda centrará su interés en la relación del usuario con el sistema e incluirá aspectos tales como el uso, la satisfacción o el impacto. Por ultimo, otro de los criterios que pueden considerarse para clasificar la evaluación es su propósito, de tal modo que cuando la evaluación persigue la obtención de indicadores de funcionamiento sobre un sistema en particular puede hablarse de evaluación endógena, mientras que cuando se realiza para poner en perspectiva el funcionamiento de un sistema o servicio en el contexto de otros de naturaleza similar entonces hablaremos de evaluación exógena (De la Mano, 1998). CUADRO 1.2. Clasificación de la evaluación Criterio

Tipo de evaluación

Momento

Planificación Viabilidad Diseño Implantación Funcionamiento

Momento

Ex ante (anterior) Durante (simultánea) Ex post (posterior)

Papel de la evaluación

Formativa Sumativa

Procedencia del personal implicado en la evaluación

Interna Externa Mixta

Técnica de recogida de datos

Cuantitativa Cualitativa

Orientación

Orientada al sistema Orientada al usuario

Propósito

Endógena Exógena

Capítulo 1: Concepto y papel de la evaluación

33

1.6. Rasgos de la evaluación Con independencia de los fines y objetivos concretos de cada investigación, hay una serie de rasgos comunes que acompañan a este tipo de estudios y que se concretan en los siguientes: orientación hacia la acción, actividad previsible, necesidad de continuidad, visión en positivo y actividad constructiva. Con referencia a la orientación hacia la acción de la evaluación, hay que reiterar que se evalúa para obtener información objetiva para tomar mejores decisiones en la gestión de los sistemas de información y no como mero ejercicio académico. Se ha de tener muy presente que la puesta en marcha de una investigación de esta naturaleza es cara y costosa en tiempo y recursos, y sólo cobra sentido si los resultados van a utilizarse. El segundo rasgo es olvidado con excesiva frecuencia y alude a la necesidad de previsión de este tipo de investigaciones. Así, como se ha comentado al hablar de la contribución de la evaluación en la fase de diseño de un sistema de información, la evaluación no debe improvisarse y debe ser planificada ya en las fases iniciales del establecimiento de un sistema de información, que es cuando se definen las condiciones en las que éste debe funcionar. Estas especificaciones debidamente documentadas podrán actuar después de norma para evaluar la consecución de los objetivos. El tercer rasgo o condición hace mención a la necesidad de continuidad de este proceso. La evaluación de los sistemas y unidades debe proporcionar información de una forma continuada que permita una vigilancia del sistema, la detección precoz de situaciones anómalas y una mayor flexibilidad para adaptarse a los cambios del entorno. La continuidad le prestará al sistema la flexibilidad suficiente para adaptarse a los continuos cambios del entorno. Además, permitirá disponer de información acerca de la evolución de los sistemas y de la tecnología a lo largo del tiempo. La visión en positivo es un rasgo que caracteriza a la evaluación por mucho que con demasiada frecuencia a este término se le atribuya un significado negativo. De este modo, si se pregunta a un profesional de la información qué le sugiere la palabra evaluación, lo habitual es que frecuentemente lo asocie con términos como “examen” o “control”, cuyo significado está más asociado con el miedo al fracaso y al posible castigo que con la virtud de estas pruebas de poner de manifiesto aquellos fallos que se deben resolver para mejorar el funcionamiento del sistema. Este sentido policial y de temor también se ve reflejado en otros entornos, como el empresarial cuando, por ejemplo, se habla de “sufrir” una auditoría. En su uso cotidiano, a la evaluación se le atribuye una connotación negativa que en el terreno profesional debe abandonarse pues la evaluación es, sin lugar a dudas, una de las herramientas más poderosas que poseen los profe-

34

Parte I: Fundamentos

sionales para mejorar y para avanzar en una disciplina. De ahí el carácter constructivo al que anteriormente se aludía.

1.7. Factores relacionados con el desarrollo de la evaluación de los sistemas de información Entre todos los motivos que han fomentado el desarrollo de la línea actual de investigación de evaluación de los sistemas de información cabe mencionar, por su relevancia, los siguientes: – Introducción de nuevos medios en el almacenamiento, tratamiento, recuperación y difusión de la información. – Incremento en la oferta de sistemas de información aparentemente o formalmente similares pero con diferencias de cobertura o proceso. – Recortes presupuestarios y justificación de gasto. – Aparición de nuevos estilos de gestión. – Toma de conciencia de que la información es un recurso intangible de gran valor para alcanzar una ventaja competitiva. Uno de los principales responsables del progreso actual de la línea de evaluación de sistemas de información es el impresionante desarrollo que ha experimentado en las últimas décadas la tecnología de información, tanto en lo relativo a la aparición de nuevas orientaciones en el tratamiento de la información como al desarrollo experimentado por las tecnologías que afectan a los procesos de almacenamiento, recuperación, reproducción y comunicación de la información, de las que Internet es, probablemente, su máximo exponente. El crecimiento de lo que se conoce como Tecnologías de Información y Comunicación (las TIC) ha creado un mercado de una amplitud inimaginable hace tan sólo veinte años. En líneas muy generales esta “avalancha” tecnológica ha provocado la necesidad de tomar decisiones en muchos sentidos que deben estar sólidamente respaldadas por datos objetivos. Por ejemplo, la aparición de nuevos medios en el tratamiento de información provoca el dilema de si continuar con lo que se estaba utilizando o cambiar hacia métodos más novedosos, motivo por el que se hace necesario la realización de investigaciones rigurosas para evaluar ventajas e inconvenientes de cada alternativa. Los avances tecnológicos, además de revertir en un incremento de la capacidad y funcionalidad de los sistemas de información a un coste relativamente bajo, han producido una situación de convergencia tecnológica donde, para un mismo problema, están disponibles diferentes soluciones técnicas (Bawden, 1990).

Capítulo 1: Concepto y papel de la evaluación

35

O sea, varios sistemas o varias aplicaciones pueden hacer lo mismo, pero ¿cuál es mejor para nuestro entorno?, ¿cuál es más rentable? En el contexto de los sistemas de información bibliográficos también se da esta situación de competencia de mercado. Es un hecho reconocido la existencia de una gran proliferación y comercialización de bases de datos semejantes en sus contenidos, pero desarrolladas y procesadas de forma diferente. Se da la situación de que existen bases de datos producidas de forma independiente por organizaciones distintas pero que cubren ámbitos temáticos y geográficos similares. Pero lo más curioso es que cada vez es más frecuente la existencia de una misma base de datos a la que se puede tener acceso de maneras diversas y cuyos contenidos, modo de uso y resultados pueden variar significativamente de uno a otro. Uno de los casos paradigmáticos lo constituye MEDLINE, la base de datos de literatura médica producida por la Medical Library de EE UU y que probablemente es la más utilizada por los médicos. Esta base de datos puede utilizarse mediante un host como DIALOG o consultarse en CD-ROM y, también, puede accederse on line a través de varios intermediarios como Ovid o Proquest. Además, pueden realizarse búsquedas de forma gratuita a través de múltiples portales, entre ellos el magnífico Pubmed creado por la misma Nacional Library of Medicine. Esta situación ha motivado que las organizaciones usuarias (y en algunos casos los usuarios finales) necesiten disponer de criterios objetivos para poder llevar a cabo de un modo correcto la selección para la adquisición o uso de ese tipo de sistemas de información. En este sentido, la aplicación de resultados de evaluaciones en las que se somete a una rigurosa comparación las diferentes vías de acceso a un mismo sistema son de suma importancia. Un ejemplo de éstas aplicado a la base de datos MEDLINE arriba mencionada es la llevada a cabo por Anagnostelis y Cooke (1997). En otro orden de cosas, puede mencionarse la limitación de recursos económicos como factor que está impulsando la línea de evaluación en Documentación y también en otros campos de la ciencia. Se evalúa para optimizar, pero también para demostrar el buen funcionamiento de algo de cara a la competencia existente entre los distintos departamentos de una organización por el reparto del presupuesto y también para justificar la solicitud de más recursos, más espacio o más personal. Los presupuestos que se han invertido el año anterior tienen que convertirse en resultados al año siguiente y esos resultados deben ser expresados en términos de eficacia de los servicios proporcionados y de adecuación de los productos a la misión, propósitos y objetivos de la organización a la que prestan servicio. Demostrar el impacto que, en términos de reducción de costes, mejora de la toma de decisiones o, por ejemplo, ahorro de tiempo, tiene para los usuarios y la organización el uso del sistema de información es una de las herramientas que

36

Parte I: Fundamentos

poseen los documentalistas para la defensa de la existencia de un sistema de información o, por ejemplo, para reclamar su correcta dotación económica. Por último, cabe mencionar como impulsor de la evaluación la progresiva implantación a partir de los años noventa de un nuevo estilo de gestión en las organizaciones que afecta también a bibliotecas y centros de información. Se trata de la gestión de calidad, que tiene su máximo exponente en lo que se conoce como la Calidad Total. La estrategia o Gestión de Calidad Total es un modelo de gestión desarrollado inicialmente en los años cincuenta para el sector productivo, aunque se ha ido implantando en otros sectores hasta alcanzar en los años noventa a los servicios de información (Brookman, 1992). La Gestión de Calidad Total es el resultado de la evolución del concepto de calidad en el tiempo como consecuencia de dos factores: por una parte el reconocimiento de los elevados costes que genera la no calidad y, por otra, el convencimiento de que la calidad es un requisito de funcionamiento que se ha de garantizar de una forma continuada y que debe abarcar la totalidad del servicio prestado. La Gestión de Calidad Total se fundamenta en dos principios básicos: que todos los elementos que integran el sistema funcionen con el objetivo cero errores y que los servicios y productos ofrecidos estén en armonía con las necesidades y expectativas de los clientes, con el fin de lograr su satisfacción. Esto supone que, sin olvidar la calidad operativa de los sistemas de información, la satisfacción del usuario o cliente, en la terminología de la nueva gestión, es el objetivo y el criterio con el que se medirá el éxito de la empresa. Su evaluación permanente es uno de los cometidos de la propia organización. El impacto de la Calidad Total como nuevo modelo de gestión ha sido considerable en el desarrollo de la línea de evaluación y, como veremos en próximos capítulos, fomenta esa evaluación orientada fundamentalmente a la satisfacción de las necesidades de los usuarios. Por último, cabe mencionar que el progresivo afianzamiento de una cultura organizacional basada en la información también ha jugado un poderoso papel como impulsor de esta línea de trabajo. La toma de decisiones eficaz está fundamentada en la disponibilidad de información adecuada en contenido, formato y momento. Esto significa la existencia en las organizaciones de sistemas de información capaces de adaptar la provisión de información a entornos concretos y a usuarios posiblemente únicos. Desde el punto de vista de la evaluación, esto ha significado que paulatinamente se preste más atención a los estudios de necesidades de información y también a aquellos que tratan de evaluar y demostrar el impacto que tiene para el usuario y la organización la utilización de la información.

Capítulo 1: Concepto y papel de la evaluación

37

Bibliografía Abad García, M.ª F. (1997): Investigación evaluativa en Documentación: aplicación a la Documentación Médica. Valencia, Servicio de Publicaciones, Col.lecciò educació. Serie materials, n.º 23. Anagnostelis, B. y Cooke, A. (1997): “Evaluation criteria for different versions of the same database - a comparison of Medline services available via the World Wide Web”. (Disponible en http://biome.ac.uk/sage/iolim97.html. Fecha de última visita: 1 de marzo de 2004.) Bawden, D. (1990): User Oriented Evaluation. Gower. Aldershot. Brookman, J. (1992): “Just another management fad? The implications of TQM for library and information services”. Aslib proceedings, 44 (7/8): 283-288. Cleverdon, C. W. (1967): “The Cranfield test on index language devices”. Aslib Proceedings, 19: 173-194. De la Mano, M. (1998): “Propuesta de un sistema de evaluación para bibliotecas universitarias”. Revista Española de Documentación Científica, 21 (2): 174-197. Farradane, J. (1974): “The evaluation of information retrieval systems”. Journal of Documentation, 30: 195-209. Fuentes, J. J. (1999): Evaluación de bibliotecas y centros de documentación e información. Trea. Gijón. Herman, J. L.; Fitz-Gibbon, C. T. y Lyons Morris, L. (1987): Evaluators handbook. Sage Publications. Newbury Park. Swanson, R. W. (1975): “Performing evaluation studies in Information Science”. Journal of the Information Society of Information Science, 3: 140156. Van House, N. A.; Weil, B. T. y McClure C. H. (1990): Measuring academic library performance: a practical approach. American Library Association. Chicago.

2

EL MÉTODO GENERAL DE LA EVALUACIÓN

2.1. Introducción Al conjunto de operaciones ordenadas con las que se pretende obtener un resultado se le denomina método. El método que aquí se expondrá se ha calificado con el apelativo de “general” de una forma intencionada, con la finalidad de dejar patente que el método que se emplea para evaluar los sistemas y servicios de información no es ni mucho menos exclusivo de la Documentación, sino todo lo contrario. Se trata de la aplicación a este contexto concreto de los mismos pasos y procedimientos que se llevan a cabo para evaluar programas sanitarios, políticas públicas o actividades como, por ejemplo, la académica. La especificidad de la evaluación se la presta en cada momento el entorno concreto de su aplicación, no el método empleado. Otra consideración que es importante tener en cuenta es que el método de la evaluación se fundamenta en los dos pilares básicos del método científico: la reproducibilidad de los resultados y la falsabilidad. La reproducibilidad hace mención a la capacidad de obtener los mismos resultados al repetir una determinada investigación en las mismas condiciones que las estipuladas. La reproducibilidad se basa en que los criterios y los procedimientos que se utilizan para llevar a cabo la investigación se hayan especificado de forma clara y correcta, sin omitir aspectos importantes que puedan afectar positiva o negativamente a los resultados. La reproducibilidad es un requisito indispensable del proceso evaluador ya que la emisión de juicios de valor es un proceso altamente subjetivo donde entran en juego aspectos intangibles tales como los propios valores del inves-

40

Parte I: Fundamentos

tigador, los valores asignados al objeto investigado y la relación intencional entre evaluador y objeto evaluado. Esta relación entre el investigador y lo que se evalúa puede influenciar el alcance del estudio y las conclusiones que de él se deriven. Por ello, y puesto que su existencia es inevitable, el investigador lo debe tener muy presente en el diseño de este tipo de investigaciones. La mejor forma de disminuir estos efectos es utilizando unos criterios explícitos, así como garantizando la fiabilidad de técnicas e instrumentos para la recogida de datos que avalen, en la medida de lo posible, la reproducibilidad de los resultados. En este tipo de investigaciones los métodos y criterios deben minimizar el componente subjetivo inherente a todo juicio de valor y transformar, en la medida de lo posible, los componentes subjetivos e implícitos de la investigación en aspectos explícitos, observables y medibles. En este sentido, la afirmación de Swanson (1975) resume claramente este problema: Un estudio de evaluación satisface los requerimientos científicos si determina su alcance y objetivos y facilita las pruebas de la reproducibilidad de su colección de datos y de las técnicas de análisis de los resultados. Si el fenómeno estudiado acarrea aspectos sin determinar, los datos del estudio serán igualmente indeterminados. El método científico incumbe al diseño de la evaluación y a la credibilidad de los datos para la situación existente.

El segundo pilar que sustenta el método científico es la falsabilidad. Es decir, que toda proposición científica tiene que ser susceptible de ser verificada o, en su caso, falsada, lo que implica que se pueden diseñar experimentos que en el caso de dar resultados distintos a los predichos negarían la hipótesis puesta a prueba. Esto significa que no existe una “verdad” inamovible y que afirmaciones que se realizan en un momento concreto del tiempo tomando como base resultados de estudios rigurosos, pueden dejar de ser ciertas si se llevan a cabo experimentos con mayor información o, por ejemplo, con técnicas más avanzadas capaces de proporcionar resultados distintos. De lo anteriormente dicho se deduce que, de acuerdo con el método científico, todo debe ser demostrado objetivamente, los resultados deben poder reproducirse para sustentar su fiabilidad y ningún resultado es inamovible. Lo será sólo hasta que se demuestre lo contrario. El objetivo de este capítulo es familiarizar al lector con el método que se utiliza en la evaluación de los sistemas de información. Para ello se plantea la exposición de los pasos implicados en el mismo, profundizando en todos aquellos aspectos propios de la materia cuyo desarrollo nos ocupa y tratando de un modo más superficial aquellos temas cuyos conocimientos se asume que ya posee en el lector, o bien que debería obtenerlos a través del estudio de otras materias. Tal es el caso, por ejemplo, de cuestiones concernientes a los cono-

Capítulo 2: El método general de la evaluación

41

cimientos de estadística general y a los relativos a la puesta en práctica de las técnicas de recogida de datos cuyas características básicas se expondrán en el capítulo 3.

2.2. Fases del método de la evaluación De acuerdo con lo expuesto en el capítulo anterior, la evaluación puede definirse como aquel proceso que tiene como objetivo la realización del diagnóstico de una situación determinada cuyo resultado será la emisión de un juicio de valor acerca del funcionamiento, calidad, aceptación o cualquier otra cualidad de un sistema de información. Para llevar a cabo la evaluación, es necesario aplicar un método riguroso que conlleva la puesta en marcha de una serie de fases sucesivas o de pasos que se exponen a continuación y que serán desarrollados a lo largo de los siguientes epígrafes: 1. Obtener los datos sobre la situación actual del sistema a evaluar. 2. Decidir los criterios según los que se evaluará el sistema y definir los indicadores para la obtención de resultados. 3. Recoger los datos sobre los aspectos a evaluar. 4. Comparar los hallazgos obtenidos con una situación de referencia o estándar. 5. Emitir un juicio de valor basado en el análisis de las diferencias y similitudes entre la situación observada y la situación de referencia. 6. Averiguar el origen de las diferencias encontradas. 7. Establecer unas acciones y recomendaciones para la mejora.

2.2.1. Obtener los datos sobre la situación actual El primer paso en una evaluación consiste en observar, describir y sobre todo comprender de qué manera está funcionando el sistema de información objeto de estudio. Este análisis de la situación debe abarcar, en un primer momento, la totalidad del funcionamiento del sistema pues, como veremos después, su conocimiento es imprescindible a la hora de contextualizar los resultados obtenidos y de analizar sus fortalezas y debilidades. El sistema se observa y se describe como un todo para permitir que en fases posteriores el estudio se centre en los aspectos concretos que se van a evaluar. Para el análisis del funcionamiento y su posterior descripción será de gran utilidad el uso de organigramas y de diagramas de flujo tanto de las tareas como

42

Parte I: Fundamentos

de los procedimientos. También lo será el uso de la observación directa, la revisión de documentos existentes y la realización de entrevistas a aquellos implicados en la gestión y mantenimiento del sistema. La descripción detallada del funcionamiento del sistema es un paso importante tanto si la evaluación la llevan a cabo investigadores implicados en el funcionamiento del sistema, como si se trata de evaluadores externos. A los primeros les servirá, por una parte, para tener una perspectiva más clara sobre el modo en el que se realizan verdaderamente los procesos en el sistema y, por otra, para documentar su funcionamiento. En el caso de los evaluadores externos, les servirá para poner en evidencia los posibles puntos débiles del sistema en los que centrar la atención de la investigación. En ambos casos servirá para determinar y documentar qué es lo que se va a evaluar y por qué.

2.2.2. Determinar los criterios de la evaluación Una vez establecido el marco general del funcionamiento del sistema y centrados los aspectos de éste que deben ser evaluados, se deberán definir, de una forma objetiva, los criterios de la evaluación y determinar los indicadores que utilizaremos para presentar los resultados como las técnicas que se emplearán para la recogida de datos. El establecimiento de criterios significa especificar los atributos o acontecimientos del sistema que se van a evaluar. Los criterios podrán definirse de una forma general con relación al funcionamiento global del sistema (por ejemplo, criterios de eficacia, de eficiencia, de impacto de un sistema) o referirse de un modo más concreto a las características de uno o varios de sus componentes: criterios de input (por ejemplo, puntualidad, actualización, cobertura, etc.) de proceso (calidad, consistencia, exhaustividad, etc.) o de productos (relevancia, etc.) Para cada criterio es necesario definir el o los indicadores con los que podremos medir su consecución. De este modo, si lo que quiere evaluar en un servicio de préstamo es la puntualidad de su respuesta, se tendrá que definir un indicador, que en este caso en concreto se podría definir como “el tiempo (expresado en días, horas o minutos) que media entre la solicitud de información y la respuesta al usuario”. Además de definirse criterios e indicadores, para que la evaluación sea posible también deberán determinarse los valores previstos y las tolerancias. La obtención de indicadores es una pieza clave de la evaluación. De ellos vamos a estudiar su concepto, tipos, formas más comunes y sus propiedades.

Capítulo 2: El método general de la evaluación

43

2.2.3. Concepto y tipos de indicadores A) Concepto de indicador Diariamente los medios de comunicación nos inundan con noticias del corte siguiente: “El Ministerio de Economía destacó hoy que el IPC de febrero, tras mantenerse estable, situó la tasa interanual en el 2,1%, el más bajo registrado en ese mes desde 1999” [Madrid, 11 de marzo (EFECOM)]. Esta noticia, familiar para todos nosotros (lo cual no es indicativo de que seamos capaces de interpretarla adecuadamente), hace mención a un indicador que muestra la evolución del conjunto de precios de los bienes y servicios que consume la población residente en viviendas familiares en España. Se trata de una cifra que intenta reflejar las variaciones de un fenómeno complejo, difícil de apreciar directamente y del que se espera que correlacione bien con sus variaciones; esto es, que suba el valor del IPC (Índice de Precios al Consumo) cuando suben los precios de aquello que constituye la cesta de la compra, o que baje si así lo hacen los precios. IPC, Producto Interior Bruto (PIB), la tasa de mortalidad infantil o el número de usuarios de una determinada línea de metro son todos ellos indicadores de cálculo, más o menos complejo, que tratan de describir la magnitud de un determinado fenómeno. Estos ejemplos concretos probablemente ayuden a entender mejor al lector las siguientes definiciones de indicador, cuyo rasgo en común es sobre todo su alto nivel de abstracción. Un indicador es la expresión (números, símbolos o palabras) utilizada para describir actividades (sucesos, objetos, personas) en términos cuantitativos y cualitativos, para evaluar dichas actividades y el método utilizado. (SEDIC, 1998)

Otros autores consideran que indicador es la unidad que sirve para medir el grado en el que se ha alcanzado una meta o un objetivo. Alcalde (1976), en un intento por clarificar el significado del término, comenta que, en algunas ocasiones, el concepto de indicador puede coincidir con el de variable, si bien hay que tener en cuenta que no necesariamente todas las variables pueden ser indicadores. En este sentido, define indicador como aquella variable que hace referencia a un hecho y es susceptible de algún tipo de medición. B) Tipos de indicadores Según la técnica de recogida de datos que se utiliza para la obtención de los indicadores, éstos se clasifican en cuantitativos y cualitativos. Los indicadores cuantitativos son resultados de mediciones y de análisis más o menos complejos. Un ejemplo de indicador cuantitativo puede ser el tiempo transcurrido entre

44

Parte I: Fundamentos

una demanda y su respuesta, el número de usuarios del sistema, el porcentaje de campos vacíos en un registro, etc. Los indicadores cualitativos son el resultado de valorar las opiniones o percepciones sobre un determinado tema. Sería el caso de indicadores basados en la opinión del usuario acerca de la autoconfianza en el uso del sistema, la seguridad percibida o la satisfacción, entre otros. C) Formas que pueden adoptar los indicadores Los indicadores son el resultado de la aplicación de métodos de análisis de datos de complejidad variable. Entre los métodos de análisis de datos cuantitativos cabe destacar desde los métodos estadísticos de tipo descriptivo (medidas de tendencia central, de dispersión, de simetría, etc.) hasta los métodos inferenciales (correlación, chi cuadrado, regresión, análisis de la varianza, etc.). Entre los métodos de análisis de datos cualitativos estarían los de análisis de contenido, la teoría fundamentada (grounded theory) y la descripción densa. Como resultado de los métodos de análisis, los indicadores pueden adoptar diversas formas. Las más básicas son las frecuencias absolutas, las frecuencias relativas (proporciones), las razones, el número índice y las tasas. Su fundamento se expondrá a continuación a grandes rasgos por ser las formas más comunes que adoptan la mayoría de indicadores que se irán exponiendo en los capítulos posteriores, recomendando, además, la lectura complementaria de alguno de los muchos manuales de estadística básica existentes. – Frecuencias absolutas. Hacen referencia al número que se obtiene como resultado inmediato de una medición; por ejemplo, de un recuento de registros. Son “datos brutos” que no son resultado de ninguna operación matemática. Un ejemplo sería la tabla de frecuencias que se muestra en el cuadro 2.1, donde el indicador lo constituye el número de regisCUADRO 2.1. Tabla de frecuencias

Año

N.º de registros introducidos

1999

5.000

2000

7.000

2001

4.000

2002

6.000

Total

22.000

Capítulo 2: El método general de la evaluación

45

tros que se han introducido cada año en una base de datos durante el período 1999-2002. Las frecuencias absolutas pueden representarse en forma de tabla o utilizarse formas gráficas como, por ejemplo, el diagrama de barras (figura 2.1). 7.000 6.000 Registros

5.000 4.000 3.000 2.000 1.000 0

1999

2000

Años

2001

2002

Figura 2.1. Diagrama de barras, n.º de registros/año.

– Razón. La razón relaciona los valores observados de dos características o variables A y B (por ejemplo, biblioteca y población), o de dos categorías distintas de una misma variable (por ejemplo, las categorías masculino y femenino de la variable sexo). Habitualmente la razón se multiplica por una constante K que suele ser una potencia de 10 para evitar números muy pequeños y poder apreciar mejor el significado de los resultados. Veamos dos ejemplos de la obtención de este tipo de indicador. En la ciudad de Valencia en el año 2002 hay 30 bibliotecas de adultos y 4 bibliotecas infantiles. La razón biblioteca infantil/biblioteca de adultos es de 4/30 × 100 = 13,3. Esto es, hay 13,3 bibliotecas infantiles por cada 100 bibliotecas de adultos. En la ciudad de Valencia en el año 2002 han nacido 3.742 varones y 3.449 mujeres (Movimiento Natural de la Población. INE, Oficina Estadística del Ayuntamiento de Valencia, 2002. Datos provisionales. La razón de masculinidad al nacimiento se calcula como (3.742 / 3.449) × 100 = 108,5, lo que significa que nacen 108,5 varones por cada 100 mujeres. – Frecuencia relativa o proporción. La frecuencia relativa simple (fr) es el cociente entre la frecuencia absoluta (f) y el número total de observaciones (n), es decir: fr = f/n. Este cociente siempre toma valores entre 0

46

Parte I: Fundamentos

y 1. Si multiplicamos la frecuencia relativa por 100 obtenemos el porcentaje: (fr = f/n) × 100. Además, puede calcularse la frecuencia relativa acumulada (fra) a un valor c, que es la suma de la frecuencia relativa de los valores menores o iguales a c. La frecuencia relativa acumulada es de gran utilidad cuando se trabaja con series de datos. Así, si utilizamos los datos del cuadro 2.2, podemos apreciar rápidamente que al finalizar el año 2000 se habían introducido el 54% de la totalidad de registros del período.

CUADRO 2.2. Ejemplo de frecuencias relativa, porcentaje, frecuencia relativa acumulada y porcentaje acumulado

Año

Número Número de registros de registros introducidos acumulados

Frecuencia relativa

Frecuencia relativa acumulada

Porcentaje

Porcentaje acumulado

1999

5.000

5.000

0,23

0,23

23

23

2000

7.000

12.000

0,31

0,54

31

54

2001

4.000

16.000

0,18

0,72

18

72

2002

6.000

22.000

0,28

1,00

28

100

Total

22.000

1,00

100

– Número índice. El número índice representa la relación entre dos momentos de un hecho. Expresa cada valor de la variable considerada en relación a un valor que tomamos como referencia y que llamamos momento base. Así, el número índice de un momento A respecto a un momento base B se obtendría como: (a / b) × 100, donde a es igual al valor de A, b es igual al valor base y 100 es una constante que permite percibir mejor el valor obtenido como resultado. La interpretación de un número índice puede realizarse como el número de elementos en el momento A por cada 100 elementos en el momento base. También si restamos al número índice el valor 100, podemos interpretar ese número índice de dos modos: • Como el porcentaje de aumento o disminución del momento A respecto del momento B (base).

Capítulo 2: El método general de la evaluación

47

• Como el cambio porcentual que se produce entre el momento B (base) y el momento A. Si continuásemos con el ejemplo anterior, podríamos obtener el número índice de los registros introducidos en la base de datos por cada año de observación respecto de los introducidos en 1999 (valor considerado como base) y obtendríamos los datos que se muestran en el cuadro 2.3 y la representación gráfica que se muestra en la figura 2.2. CUADRO 2.3. Índice de cambio del número de registros introducidos en la base de datos durante el período 1999-2002 Año

Número de registros

Número índice

% de cambio respecto a 1999

% de cambio respecto al anterior

1999

5.000

100,00

2000

7.000

140,00

–40,00

–40,00

2001

4.000

80,00

–20,00

–42,86

2002

6.000

120,00

–20,00

–50,00

150,00 130,00 110,00

90,00 70,00

1999

2000

Año

2001

2002

Figura 2.2. Índice de evolución anual de registros respecto de 1999.

– Tasa. Es un cociente entre el número de veces que ocurre un determinado fenómeno (en una zona geográfica concreta y durante un

48

Parte I: Fundamentos

período de tiempo definido) y la población en la cual puede ocurrir el fenómeno descrito en el numerador. Las tasas normalmente se refieren a períodos anuales. La tasa se representa por la siguiente fórmula: [F / (P × n)] × K, donde: • F = Número de veces que ocurre un determinado fenómeno en una zona geográfica durante un período de tiempo determinado. • P = Población estimada en la zona geográfica a la mitad del período. • n = Número de años del período. • K = Constante por la que se multiplica el resultado para poder apreciar la magnitud de los datos que suele ser una potencia de 10. Para ilustrar la obtención de una tasa podemos recurrir al siguiente ejemplo. En la provincia de Valencia en el año 2001 hay 265 bibliotecas. De acuerdo con las cifras del censo de la población del 2001 (Censo de la población 2001. Resultados provisionales. IVE), el número total de habitantes de la provincia es de 2.201.246. La tasa de bibliotecas/habitante sería de 265/2.201.246 = 0,0001203. La cifra resultante es tan pequeña que para apreciar su magnitud se multiplicaría por 100.000, lo que arrojaría un resultado de 12,03. Esto es, la tasa de bibliotecas/habitante para el año 2001 sería de 12,03. La tasa se denomina “bruta” (cruda) si se calcula para toda la población de una zona geográfica (por ejemplo, la tasa de préstamos por 1.000 habitantes) o específica si su cálculo se limita a un grupo concreto de población (por ejemplo, las bibliotecas infantiles para la población de niños de 0-14 años).

D) Propiedades de los indicadores Sea cual sea la forma que adopte un indicador, para ser de utilidad debe ser: – Medible: Debe contener criterios de cantidad y tiempo y, a la vez, debe contener las respectivas unidades de medida, con el objeto de verificar cuántas veces caben esas unidades en el total alcanzado. – Objetivo: No debe ser ambiguo en cuanto a su cálculo y construcción. – Confiable: Cualquier persona que aplique el criterio de medición debe llegar a la misma conclusión si lo utiliza en las mismas condiciones. – Pertinente: Debe medir lo importante y realmente sustantivo del criterio a cuya evaluación se aplica, descartándose la existencia de indicadores distractores o superfluos.

Capítulo 2: El método general de la evaluación

49

– Sensible: Debe ser capaz de registrar los cambios que se produzcan en la situación observada. – Preciso: Debe tener un margen de error aceptable. – Comparable: Debe permitir la comparación, bien para controlar los cambios experimentados en el tiempo, o bien para facilitar el contraste con otros sistemas de la misma naturaleza.

2.2.4. Técnicas para la recogida de datos Para la obtención los datos que servirán para calcular los indicadores, el investigador pone en práctica técnicas de origen multidisciplinar procedentes de diversas áreas del saber, como, por ejemplo, la Sociología, la Estadística, la Economía, la Documentación o la Gestión, entre otras. Se utilizan técnicas de naturaleza tanto cuantitativa, como por ejemplo los cuestionarios o la recogida sistemática de datos sobre un acontecimiento, como cualitativa, de entre las que destacan la observación, las entrevistas, los grupos de discusión, las técnicas de consenso, etc. La recogida de datos de una evaluación es un paso crucial de la investigación. Por este motivo se ha dedicado el capítulo siguiente de forma monográfica a exponer las características principales de las técnicas de recogida de datos más relevantes para la evaluación.

2.2.5. Comparación de los datos obtenidos con una situación de referencia o patrón Sea cual sea la técnica utilizada en la recogida de datos para obtener los indicadores, el resultado de este proceso producirá una medida. Como ya se ha mencionado anteriormente, esta medida en sí misma no es ni buena ni mala, sino que es simplemente el reflejo de una situación determinada. Por lo tanto, si queremos emitir un juicio de valor sobre el funcionamiento, puntualidad o sobre cualquiera que sea el criterio utilizado en la evaluación, tendremos necesariamente que remitirnos a una situación o valor de referencia predeterminado que es el que consideraremos como patrón o estándar de actuación. De acuerdo con ello, si por ejemplo lo que se quiere juzgar es la puntualidad de la respuesta de un servicio de obtención de documento primario, no bastará con saber que por término medio los documentos se libran en 48 horas, sino que deberemos comparar ese resultado con el intervalo de tiempo que previamente se habrá decidido que es el de un funcionamiento puntual. Esta previsión o expectativa de resultado constituye el patrón o estándar de actua-

50

Parte I: Fundamentos

ción y su definición es uno de los puntos cruciales de la evaluación. Así, se podría considerar como estándar que el tiempo entre la solicitud de información y la respuesta no debe ser superior a 24 horas. Al determinar un estándar podremos juzgar los resultados obtenidos y afirmar objetivamente que este servicio es puntual o impuntual y, si éste es el caso, cuál es el margen de retraso. Así expresado, la evaluación de la puntualidad de este servicio se traduciría en un proceso de comparación entre el tiempo medio que el sistema invierte en dar las respuestas solicitadas y el tiempo que debería tardarse de acuerdo con el estándar. De una forma muy reduccionista podría decirse que evaluar es aquel proceso basado en la obtención de dos medidas: “la que es”, que se obtiene como resultado de la observación de la situación actual, y “la que debería ser”, que es el estándar o patrón.

A) Tipos de patrón o estándar de referencia La obtención del patrón o estándar es, en ocasiones, uno de los aspectos metodológicos más complejos de una evaluación. Los estándares no están siempre disponibles y dependerán de aquello que se pretenda evaluar y del momento y modo en el que se plantee la evaluación. Por ese motivo los patrones que se utilizan pueden ser de muy diversa naturaleza. De forma muy general, esos patrones podrían estar formados por: – Los objetivos operativos del sistema. – Las normas o recomendaciones dictadas por organismos oficiales o representativos dentro de un área. – El patrón construido. – Los resultados de investigaciones previas.

• Objetivos operativos Podría decirse que los objetivos operativos de un sistema de información constituyen el patrón por excelencia, ya que permiten la comparación del funcionamiento establecido para el sistema en su diseño con el funcionamiento del mismo en su entorno operativo: se contrasta lo que se diseñó con lo que está ocurriendo en la realidad. Para utilizar los objetivos como patrón es necesario que éstos estén definidos en términos medibles. Además, es de gran utilidad que el evaluador pueda disponer de documentación en la que consten detalladamente las especificaciones de funcionamiento del sistema y donde,

Capítulo 2: El método general de la evaluación

51

para cada proceso, se hayan establecido sus márgenes de correcta actuación. Sin embargo, esta situación no es la más frecuente y nos encontraremos que este tipo de documentación está ausente del entorno de nuestros sistemas de información con mayor frecuencia de lo que se espera. La ausencia de documentación sobre la política de una organización, sus objetivos y el modo en el que éstos deben alcanzarse está cambiando poco a poco por la influencia de las nuevas políticas de gestión de la calidad que se van incorporando progresivamente en las organizaciones encargadas de generar y proporcionar productos y servicios informativos. Este cambio hacia la calidad en la gestión de las unidades de información, de la mano de la filosofía conocida como Gestión de Calidad Total, cuenta entre sus principales herramientas con las normas ISO 9000 para empresas de servicios. Concretamente las ISO 9001 y 9002 parecen las más apropiadas para mejorar y normalizar la calidad de las bibliotecas y centros de documentación (SEDIC, 1998). Estas normas internacionales pretenden asegurar la calidad de los productos y servicios mediante acciones planificadas que garanticen que un producto satisfaga los requisitos de calidad. Entre las múltiples e interesantes cuestiones que estas normas plantean (algunas de las cuales se tratarán en el siguiente apartado), hay que destacar, el énfasis en la creación y mantenimiento de manuales de procedimiento y de manuales de calidad donde queden claramente especificados los objetivos, los procedimientos, las tareas, las normas y los estándares de referencia para el buen funcionamiento de los servicios y de la organización en su conjunto, amén de recoger toda la documentación donde se registra cada una de las actividades que se realizan. El mantenimiento de estos manuales permite que en muchas ocasiones el evaluador disponga de estándares para poder evaluar aspectos concretos de los sistemas de información ya que nos indican el modo en el que se deben llevar a cabo determinados procesos y tareas. • Normas Las normas, cuando existen y se pueden aplicar, constituyen excelentes estándares. El Diccionario de la Real Academia de la Lengua, define la norma como “la regla que se debe seguir o a que se deben ajustar las conductas, tareas, actividades”. Su aplicación tiene como objetivo la normalización del funcionamiento de los sistemas y servicios de información. Entendiendo por normalización: La actividad que aporta soluciones para aplicaciones repetitivas que se desarrollan fundamentalmente en el ámbito de la ciencia, la tecnología y la economía, con el fin de conseguir una ordenación.

52

Parte I: Fundamentos

La aplicación de normas ordena la actividad del sistema de información y facilita el funcionamiento homogéneo de sistemas de información similares, permitiendo su comparabilidad. La normalización es un instrumento que pretende potenciar la calidad de los productos y servicios y que facilita la evaluación. Las normas suelen ser emitidas por organismos de normalización nacionales e internacionales. Casi todos los países disponen de organismos propios de normalización. El organismo español es AENOR (Asociación Española de Normalización y Certificación), el americano es el ANSI (American National Standards Institute), el del Reino Unido, el BSI (British Standards Institution) y el organismo internacional de normalización es la ISO (Internacional Standardization Organization). La adaptación española de las normas ISO se conoce como normas UNE (Una Norma Española). En materia de Documentación están publicadas por AENOR en un manual que recoge en total 39 normas (AENOR, 1999). Además de las normas producidas por organismos oficiales, también podemos utilizar como estándares las recomendaciones elaboradas por foros científicos y profesionales nacionales, como por ejemplo la SEDIC (Sociedad Española de Documentación e Información), algunas de las cuales pueden ser consultadas en su página Web, FESABID (Federación Española de Sociedades de Archivística, Biblioteconomía y Documentación) o ANABAD (Asociación Nacional de Archiveros, Bibliotecarios, Documentalistas y Museólogos). Entre los foros internacionales cabe mencionar la IFLA (International Federation of Library Associations and Institutions) o ASLIB (Association of Special Libraries and Information Bureau), entre otros. Un ejemplo de normas y recomendaciones elaboradas por este tipo de foros lo constituyen los estándares de funcionamiento para las bibliotecas hospitalarias españolas elaboradas por la SEDIC o los Comprehensive and efficientstandards for modern public libraries: A consultation paper, resultado de la colaboración entre la Local Government Association (LGA) y la Library Association (LA) de Gran Bretaña. • Patrón construido Hay ocasiones en las que ni los objetivos ni las normas pueden actuar como estándar o patrón de actuación porque no existen, no están documentados o no son aplicables para el aspecto a evaluar. Entonces el patrón ha de ser construido. Esto se da, por ejemplo, cuando se evalúa la exhaustividad de la cobertura, la indización, la relevancia de un documento recuperado, etc. En el caso de la evaluación de la corrección de indización de los documentos no hay patrón disponible pues, pese a existir políticas y normas para orientar

Capítulo 2: El método general de la evaluación

53

la indización, difícilmente puede afirmarse de una forma tajante y objetiva cuál es la forma correcta para indizar un documento. Es también el caso de la emisión de los juicios de relevancia de un conjunto de documentos recuperados. En este tipo de situaciones puede utilizarse como “sucedáneo” de patrón el resultado del trabajo de un panel de expertos. Un panel de expertos está formado por profesionales de reconocido prestigio en la materia que se evalúa. El consenso de sus opiniones o de sus actuaciones constituirá el mejor patrón disponible. Pongamos un ejemplo muy simplificado de uno de los muchos modos en los que este tipo de paneles puede actuar. Supongamos que lo que se pretende evaluar es la corrección en la indización de una muestra de artículos de una determinada base de datos. Para ello necesitamos comparar los descriptores asignados a cada artículo de la muestra por los indizadores habituales del sistema con los descriptores “correctos” que deberían haber sido asignados. Como no disponemos de una lista de descriptores correctos, debemos construirla de algún modo. Para ello convocamos a tres expertos en la materia que se encargarán de decidir por consenso qué descriptores deberían asignarse a cada documento. Para tomar tal decisión pueden actuar de la siguiente forma: dos expertos indizarán independientemente el contenido de cada artículo asignándoles los descriptores que cada uno considere. Posteriormente compararán sus asignaciones documento a documento y descriptor a descriptor. Como resultado de la comparación puede suceder, tal como ilustra el cuadro 2.4: – Que estén de acuerdo con el descriptor que comparan: en ese caso el descriptor asignado en común queda definitivamente asignado como “correcto” para el artículo en cuestión. – Que no haya acuerdo en el descriptor que comparan. Cuando esto ocurre se inicia una argumentación entre los dos, como resultado de la cual es posible que se llegue a las siguientes situaciones: a) Que estén de acuerdo en que el descriptor es correcto. b) Que lleguen a la conclusión de que el descriptor no debe asignarse y se elimine. c) Que no lleguen a ningún acuerdo. En el caso de que no pueda llegarse a un acuerdo, ni en un sentido ni en otro, entraría en acción el tercer experto, que jugaría un papel de “desempatador” y su opinión decidirá si el descriptor en discordia se debe incluir o excluir definitivamente del patrón. De ese modo, constituiría para cada artículo un patrón de indización, que si bien sensu estricto no sería el correcto, al menos sí que sería el mejor disponible.

54

Parte I: Fundamentos

CUADRO 2.4. Ejemplo de actuación de un panel de tres expertos para la construcción de un patrón para la evaluación de la indización

Descriptores del experto 1

Descriptores del experto 2

Artículo 1

XXX YYY SSS

Artículo 2

DDD AAA FFF

Descriptores del experto 3

Descriptores patrón

XXX ZZZ ZZZ

YYY

XXX YYY

DDD

AAA

DDD AAA

Una vez construido el patrón, ya podría compararse lo indizado previamente y así obtener los correspondientes indicadores de concordancia. • Resultado de investigaciones previas Por último, hay que comentar que en ocasiones pueden utilizarse como patrón los resultados de investigaciones previas. Por ejemplo, supongamos que en una base de datos de recursos Web se plantea evaluar la actividad de los enlaces. Una vez cuantificado ese fenómeno en la base de datos a estudio, y a falta de normativa o de regulación que estipule esa característica de este tipo de sistemas, los resultados podrían compararse con las cifras que proporcionan evaluaciones previas llevadas a cabo en sistemas similares. Si el número de evaluaciones precedentes son abundantes y los métodos de obtención de datos son similares, podrían establecerse máximos y mínimos con respecto a los cuales situaríamos el funcionamiento del sistema en estudio.

2.2.6. Averiguar el origen de las discrepancias encontradas La evaluación es un proceso cuyos resultados deben servir de fundamento para la toma de decisiones que permitan mejorar el sistema. Por ese motivo se espera que los resultados de este tipo de investigaciones no se limiten a determinar si los valores obtenidos sobre el aspecto evaluado son superiores o inferiores, buenos o malos, en relación con el estándar de refe-

Capítulo 2: El método general de la evaluación

55

rencia, sino que además debe darse una adecuada interpretación de la diferencia encontrada (o de la ausencia de la misma). Esa interpretación debe transformarse en una indagación sistemática de las causas de las discrepancias y en líneas de acción orientadas hacia la mejora de la situación anómala detectada. Si se aceptara que una evaluación está completa cuando se llega a un resultado tras la comparación con el estándar, sin plantearse nada más, sería lo mismo que aceptar que un médico puede conformarse con diagnosticar una enfermedad sin preocuparse de averiguar las causas que han llevado al paciente a enfermar, ni de marcar una pauta de tratamiento enfocada hacia la curación o a la mejora del paciente. En consecuencia, puede decirse que ninguna evaluación estará completa sin una adecuada interpretación y contextualización de los resultados. La interpretación de los resultados es consecuencia de dos tipos de análisis: uno retrospectivo, orientado a la indagación sistemática de las posibles causas de los fallos, y otro prospectivo, encaminado a la valoración de las posibles consecuencias que estos fallos puedan tener para el funcionamiento del sistema, el usuario o la organización a la que éste pertenece. Si se toma como punto de referencia que exista o no la indagación de las posibles causas de los fallos, es posible distinguir dos grandes concepciones de la evaluación: la macro y la microevaluación. Esta distinción, acuñada ya hace más de tres décadas por King y Bryant (1971), ha tenido gran repercusión hasta nuestros días. En la categoría de macroevaluación se incluiría aquel tipo de investigaciones cuyo propósito principal es establecer cómo funciona el sistema de información, considerándolo como una especie de “caja negra”, donde la evaluación se restringe a la obtención de resultados finales (número de referencias obtenidas, tiempo de recuperación, etc.) sin realizar intentos de explicar por qué el sistema funciona como lo hace, cuáles son las causas de los fallos o sin examinar con detalle los componentes de dicho sistema.

Sistema Resultados de la evaluación Figura 2.3. Macroevaluación.

56

Parte I: Fundamentos

Por el contrario, el planteamiento de la microevaluación es diagnóstica ya que tiende a averiguar cuáles son las causas de los fallos. Para ello, a partir de los resultados se realizará un análisis del funcionamiento del sistema, especialmente de cada uno de sus componentes. Este modelo de actuación se fundamenta tanto en el análisis retrospectivo de los fallos, realizado con el fin de poder conocer sus causas, como en el análisis prospectivo de las posibles consecuencias de los resultados para los usos previstos de los productos que este sistema proporciona. C O N S E C U E N C I A S

ENTRADA Proceso Productos

C A U S A S

Uso de la información Figura 2.4. Microevaluación.

2.2.7. Establecer acciones y recomendaciones Se ha comentado de forma insistente que la evaluación no puede ser un ejercicio académico. La evaluación debe estar guiada por un principio de utilidad y mejora. Por lo tanto, al análisis de las causas debemos de añadir siempre la agenda de tratamiento para lograr la mejora del sistema, e incluso, situándonos en una situación extrema, llegar a la recomendación de su supresión cuando su funcionamiento sea deficiente y no mejorable.

Bibliografía AENOR (1999): Documentación, 3.ª edición. AENOR. Madrid. Alcalde, A. (1976): Estadística aplicada a las Ciencias Sociales. Pirámide. Madrid. Citado por Duarte Barrionuevo, M. (1995): “Indicadores como instrumentos de evaluación de los servicios bibliotecarios”. Boletín ANABAD, 1: 95-106.

Capítulo 2: El método general de la evaluación

57

Department for Culture Media and Sport. “Comprehensive and efficient-standards for modern public libraries: A consultation paper”. (Disponible en http: //www.culture.gov.uk/PDF/Library_standards_text.pdf. Fecha de última consulta: 15 de abril de 2004.) King, D. W. y Bryant, E. (1971): The evaluation of information services and products. Information Resources Press. Washington. SEDIC. Estándares cuantitativos para bibliotecas hospitalarias. (Disponible en: http: //sedic.ono-sp.com/standar2.pdf. Fecha de última consulta: 15 de abril de 2004.) SEDIC (1998): Guía para la aplicación de la norma ISO 9000 a bibliotecas y servicios de información y documentación. SEDIC. Madrid. Swanson, R. W. (1975): “Performing evaluation studies in Information Science”. Journal of the Information Society of Information Science, 3: 140-156.

3

TÉCNICAS DE RECOGIDA DE DATOS

3.1. Introducción En la evaluación de los sistemas de información, las técnicas de recogida de datos constituyen las herramientas con las que trabajará el investigador. Su importancia les hace merecedora de un capítulo independiente, si bien esta exposición pertenece al cuerpo teórico del método general de la evaluación. En cuanto a la naturaleza de las técnicas que van a exponerse a continuación, vale la pena mencionar que durante varias décadas se ha considerado que aquellas que debían emplearse en la evaluación eran las de naturaleza cuantitativa (cuestionarios y recogida sistemática de datos) bajo la asunción de que sólo con su uso podrían obtenerse datos objetivos y válidos susceptibles de análisis estadísticos variados. Sin embargo, este planteamiento en las últimas décadas ha ido perdiendo terreno de la mano de la progresiva incorporación en este campo (y en muchos otros) de las técnicas cualitativas (observación, entrevistas, técnicas de consenso, etc.), que han demostrado su utilidad para proporcionar información útil, no tanto para describir la magnitud de un fenómeno, sino para ayudar al investigador a comprenderlo desde el punto de vista de sus integrantes. La incorporación de las técnicas cualitativas a la evaluación no ha estado exenta de polémica, existiendo momentos de verdadera “tirantez metodológica”, que ha motivado serios enfrentamientos entre los precursores acérrimos e intransigentes de una u otra técnica. Sin embargo, en el momento actual puede afirmarse que este enfrentamiento ha dejado paso a una clara integración de las dos orientaciones. En este sentido se puede aplicar al campo de la

60

Parte I: Fundamentos

evaluación lo expuesto por Wang (1999) en su revisión sobre las metodologías empleadas en la investigación sobre la conducta de los usuarios. Este autor considera que conviven dos paradigmas en la investigación en general: un paradigma positivista tradicional, caracterizado por la adopción de técnicas cuantitativas, y un paradigma alternativo emergente, caracterizado, entre otras cuestiones, por el uso predominante de técnicas cualitativas. Entre ambos no es posible establecer una línea que los separe. El debate entre la adopción de una u otra orientación sugiere que ambos paradigmas aportan valiosos métodos y técnicas para la investigación y que ninguno de ellos por separado puede proporcionar un conocimiento completo del problema a investigar. No en vano es frecuente encontrar investigaciones que utilizan varias técnicas de recogida de información. Se trata de la triangulación metodológica, definida por Patton (1987) como el uso de múltiples técnicas para el estudio de un único problema. En este contexto, el objetivo de este capítulo será exponer los rasgos principales de las técnicas cuantitativas y cualitativas más comúnmente utilizadas para la recogida de datos en la evaluación.

3.2. Técnicas cuantitativas Las técnicas cuantitativas son denominadas de esta manera porque generalmente dan como resultado la obtención de cifras, que serán analizadas estadísticamente para producir información sobre la población estudiada o sobre una muestra de la misma. Una investigación utiliza técnicas cuantitativas con el fin de recoger datos de la forma más conveniente para realizar un análisis estadístico. Las dos técnicas cuantitativas por excelencia que se utilizan en la evaluación son los cuestionarios y la recogida sistemática de datos. Los primeros se aplican sobre todo cuando se quiere obtener información sobre opiniones, hechos o acontecimientos relevantes para la investigación. Son instrumentos habituales para obtener información de y sobre los usuarios de los sistemas de información, sobre el uso que éstos hacen de los mismos, sobre su satisfacción y sobre los efectos o consecuencias del uso de dicha información. La recogida sistemática de datos es la técnica que se utiliza para conseguir la información necesaria cuando la aplicación de cuestionarios no es posible o deseable. Su puesta en práctica se fundamenta en el diseño de protocolos de recogida de datos que se adapten a cada situación particular. Se utilizan sobre todo para evaluar aspectos de tipo operativo de los sistemas de información como, por ejemplo, la cobertura o la calidad de la indización.

Capítulo 3: Técnicas de recogida de datos

61

3.2.1. Los cuestionarios El cuestionario es un instrumento de recogida de datos constituido por un conjunto de preguntas, diseñadas cuidadosamente, sobre los hechos y aspectos que interesan en una investigación. Está preparado para su contestación por la población en estudio o por una muestra representativa de la misma.

A) Tipos de cuestionarios Atendiendo al modo de administración, se pueden distinguir dos clases: el cuestionario autoadministrado y la entrevista (Sierra Bravo, 1997): a) El cuestionario autoadministrado es aquel en el que los encuestados, previa lectura, contestan por escrito a las preguntas, sin intervención directa alguna de las personas que colaboran en la investigación. Habitualmente estos cuestionarios se envían por correo. b) En las entrevistas, el cuestionario es aplicado a los sujetos investigados por personas especializadas en esta tarea que son reclutados y preparados por la dirección de la investigación. Según la forma de su realización puede distinguirse entre entrevistas personales y telefónicas. De acuerdo con el grado de discrecionalidad o libertad del entrevistador, podemos distinguir los siguientes tipos: entrevista estructurada formal o con cuestionario, la entrevista semiestructurada y la no estructurada o guión de entrevista. a) En la entrevista estructurada, el cuestionario está formado por preguntas cerradas y estandarizadas. Se conoce también como cuestionario administrado cara a cara, en el que el entrevistador realiza al entrevistado una lista de preguntas específicas en el mismo orden cada vez, con una serie de categorías predefinidas de antemano entre las que debe elegir el entrevistado. b) En la entrevista semiestructurada, el orden y la formulación de las preguntas es flexible. Hay preguntas abiertas y otras estructuradas. En este tipo de entrevista el entrevistado debe responder con mayor o menor libertad y el entrevistador trata de recoger de forma literal las respuestas.

62

Parte I: Fundamentos

c) En la entrevista no estructurada, el orden y la formulación son flexibles. En este tipo de entrevista no existe un cuestionario al que tenga que atenerse el entrevistador. A éste se le indica solamente el objeto y fin de la investigación, así como los diversos puntos sobre los que interesa que obtenga información del entrevistado, quedando a su arbitrio el número o tipo de preguntas a realizar y el modo de formularlas. Este último tipo se emplea sobre todo en los estudios exploratorios previos a las investigaciones proyectadas para obtener un conocimiento básico de la población y del campo de la investigación. Las entrevistas semiestructuradas y las no estructuradas son técnicas de recogida de datos de tipo cualitativo y cuyas características se expondrán más adelante en este capítulo. El elemento fundamental del cuestionario es la pregunta, y precisamente del tipo de pregunta elegida, junto con su correcta formulación y del orden en que se sitúen, dependerá el diseño de un buen cuestionario.

B) Tipos de preguntas Los tipos de preguntas pueden clasificarse de acuerdo con el grado de libertad en la respuesta (véase un ejemplo en el cuadro 3.1) y su función en el conjunto del cuestionario. – Grado de libertad en la respuesta: a) En las preguntas abiertas o icotónicas, el entrevistado tiene libertad absoluta para contestar usando sus propias palabras. b) En las preguntas cerradas o categorizadas, el entrevistado tiene que elegir entre un conjunto de posibilidades. El tipo y número de posibilidades puede dar lugar a los siguientes tipos de preguntas: 1. Preguntas dicotómicas: dos posibilidades de respuesta (sí/no). 2. Preguntas de opción múltiple: en éstas puede presentase una lista cerrada de posibilidades mutuamente excluyentes. Puede tratarse de una lista cerrada o dar la opción de elegir más de una respuesta. 3. Preguntas mixtas: se presenta una lista de posibilidades mutuamente excluyentes y al final se incluye una categoría abierta de “otros”, en la que el encuestado puede especificar su propia categoría.

Capítulo 3: Técnicas de recogida de datos

63

CUADRO 3.1. Ejemplo de preguntas de acuerdo con el grado de libertad en la respuesta Preguntas abiertas o icotónicas Por favor, enumere qué nuevos servicios introduciría usted para mejorar la biblioteca de su organización. _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________

Preguntas cerradas o categorizadas • Dicotómicas: ¿Conoce usted el sistema de información XXX de la Dirección General de XXX? ■ Sí ■ No

• De opción múltiple: ¿Qué sección o secciones ha consultado para obtener la información? ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■

Banco de datos municipal Análisis de datos Documentación general Estudios Evaluación de programas Inspección de servicios Publicaciones Enlaces de interés Novedades Convocatorias Buscar

• Mixtas: Por favor, señale de entre las siguientes categorías aquella que mejor refleje la tarea de su actividad laboral en relación con la que usted utiliza con mayor frecuencia. ■ Toma de decisiones ■ Elaboración de informes ■ Actualización de conocimientos ■ Búsqueda de información para otros usuarios ■ Otros (especificar) ___________________________________________

64

Parte I: Fundamentos

– Función en el conjunto del cuestionario: a) Introductorias o de contacto: son las que inician el cuestionario y están ahí para situar el tema y crear un clima de confianza. b) Filtro: se colocan en un punto determinado del cuestionario para eliminar a las personas a las que no afectan determinadas preguntas. Muchas veces desde este tipo de pregunta se reconduce al encuestado a un bloque distinto de preguntas.

¿Conoce usted el sistema de información de la Dirección General de XXX? ■ Sí

■ No Por favor, si la respuesta es No conteste las preguntas 16 a la 19.

c) Contenido: constituye el bloque central del cuestionario y son las preguntas que abordan directamente los temas sometidos a estudio d) Control: se utilizan para comprobar la veracidad y consistencia de las respuestas. Habitualmente se trata de la misma pregunta redactada de forma distinta que aparece en partes distintas del cuestionario. e) Clasificatorias: son las que se refieren a datos personales y sociodemográficos de los entrevistados. Por favor, señale el grupo de edad al que pertenece: – De 25 a 30 años ............... ■ – De 30 a 35......................... ■ – De 35 a 40......................... ■ – De 40 a 45......................... ■ – De 45 a 50......................... ■ – De 50 a 55......................... ■ – De 55 a 60......................... ■ – De 60 a 65......................... ■

Capítulo 3: Técnicas de recogida de datos

65

C) Diseño de un cuestionario El diseño de un cuestionario no es tarea sencilla pues se trata de elaborar un instrumento de medición que, como tal, debe estar calibrado para recoger información sobre aquello que se quiere investigar y no sobre otros aspectos. No va a ser en este libro donde se trate de forma pormenorizada cuáles son las claves para diseñar un buen cuestionario, remitiéndonos para ello a las excelentes publicaciones que abordan estos temas (Azofra, 1999; Gonzalez Río, 1997; Sierra Bravo, 1997; Díaz de Roda, 1999; Corbeta, 2003). No obstante, en las siguientes líneas queremos plasmar cuáles son las reglas elementales que debe seguir todo cuestionario. – Aspectos generales: • Todo cuestionario debe comenzar con una presentación de la finalidad del mismo y de las personas o instituciones que están detrás de la investigación. • El cuestionario no debe ser excesivamente largo. Cuando esto es así, se corre el riesgo de reducir la tasa de respuesta. • Las preguntas deben estar redactadas en un lenguaje sencillo y de forma comprensible. • Las preguntas deben ser directas y poco ambiguas, a riesgo de obtener información poco consistente. • Hay que evitar preguntas con demasiada jerga, demasiado complejas y las preguntas negativas, tendenciosas o íntimas. • Siempre hay que agradecer explícitamente la colaboración y el tiempo del encuestado. – Orden de las preguntas: • Primero la presentación y las preguntas introductorias. • Las preguntas filtro aparecerán al principio para discriminar y también cada vez que sea necesario ir clasificando los encuestados según cumplan o no determinados requisitos. • Deben agruparse las preguntas sobre el mismo tema (preguntas en batería). • Debe seguirse el orden desde lo más general a lo más específico. • Las preguntas de control deben estar separadas en el cuestionario. • Las preguntas clasificatorias se colocan siempre al final de cuestionario.

66

Parte I: Fundamentos

D) Cuestionario versus entrevista: ventajas y limitaciones A grandes rasgos, las principales ventajas y limitaciones entre los cuestionarios autoadministrados y las entrevistas son las siguientes: Entre las ventajas del cuestionario se encuentran su bajo coste, rapidez y facilidad de administración, así como la posibilidad de incluir en el estudio personas pertenecientes a poblaciones dispersas y de obtener la información de varias personas simultáneamente. A esto podemos añadir que, frente a las entrevistas, permite evitar la influencia del entrevistador y asegura mejor el anonimato del entrevistado. Como desventajas conviene señalar que requiere que el asunto investigado sea conocido y que las preguntas e instrucciones sean sencillas. Por otra parte, es un método con el que se obtienen respuestas sin matices, que no da pie a respuestas espontáneas, es difícil saber con certeza quién lo rellena y es difícil poner preguntas de prueba o corroboración. A esto hay que añadir unas tasas de no respuesta elevadas. La entrevista presenta como ventajas la posibilidad de aplicación a personas analfabetas o que leen y escriben con dificultad. La mayor importancia que el encuestado suele conceder a la entrevista frente al cuestionario, así como la mayor facilidad para obtener cooperación por parte del entrevistado permiten obtener una tasa de respuesta más elevada. En la entrevista, la comprensión de las preguntas es menos problemática, dado que se puede ayudar de métodos audiovisuales o de explicaciones puntuales. Además, permite captar más factores (actitudes, ambiente) que los simples datos recabados al poder acompañarse de observación. Entre sus principales desventajas se cuenta el elevado coste en tiempo y personal, la posibilidad de introducir un sesgo del entrevistador como resultado de la interacción entrevistado-entrevistador, la necesidad de establecer una buena relación con el entrevistado y la posibilidad de realizar la entrevista a una sola persona al mismo tiempo.

3.2.2. La recogida sistemática de datos No todos los aspectos que quieren evaluarse en un sistema de información y que necesitan de cuantificación son susceptibles del uso de un cuestionario. Es el caso, por ejemplo, de la evaluación de aspectos operativos del sistema de información. En estos casos el evaluador debe diseñar los protocolos de recogida de datos que posteriormente le permitan obtener los indicadores deseados. Supongamos un ejemplo muy sencillo: un investigador quiere medir la puntualidad en la actualización de una base de datos. Para ello se ha propues-

Capítulo 3: Técnicas de recogida de datos

67

to obtener los tiempos que se invierten en la realización de determinados procesos que repercuten en el tiempo global de actualización de la base de datos. De ese modo quiere medir los siguientes tiempos (medidos en días): – Tiempo que transcurre entre que un documento es publicado (por ejemplo, en una revista) y que este documento se recibe en la institución productora de la base de datos. – Tiempo que transcurre entre que el documento se recibe en la institución y que éste esté al alcance de la persona que debe realizar su análisis documental después de que se hayan realizado los procesos de registro y sellado del documento. – Tiempo que transcurre entre que el documento está disponible para su análisis y que es realmente analizado actualizando de este modo la base de datos. Para poder obtener estos datos el investigador podría diseñar un protocolo de recogida de datos como el que muestra el cuadro 3.2, que no es más que un ejemplo de una manera con la que el investigador idea una plantilla con la que recoger los datos que se producen con relación a los hechos que pretende observar.

3.3. Técnicas cualitativas Tal como expresa Fidel (1993), no existe una definición breve ni universalmente aceptada para la investigación cualitativa. Así, mientras unos autores optan por caracterizar la investigación cualitativa a partir de elementos particulares de su práctica y la asocian con técnicas concretas como la observación participante o la entrevista en profundidad, otros la definen en función de los datos que produce, narrativos, verbales o textuales, frente a los numéricos de la investigación cuantitativa. Las técnicas cualitativas utilizadas más comúnmente en la evaluación son: a) b) c) d)

Entrevistas en profundidad. Observación. Grupos de consenso. Revisión de documentos (sobre todo los registros de transacciones).

La aplicación de estas técnicas raramente se produce en solitario. Lo habitual es que exista una combinación de técnicas, tanto cualitativas como cuantitativas, reforzando las ventajas de unas con las limitaciones de otras.

31/05/2003

22/06/2003

1

2

Total

4

3

Día de publicación (dd/mm/aa) (a)

Artículo n.º

30/07/2003

19/06/2003

Día de recepción (dd/mm/aa) (b)

1/09/2003

20/11/2003

Día de introducción (dd/mm/aa) (c)

68

172

Tiempo de actualización (c – a)

38

49

Tiempo de recepción (b – a)

CUADRO 3.2. Ejemplo de protocolo para la recogida sistemática de datos para valorar la puntualidad de la actualización en una base de datos

32

123

Tiempo de indización (c – b)

68 Parte I: Fundamentos

Capítulo 3: Técnicas de recogida de datos

69

El uso de las técnicas cualitativas tiene una función muy importante en la evaluación, ya que su aplicación proporciona una valiosa información para comprender los procesos que existen tras los resultados. Además, las técnicas cualitativas se pueden usar para mejorar la calidad de las evaluaciones cuantitativas basadas en las encuestas, ya que ayudan a generar hipótesis de evaluación, refuerzan el diseño de cuestionarios para las encuestas y amplían o aclaran las conclusiones de la evaluación cuantitativa. De forma genérica podemos decir que la función de la aplicación de las técnicas cualitativas es la obtención de información rica en detalle que nos permita comprender mejor las situaciones que estamos investigando. En general son técnicas que funcionan bien con muestras pequeñas, lo que permite analizar problemas en profundidad. Por otra parte, usadas en combinación con técnicas cuantitativas (triangulación metodológica) tienen gran utilidad para obtener información relevante de tipo exploratorio en las etapas tempranas de la investigación, ayudando al investigador a centrar los objetivos de la investigación y, en las etapas finales, a explicar los resultados (cuadro 3.3).

Definir el problema

Cualitativa

Definir y verificar la hipótesis

Cuantitiva

Explicar los resultados

Cualitativa

Figura 3.1. Triangulación metodológica.

Los aspectos de la evaluación que son subsidiarios de un mayor uso de las técnicas cualitativas son aquellos que implican a los usuarios (tanto los usuarios finales del sistema como los intermedios que lo gestionan). Recientemente se ha puesto de relieve en el contexto de la Biblioteconomía y Documentación que el uso de la metodología cualitativa ha tenido como objetivo con, mayor frecuencia, el análisis del comportamiento de los usuarios en el

70

Parte I: Fundamentos

proceso de búsqueda de información, bien sea estudiando el comportamiento de los usuarios finales al hacer búsquedas en sistemas automatizados de recuperación de la información o centrándose en tácticas que utilizan diversos grupos de usuarios para resolver sus necesidades informativas (Borrego Huerta, 1999).

3.3.1. La entrevista en profundidad La aplicación de esta técnica está basada en la formulación de preguntas al entrevistado y en el registro de las respuestas (bien por escrito o mediante grabación de audio o vídeo). Las preguntas son abiertas y el entrevistado tiene libertad de expresar sus ideas con el vocabulario y extensión deseada. El entrevistador guiará la entrevista para aclarar o profundizar aspectos concretos y registrará literalmente las respuestas. Pueden distinguirse tres modos distintos de aplicación de la entrevista en profundidad. El rasgo que los diferencia es la forma como se determinan y estandarizan anticipadamente las preguntas para la entrevista. Según este criterio pueden distinguirse: la entrevista conversacional informal, la entrevista semiestructurada y la entrevista estandarizada. Cada enfoque tiene un propósito diferente y requiere preparación e instrumentación distintas. a) La entrevista conversacional informal. Existe un tema de estudio, pero el tipo y flujo de preguntas surge espontáneamente. El método es muy flexible y permite que el evaluador y las respuestas del entrevistado guíen completamente el desarrollo de la entrevista. Este tipo de entrevistas permite obtener información con gran riqueza de detalle. Como contrapartida, los datos que genera son de difícil clasificación y análisis. b) La entrevista semiestructurada. El entrevistador realiza la entrevista con una lista de temas que ya están predefinidos de antemano. El orden de las temas no necesariamente tiene que ser siempre el mismo, dejándolo a merced del entrevistador de tal modo que la entrevista fluye como una conversación espontánea. Esta flexibilidad es un punto débil de esta técnica desde el punto de vista de la comparabilidad de los resultados. c) La entrevista abierta estandarizada. Este tipo de entrevista consiste en un conjunto de preguntas abiertas cuidadosamente formuladas y ordenadas anticipadamente. El entrevistador hace las mismas preguntas a cada uno de los entrevistados, esencialmente con las mismas palabras y en el mismo orden. Se trata de un cuestionario en el que todas las preguntas son abiertas. Este tipo de entrevista trata de disminuir la variabilidad entre distintos entrevistadores y permite un mejor análisis de los

Capítulo 3: Técnicas de recogida de datos

71

datos y la comparabilidad entre las respuestas. Como contrapartida, este tipo de entrevista es poco flexible y no se puede preguntar por un tema, por importante que se aprecie en ese momento, si esto no se había previsto en el formulario inicial.

3.3.2. La observación La observación es un procedimiento de recogida de datos que se basa en lo percibido por los propios sentidos del investigador, de lo que se desprende que se aplica al estudio de fenómenos existentes naturalmente y al examen de fenómenos y acontecimientos actuales. Sus principales propósitos son comprender, describir y documentar. Responde a cuestiones tales como: ¿qué ha ocurrido?, ¿cómo?, ¿por qué? El uso de técnicas de observación también se ha mostrado eficaz para la investigación del papel que la información juega en el desarrollo de las actividades de los usuarios, de los hábitos desarrollados en la búsqueda de información, de su modo de uso y de sus efectos. Como técnica de recopilación de información, consiste en observar a la persona dentro del contexto en que normalmente desarrolla su actividad, para entender aquellos aspectos que son más significativos respecto del fenómeno o hecho que se investiga, así como para recopilar datos que se estiman pertinentes. La observación no sólo se realiza sobre los sujetos integrados en un programa o sistema, sino también sobre el ambiente (físico, social, cultural, etc.) donde desarrollan sus actividades. En general es una técnica que permite recoger información que sería imposible obtener con el uso de cualquier otra técnica. El papel del observador es fundamental en la investigación. De acuerdo con el papel que éste desempeñe en la investigación, la observación se clasifica en observación participante y observación no participante. a) En la observación participante (o inmersión), el observador se integra en la organización objeto de investigación, asumiendo una función como cualquier otro miembro del grupo. Su misión fundamental es la de entender. b) En la observación no participante, el observador queda como elemento ajeno al entorno investigado. En este caso el observador pretende mantener una perspectiva (espectador) que le permita sobre todo describir la situación. El tipo de observación puede también clasificarse en abierta y encubierta, de acuerdo con la forma de acercarse el investigador al grupo observado.

72

Parte I: Fundamentos

a) La observación abierta es la que se realiza cuando todos los miembros del grupo observado son conscientes de que están sujetos a una investigación y conocen quién es el observador y el papel que cumple. b) La observación encubierta es cuando la presencia del investigador es ignorada por el grupo. Ésta es la situación más frecuente en el caso de la observación participante. La observación encubierta tiene como objetivo evitar el sesgo del observado. Es decir, los cambios que se producen en la conducta de los individuos cuando éstos se saben observados. Como contrapartida, hay que tener en cuenta las posibles implicaciones de carácter ético que supone la observación (y posterior registro) de la conducta, conversaciones y actitudes de sujetos sin su consentimiento. De entre estas modalidades, la observación abierta (participante o no) parece ser la más adecuada para la evaluación de los sistemas de información. Los puntos básicos para la puesta en marcha de una investigación son: decidir el campo de la observación y definirlo del modo más preciso posible limitando la investigación a los aspectos principales o más relevantes. Es preciso construir cuadros de recogida de datos y realizar siempre las anotaciones en el momento de la observación. Las anotaciones son sobre lo observado y no una interpretación que realiza el evaluador sobre lo que está sucediendo. Para la puesta en práctica de esta técnica de recogida de datos hace falta disponer de personal altamente entrenado. Por la formación necesaria, así como por las propias características de la investigación, esta técnica suele requerir una alta inversión en recursos humanos, económicos y de tiempo. Entre las principales ventajas de la observación, cabe mencionar las siguientes: – El observador puede conocer el sistema o el servicio de información en su contexto. – La aproximación es inductiva. Se presenta el campo a estudiar sin hipótesis previas, ni posibles relaciones causa-efecto preestablecidas. – Se pueden conocer rutinas que de otra forma se escaparían a la apreciación del investigador. – Se obtiene información al margen del deseo de proporcionarla. Entre las limitaciones cabe contar con las siguientes: – Posibilidad de proyección del observador sobre lo observado. – Dificultad de separar los hechos observados de la interpretación de los hechos. – Posibilidad de influencia del observador sobre el desarrollo de los acontecimientos de aquello que se observa.

Capítulo 3: Técnicas de recogida de datos

73

3.3.3. Las técnicas de consenso: la técnica del focus group o grupo focal El propósito genérico de las técnicas llamadas de consenso es conseguir acuerdos entre un conjunto de personas relevantes para el objeto del estudio que actuarían como “representantes” de determinados grupos de interés y cuya opinión serviría para clarificar aspectos controvertidos. Bajo el término genérico de técnicas de consenso podemos encontrar, entre otras, dos tipos diferenciados: la técnica Delphi y la del focus group o grupo focal, siendo esta última la de mayor relevancia en el contexto de la evaluación. La técnica del grupo focal recibe el nombre de su propio modo de aplicación ya que se basa en la realización de reuniones donde se intenta aplicar un procedimiento estructurado para obtener la opinión de los participantes sobre el problema objeto de debate. Este debate empieza abordando el tema en estudio desde una perspectiva general para ir focalizando posteriormente el interés en aspectos más concretos (Crawford, 1996; Catterall y Maclaran, 1997). En líneas generales, la puesta en práctica del focus group requiere la participación de entre 5 a 9 participantes y la presencia de un moderador experimentado. En cada sesión se debatirá un tema y la duración de la misma será de entre 60 y 90 minutos. La selección de los participantes dependerá del objeto de estudio. Por ejemplo, pueden ser expertos en una materia determinada, usuarios representativos de los diferentes segmentos de la población diana de un sistema de información, ciudadanos bien informados, etc. El primer paso en la aplicación de esta técnica es reunir a los participantes bajo la dirección de un responsable experimentado en el uso de la técnica y lograr que, ordenadamente y sin discusión, propongan por separado una lista de ideas u opiniones sobre el aspecto tratado. Al finalizar un período de tiempo determinado, se solicita a los participantes que nombren, de entre las ideas que figuran en su lista, aquella que se considera la principal y así sucesivamente hasta agotar todas las listas existentes a la vez que las ideas expuestas van quedando registradas por el moderador a la vista de los participantes. Una vez acabada esta ronda, la siguiente fase consiste en establecer una discusión, lo más estructurada posible, sobre las ideas que han quedado enumeradas en la lista, evaluando cada idea separadamente. Después de la discusión, cada participante, en privado y por escrito, da su opinión y asigna a cada idea un valor dentro de una escala. Finalmente se valoran las opiniones del conjunto de participantes y se emite un informe de resultados. En resumen, la técnica del grupo focal se resume en los siguientes pasos: – Generación por escrito de ideas ante preguntas concretas. – Rondas de aportación de ideas.

74

Parte I: Fundamentos

– – – –

Discusión seriada de ideas. Votación preliminar. Discusión sobre los resultados de la votación preliminar. Votación final y confección del informe.

Entre las ventajas de esta técnica cabe destacar que los participantes pueden expresarse libremente sin las limitaciones de la entrevista. De este modo pueden surgir cuestiones no previstas y se recoge la máxima información en el mínimo tiempo. Entre las limitaciones es necesario señalar que es imprescindible que el moderador elegido tenga experiencia y destreza en la dirección de este tipo de discusiones. Por otra parte no puede garantizarse la confidencialidad de las respuestas dentro del grupo, e indudablemente las relaciones personales pueden ser condicionantes de las respuestas ofrecidas.

3.3.4. Análisis de documentos Los evaluadores pueden complementar la información obtenida con las técnicas descritas anteriormente mediante la revisión de documentos que se han generado a lo largo de la vida del sistema de información; por ejemplo, documentos con las especificaciones del sistema producidos durante la etapa de planificación y diseño, manuales de procedimiento, cuadros de planificación y distribución de tareas, regulaciones y normas de referencia para su funcionamiento, etc. La revisión de estos documentos puede proporcionar al evaluador información acerca de los objetivos del sistema, cambios que se han considerado necesarios en algún momento, planes de modificación, deficiencias observadas en el funcionamiento, etc., información valiosa a la que quizá no se tenga acceso a través de otros medios. Este tipo de documentos puede incluir también aquellos que se generan como producto del funcionamiento del sistema y de su contacto con los usuarios, conocidos como registros de transacciones. Su uso en la evaluación es muy frecuente, como señalan los resultados de un reciente trabajo realizado por Caro-Castro et al. (2003), donde se muestran, entre otros, resultados de los análisis de las técnicas de recogida de datos utilizados en un conjunto de artículos seleccionados acerca de “la investigación sobre recuperación de información desde la perspectiva de los usuarios”. Este estudio pone de relieve que los registros de transacciones son la técnica de recogida de datos utilizada en el 70% de los trabajos analizados. Los registros de transacciones son una fuente de información de utilidad innegable sobre las actividades y los procesos que se llevan a cabo en el sistema de información y pueden generar ideas y pistas acerca de situaciones que

Capítulo 3: Técnicas de recogida de datos

75

no se pueden percibir de una forma fácil mediante el uso de otras técnicas. Por ejemplo, pueden proporcionar información acerca de situaciones que el evaluador no puede observar debido a que se produjeron antes de comenzar la evaluación. Una ventaja importante de este método es que los documentos se generaron en el momento preciso en que sucedieron los hechos a los que se refieren y por ello tienen menos probabilidades de estar sujetos a la falta o a la distorsión de la memoria en comparación con los datos que se obtienen mediante una entrevista. No obstante, tienen el grave inconveniente de ser solamente reflejos parciales de determinadas situaciones.

3.4. La Técnica del Incidente Crítico La Técnica del Incidente Crítico (TIC) fue aplicada por primera vez durante la Segunda Guerra Mundial por Flanagan para analizar las razones por las que los candidatos a pilotos fracasaban en su aprendizaje de vuelo (Flanagan, 1954). Desde entonces esta técnica ha sido utilizada ampliamente para estudiar aspectos relacionados con el comportamiento y la toma de decisiones (Shelagh y Oulton, 1999). Esta técnica ha sido y está siendo utilizada para recabar información con relación a varios aspectos de la evaluación de los sistemas de información, entre ellos, el análisis de las causas de los fallos de la recuperación, la evaluación de los usuarios de los sistemas de información y la evaluación de su impacto. Genéricamente, se entiende como incidente crítico cualquier actividad humana observable que es suficientemente completa en sí misma como para poder realizar inferencias acerca de la persona que las realiza. Se denomina “crítico” por centrar la recogida de información en aquellos incidentes que han resultado especialmente exitosos o han derivado en grandes fracasos. Por ejemplo, en la evaluación de la recuperación un incidente crítico podría ser una búsqueda para la que se han obtenido unos resultados muy buenos o una búsqueda que ha resultado en un total fracaso. Un incidente aislado apenas proporcionaría información relevante, pero un conjunto significativo de incidentes permite tener un buen conocimiento del tipo de acontecimiento que se estudia. En definitiva, la Técnica del Incidente Crítico puede definirse como el conjunto de procedimientos puestos en práctica para identificar de modo sistemático conductas que contribuyen al éxito o fracaso de individuos u organizaciones en situaciones concretas Cuando se aplica esta técnica, la recogida de datos puede realizarse mediante el uso de cuestionarios o entrevistas, aunque también es posible utilizar la observación. Lo que se pretende es la recogida de narraciones concisas sobre hechos o acciones que han ocurrido con relación a las situaciones o aconteci-

76

Parte I: Fundamentos

mientos objeto de estudio. Estas narraciones pueden estar escritas por los propios participantes en el estudio, si se utilizan cuestionarios con preguntas abiertas, por el entrevistador, que recoge literalmente la narración verbal del entrevistado, o por el observador, si es ésa la técnica elegida. Por ejemplo, si quisiéramos utilizar la Técnica del Incidente Crítico en la evaluación de la utilidad de un sistema de información en el entorno laboral, podríamos plantearnos el uso de un cuestionario administrado mediante entrevista como técnica de recogida de datos en la que se podrían incluir preguntas abiertas donde el entrevistado narraría aquello que constituye el incidente y una serie de preguntas cerradas, que ayudarían a describir las características del mismo. Para centrar al usuario en este incidente se podría formular una pregunta abierta acerca de la última ocasión en la que durante el desempeño de su actividad laboral necesitó información adicional que creía podía proporcionarle el sistema de información en estudio. Para ello se podría formular una pregunta del estilo siguiente: Por favor, describa de forma detallada cuál fue la última vez en la que para obtener la información que necesitaba para realizar una actividad relacionada con su trabajo consultó el sistema de información X.

Con este tipo de pregunta se sitúa al entrevistado en un momento próximo en el tiempo y se relaciona el uso del sistema de información con un problema informativo en concreto. Partiendo de esta pregunta pueden realizarse otras cuya finalidad es conocer más sobre este incidente. Se podrá especificar más acerca del tipo de problema que generó la necesidad de información, qué requisitos debía cumplir la información (rapidez con la que era necesaria, grado de especificidad, etc.), cómo utilizó el sistema de información, qué resultados le proporcionó, cómo valoró los resultados, las fuentes de información utilizadas para su satisfacción (tipo de fuentes, criterios seguidos para su selección, medios por los que adquirió el conocimiento de su existencia) y, por último, la utilidad de la información obtenida. Como la Técnica del Incidente Crítico permite el uso simultáneo de técnicas tanto cuantitativas como cualitativas, los resultados suelen ser más explícitos que si se utilizara una sola de estas técnicas. La aplicación de esta técnica se basa en lograr la mayor participación posible. De cada usuario queremos que relate la información relativa a un acontecimiento concreto. Cuanto mayor sea el número de respuestas, mayor será la riqueza de la información obtenida. La reunión de los incidentes será lo que proporcionará la visión de conjunto (figura 3.2).

Capítulo 3: Técnicas de recogida de datos

77

1. Obtención de las narraciones de los incidentes críticos Incidente 1 Incidente 2 Incidente 3 Incidente 4 Incidente 5 Incidente 6

Incidente 7 Incidente 8 Incidente 9 Incidente 10 Incidente 11 Incidente 12 ---------Incidente 500

2. Análisis y clasificación de las narraciones Incidentes

Total

N.º

112 59 127 48 154 --500

%

22,4 11,8 25,4 9,6 30,8 --100

Figura 3.2. Imagen obtenida a partir del análisis de incidentes.

Bibliografía Azofra, M. J. (1999): Cuestionarios. Cuadernos Metodológicos, n.º 26. CIS. Madrid. Borrego Huerta, A. (1999): “La investigación cualitativa y sus aplicaciones en Biblioteconomía y Documentación”. Revista Española de Documentación Científica, 22 (2): 139-155. Caro-Castro, C.; Cedeira Serantes, L. y Travieso Rodríguez, C. (2003): “La investigación sobre recuperación de la información desde la perspectiva centrada en el usuario: métodos y variables”. Revista Española de Documentación Científica, 26 (1): 40-55. Caterall, M. y Maclaran, P. (1997): ”Focus group data in qualitative analysis programs: Coding the moving picture as well as the snapshot”. Sociological Researh Online, 2 (1) (Disponible en: http: //www.socresonline.org.uk/socresonline/2/1/6.html. Fecha de última visita: 21 de abril de 2004.) Corbeta, P. (2003): Metodología y técnicas de investigación social. McGrawHill. Madrid. Crawford, J. (1996): “Evaluation of library and information services”. Aslib. Londres.

78

Parte I: Fundamentos

Díaz de Roda, V. (1999): Técnicas de análisis de datos para investigadores sociales. Aplicaciones prácticas con SPSS para Windows. RA-MA. Madrid. Fidel, R. (1993): “Qualitative methods in information retrieval research”. Library and Information Science Research, 15 (3): 219-247. Flanagan, J. C. (1954): “The critical incident technique”. Psychological Bulletin, 51 (4): 327-358. González Río, M. (1997): Metodología de la Investigación social. Técnicas de recolección de datos. Aguaclara. Alicante. Patton, M. Q. (1987): Qualitative evaluation methods. Sage. Beverly Hills. Shelagh, F. y Oulton, T. (1999): “The critical incident technique in library and information management research”. Education for information, 17 (2): 113125. Sierra Bravo, R. (1997): Técnicas de investigación social: teoría y ejercicios. Paraninfo. Madrid. Wang, P. (1999): “Methodologies and methods for user behavioral research”. Annual Review of Information Science and Technology, 34: 553-599. Woolsey, L. K. (1986): “The Critical Incident Technique: An Innovative Qualitative Method of Research”. Canadian Journal of Counselling, 20 (4): 242-254.

4

EVALUACIÓN DE LA CALIDAD

4.1. Introducción A lo largo de los tres primeros capítulos se han ido estableciendo las nociones fundamentales de la evaluación relativas a su concepto y al método general para la puesta en práctica de este tipo de investigaciones. Llega pues el momento de abordar qué es lo que se va a evaluar o, lo que es lo mismo, de determinar cuál va a ser el objeto de nuestra investigación. En este sentido, el interés se centrará en la evaluación de la calidad de los sistemas de información. Calidad entendida, de una forma muy esquemática, como la reunión o cumplimiento por parte de un sistema de información de una serie de requisitos o normas establecidas de antemano y que, teóricamente, determinarán su buen funcionamiento. En esta línea, la evaluación se enfocará como el medio para poner en evidencia el cumplimiento o no por parte del sistema de estas condiciones. Se excluyen ex profeso de esta monografía las vertientes relativas a la evaluación de recursos financieros, de recursos humanos o de las instalaciones y equipamiento necesarios para que funcione adecuadamente un sistema de información. Centrar los aspectos más relevantes de la evaluación de la calidad de los sistemas de información supone la creación de un marco de trabajo en el que deben quedar explícitas tres cuestiones fundamentales: qué se entiende por calidad, cuáles son las características del sistema de información que, a lo largo de esta monografía, van a actuar de modelo de referencia y cuáles son los requisitos que determinan la calidad de un sistema de información de estas características.

80

Parte I: Fundamentos

4.2. Concepto de calidad La definición de calidad es un asunto un tanto resbaladizo sobre todo porque este calificativo se aplica a cualquier producto o servicio (asistencia técnica, prendas de vestir, coches, paraguas, etc.), lo que dificulta la identificación de los atributos que prestan esa condición a un objeto determinado y, además, porque el concepto de calidad es dinámico y varía con el tiempo y con el entorno que se considere en cada momento. Para poner en evidencia estos aspectos baste con intentar responder a las siguientes preguntas, que si bien son triviales para la materia objeto de estudio, sus posibles contestaciones son muy útiles para ilustrar el significado de las definiciones de calidad que se expondrán a continuación. – ¿Qué atributos reúne un coche de calidad? – ¿Entendemos todos lo mismo cuando se habla, en general, de coches de calidad? – ¿Los atributos que asignamos ahora a un “coche de calidad” son los mismos que los que se le asignaban en los años setenta? – ¿En qué medida sería adecuado utilizar los mismos criterios para juzgar la calidad de un vehículo en el primer o en el tercer mundo? Estas cuestiones reflejan la necesidad de especificar para cada objeto y momento los atributos que definen su calidad, siendo esto lo que precisamente refleja la definición que proporciona la Sociedad Española de Documentación e Información Científica (SEDIC, 1998): Calidad es la reunión en un objeto, procedimiento o servicio de un conjunto de atributos que, dado un momento en el tiempo y un entorno concreto, le otorgan un determinado nivel de excelencia que le permiten apreciarlo como igual, mejor o peor que otro de su especie.

Esta definición pone también de manifiesto que la calidad es un rasgo diferenciador entre objetos de la misma naturaleza. Esto es de gran trascendencia en un momento como el actual en el que todos los sectores, el financiero, el industrial, el sector servicios, etc., están imbuidos en un ambiente de abierta competencia por su respectivo espacio de mercado, en el que la calidad se esgrime como una cualidad necesaria para la supervivencia. El producto o el servicio de calidad tendrá más posibilidades de destacar, de abrirse un hueco en el mercado y de competir que aquél que no disfrute de la misma. Otras definiciones de calidad dan una visión complementaria. Son las que consideran la calidad como la capacidad de un producto o servicio para cum-

Capítulo 4: Evaluación de la calidad

81

plir la función para la que ha sido diseñado. Esta orientación es la que se recoge de forma genérica en la definición que proporciona Juran (1993), quien afirma que: “la calidad de un producto es su idoneidad, aptitud o adecuación al uso”, y es también la que trasmite la definición que de la SEDIC (1998) con relación a su aplicación a las bibliotecas y unidades de información: Conjunto de características de una entidad que le confiere la aptitud para satisfacer las necesidades establecidas o implícitas de sus clientes.

Ambas definiciones ponen de relieve un aspecto a tener muy presente en el contexto de la evaluación y es que la calidad no es una cualidad intrínseca que posee un objeto determinado, sino que es la reunión de una serie de condiciones que deben ser adecuadas para un entorno y un momento concreto. En definitiva, no se trata solamente de ser mejor, sino de serlo en las circunstancias o en el contexto en las que el objeto, instrumento o producto va a ser utilizado. Este último punto de vista tiene mucho que ver con la orientación hacia el usuario de la evaluación de la calidad de los sistemas de información que será explicada en epígrafes posteriores.

4.3. Modelo de sistema de información para la evaluación A estas alturas puede parecerle excesivo al lector que se decida incluir en este manual un epígrafe dedicado a exponer el concepto y estructura de un sistema de información. Sin embargo, la necesidad de este paso es evidente para lograr un marco de trabajo común, sobre todo si tenemos en cuenta que la imagen que cada uno evoca cuando se habla genéricamente de sistemas de información, como se hace de forma reiterada en este manual, es muy diferente. Por ejemplo, no es la misma imagen de sistema de información la que podría tener un estadístico, familiarizado con sistemas de información factuales, que un bibliotecario referencista, para el que, tal vez, el prototipo de sistema de información podría ser el de una base de datos bibliográfica, o que, por ejemplo, un informático, más centrado en las características de la aplicación informática que en las del sistema en su conjunto. La necesidad de determinar el modelo de sistema de información que se utiliza como referente ha sido señalada recientemente por Caro-Castro et al. (2003), recogiendo las palabras de Robertson y Handcok-Beaulieu (1992): “Una aproximación rigurosa a la investigación sobre los sistemas de información debería comenzar por situar los límites del sistema”. La definición de la que partimos para exponer qué entendemos por sistema de información y su estructura es muy genérica:

82

Parte I: Fundamentos

Un sistema de información es un conjunto de elementos articulados con un objetivo: proporcionar información relevante a un conjunto de usuarios. Los elementos que lo integran pueden ser personas, objetos materiales (documentos, instrumentos, etc.) y el conjunto de métodos, técnicas, procedimientos y decisiones que cohesionan y posibilitan su funcionamiento. El sistema de información puede o no estar informatizado y disponer de su correspondiente aplicación informática.

Esta definición es adecuada para los propósitos de este libro en tanto que permite dar una visión amplia de un sistema de información que incluye no sólo aquello que se ve (los productos), ni las tareas que la mayoría podríamos reconocer como propias del mantenimiento de un sistema de información (descripción, catalogación, indización, introducción de datos, etc.), sino que deja explícitos como elementos propios de un sistema aspectos intangibles tales como las políticas, las decisiones y los criterios necesarios para su funcionamiento y que, por lo tanto, deben ser tenidos en cuenta en la evaluación. Su amplitud sirve además para despejar la confusión a la que a veces induce el uso de la expresión sistema de información para designar a las aplicaciones informáticas, parte sin duda de un sistema de información, pero no su equivalente, al menos en este contexto. La estructura que podríamos llamar “clásica” de un sistema de información comprende cuatro apartados: el input, el proceso, los productos (output) y los resultados (outcome), cuyas características describiremos brevemente a continuación. En esta estructura de sistema de información, el input lo define el conjunto de decisiones y operaciones documentales mediante el cual el sistema obtiene los documentos y los datos que son necesarios para caracterizar cada unidad documental que debe actualizar el sistema. Como se puede apreciar, esta concepción difiere de otras en las que por input se entiende el mecanismo de grabación de datos en el sistema o la estrategia de búsqueda (esta última noción se utiliza sobre todo en la investigación sobre recuperación de información). Como parte de la estructura de un sistema de información, el input lo determina en cada momento un conjunto de condiciones que regirá la cobertura y la actualización del sistema de información. Las condiciones a las que hacemos referencia son, entre otras, la política del sistema (que determinará en un momento determinado las áreas temáticas a cubrir, los requisitos de exhaustividad o las fuentes a utilizar para la obtención de los documentos), los datos y los criterios de selección e inclusión de las unidades documentales en el sistema. Forman también parte del input, los mecanismos de obtención de los documentos (suscripción, donación, intercambio, préstamo, acceso libre por Internet, etc.) y de los datos (declaración, búsqueda activa, etc.), así como los flujos

Capítulo 4: Evaluación de la calidad

83

establecidos para que esos documentos lleguen “a las manos” de aquellos que los deben procesar, del mismo modo que los flujos que organizan las tareas de aquellos que hacen esto posible. En resumen, podemos decir que el input lo conforma la puesta en práctica de los criterios y decisiones que hacen posible que se capture toda la información necesaria para “alimentar” al sistema de información. El proceso documental está constituido por el conjunto de operaciones que se realizan con un documento y con su contenido para que resulte posible su recuperación. El objetivo es la confección del perfil de la unidad documental que actualizará la memoria del sistema. En la realización del proceso documental hay implicadas una serie de tareas entre las que cabe enumerar las de identificación y extracción de datos, las de descripción, catalogación e indización, clasificación o codificación (dependiendo del tipo de sistema de información y de cada clase de datos) y las de trascripción de los datos a la memoria del sistema. Además, hay que tener en consideración que en el proceso intervienen otros elementos; por ejemplo, las decisiones, las relativas a los criterios de indización, que determinarán la exhaustividad o la especificidad de la indización así como las características de los instrumentos tales como las clasificaciones, los tesauros, etc. El producto (output) variará de acuerdo con tipo de sistema de información. Así, para los sistemas de información bibliográficos, los productos más representativos son la recuperación selectiva de documentos o de sus representaciones y, los servicios de difusión selectiva de información, entre otros. En cambio, en los sistemas de información factuales lo serán la recuperación selectiva de datos y la producción de información estadística y de indicadores. Tanto al hablar de proceso como de productos en un sistema de información no hay que olvidar incluir como elementos importantes las aplicaciones informáticas que posibilitan tanto el proceso de la información como su recuperación. Llegado a este punto queda por definir qué se entiende por resultados de un sistema de información (outcome), aspecto que a veces provoca confusión al utilizarse habitualmente, aunque de un modo incorrecto, los términos producto y resultado de un modo intercambiable. La diferencia entre ambos conceptos se ve claramente si se utiliza un sencillo ejemplo. Un producto de la industria farmacéutica son los antibióticos. Un resultado sería la curación de la infección de la persona a la que se le ha administrado dicho medicamento. En esta línea, los resultados hacen referencia a los efectos que el uso de los productos de un sistema de información tiene en los usuarios y, en su caso, en la organización a la que éste pertenece. Algunos tipos de resultados podrían ser tomar mejores decisiones, reducir la incertidumbre, aumentar el conocimiento sobre una materia, resolver dudas, mejorar la competencia profesional, etc.

84

Parte I: Fundamentos

En definitiva, se acaba de exponer la estructura, a grandes rasgos, del sistema de información que ha servido de referencia cuando se ha confeccionado esta monografía. Este esquema es aplicable a un gran número de sistemas de información existentes en nuestro entorno, si bien, con la finalidad de ejemplificar el modo en el que pueden llevarse a cabo determinadas evaluaciones, en los capítulos posteriores con gran frecuencia se utilizarán las bases de datos bibliográficas como prototipo de este tipo de sistema de información.

4.4. Perspectivas para definir los atributos de calidad de los sistemas de información Los atributos de calidad que debe reunir un sistema de información pueden definirse tanto para cada uno de sus componentes como para el sistema de información en su conjunto. Esta tarea puede plantearse desde dos perspectivas de trabajo, que en ningún modo se sustituyen una a otra, sino que se complementan. Una es la que hace referencia a la definición de los requisitos de calidad desde el punto de vista operativo del sistema, es decir, su capacidad de cumplir con el objetivo de proporcionar información relevante para cada solicitud. La otra es la que plantea la calidad desde la perspectiva del usuario y de la satisfacción de sus necesidades informativas concretas. En el enfoque operativo, se definen los requisitos de calidad que deben reunir los componentes de los sistemas de información para que el sistema de información pueda proporcionar los productos finales adecuados. El segundo punto de vista tiene que ver con la capacidad del sistema o de información para adaptarse a las necesidades y al entorno de usuarios al que debe prestar servicio. Esta orientación tiene como eje central la opinión del usuario o cliente sobre el funcionamiento, utilidad y efectos del sistema de información.

4.4.1. Criterios e indicadores de calidad de los sistemas de información desde una perspectiva operativa Desde la perspectiva operativa los criterios o requisitos de calidad se han elaborado utilizando como punto de partida la propuesta realizada por el SCOUG (Southern California Online Users Group) para juzgar la calidad de las bases de datos, que está recogida en artículo de Reva Basch (1990), además de las realizadas por otros autores (Harry y Oppenheim, 1993; Jacso, 1997; Moscoso, 1997; Rodríguez Yunta, 1998; Tenopir y Hover, 1993). Desde esta óptica distinguiremos los criterios de calidad del input, del proceso y de los productos (output), que se exponen en los siguientes epígrafes.

Capítulo 4: Evaluación de la calidad

85

A) Criterios e indicadores de calidad del input Los criterios de calidad del input hacen referencia principalmente a aspectos relacionados con la cobertura del sistema, en términos de alcance de los contenidos de la memoria del sistema, la exhaustividad de estos contenidos, la continuidad, la exclusividad y la novedad de los mismos, amén de la puntualidad en la realización de las tareas. – Alcance o cobertura. Se trata de un criterio enfocado a conocer el número y tipo de registros que contiene el sistema de acuerdo con las siguientes coordenadas: • Cobertura temática. Determina el alcance del sistema para proporcionar información sobre determinados temas y subtemas. • Cobertura temporal. Está relacionada con la capacidad de proporcionar información retrospectivamente. • Cobertura geográfica. Hace mención a la procedencia geográfica de la información contenida en el sistema. • Cobertura idiomática. Se refiere a los distintos idiomas en los que pueden estar escritos los documentos incluidos en el sistema. • Cobertura documental. Está en relación con el tipo de documento (libro, informes, cartas, historias clínicas…) cuyas referencias, resúmenes o textos completos están en el sistema. Los indicadores a utilizar son el resultado del estudio descriptivo de los contenidos del sistema. Cuando el estudio se realiza frente a una fuente de referencia, se pueden obtener indicadores de cobertura relativa que habitualmente toma la forma de porcentaje o de frecuencia relativa. – Exhaustividad de la cobertura. Este criterio hace referencia a la medida en la que un sistema está completo respecto de su cobertura teórica. Es un criterio pertinente para la evaluación de la calidad de aquellos sistemas que para funcionar correctamente deben estar completos o para aquellos cuya ventaja competitiva recae en la exhaustividad. El indicador de exhaustividad de la cobertura, suele adoptar la forma de porcentaje que refleja la magnitud de aquello presente en el sistema o que, inversamente, refleja la magnitud de las pérdidas. – Continuidad. Este criterio está relacionado con la evolución en el tiempo de la cobertura del sistema de acuerdo con diferentes aspectos (fuentes utilizadas, idiomas incluidos, materias…) con la intención de detectar posibles lagunas cronológicas. Los indicadores que se utilizan describen esa evolución.

86

Parte I: Fundamentos

– Exclusividad. Se trata de un criterio que se utiliza en el contexto de la comparación de la cobertura de dos o más sistemas de información. Los indicadores utilizados muestran tanto el grado de solapamiento como el de unicidad o especificidad de cada una de ellas. Habitualmente se utilizan como indicadores el porcentaje de solapamiento y el de aporte específico. – Puntualidad de la actualización. Este criterio está relacionado con la capacidad del sistema de completar su cobertura teórica en un intervalo de tiempo previamente definido. Los indicadores utilizados están basados en el cálculo de los intervalos de tiempo que median entre la publicación o producción del material y su inclusión en el sistema. – Actualidad de la información disponible. Este criterio está relacionado con la novedad de la información accesible para el usuario, lo cual depende no sólo de la puntualidad en la actualización, sino de la publicación y distribución del producto. El indicador está basado en el cálculo de los intervalos de tiempo que median entre que se introducen los datos más recientes y se publica y distribuye el producto.

B) Criterios e indicadores de la calidad del proceso de la información Los criterios de calidad del proceso documental hacen referencia al conjunto de operaciones que se realizan con un documento y con su contenido para que resulte posible su recuperación. Aluden sobre todo a la adecuación con la que se realizan las tareas de identificación y extracción de la información, clasificación, codificación, descripción e indización y trascripción, pero también a la política y criterios de indización. De acuerdo con esto, se establecen los criterios de calidad que se especifican a continuación: – Cumplimentación. Este criterio hace referencia a la frecuencia con la que están presentes o ausentes los datos en campos concretos de los registros. El indicador comúnmente utilizado es el porcentaje de campos vacíos. – Exactitud o ausencia de errores en la realización de las tareas antes señaladas. Puede referirse, por ejemplo, a la exactitud de los datos presentes en los campos relacionados con el análisis externo de un documento, caso en el que habitualmente la evaluación se suele centrar en los errores de tipo semántico u ortográfico, o a la exactitud en la asignación de descriptores y palabras clave. En ambos casos el indicador utilizado para medir la magnitud de este criterio suele ser el porcentaje de errores detectados en cada campo investigado.

Capítulo 4: Evaluación de la calidad

87

CUADRO 4.1. Criterios e indicadores para la evaluación de la calidad del input y del proceso documental Componente

Criterio

Input

Indicador Cobertura del sistema

Cobertura relativa

stividad de la cobertura Continuidad Exclusividad

Cobertura relativa

Descripción del alcance de la colección: – Temático – Temporal – Geográfico – Documental – Idiomático

Exhaustividad de la cobertura

Porcentaje de pérdidas del sistema

Continuidad

Evolución en el tiempo de la cobertura

Exclusividad

Solapamiento Unicidad o aporte específico

Puntualidad

Tiempos entre producción o publicación y la inclusión en el sistema

Puntualidad

Actualización

Proceso

Actualización

Tiempos entre publicación o producción y la distribución de la base de datos

Cumplimentación

Porcentaje de campos vacíos

Exactitud

Porcentaje de error

Consistencia

Índice de consistencia

Exhaustividad y especificidad en la indización

Exhaustividad y precisión en la asignación de términos

Respaldo al usuario

Existencia de tesauros, lista de autoridades, etc.

– Reproducibilidad, coherencia o consistencia en la utilización de las normas y procedimientos para la puesta en práctica de las tareas del proceso documental. El indicador que trata de poner en evidencia la uni-

88

Parte I: Fundamentos

formidad o no en la aplicación de tales reglas es el índice de consistencia entre dos o más indizadores, o en un mismo indizador en momentos distintos del tiempo. – Profundidad del proceso documental. Este criterio está relacionado con la cantidad y clases de datos que componen el perfil documental de cada registro (datos bibliográficos, resumen, etc.). Más que con un indicador, la valoración de este criterio se realiza mediante una descripción detallada de lo existente. – Exhaustividad y especificidad de la indización. Este criterio hace referencia a la amplitud y precisión con la que el indizador describe los contenidos de un documento mediante la asignación de descriptores o, lo que es lo mismo, la cantidad de términos relevantes utilizados para describir los contenidos de un documento y la especificidad de los mismos. – Respaldo al usuario. Es un criterio que hace referencia a la disponibilidad por parte del sistema de herramientas de ayuda para la realización de las tareas (fundamentalmente las de indización); por ejemplo, tesauros, listas de términos y autoridades, manuales de procedimiento, etc. Como en el caso anterior, para determinar el cumplimento de este criterio, más que a indicadores debe recurrirse a realizar una descripción detallada de lo existente.

C) Criterios e indicadores de calidad de los productos de los sistemas de información El producto por excelencia de los sistemas de información, sobre todo bibliográfica, es la recuperación selectiva de información y la generación de productos documentales como los boletines de alerta, entre otros. No obstante, existen otros tipos de sistemas de información, como los factuales, cuya presencia en entornos empresariales, de la administración o sanitarios es muy habitual. En estos casos, a las posibilidades de los sistemas de información bibliográficos se deben añadir la producción de información estadística y de indicadores. Desde la perspectiva operativa, los criterios que se utilizan con mayor frecuencia para la evaluación de los productos de los sistemas de información son la relevancia, la exactitud y la validez. – La relevancia del material recuperado es el criterio que clásicamente se ha considerado para juzgar la recuperación documental desde un punto de vista operativo. La capacidad del sistema para recuperar infor-

Capítulo 4: Evaluación de la calidad

89

mación relevante para el usuario es lo que determina la eficacia operativa del sistema. Los indicadores más conocidos para evaluar la eficacia en la recuperación son la precisión y la exhaustividad. – La exactitud es una cualidad ineludible de los resultados cuando se toman en consideración los sistemas de información factuales. Es decir, aquellos sistemas que permiten la recuperación individualizada de datos. El indicador que se utiliza es el porcentaje de error existente en los datos recuperados. – La validez es otra cualidad que debe distinguir a los resultados de aquellos sistemas entre cuyos productos se incluye la producción de estadísticas y de indicadores. Estos tipos de sistemas son verdaderos instrumentos de medida y como tales tratan de “capturar” y transmitir una imagen lo más representativa posible de la realidad. De acuerdo con este fin, lo que se plantea al medir la eficacia del sistema es la capacidad del sistema para proporcionar una información estadística y unos indicadores válidos sin sesgos o errores sistemáticos. Los indicadores que se utilizan son el índice de detección (sensibilidad) y el de confirmación o valor predictivo positivo (García Benavides et al., 1989).

4.4.2. Criterios e indicadores de calidad desde la perspectiva del usuario Los criterios comúnmente utilizados para evaluar los sistemas de información desde la óptica del usuario afectan sobre todo a los productos (output) y a los resultados (outcome) de los sistemas de información. De entre todos los que más adelante se expondrán cabe distinguir por su importancia dos: la satisfacción y el impacto o beneficio del sistema de información.

A) Criterios e indicadores de calidad de los productos (output) Desde esta orientación, los criterios e indicadores tratan de proporcionar una visión que permita apreciar mejor la utilidad del sistema y de sus productos para el usuario. De acuerdo con esto pueden utilizarse como criterios los siguientes: – Pertinencia. La pertinencia es el criterio propuesto para poder valorar la eficacia de la recuperación documental por un usuario y hace referencia a la relación entre los contenidos de los documentos y la utilidad de éstos para satisfacer su necesidad de información (Lancaster y Warner, 1993). Partiendo de este criterio podrán obtenerse los clásicos indi-

90

Parte I: Fundamentos

cadores de precisión y exhaustividad y también otros más orientados a poner de manifiesto el significado que para el usuario tienen los documentos recuperados. Estos indicadores son los índices de cobertura, de novedad, de exhaustividad relativa y de esfuerzo de exhaustividad. – Novedad. La novedad del material recuperado es otro de los criterios que determinan la calidad de la recuperación para el usuario, así como la adecuación del formato de respuesta a las necesidades y tiempo disponible por cada usuario. Otros criterios de tipo descriptivo incluirían los siguientes: – La facilidad de uso del sistema. – El esfuerzo necesario (medido en tiempo, esfuerzo intelectual o dinero invertido). – El tipo de ayuda proporcionada por la aplicación del sistema para llevar a cabo las operaciones de búsqueda y recuperación. Algunos autores han elaborado una lista de criterios como la de Drench et al. (1991), que se expone a continuación. El tipo de indicador que se utiliza para la valoración de estos criterios es de tipo descriptivo y está basado en determinar la presencia o no en el sistema de cada una de las siguientes características: • • • • • • • • • • • •

Ayuda (mostrar información de explicación). Revisar el índice (mostrar términos del índice). Búsqueda (registros que satisfagan una expresión). Visualizar (mostrar los resultados en la pantalla). Imprimir (salida de la impresora). Descargar (salida a fichero). Reiniciar (el comienzo de la ejecución). Finalizar (terminar la ejecución). Ejecutar (alertar a la aplicación de inicio de programas). Interrumpir (una actividad en el programa). Salir –escape (respaldar un paso en cada momento). Navegación (movimiento dentro de los resultados).

Además, desde la perspectiva de los usuarios, es posible obtener otros criterios e indicadores que proporcionan una imagen global de la eficacia del sistema de información que va más allá de la recuperación. De entre los criterios que pueden utilizarse destaca el de la satisfacción. – La satisfacción como criterio para la evaluación se basa en conocer en qué medida el usuario percibe que el sistema de información es capaz

El sistema sistemaen ensu suconjunto conjunto

Resultados (outcome)

Orientada al usuario

Orientada al usuario

Novedad Facilidad de uso Esfuerzo Ayuda Puntualidad Adecuación del formato

Recuperación documental y producción de información estadística

Impacto

Satisfacción

Pertinencia

Recuperación documental

Validez

Producción de información estadística

Productos (output)

Exactitud

Recuperación de datos

Orientada al usuario

Relevancia

Criterio

Recuperación documental

Productos (output)

Componente

Orientada al sistema

Perspectiva

Efectos en la sociedad

Efectos en la organización

Efectos en el usuario

Precisión Exhaustividad Cobertura Exhaustividad relativa Esfuerzo de exhaustividad

Índice de detección Índice de confirmación

Porcentaje de error

Precisión Exhaustividad

Indicador

CUADRO 4.2. Criterios e indicadores para la evaluación de los productos y resultados

Capítulo 4: Evaluación de la calidad

91

92

Parte I: Fundamentos

de satisfacer sus requerimientos informativos. Los indicadores de satisfacción están basados en la opinión de los usuarios sobre las cualidades de un sistema y las de los productos que proporciona. El resultado de estos indicadores constituye una información muy importante acerca del éxito o fracaso del sistema para cubrir sus expectativas.

B) Criterios e indicadores para la evaluación de los resultados de un sistema de información En la literatura anglosajona a la evaluación de los resultados se le conoce con la expresión de outcome assessment. Se entienden como resultado los efectos que producen los productos de un sistema en los usuarios, en la organización o en la sociedad en la que éstos se integran. Desde la perspectiva de la evaluación de los resultados, el criterio fundamental de la evaluación es el beneficio o impacto del sistema. Es lo que Griffiths y King (1991) denominan como efectos de alto orden de un sistema. – Impacto o beneficio del sistema. Este criterio se fundamenta en determinar las consecuencias beneficiosas que el uso de un sistema de información tiene para sus usuarios en términos de toma de mejores decisiones, cambio de conducta de los usuarios, ahorro de tiempo y dinero, etc. En definitiva, es el estudio de aquello que marca la diferencia entre el uso y no uso de un sistema de información. Los indicadores que pueden utilizarse dependerán del nivel en el que se desarrolle la evaluación, distinguiéndose al menos tres: el de los efectos en el usuario que obtiene y utiliza la información proporcionada por el sistema, el de los efectos o repercusiones para la organización a la que presta servicio este usuario y, por último, un nivel más lejano y también más intangible, el de los efectos para la sociedad en su conjunto.

Bibliografía Basch, R. (1990): “Measuring the quality of data: report of the Fourth Annual SCOUG Retreat”. Database Searcher, 6 (8): 18-23. Bawden, D. (1990): User Oriented Evaluation. Gower. Aldershot. Caro-Castro, C.; Cedeira Serantes, L. y Travieso Rodríguez, C. (2003): “La investigación sobre recuperación de la información desde la perspectiva centrada en el usuario: métodos y variables”. Revista Española de Documentación Científica, 26 (1): 40-55.

Capítulo 4: Evaluación de la calidad

93

Drenth, H.; Morris, A. y Tseng, G. (1991): “Expert systems as information intermediaries”. Annual Review of Information Science and Technology, l (6): 113-154 García Benavides, F.; Bolumar Montrull, F. y Peris Bonet, R. (1989): “Quality of death certificates in Valencia, Spain”. American Journal of Public Health, 1-3. Griffiths, J. M. y King, D. W. (1991): A manual on the evaluation of information centres and services. Specialiced Printing Services. Essex. Harry, V. y Oppenheim, C. (1993): “Evaluations of electronic databases, Part I: criteria for testing cd-rom products”. Online&CDROM Review, 17 (4): 211-222. Jacso, P. (1997): “Content evaluation of Databases”. Annual Review of Information Science and Technology, 23: 231-267. Juran, J. M. (1993): Manual de control de calidad. Mcgraw-Hill. Madrid. Lancaster, F. W. y Warner, A. (1993): Information retrieval today. Information Resources Press, Arlington. Moscoso, P. (1997): “Pautas para evaluar bases de datos en cd-rom”. Revista General de Información y Documentación, 7 (1): 187-204. Robertson, S. E. y Handcock-Beaulieu, M. M. (1992): “On the evaluation of IR Systems”. Information Processing & Management, 28 (4): 457-466. Rodríguez Yunta, L. (1998): “Evaluación e indicadores de calidad en bases de datos”. Revista Española de Documentación Científica, 21 (1): 9-23. Sociedad Española de Documentación e Información Científica (1998): Guía para la aplicación de la norma ISO 9000 a bibliotecas y servicios de información y documentación. SEDIC. Madrid. Tenopir, C. y Hover, K. (1993): “When the same database is not the same? Database differences among systems”. Online (Julio), 20-27.

PARTE II

EVALUACIÓN DE LA CALIDAD DESDE LA PERSPECTIVA OPERATIVA DE LOS SISTEMAS DE INFORMACIÓN

5

EVALUACIÓN DEL INPUT

5.1. Introducción Para poder manejar correctamente un sistema de información y sacarle el máximo partido posible es necesario conocer sus debilidades y fortalezas. Pero ¿qué sabemos realmente de los contenidos de los sistemas de información que manejamos en un servicio de referencia? ¿Podríamos argumentar de forma razonada a un usuario cuál es la diferencia entre dos sistemas de información que cubren una misma área temática? ¿Sabemos aconsejar cuántos sistemas de información ha de manejar un usuario para realizar una búsqueda lo más completa posible? ¿Podemos interpretar las limitaciones que tienen los resultados de los estudios bibliométricos según se haya utilizado para la obtención de los trabajos científicos uno u otro sistema de información? Estas y otras preguntas constituyen un conjunto de cuestiones con las que los profesionales de la información se enfrentan a diario. Todas ellas tienen como punto en común que su respuesta, o al menos parte de ella, va a depender del conocimiento que se tenga de la cobertura y la actualización de los sistemas de información implicados. Los datos para poder contestar a estas preguntas tienen una doble procedencia. Por una parte provienen de las especificaciones técnicas que cada sistema de información debe proporcionar sobre sus objetivos, cobertura y fuentes utilizadas y, por otra, de los resultados de evaluaciones sobre el input

98

Parte II: Evaluación de la calidad desde la perspectiva operativa...

de estos sistemas de información. Esta última fuente de datos es muy importante, aunque ignorada muchas veces por los profesionales que generalmente asumen que este tipo de resultados sólo es de interés para aquellos que realizan una evaluación o para los que investigan en esa línea de trabajo. No nos damos cuenta de que la transferencia de resultados de las investigaciones, concretamente las de la evaluación de los sistemas de información, es un paso necesario para mejorar nuestro quehacer profesional y la toma de decisiones. Los parámetros o criterios de calidad del sistema ya han sido expuestos con detalle en el capítulo 4 y están centrados en el conocimiento de la cobertura del sistema y de los factores que la condicionan. A modo de recordatorio cabe mencionar que la cobertura de un sistema está determinada por los contenidos del sistema de información con relación a las materias o áreas sobre las que versan los documentos cuyas representaciones incluye (cobertura temática). Además, otras facetas que determinan las características de la cobertura son: el período de tiempo sobre el que el sistema puede proporcionar información retrospectivamente (cobertura temporal), la procedencia geográfica de la información (cobertura geográfica), los idiomas en los que están escritos los documentos (cobertura idiomática) y el tipo de documento (libro, informe, carta, historia clínica, noticia de prensa, etc.) cuyas referencias, resúmenes o textos completos incluye. La cobertura que pretende alcanzar un sistema de información debe estar claramente especificada en sus objetivos. Su consecución será el resultado de la puesta en práctica de los mecanismos de localización, obtención y selección de los documentos primarios en las fuentes de información que habitualmente utiliza el sistema y de las decisiones, tiempos y flujos que rigen estos procesos. Los estudios de cobertura tienen como objetivo genérico conocer, para un período determinado, el alcance de la memoria de uno o varios sistemas, de alguno o todos los aspectos que la determinan (temas, procedencia geográfica, etc.). De forma muy esquemática podría decirse que son investigaciones encaminadas a responder alguna de las preguntas que se muestran en el cuadro 5.1. De acuerdo con todo ello, este capítulo se dedica a exponer cómo se aplica el método general de la evaluación a la valoración de cada uno de los criterios que condicionan la calidad del input, a mostrar cuáles son los principales indicadores utilizados y a poner de manifiesto a qué tipo de cuestiones pueden dar respuesta los resultados de estas investigaciones. Concretamente se estudiarán el alcance y continuidad de los contenidos, la exhaustividad de la cobertura, la exclusividad de la cobertura y la puntualidad en la actualización del sistema de información.

Capítulo 5: Evaluación del input

99

CUADRO 5.1. Criterios de evaluación del input Pregunta

Criterio

¿Qué contiene el sistema? Por años, temas, procedencia geográfica, idiomas, etc.

Alcance

¿Varían sus contenidos a lo largo del tiempo? ¿El sistema lo abarca todo respecto a una materia, procedencia geográfica, idioma, etc.? ¿Contienen los sistemas A y B la misma información?

¿Qué actualidad tienen los contenidos del sistema de información?

Continuidad Exhaustividad

Exclusividad vs. solapamiento Actualización Puntualidad

5.2. Estudio del alcance y continuidad de la cobertura La evaluación de la cobertura (en inglés, coverage) tiene como objetivo describir cuáles son los contenidos de la memoria de un sistema de información. Cuando el estudio se realiza para un determinado período de tiempo, con la finalidad de estudiar la evolución de esa cobertura y la existencia de posibles lagunas cronológicas o cambios importantes en la cobertura (ausencia de la cobertura de un determinado tema en un lapso de tiempo, incorporación de nuevas fuentes de información, etc.), el criterio estudiado es el de la continuidad. Ambos tipos de estudio son de corte más descriptivo que evaluativo, pues su misión es poner de manifiesto los contenidos reales de la memoria de un sistema de información y no conocer su comportamiento conforme a un patrón o estándar. Los pasos a seguir para la realización de este tipo de estudio son: – Describir con detalle el funcionamiento del sistema. – Especificar si la cobertura se va a estudiar analizando los documentos fuente o los contenidos reales de la memoria del sistema. – Establecer el período de tiempo que va a cubrir el estudio. – Definir qué aspecto de la cobertura es el que se quiere conocer (áreas temáticas, idiomas, procedencia geográfica, etc.).

100 Parte II: Evaluación de la calidad desde la perspectiva operativa... – Definir los indicadores con los que se valorará cada criterio. – Interpretar los resultados y valorar sus limitaciones y su aplicabilidad práctica. De los aspectos que constan en esta lista, haremos unos breves comentarios sobre el enfoque del estudio y sobre las posibles limitaciones de los resultados. En las bases de datos bibliográficas este tipo de estudios pueden plantearse desde dos ópticas. Una sería la de la cobertura de las fuentes de información utilizadas (por ejemplo, revistas) y la otra, desde la cobertura de las referencias o documentos contenidos en la memoria del sistema. Los resultados de ambos tipos de estudio son de gran utilidad para el profesional pues ayudan a conocer mejor la trayectoria y contenidos de un determinado sistema de información. Sin embargo, en ocasiones, los resultados que se obtienen tienen limitaciones que hay que poner de manifiesto cuando se estudia la cobertura de documentos fuente. Por ejemplo, en los sistemas de información bibliográfica los resultados obtenidos pueden no ser indicativos de la cobertura real del sistema para una materia si los criterios de selección de trabajos no son uniformes para todas las revistas, como ocurre en los sistemas en los que de cada revista seleccionan sólo algunos artículos (los más relevantes, los que cumplen ciertas condiciones temáticas o metodológicas, etc.). En este caso puede ocurrir que una determinada revista esté incluida en la lista de fuentes utilizadas y que la memoria del sistema no incluya ninguno de los trabajos en ella publicados. Por este motivo, si se quiere conocer realmente la cobertura de un sistema de información, al menos en los sistemas de recuperación de información bibliográfica, se han de investigar los trabajos o referencias que realmente incluye en su memoria. Un ejemplo de esta situación lo proporciona el trabajo de Amat y de la Cueva (1990), en el que se investigó la proporción de trabajos publicados en revistas biomédicas españolas entre 1980 y 1986 que eran difundidos a través de las bases de datos MEDLARS, EMBASE, BIOSIS y SCISEARCH. En él se estudiaba la cobertura de las revistas biomédicas españolas y la de los trabajos publicados en las mismas. No obstante, no se utilizó como indicador el porcentaje de cobertura, sino el índice de difusión aplicado a las revistas y a las áreas temáticas. Este índice estaba definido como “la fracción obtenida al dividir el número de trabajos difundidos en bases de datos para el período de estudio entre el número de trabajos publicados en ese período de tiempo, multiplicado por el número de bases de datos estudiadas”. Los resultados de este estudio permitieron a los autores poner en evidencia que la inclusión de una revista en la lista de las utilizadas por los servicios

Capítulo 5: Evaluación del input

101

internacionales de indización no garantizaba la inclusión en los mismos de los trabajos que en dicha revista se publicaban. Concretamente, se dio la circunstancia de que ninguno de los trabajos publicados en diez revistas biomédicas españolas que figuraban en las listas fue indizado por ninguna de las fuentes estudiadas durante el período de observación. Este hallazgo viene a confirmar que la cobertura de las revistas es un indicador que sobre-representa la cobertura de un sistema de información, ya que la mayoría de los sistemas de recuperación de información indizan selectivamente un buen número de las revistas que dicen utilizar. Durante muchos años los estudios de cobertura se han realizado más en el contexto de la Bibliometría o Cienciometría, con el propósito de investigar la circulación de las revistas científicas, que como estudios de evaluación del input de los sistemas de información. Éste es el caso del estudio antes mencionado y de un numeroso grupo de ellos, de entre los que cabe situar antecedentes tan tempranos como la investigación de Bradford (1937). En el impulso de los estudios de cobertura en el contexto de la línea de evaluación de los sistemas de información ha tenido gran influencia el espectacular aumento del número de bases de datos que se produjo, sobre todo en los años ochenta, como resultado de la introducción de la tecnología del CD-ROM. Este incremento fue resultado no sólo de un aumento de bases de datos distintas, sino de la comercialización de los mismos productos informativos pero desarrollados y procesados de forma distinta. El aumento en la oferta de bases de datos trajo consigo la necesidad de diferenciar cada producto de sus semejantes. En el mismo sentido ha influido Internet al brindar la posibilidad de acceder de varias formas distintas a la misma base de datos.

5.3. Evaluación de la exhaustividad de la cobertura Cuando en una investigación se pretende conocer la medida en la que un sistema abarca todo lo publicado sobre una materia, una procedencia geográfica, un idioma, etc., se está frente a una evaluación de la exhaustividad de la cobertura. La evaluación de la exhaustividad de la cobertura en una base de datos también puede realizarse para los documentos fuente o para los contenidos reales del sistema. Así, el primer enfoque obedece a un planteamiento basado en la comparación de aquellas revistas sobre una materia que utiliza el sistema de información evaluado frente al universo teórico de las que tratan sobre la materia objeto de estudio. Del mismo modo, si lo que se quiere evaluar es la exhaustividad de la cobertura de un sistema para una materia o tema concreto (o una procedencia geográfica, etc.), la investigación se fundamentará en la comparación

102 Parte II: Evaluación de la calidad desde la perspectiva operativa... de las referencias o documentos contenidas en el sistema con las que constan en una lista independiente que constituye el estándar o patrón de comparación. De un modo esquemático, el método para llevar a cabo la evaluación consiste en la puesta en práctica de los siguientes pasos: – Estudiar con detalle el funcionamiento del sistema. – Decidir si el estudio se va realizar analizando los documentos fuente o los contenidos reales de la memoria. – Establecer el período de tiempo que va a cubrir el estudio. – Definir los criterios que delimitan el área o materia de interés del estudio. – Obtener una lista de revistas o de referencias lo más exhaustiva posible, que actuará como fuente de comparación (patrón o estándar). – Contrastar la lista anterior con la lista de revistas o referencias contenidas en el sistema que se está evaluando. – Obtener los indicadores de exhaustividad de la cobertura. – Analizar y valorar las diferencias encontradas. – Interpretar los resultados y poner de relieve sus limitaciones. De los pasos que aquí se describen hay sobre todo dos en los que se va a centrar más la atención. El primero es el relativo a la obtención de los indicadores de exhaustividad de la cobertura y el segundo, a la interpretación de los resultados.

5.3.1. Obtención del indicador de exhaustividad de la cobertura El indicador de exhaustividad de la cobertura de un sistema de información para una determinada área o tema de interés y un período de tiempo concreto se define como la relación calculada en forma de porcentaje entre el número de referencias contenidas en un determinado sistema (o el número de revistas utilizadas por el sistema) y el número total de referencias contenidas en el patrón de comparación. Exhaustividad de la cobertura =

n.Î de referencias en el sistema · 100 n.Î de referencias patrón

Pese a que en esta definición se hace mención tanto a la posibilidad de evaluar la exhaustividad de documentos fuente (revistas) como a la de los contenidos reales del sistema (referencias o documentos), por claridad expositiva a

Capítulo 5: Evaluación del input

103

partir de aquí nos centraremos en este último aspecto, excepto cuando haya cuestiones relevantes que diferencien la evaluación de uno u otro asunto.

a/(a + b) · 100 Figura 5.1. Indicador de exhaustividad.

Desde el punto de vista de la obtención del indicador de la exhaustividad de la cobertura hay varios aspectos que presentan, si no problemas, al menos ciertas dificultades. Entre ellas cabe mencionar la construcción de una definición operativa que delimite el área temática, la obtención del patrón y el modo en el que se debe realizar la comparación entre aquellas referencias (o documentos) que se han incluido en la memoria del sistema y las que constan en la lista de comparación.

A) Obtención de la definición operativa de área temática Cuando se pretende evaluar la exhaustividad de la cobertura de un sistema de información para un área temática, una de las cuestiones fundamentales es definir claramente qué temas o cuestiones están incluidas dentro de este área y cuáles no; esto es, definir los límites y fronteras del tema en cuestión. Se trata de conseguir una definición operativa que permita una aplicación objetiva y uniforme de criterios para la inclusión o exclusión de referencias o de documentos relativos a la materia objeto de estudio. Esto es necesario para dos cosas: primero, para tener criterio para seleccionar las referencias o documentos que contiene el sistema sobre ese tema y, segun-

104 Parte II: Evaluación de la calidad desde la perspectiva operativa... do, para construir con el mismo criterio la lista de referencias o documentos que constituirá el patrón. B) Construcción del patrón o estándar Para la construcción del patrón, además de disponer de una definición operativa, queda pendiente la cuestión de cómo localizar dichas referencias. En este sentido hay varias posibilidades dependiendo de si de lo que se trata es de evaluar la exhaustividad de documentos fuente o de valorar los contenidos reales de la memoria de un sistema. En la primera situación y tomando de nuevo como referencia el caso de los sistemas de recuperación de información bibliográfica, existen varias fuentes de referencia que pueden ser de gran utilidad como patrón. Así, por ejemplo, si se trata de revistas, puede utilizarse como patrón la base de datos ISSN o también directorios y catálogos de revistas comerciales (por ejemplo, el Ulrich’s Periodicals Directory), institucionales o colectivos. Cuando lo que se pretende evaluar es la exhaustividad de los contenidos de un sistema, no se cuenta con la ventaja de la existencia de fuentes de referencia y el patrón ha de construirse utilizando otras estrategias. La obtención de este estándar puede hacerse de varias formas. Una de ellas es recurriendo a fuentes ya existentes como las bibliografías. Otra es construir una lista de referencias o documentos lo más completa posible sobre el tema utilizando otros sistemas de información o el vaciado sistemático de las revistas más relevantes sobre el tema en cuestión. El uso de bibliografías como patrón ha sido común en los estudios de cobertura, uno de cuyos primeros ejemplos se encuentra en el trabajo de Martyn (1967). En general, la metodología consiste en utilizar bibliografías recientes sobre la materia investigada y comparar sus referencias con los contenidos del sistema evaluado. El uso de bibliografías como estándar representa un considerable ahorro en tiempo y esfuerzo, pero presenta inconvenientes que están relacionados con la propia exhaustividad de la bibliografía utilizada y también con su independencia del sistema evaluado ya que se desconoce cómo han sido confeccionadas. Se puede dar el caso de que la bibliografía se haya construido utilizando el mismo sistema que está siendo objeto de evaluación. Si esto es así, los resultados de la evaluación siempre serán muy favorables al sistema. Otros trabajos muestran ejemplos de la obtención de la fuente independiente por otros métodos. Por ejemplo, Brooks (1980), en su estudio sobre la cobertura de literatura sobre agricultura y bosques, utiliza como patrón la lista de los artículos que habían sido publicados en un determinado período de tiempo en un conjunto de revistas identificadas como las más relevantes

Capítulo 5: Evaluación del input

105

sobre el tema por facultativos responsables de proyectos de investigación relacionados con estos temas.

C) Comparación entre las referencias contenidas en el sistema de información y el patrón o estándar Para obtener el indicador de exhaustividad de la cobertura es necesario que se produzca una comparación entre las referencias o documentos contenidos en la memoria y los que constan en el patrón. En este sentido hay que hacer una llamada de atención sobre dos cuestiones. La primera relacionada con el nivel del sistema en el que debe realizarse la comparación y la segunda, con el proceso de comparación de referencias en sí mismo. En cuanto a la primera cuestión, la comparación debe realizarse siempre a nivel de input, pues, de no ser así, las cifras de cobertura podrían verse afectadas por aspectos ligados al proceso documental y a la recuperación. Esto supone que para averiguar qué contiene en su memoria un determinado sistema de información no deben realizarse búsquedas en el sistema y compararse los resultados de la recuperación de la base de datos evaluada con la lista de referencias que constituye el estándar, sino que debe averiguarse si los artículos que constan en la lista patrón están o no contenidos en la base de datos investigada. Con relación a la segunda cuestión, hay que mencionar que la comparación de registros bibliográficos puede presentar dificultades derivadas de, entre otros factores, la transliteración, el uso diferente de las iniciales de los autores de los trabajos o el registro no uniforme de clases de datos entre diferentes sistemas y que esto debe tenerse siempre en mente.

5.3.2. Interpretación de los resultados En la investigación de la exhaustividad de la cobertura, a la hora de realizar la lectura de los resultados, es muy importante tener en cuenta dos asuntos. El primero es que debe valorarse la magnitud de la diferencia existente entre el contenido de la base de datos y el patrón y el segundo es que ha de analizarse la naturaleza de esta diferencia. De este modo, cuando, por ejemplo, se dice que tal o cual sistema es exhaustivo en un 80%, se está expresando cuantitativamente la capacidad de la base de datos para dar noticia acerca de lo publicado en una determinada materia. A la vez, esta cifra puede tener una lectura inversa y, ante un 80% de exhaustividad, también podemos interpretar que al sistema le falta un 20% de referencias o de documentos para estar completo.

106 Parte II: Evaluación de la calidad desde la perspectiva operativa... En cuanto a la naturaleza de la diferencia, hay que hacer mención de que no sólo es importante saber si al sistema le falta el 20% o el 30% de las referencias, sino que también hay que prestar atención al tipo de referencias que no contiene. Se trata pues de analizar los sesgos resultantes de las posibles pérdidas. Un sesgo es una distorsión (diferencia entre el valor obtenido y el valor real) del efecto medido (en este caso, de la recuperación de documentos) que aparece bien como resultado de los procedimientos utilizados para localizar y seleccionar todas las unidades de información que el sistema debe incluir en su memoria, de acuerdo con su definición operativa de cobertura (sesgo de selección, que es el que aquí nos ocupa), o de los procedimientos relacionados con el tratamiento documental en el sistema (sesgo de clasificación). Ambos tipos de sesgos puede ser aleatorios y sistemáticos (Rothman, 1987). Un sesgo de selección es aleatorio cuando la pérdida de registros afecta de una forma proporcional a todos los tipos de documentos o a todas las categorías temáticas. Por el contrario, un sesgo sistemático es el que se produce si las pérdidas afectan sobre todo a una categoría temática concreta o a un tipo de documento. Las repercusiones para el usuario serán bien distintas si el sesgo que se produce es de uno u otro tipo. Por ejemplo, supongamos que se analiza la exhaustividad de la cobertura de una base de datos cuyo propósito es contener información sobre todos los artículos publicados en España sobre Biblioteconomía y Documentación. Tras la comparación de sus contenidos con un patrón independiente se pone en evidencia que esta base de datos contiene el 80% de los artículos publicados durante el período de estudio. Al analizar el 20% de los artículos que no contiene la base de datos descubrimos que su distribución según las características y temas tratados es semejante a la distribución de los artículos contenidos por la base de datos. El sesgo es aleatorio, pues los artículos que se pierden se distribuyen de forma semejante en todas las categorías temáticas (figura 5.2). Por lo tanto, cuando el usuario de esta base de datos realice una búsqueda, si bien no podrá recuperar todos los artículos publicados, sí que podrá localizar trabajos de todos los temas. Si por el contrario al analizar el 20% de los artículos que no contiene la base de datos se descubre que la distribución de las pérdidas no es semejante a la de los contenidos de la base de datos y que los artículos que se pierden sobre todo pertenecen a una categoría en concreto, entonces se estaría frente a un sesgo sistemático. Siguiendo con el ejemplo anterior, sería el caso de que la base de datos contuviera artículos de todos los temas y que estuviera incompleta sólo para los temas relativos a clasificación y catalogación. Este tipo de sesgo sistemático supone que los artículos que se pierden no afectan a todos los temas (figura 5.3) y, por lo tanto, cuando el usuario de esta base de datos

Capítulo 5: Evaluación del input

107

realice una búsqueda podrá recuperar artículos publicados sobre todos los temas menos sobre aquellos totalmente ausentes.

Figura 5.2. Representación de un sesgo aleatorio.

Figura 5.3. Representación de un sesgo sistemático.

La exhaustividad no es una exigencia para el buen funcionamiento de una base de datos bibliográfica, aunque esta cualidad puede considerarse como una ventaja competitiva frente a otras que cubrieran temas semejantes.

108 Parte II: Evaluación de la calidad desde la perspectiva operativa... Una base de datos bibliográfica puede funcionar bien sin cubrir todo lo que se produce en un área. De hecho, ése es un objetivo que muy pocas bases de datos bibliográficas se proponen y lo habitual es que ninguna sea exhaustiva y que existan varias que cubran áreas temáticas semejantes (en nuestra disciplina es el caso de las bases de datos LISA, ISA y Library Literature). Desde esa perspectiva, las “pérdidas” que se ponen de manifiesto en los resultados de evaluaciones de la exhaustividad de la cobertura no deben interpretarse como resultado de una malfunción del sistema, sino como una limitación del mismo que debe ser conocida para poder utilizar el sistema correctamente y para saber las ventajas y limitaciones de su uso. El porcentaje de exhaustividad de la cobertura será indicativo de la exhaustividad máxima de recuperación (exhaustividad estimada) que podría esperarse del sistema para esa materia si no mediaran para su obtención efectos derivados de los procesos de tratamiento y recuperación de la información. La exhaustividad sí que es un requisito importante y necesario para aquellos sistemas de información entre cuyos objetivos esté la producción de indicadores y de estadísticas, ya que estos sistemas de información son instrumentos de medida. Como tales, las pérdidas de unidades documentales suponen la aparición de errores en la medición y una pérdida de la validez de los resultados. En este tipo de sistema, determinar si las pérdidas son sistemáticas o aleatorias es de vital importancia.

5.4. Evaluación del solapamiento y exclusividad de la cobertura de dos o más sistemas de información La existencia de varias bases de datos que cubren áreas temáticas semejantes plantea preguntas como las siguientes: ¿cuántas bases de datos necesito utilizar para realizar una búsqueda completa? o ¿qué pierdo si sólo utilizo una o dos bases de datos? Estas preguntas y otras de índole similar pueden responderse mejor a partir de los resultados de investigaciones que han llevado a cabo el estudio comparativo de la cobertura de dos o más sistemas de información. Este tipo de investigaciones tiene como objetivo: a) conocer la cobertura relativa de un sistema de información respecto de otro (uno o varios) que cubre áreas temáticas o materias similares; b) averiguar qué contenidos son redundantes al estar incluidos en los dos sistemas de información evaluados; y c) identificar qué contenidos son exclusivos de cada uno de los sistemas de información.

Capítulo 5: Evaluación del input

109

La puesta en práctica de este tipo de investigaciones sigue el modelo general de la evaluación y se desarrolla a través de unos pasos similares a los ya expuestos en el epígrafe anterior: – Estudiar con detalle el funcionamiento de cada uno de los sistemas implicados. – Concretar si el estudio se realizará comparando la cobertura de documentos fuente (por ejemplo, revistas) o de los contenidos reales del sistema (por ejemplo, referencias o documentos). – Establecer el período de tiempo que va a cubrir el estudio. – Definir los criterios que delimitan el área o materia de interés del estudio. – Obtener una lista de revistas o de referencias lo más exhaustiva posible, que actuará como patrón o fuente de comparación. – Contrastar la lista anterior con la lista de las revistas o de referencias contenidas en cada uno de los sistemas evaluados. – Obtener los indicadores de cobertura relativa, solapamiento y exclusividad. – Interpretar los resultados y poner de relieve sus limitaciones. Como en el caso anterior, de entre todos estos pasos, la atención se centrará en dos aspectos fundamentales: la definición y el modo de obtención de los indicadores y en precisar algunas cuestiones relativas a la interpretación de los resultados.

5.4.1. Obtención de los indicadores Los indicadores comúnmente utilizados en estas investigaciones son: el porcentaje de cobertura relativa, el porcentaje de solapamiento y el porcentaje de aporte específico o de contribución de referencias únicas. La obtención de estos indicadores supone tener en cuenta una serie de cuestiones relacionadas con la definición operativa de la materia o área de interés (ya comentada en el apartado 5.3.1, por lo que no se volverá a repetir aquí), con el patrón utilizado y, por último, con el modo de obtención de las referencias que sirven para evaluar el contenido de cada base de datos. Para ilustrar cómo se obtienen esos indicadores nos valdremos del siguiente ejemplo. Supongamos que se quiere comparar la cobertura de dos sistemas (A y B) sobre una materia X. Para ello se han realizado en ambos sistemas varias estrategias de búsqueda para recuperar de cada uno de ellos el mayor núme-

110 Parte II: Evaluación de la calidad desde la perspectiva operativa... ro de referencias sobre la materia en cuestión. Tras la búsqueda, observamos (figura 5.4) que el sistema A ha recuperado 150 referencias sobre el tema y el B, 75.

Figura 5.4. Comparación de referencias obtenidas sobre un tema X por dos sistemas: A y B.

Cuando comparamos la lista de referencias contenidas en los dos sistemas, observamos que 30 referencias están contenidas en los dos, que 120 las tiene sólo el sistema A y que 45 las contiene sólo el sistema B. Si unimos las referencias de A y de B para obtener una lista única en las que las repeticiones o elementos duplicados se han eliminado, tendremos una lista con 195 referencias. Esta lista representa el número máximo de referencias que podría conseguirse utilizando el sistema A y el B, por lo que actuará, como veremos a continuación, como patrón para la obtención de indicadores. Para valorar qué representa la cobertura de un sistema, por ejemplo A, respecto del otro sistema, en este caso B, obtenemos el indicador porcentaje relativo de cobertura. Este indicador se define como la relación, expresada en forma de porcentaje entre las referencias del sistema A y las existentes en la fuente de comparación, en este caso la lista de referencias contenidas en A y B tras eliminar las repeticiones (figura 5.5). Cobertura relativa de A =

n.Î de referencias en A · 100 n.Î de referencias en A ∪ B

Capítulo 5: Evaluación del input

111

Figura 5.5. Cobertura relativa de un sistema de información.

Para conocer qué representan las referencias comunes entre ambos sistemas con relación al total de referencias de la lista, se obtiene el indicador de solapamiento global. Este indicador se calcula como la relación expresada en forma de porcentaje entre el número de referencias comunes a dos o más sistemas (en este caso, A y B) y las existentes en la fuente de comparación, en este caso, la lista de referencias contenidas en A y B tras eliminar las repeticiones (figura 5.6). Solapamiento global =

n.Î de referencias en A ∩ B · 100 n.Î de referencias en A ∪ B

Figura 5.6. Indicador de solapamiento global.

112 Parte II: Evaluación de la calidad desde la perspectiva operativa... Este indicador es el comúnmente utilizado en las investigaciones sobre el tema, aunque hay que tener en cuenta que sólo da una visión unidireccional de la relación existente entre los sistemas estudiados (Gluck, 1990). A este respecto, Bearman y Kunberger (1977) propusieron el uso adicional de otros indicadores que mostraran una visión más equilibrada de la interrelación existente entre dos o más sistemas y permitieran apreciar el peso específico que para cada sistema supone el solapamiento. Estos autores se referían a la utilización del solapamiento relativo de un sistema respecto a su propia cobertura (figura 5.7).

Figura 5.7. Indicador de solapamiento relativo.

El indicador de solapamiento relativo del sistema A respecto al B se calcula como la relación expresada en forma de porcentaje entre el número de referencias comunes de A y B respecto al total de referencias contenidas en A. El solapamiento de B respecto de A se calcula, de igual modo, como el porcentaje entre el número de referencias comunes de A y B respecto al total de referencias contenidas en B. Solapamiento relativo de A =

n.Î de referencias en A ∩ B · 100 n.Î de referencias en A

La comparación de los contenidos de dos sistemas de información puede hacerse desde dos ópticas. Una, que acabamos de ver, es la de la redundancia existente entre los dos sistemas, esto es, desde la perspectiva de lo que se

Capítulo 5: Evaluación del input

113

tiene en común. La otra es desde la de aquello exclusivo que contiene cada sistema. Para valorar la exclusividad de la cobertura de un sistema de información podemos utilizar un indicador denominado porcentaje de contribución de referencias únicas (no solapadas) o aporte específico de un sistema (Abad, 1997). Este indicador se obtiene como la relación expresada en forma de porcentaje, entre el número de referencias no solapadas de un sistema, por ejemplo el A, y el total de referencias contenidas en la fuente de comparación (figura 5.8). Aporte específico de A =

n.Î de referencias no solapadas en A · 100 n.Î de referencias en A ∪ B

El aporte específico de un sistema de información es una visión en espejo del solapamiento relativo y un indicador de lectura muy útil, junto con el de cobertura, para conocer el beneficio que supone la incorporación de una nueva fuente a una búsqueda. Cuando dos o más sistemas de información que cubren la misma área temática tienen porcentajes de aporte específico elevados estamos ante sistemas de información complementarios.

Figura 5.8. Indicador de aporte específico de un sistema.

Uno de los primeros en utilizar el indicador de unicidad o aporte específico fue Goldstein (1972). Este autor realizó un estudio de la cobertura y el solapamiento de las revistas indizadas en cinco sistemas de recuperación de la información del área de Biblioteconomía y Documentación (Library and Information

114 Parte II: Evaluación de la calidad desde la perspectiva operativa... Science Abstracts (LISA), Information Science Abstracts (ISA), Library Literature, Abstract Journal: Informatics (ABJI) y CALL). El propósito de la investigación era la obtención de una lista maestra de las revistas indizadas en los cinco repertorios más importantes del área. A partir de esa lista, Goldstein fue capaz de obtener, como subproducto, cifras de cobertura, solapamiento y aporte específico, así como identificar el núcleo de revistas (core journals) de la disciplina cubierto por los cinco repertorios. Dentro de esta misma línea y temática se enmarca el trabajo de Laboire et al. (1985), que aborda la evaluación de la cobertura y solapamiento entre varias fuentes secundarias relacionadas con la Biblioteconomía y Documentación. En esta investigación se evaluó el solapamiento de los títulos de las revistas cubiertas por los cuatro repertorios principales del área de Biblioteconomía y Documentación. Pretendían con esto replicar el estudio previo de Goldstein (1977) y comparar los resultados actuales con los obtenidos una década antes. Adicionalmente ampliaron el estudio incluyendo seis repertorios no exclusivos del tema, para analizar el solapamiento entre ellos y mostrar las relaciones entre las distintas disciplinas cubiertas por los sistemas estudiados, utilizando técnicas de carácter estadístico y gráfico. Recientemente la cobertura comparativa de algunas de estas bases de datos (ISA, LISA y ERIC) ha sido evaluada por Olivan (1999) en una investigación centrada en el tema de “recuperación de la información”.

5.4.2. Limitaciones y utilidad de los indicadores La obtención de los indicadores del modo que se ha expuesto en este epígrafe tiene una limitación importante a tener en cuenta cuando se trata de valorar la cobertura de los contenidos de un sistema de información y que está relacionada con el modo de obtención de las referencias. Así, si volvemos al enunciado del ejemplo con el que se ha ilustrado la obtención de los indicadores, podemos leer: “Supongamos que se quiere comparar la cobertura de dos sistemas (A y B) sobre una materia X. Para ello se han realizado en ambos sistemas varias estrategias de búsqueda para recuperar de cada uno de ellos el mayor número de referencias sobre la materia en cuestión. Tras la búsqueda…” podemos percibir la contradicción que supone intentar conocer aquello que se ha introducido en el sistema sobre una materia (input) y utilizar estrategias de recuperación (output) para conseguir el material de estudio, aspecto al que ya nos hemos referido anteriormente al plantear los problemas a tener en cuenta la evaluar la exhaustividad de la cobertura. Esta contradicción, que se produce porque es casi imposible conseguir identificar el material de otro modo, tiene repercusión en los resultados. De hecho, es bien sabido que un

Capítulo 5: Evaluación del input

115

determinado sistema puede contener determinados documentos en su memoria que pueden no recuperarse con las estrategias planteadas por muchos motivos (indización no adecuada, estrategia incompleta, etc.). Por este motivo las listas de referencias que aporta cada sistema para su comparación pueden estar incompletas al quedar referencias ocultas en su memoria que no se han recuperado. Debido a esto, los indicadores antes enunciados sólo dan una visión aproximada de la cobertura relativa de un sistema. Un modo con el que puede sortearse parcialmente esta situación y ajustar el cálculo de los indicadores es intentando averiguar si las referencias contenidas exclusivamente por un sistema de información están o no presentes en la memoria del otro sistema. Para ello, cada referencia no solapada del sistema A se buscaría en la memoria del sistema B (por autores, revista, etc.) para averiguar que realmente no está contenida en este sistema y que no se trata de una referencia que haya quedado oculta por un defecto en la indización o en la recuperación. Lo mismo haríamos con las referencias no solapadas del sistema B.

Figura 5.9. Procedimiento de búsqueda de “referencias ocultas” en el sistema B.

El ajuste del cálculo de indicadores se realizaría como resultado de reubicar las referencias según estuvieran o no “ocultas” en la memoria de un sistema. Por ejemplo, como muestra el esquema de la figura 5.9, si una referencia considerada exclusiva del sistema A se localiza en la memoria del sistema B entonces tenemos que hacer lo siguiente: – Incluir la referencia encontrada en la lista de referencias de B para el cálculo de cobertura.

116 Parte II: Evaluación de la calidad desde la perspectiva operativa... – Incluir la referencia encontrada en la lista de referencias solapadas de A y B para el cálculo del solapamiento. – Restar la referencia de la lista de referencias únicas de A para el cálculo de aporte específico. Este proceso se haría para cada referencia oculta que ha sido “encontrada” en la memoria del otro sistema y permitiría un cálculo de indicadores más ajustado a la cobertura que si no se hace. En cuanto a la utilidad de los resultados de los estudios de cobertura y solapamiento, hay que subrayar su función orientativa tanto para el documentalista como para el usuario, cuando se considera la selección de las fuentes de información que pueden ser utilizadas ante una determinada solicitud de búsqueda (John, 1985) o, por ejemplo, ante la adquisición de una base de datos. Conocer la complementariedad y unicidad de las bases de datos existentes sobre una determinada materia es muy importante cuando se necesita realizar búsquedas lo más exhaustivas posibles. Esta situación es cada día más habitual en determinadas áreas de conocimiento, como la Medicina, sobre todo en el contexto de lo que se conoce como la Colaboración Cohrane1. En este caso concreto, es cada vez más frecuente necesitar datos objetivos con los que argumentar acerca de la capacidad de las bases de datos seleccionadas para garantizar una búsqueda exhaustiva de trabajos. Esto ha incrementado muchísimo la publicación de trabajos sobre cobertura y solapamiento entre bases de datos médicas y ha propiciado la reaparición de importantes bases de datos internacionales como EMBASE al demostrarse su complementariedad con otras bases de datos de uso más arraigado como MEDLINE y el gran valor de su aporte específico en algunas áreas (Stevens, 2000; Suárez Almazor et al., 2000; Avenell et al., 2001, entre muchos otros). Del mismo modo, la necesidad de exhaustividad ha incrementado el protagonismo de bases de datos como el IME (Indice Médico Español) y LILACS, por su exclusividad en proporcionar información producida en determinadas áreas geográficas (España, América Latina y el Caribe, respectivamente). En cuanto a la interpretación de los valores del solapamiento, parecen existir argumentaciones contradictorias (Gluck, 1990). Entre los argumentos esgrimidos a favor del beneficio que representa la existencia de cifras altas de solapamiento, se encuentran los que afirman que la redundancia de trabajos es indicativa de su importancia dentro en la materia, así como que el solapamiento proporciona una mayor posibilidad de recuperación al existir varios puntos de acceso a un mismo trabajo y, por lo tanto, reduce el esfuerzo del usuario. En relación con estos argumentos, Pao (1993) presentó los resultados de tres estudios de recuperación donde se podía observar cómo el solapamiento aumentaba la probabilidad de que los ítems solapados fueran considerados relevantes.

Capítulo 5: Evaluación del input

117

Respecto a los aspectos negativos relacionados con cifras altas de solapamiento, se menciona la duplicación de coste y esfuerzo que esto supone tanto para el usuario como para los propios productores de bases de datos. Este argumento ha impulsado a menudo la realización de estudios de cobertura y solapamiento entre sistemas. La preocupación por esta repercusión se ve plasmada en el siguiente comentario de Marco (1983): Desafortunadamente, existe un gran solapamiento y duplicación de esfuerzo entre los servicios internacionales de indización. Es preocupante pensar en la cantidad de indizadores trabajando independientemente en gran número de ciudades, indizando y resumiendo las mismas monografías y artículos.

Estas argumentaciones son esgrimidas también en un sentido contrario, es decir, para defender los beneficios que pueden derivarse de la existencia de cifras bajas de solapamiento. Para ello se menciona el ahorro que esto supone al comprar y usar múltiples fuentes, pues cada una puede proporcionar información diferente y complementaria. Por el contrario, algunos opinan que un bajo solapamiento es perjudicial, ya que es necesario adquirir fuentes con muy buena cobertura, lo cual es caro y obliga al usuario a invertir más tiempo y esfuerzo para examinar todas la fuentes disponibles.

5.5. Evaluación de la actualización y de la puntualidad En un momento concreto de tiempo, la cobertura de una base de datos depende no sólo de la cantidad y tipo de documentos fuente que utilice el sistema y de los criterios de selección de las unidades documentales que van a ser introducidos en la memoria del sistema, sino también de la actualización de dichos contenidos. La actualización es una cualidad de un sistema de información que está relacionada con su capacidad para poner al día los contenidos de su memoria y es el resultado de medir la diferencia de tiempo existente entre la fecha de publicación de la fuente primaria y la disponibilidad de los registros correspondientes en la base de datos. De una forma aproximada, los usuarios de un sistema de información pueden conocer si el sistema está actualizado o no mediante la observación de las fechas de los registros disponibles en la base de datos correspondientes a los últimos años. Así, por ejemplo, si se realiza esta observación en marzo de 2004, asumiendo que el ritmo de producción de documentos es similar en los últimos años y que el sistema no ha variado en gran medida su cobertura, es de

118 Parte II: Evaluación de la calidad desde la perspectiva operativa... esperar que el número de registros de los años 2001 y 2002 sea parecido y que el número de registros correspondientes a los años 2003 y 2004 varíe según la actualización. Así, grosso modo, podría decirse que hay un buen ritmo de actualización cuando el número de registros del 2003 es parecido al de los años anteriores y cuando además hay en la base de datos un número razonable de registros del año en curso (2004). Un ritmo lento de actualización se sospecha cuando en marzo de 2004 el número de registros del año 2003 es mucho más bajo que el de los años 2002 y 2001 y no existen en la base de datos registros del año en curso. Si bien éste sería un modo de averiguar a grandes rasgos el grado de actualización de una base de datos, no es un método que proporcione datos sobre la puntualidad en la actualización ni sobre los factores que influyen en la misma. Entre otros, los factores que influyen en la actualización están relacionados con: – Las fuentes de información utilizadas por el sistema y los mecanismos de comunicación con las fuentes para la obtención de la información (suscripción, préstamo, intercambio, acceso directo por Internet, etc.). – Los flujos de distribución de los documentos primarios en la organización responsable del sistema para que ésta llegue a manos de aquellos que deben procesarla. – La organización y ritmo de ejecución de las tareas del proceso documental. – El modo en el que la información del sistema es accesible para los usuarios (publicación de repertorio impreso, edición de los contenidos de la memoria del sistema en CD-ROM o acceso on line a todos los contenidos). La actualización es el resultado final de la suma de todos estos factores. De entre todos ellos, los que mayor importancia tienen son los relacionados con la adecuación de los flujos de documentos y con la realización de las tareas del proceso documental ya que determinarán la parte de la actualización imputable directamente a la gestión del sistema. La puesta en práctica de una evaluación de la actualización puede plantearse desde varias perspectivas. La que va a exponerse aquí obedece a un supuesto en el que el modelo elegido de sistema de información es una base de datos bibliográfica de acceso online, cuyas unidades documentales las constituyen artículos de revista para cuya obtención se han establecido los adecuados mecanismos de suscripción. En este ejemplo la evaluación se diseña como un estudio prospectivo (los datos se recogen a medida que se van produciendo los acontecimientos objeto de estudio) que se realizará a lo largo de X meses de observación y cuyo primer objetivo es la obtención de valores para un con-

Capítulo 5: Evaluación del input

119

junto de indicadores basados en el cálculo del tiempo que se tarda en realizar determinados procesos. Entre los indicadores que pueden obtenerse se destacan los siguientes: el tiempo medio de actualización, el tiempo medio de distribución y el tiempo medio de indización. Las definiciones de cada uno de estos indicadores son las siguientes: – Tiempo de actualización: promedio de días que transcurren desde la fecha de publicación de un artículo y la fecha en la que ese artículo se ha introducido en la base de datos actualizándola. Este indicador se obtiene como la media aritmética resultante de la división entre el número de días que, para el conjunto de artículos evaluados, pasan entre la publicación del documento primario y la actualización de la memoria del sistema. – Tiempo atribuible a la distribución: promedio de días que transcurren desde la fecha de publicación de un artículo y la fecha en la que la revista que contiene ese artículo se ha recibido en la institución productora de la base de datos (fecha aproximada del registro de recepción de la revista). Este indicador se obtiene como la media aritmética resultante de la división del número de días que, para el conjunto de artículos evaluados, pasan entre la publicación del documento primario y la recepción de la revista. – Tiempo de indización: promedio de días que transcurren entre la fecha de recepción de la revista en la institución productora y la fecha en la que ese artículo se ha introducido en la base de datos actualizando la memoria del sistema. Este indicador se calcula como la media aritmética resultante de la división del número total de de días que, para el conjunto de artículos evaluados, pasan desde la recepción de la revista y la actualización de la memoria del sistema. Para obtener el valor de estos indicadores se procede a una recogida sistemática de datos que puede realizarse con una plantilla semejante a la que se expone en el cuadro 5.2 y que ya se ha puesto como ejemplo en el capítulo de técnicas de recogida de datos. Por ahora, los indicadores que se han expuesto son medias que describen los tiempos transcurridos para llevar a cabo un conjunto de tareas. Sin embargo, ¿qué podemos afirmar sobre la puntualidad en la actualización? Pues por ahora, nada, ya que los valores que ofrecen estos tiempos carecen de significado si no disponemos de un patrón de referencia que nos permita decir si los tiempos medios de actualización, distribución o indización son adecuados o, por el contrario, excesivos y se está produciendo un retraso.

31/05/2003

22/06/2003

1

2

Total

4

3

Día de publicación (dd/mm/aa) (a)

Artículo n.º

30/07/2003

19/06/2003

Día de recepción (dd/mm/aa) (b)

1/09/2003

20/11/2003

Día de introducción (dd/mm/aa) (c)

68

172

Tiempo de actualización (c – a)

38

49

Tiempo de recepción (b – a)

CUADRO 5.2. Ejemplo de plantilla para la recogida sistemática de datos para valorar la actualización en una base de datos

32

123

Tiempo de indización (c – b)

120 Parte II: Evaluación de la calidad desde la perspectiva operativa...

Capítulo 5: Evaluación del input

121

La información acerca de qué intervalo de tiempo se considera adecuado para cada situación debería constar en las especificaciones del sistema, formando parte de los objetivos del mismo. Esto, que es lógico, no por ello es habitual y se suple en las investigaciones sobre el tema adoptando un tiempo de referencia razonable que actúa como patrón. Cuando se dispone de un patrón o tiempo medio de referencia con el que comparar los valores de estos indicadores, entonces se puede pronunciar un juicio de puntualidad en la actualización o puntualidad en la realización de los procesos de distribución o de indización, o, a la inversa, podremos afirmar que dichos procedimientos se llevan a cabo con puntualidad o retraso, así como especificar su magnitud. Desde el punto de vista de la recuperación, las consecuencias de una falta de puntualidad en la actualización son, en un momento en concreto del tiempo, las mismas que la falta de cobertura. La ventaja es que el problema se subsana con el tiempo. Cuanto más retraso, más tiempo tardará el sistema en proporcionar resultados fiables para un período de tiempo determinado y relativamente reciente. Cuando un sistema está retrasado en la actualización debe utilizarse sabiendo que los datos correspondientes a los últimos meses o años no están completos, aspecto que deberán conocer tanto los profesionales como los usuarios de las bases de datos.

Bibliografía Abad García, M.a F. (1997): Investigación evaluativa en Documentación: aplicación a la Documentación Médica. Servicio de Publicaciones, Col.lecciò educació. Serie materials n,º 23, Valencia. Avenell, A.; Handoll, H. H. y Grant, A. M. (2001): “Lessons for search strategies from a systematic review, in the Cochrane Library, of nutritional supplementation trials in patients after hip fracture”. American Journal of Clinical Nutrition, 73 (3): 505-510. Bearman, T. C. y Kunberger, W. A. (1977): A study of the coverage overlap among fourteen major science and technology abstracting and indexing services. National Federation of Abstracting and Indexing Services. Filadelfia. Brooks, K. (1980): “A comparison of the coverage of agricultural and forestry literature on AGRICOLA, BIOSIS, CAB and SCISEARCH”. Database, 3: 38-49. Gluck, M. (1990): “A review of journal coverage overlap with an extension of the definition of overlap”. Journal of the American Society of Information Science, 41: 43-60.

122 Parte II: Evaluación de la calidad desde la perspectiva operativa... Goldstein, S. (1973): “Statistical bibliography and library periodical literature-part4: 1972 abstracting, indexing, and contents coverage of library and information science periodicals”. CALL, 2: 3-13. John, K. (1985): “Medical literature searches. How many bibliographic databases are needed for sufficient retrieval in medical topics?” Methods of Information in Medicine, 24: 163-165. Laboire, T.; Halpein, M. y White, H. D. (1985): “Library and information science abstracting and indexing services: coverage, overlap and context”. Library and Information Science Abstracts, 7: 183-195. Marco, G. (1983): ”Bibliographic control of library and information science literature”. Libri, 33, 45-60. Martyn, J. (1967): “Tests on abstracts journals: coverage, overlap and indexing” Journal of Documentation, 23: 45-70. Rothman, K. J. (1987): Epidemiología moderna. Díaz de Santos, Madrid. Salvador Olivan, J. A.; Angós Ullate, J. M. y Fernández Ruiz, M. J. (1999): “Comparación y evaluación de las bases de datos ERIC, LISA e ISA sobre el tema Recuperación de la información”. Revista Española de Documentación Científica, 22 (1): 50-63. Stevens, S. R. y Raymond, H. (2000): “Mapping the literature of cytotecnology”. Bulletin of the Medical Library Association, 88 (2): 172-177. Suárez Almanzor, M. E.; Belseck, E.; Homik, J.; Dorgan, M. y Ramor-Remus, C. (2000): “Identifying clinical trials in the medical literature with electronic databases: MEDLINE alone is not enough”. Control Clinical Trials, 21 (5): 476-87.

6

EVALUACIÓN DEL PROCESO DOCUMENTAL

6.1. Introducción Desde la perspectiva de la evaluación, la calidad del proceso documental ha sido uno de los aspectos que más atención ha recibido. El motivo es evidente si se toma en consideración que los errores introducidos en esta fase son imputables al sistema y que en cada paso de ese proceso existe el riesgo de que se introduzca un error que imposibilite que el documento o la información se recuperen con un claro menoscabo de la eficacia del sistema. Además, desde la óptica del profesional de la información, la evaluación del proceso documental le brinda la oportunidad de conocer la calidad de su propio trabajo y de mejorarla en el caso de que no sea la adecuada. El proceso documental constituye el centro neurálgico de un sistema de información y comprende el conjunto de operaciones que se realizan con un documento y con su contenido para que resulte posible su recuperación. Su objetivo es la confección de un perfil de la unidad documental que pasará a formar parte de la memoria del sistema. Las tareas implicadas en este proceso son distintas según se considere el análisis formal o externo del documento o el análisis interno o de contenido. En el primer caso, las tareas implicadas comprenden la identificación, en el documento primario, de los datos relevantes sobre las características formales del documento y su grabación en el soporte magnético u óptico del sistema de información. En el caso del análisis interno, el proceso es más complejo y comprende la puesta en práctica de las tareas de identificación de los conceptos o temas tra-

124 Parte II: Evaluación de la calidad desde la perspectiva operativa... tados en el documento y la asignación de las palabras clave o descriptores que reflejen dichos conceptos de acuerdo con las normas internas del sistema y con las características del lenguaje documental utilizado. En este apartado debe considerarse también la posibilidad de confeccionar el resumen de los contenidos del documento y la de utilizar una clasificación para el tratamiento de algún tipo de dato. En conjunto, la realización de estas tareas y procedimientos cumple tres funciones básicas: a) la caracterización de cada unidad documental o entidad objeto del sistema; b) la adecuación de la información original al lenguaje del sistema; y c) la actualización de la memoria activa del sistema. Los errores que pueden cometerse en la realización del proceso documental son variados y entre ellos podemos mencionar los que constan en la lista que se detalla a continuación. – Falta de consistencia en el uso de las normas de trascripción. – Errores gramaticales. – Errores ortográficos: • Sintácticos. • Semánticos. – Errores tipográficos. – Errores en la asignación de palabras clave o descriptores. – Falta de consistencia en la asignación de palabras clave o descriptores. A la evaluación de todos ellos se dedicará atención en este capítulo a excepción de los errores de tipo semántico (frases mal construidas, mala conjugación, falta de concordancia del género o número, etc.) y sintáctico (frases sintáctica y ortográficamente correctas pero carentes de sentido).

6.2. Evaluación del análisis formal La evaluación del análisis formal o externo tiene como objetivo conocer la corrección o exactitud de los datos contenidos en determinados campos (por ejemplo, autores, título, institución de trabajo, etc.) de los registros que conforman la memoria de un sistema, lo que se traducirá en la medida de los errores contenidos en cada campo. Extremeño (1999) comenta que la detección de errores ha sido objeto de estudio desde hace tres décadas, período en el cual se ha analizado cuidadosamente el lenguaje con ayuda de los ordenadores, lo que ha dado lugar a la aparición de una nueva disciplina denominada Lingüística Computacional.

Capítulo 6: Evaluación del proceso documental

125

En la realización de las tareas de análisis formal del documento pueden distinguirse los siguientes tipos de error: – La falta de consistencia en la aplicación de las normas de transcripción. – Errores ortográficos y tipográficos. – Errores por omisión.

6.2.1. Evaluación de la falta de consistencia en la aplicación de las normas de transcripción La falta de seguimiento de las normas de trascripción es un tipo de error que se produce cuando el profesional transcribe los valores de los datos a la memoria del sistema sin seguir los criterios que se han establecido para ello y que deberán constar en el manual de procedimiento. Por ejemplo, supongamos que para un determinado sistema de información existe una norma que especifica que la trascripción de los nombres y apellidos de los autores debe realizarse del siguiente modo: Cuando hay un solo autor, introduzca el primer apellido (en minúsculas excepto la inicial), segundo apellido (en minúsculas excepto la inicial), coma, espacio, primera y segunda inicial del nombre sin punto ni espacio entre las letras, finalizar con punto. Por ejemplo: Abad García, MF. Cuando hay varios autores, consígnense hasta 6 y anótese el primer apellido (en minúsculas excepto la inicial), segundo apellido (en minúsculas excepto la inicial), coma, espacio, primera y segunda inicial del nombre sin punto ni espacio entre las letras. Utilícese punto y coma para separar los datos del siguiente autor, finalizar con un punto. Por ejemplo: Abad García, MF.; Peris Bonet, R.; Abad Pérez, I.

Para conocer si se siguen las normas especificadas en los manuales de procedimiento, lo habitual es obtener una muestra representativa de registros y proceder a la recogida y análisis de los datos. De forma muy esquemática, los pasos para llevar a cabo una evaluación de esta naturaleza serían los siguientes: – Definir los campos que se quieren evaluar. – Establecer los criterios para seleccionar los registros a evaluar (lengua, período de tiempo, tipo documental…). – Obtener una muestra representativa de registros. – Comparar la forma en la que están consignados los datos en los campos de cada registro con las normas utilizadas por el sistema que actuarán de patrón.

126 Parte II: Evaluación de la calidad desde la perspectiva operativa... – Obtener un indicador que mida las diferencias encontradas. El indicador habitualmente utilizado se calcula como el promedio de errores detectados por cada 100 palabras revisadas.

E _ trascripción =

n.º de palabras transcritas erróneamente ×100 n.º de palabras evaluadas

– Analizar cuantitativamente y cualitativamente los errores. Además de obtener datos cuantitativos que nos permitan saber si el porcentaje de error debido a la falta de seguimiento de normas es elevado o no (en general se habla de entre 0,3% y 0,5% de errores admisibles en una base de datos, aunque normalmente se refieren a los errores ortográficos), el análisis también debe incidir en la naturaleza del error. De este modo, hay que averiguar si el error se produce siempre por el mismo motivo, por ejemplo si siempre se utilizan mayúsculas en los apellidos en vez de minúsculas, o, por el contrario unas veces los errores se deben a unas causas (por ejemplo, al uso incorrecto de mayúsculas) y otras veces a causas distintas (por ejemplo, al uso incorrecto de puntos en las iniciales, etc.). En el primer caso estaremos ante un error aleatorio y en el segundo, ante un error sistemático. El conocimiento de la naturaleza del error permitirá establecer mejor acciones correctoras dirigidas a la formación del personal o hacer una revisión pormenorizada del manual de procedimiento con vistas a solucionar posibles ambigüedades, la falta de alguna norma, etc. El origen de este tipo de error es variado, pero en su aparición influyen la falta de formación del personal, la falta de experiencia, la ausencia de controles periódicos de calidad y, sobre todo, la falta de un manual de procedimiento, su deficiente confección o su falta de uso. Las repercusiones de este tipo de error serán variables y dependerán del tipo de campo que esté afectado y de su importancia para la recuperación. Así, la falta de normalización en campos como el de la institución de trabajo, muy importante a la hora de delimitar búsquedas, puede tener importantes repercusiones en la recuperación.

6.2.2. Evaluación de los errores ortográficos y tipográficos El seguimiento de las normas no implica que los datos consignados sean correctos y viceversa. Para poder decir que, además de cumplir las normas, los datos

Capítulo 6: Evaluación del proceso documental

127

son correctos, debemos comparar la información que consta en la memoria del sistema con la consignada en el documento original. Los errores de los datos pueden deberse a tres causas fundamentalmente: a) que se omita ese dato en la base de datos cuando sí que está presente en el documento original; b) que se cambie totalmente el valor del dato; por ejemplo, si se trata de un apellido que conste Pérez en vez de García; y c) que exista un error ortográfico o tipográfico constando la palabra pero mal escrita. A su vez, los errores ortográficos o tipográficos pueden ser de diversos tipos, entre ellos cabe destacar: – Error de inserción: carácter erróneo inshertado dentro de una palabra. – Error de omisión: carácter omitido dento de una palabra. – Error de permutación: caracteres adyacentes de una palabra son intercambaidos. – Error de sustitución: carácter de una palabra es reemplazafo por otro diferente. – Error por supresión de espacios resultando la uniónde dos palabras o por añadir es pacios donde no corresponde. La evaluación de la presencia o no de errores ortográficos y tipográficos en la base de datos puede hacerse mediante evaluación directa o evaluación indirecta.

A) Evaluación directa Los pasos para realizar una aproximación directa a este problema son similares a los ya especificados y son los siguientes: – Definir los campos que se quieren evaluar. – Establecer los criterios para seleccionar los registros a evaluar (lengua, período de tiempo, tipo documental…). – Obtener una muestra representativa de registros. – Comparar la forma en la que están consignados los datos en los campos de cada registro con los datos que constan en los documentos originales que actúan de patrón. – Obtener un indicador que mida las diferencias encontradas. Este indicador es el porcentaje de error y se calcula, para cada campo evaluado, dividiendo el número de veces que la palabra registrada contiene un error (o está omitida) respecto del total de palabras contenidas en los campos de los registros evaluados multiplicado por 100.

128 Parte II: Evaluación de la calidad desde la perspectiva operativa... E _ ortográfico =

n.º de palabras con un error ortográfico × 100 n.º de palabras evaluadas

– Analizar y clasificar el tipo de error más frecuente en cada clase de datos. Como en el caso anterior, se deberá identificar si son errores sistemáticos o aleatorios, diferenciar los errores de omisión de los ortográficos o tipográficos y especificar el porcentaje que corresponde a cada tipo de error. Extremeño y Moscoso (1998) refieren que son muchos los autores que han estudiado la frecuencia de aparición de errores y que todos ellos coinciden en que su el orden de aparición es el siguiente: entre un 30-40% son errores de omisión, entre un 25-30% de inserción, entre 15-25% de sustitución, entre un 10-15% de permutación, entre un 20-25% de repetición y entre un 25-30% son debidos a espacios en blanco. En el caso de los errores de omisión y los ortográficos, las posibles causas son atribuibles sobre todo a las características personales de los profesionales encargados de estas tareas, a su formación mecanográfica y a los “vicios” en el manejo de teclados. Los errores ortográficos y de omisión no sólo tienen una incidencia negativa en la imagen que proporciona la base de datos, sino que perjudican la recuperación disminuyendo la exhaustividad de los resultados. El uso, en los campos que esto sea aplicable, de ficheros de autoridades (instituciones, ciudades, países, etc.) reduce notablemente la ocurrencia de estos tipos de error en una base de datos. B) Evaluación indirecta Los métodos indirectos suelen utilizarse para evaluar la presencia de errores en una base de datos, sin que para ello se realice una revisión directa de los contenidos de los registros. Servirán, como veremos más adelante, para obtener una medida aproximada de los errores existentes en una base de datos. Entre los enfoques metodológicos vamos a hacer mención al uso de índices de palabras, a los test de suciedad, al método del hapax legómena y al método de los trigramas. • Uso de los índices de palabras Esta técnica, basada en la metodología propuesta por Bourne (1977) y llevada a la práctica por Herrero Solana (1997), se sustenta en el uso del índice

Capítulo 6: Evaluación del proceso documental

129

de palabras de la base de datos y se desarrollaría de acuerdo con los siguientes pasos: – Definir tres distancias o intervalos de palabras en el índice de la base de datos. – Obtener una lista detallada de las palabras comprendidas en cada intervalo del índice, junto con su frecuencia de aparición. – Señalar las palabras erróneas. – Obtener los porcentajes de error para cada intervalo, señalando el porcentaje global de error y un porcentaje específico de cada uno de los tipos de error (sustitución, inserción, etc.). Este método tiene entre sus ventajas la comodidad, si bien tiene el inconveniente de no detectar errores de omisión, ni del uso erróneo de palabras ortográficamente bien escritas pero que no se corresponden con las que deberían constar. • Test de suciedad Ortego de Lorenzo y Bonal Zazo (2002) afirman que estos tests son de aplicación reciente para la evaluación de la calidad de las bases de datos y describen sus principales características en los siguientes términos: Se trata de tests basados en la búsqueda, en una base de datos, de un número de términos representativos escritos deliberadamente de forma errónea con el fin de analizar su frecuencia de aparición y, sobre todo, su relación proporcional con el número de palabras escritas correctamente. Básicamente la aplicación de estos tests se desarrollan en los siguientes cuatro pasos: – Selección de la serie de términos erróneos. La mayor parte de las veces el número de términos es de 10. – Búsqueda en la base de datos de los términos erróneos seleccionados y de sus variantes y comprobación, en su contexto, de que efectivamente se trata de un término erróneo. – Cálculo de los porcentajes de error. – Análisis de resultados, obtención de la relación de palabras mal escritas y bien escritas, identificación de los elementos de la descripción donde son más frecuentes los errores, etc. Cómo se puede apreciar, son tests útiles pero con la limitación propia de los métodos basados en una aproximación probabilística a un fenómeno y no en la revisión directa de los hechos.

130 Parte II: Evaluación de la calidad desde la perspectiva operativa... • Método del hapax legómena o de los términos de baja frecuencia Se trata de un método de evaluación basado en el análisis de palabras con baja frecuencia de aparición. En concreto, se denominan hapax legómena aquellos términos que aparecen una sola vez en el texto. Spinak (1995) expone su aplicación para la detección de errores en una base de datos del siguiente modo. Puesto que el porcentaje de palabras erróneas que puede existir en una base de datos se calcula que es inferior al 1%, es probable que las palabras mal escritas aparezcan una sola vez en el texto. Para localizarlas sería suficiente producir un listado del texto palabra por palabra, ordenado por la frecuencia de aparición de cada palabra y examinar aquellas cuya frecuencia sea uno o dos. El problema de utilizar este método es que los errores suelen repetirse varias veces, sobre todo aquellas palabras en las que por cualquier motivo existe un vicio de tecleo. • Método de los trigramas Este método se sustenta en la existencia en el alfabeto de cualquier idioma de un número finito de trigramas o combinaciones posibles de tres letras. En español, por ejemplo, existen 273 trigramas posibles. La base de este método es el análisis automatizado de los trigramas que componen las palabras que constan en la base de datos e identificar todos aquellos trigramas que no corresponden a un idioma concreto.

6.3. Evaluación de la indización La indización de un documento, esto es, la asignación de términos, palabras clave o descriptores que reflejen su contenido es, tal vez, uno de los aspectos más complejos y que más tiempo y recursos consumen en el mantenimiento de un sistema de información. La indización manual de un documento consiste en la caracterización de su contenido mediante la realización de dos procesos consecutivos: 1) la realización del análisis temático o de contenido, con el fin de identificar los conceptos o temas tratados; y 2) la traducción de esos contenidos a un conjunto de términos escogidos del lenguaje natural o de algún vocabulario controlado. En la puesta en práctica de estos procesos hay que tener en cuenta la coexistencia de muchos factores. En cuanto al análisis temático, cabe mencionar que la formación y conocimientos del indizador tendrán una gran influencia en su capacidad para comprender el texto que debe analizar, para reconocer los temas

Capítulo 6: Evaluación del proceso documental

131

que en él se tratan y para distinguir qué temas constituyen el núcleo central del documento y cuáles se tratan más superficialmente. Con relación a la traducción de los contenidos a los términos, bien del lenguaje natural o del vocabulario controlado, hay que considerar varios aspectos: la capacidad o habilidad del indizador para traducir los temas a conceptos y los conceptos a términos, los criterios que marcan la política de indización del sistema y que determinan la exhaustividad y especificidad de la indización, y, por último, la capacidad del lenguaje documental utilizado para proporcionar descriptores adecuados a los conceptos tratados. Durante el proceso de indización pueden darse varios errores o defectos que tendrán efectos negativos sobre el rendimiento del sistema de recuperación. Lancaster (1996) distingue básicamente cinco tipos de problemas: 1. Fallos en el análisis conceptual. El indizador no entiende correctamente la materia del documento e interpreta erróneamente su contenido durante el análisis conceptual. 2. Fallos en la traducción. El indizador comprende el contenido del documento, pero escoge términos inadecuados para expresarlo. 3. Error de omisión. El indizador omite un aspecto importante del documento durante el análisis conceptual. 4. Falta de especificidad en el vocabulario. El indizador identifica durante el análisis conceptual la materia sobre la que trata un documento, pero se ve obligado a indizarlo con un término más genérico porque el vocabulario del sistema no contiene términos suficientemente específicos. 5. Falta de especificidad en la indización. El indizador utiliza términos del vocabulario que son más genéricos que la materia concreta del documento, a pesar de existir términos específicos en el vocabulario. De acuerdo con esta clasificación, podemos afirmar que el problema 4, está directamente ocasionado por dificultades de vocabulario. El resto se debe al indizador. Soergel (1994) clasifica los errores debidos al indizador en dos grandes categorías: error de omisión y error de comisión. El error de omisión aparece cuando un descriptor que debe ser asignado no lo ha sido (error tipo 3 de Lancaster) y el error de comisión aparece cuando se ha asignado un descriptor que no debería serlo y que obedecería a las situaciones 1, 2 y 5 descritas por Lancaster. Este autor propone además dos enfoques para la evaluación del proceso de indización: la evaluación de la calidad de la indización y la evaluación de su consistencia, aspectos ambos que se desarrollarán a continuación.

132 Parte II: Evaluación de la calidad desde la perspectiva operativa... 6.3.1. Evaluación de la calidad en la indización La indización es un proceso altamente intelectual, susceptible de proporcionar resultados no uniformes ya que su puesta en práctica depende no sólo de la habilidad técnica de un indizador y del seguimiento de unas políticas y normas, sino del conocimiento que éste tenga sobre el tema y de la interpretación que haga del mismo. Estas condiciones suponen que dos buenos indizadores pueden indizar un documento de forma distinta y que ambos documentos podrían estar bien indizados, situación que pone en evidencia que no necesariamente existe una única forma correcta de indizar un documento. Esta circunstancia, nada despreciable, supone una gran dificultad a la hora de evaluar la calidad de la indización habida cuenta de que para llevar a cabo este proceso es necesario disponer de un patrón con el que comparar, al cual se le asumen los valores verdaderos. Conseguir que los descriptores asignados a un conjunto de documentos indizados puedan actuar como patrón constituye el principal reto metodológico para poder llevar a cabo la evaluación de la calidad de la indización; calidad que puede expresarse en términos de corrección o exactitud. Para llevar a cabo la evaluación de la calidad podemos utilizar al menos dos estrategias para conseguir un patrón: – Utilizar un patrón atribuido. – Construir un patrón por consenso. ¿A qué nos referimos cuando hablamos de patrón atribuido y en qué circunstancias se utiliza? Se puede considerar que se trata de un patrón atribuido cuando a los descriptores que ha asignado un determinado individuo se les atribuye la condición de “correctos”. Ésta es una práctica habitual en el marco de evaluaciones que se hacen con un fin formativo o en los controles periódicos de calidad que se llevan a cabo en un sistema de información. Esta circunstancia se daría, por ejemplo, cuando se trata de conocer cuál es la calidad de la asignación de descriptores realizada por un indizador novel. Para ello se compara esta asignación con la realizada por un indizador de experiencia que es la que se considera la correcta. Los resultados que se obtienen en estos tipos de evaluaciones son de gran utilidad para enfocar la formación. Esta situación que sucede “de facto” en el contexto antes mencionado es difícilmente aceptable si lo que se plantea es realizar una investigación que tenga un diseño consistente y en la que se pretendan obtener unos resultados objetivos y fiables, dado que la falta de reproducibilidad del método podría invalidar los resultados.

Capítulo 6: Evaluación del proceso documental

133

Para evitar que esto suceda, una alternativa posible es la de construir un patrón, que si bien no contendrá los valores verdaderos, ya que éstos no existen, constituirá el mejor patrón disponible. Un modo de construir un patrón será mediante el consenso de un panel de expertos (Rolling, 1981; Soergel, 1994). El planteamiento metodológico que conduce a la creación de un patrón mediante el consenso de un panel de expertos se ha expuesto con detalle en el capítulo 2. No obstante, con la finalidad de agilizar la lectura los rasgos principales de este proceso se reproducen a continuación. Un panel de expertos está formado por profesionales de reconocido prestigio, que en el caso de la indización pueden ser especialistas en la materia sobre la que tratan los artículos, pero que, además, han sido entrenados en las técnicas y normas de indización, o también expertos indizadores que conocen bien la materia y terminología sobre la que tratan los artículos cuya indización se evalúa. El consenso de sus opiniones o de sus actuaciones constituirá el mejor patrón disponible. El número de expertos que se suele convocar suele ser impar, pues en ocasiones el papel que juega uno de ellos es el de resolver situaciones de conflicto entre pares. Para describir de forma muy esquemática el modo con el que podemos obtener ese patrón supongamos el siguiente ejemplo. Se convocan tres expertos que se encargarán de decidir qué descriptores deberían asignarse a una muestra de documentos seleccionados, con los que se construirá un patrón siguiendo la siguiente pauta de actuación: – Indización por dos expertos (A y B), de forma independiente, del contenido de cada artículo seleccionado para el estudio. – Comparación, para cada documento, de los descriptores asignados por los expertos. Cuando ambos expertos (A y B) coinciden en la asignación de un descriptor, entonces ese descriptor pasa a formar parte del patrón. Cuando no coinciden, ambos indizadores discuten los pros y contras de cada descriptor. Como resultado puede suceder: a) Que estén de acuerdo en que el descriptor en discusión es correcto y por lo tanto lo incluyan por consenso en el patrón. b) Que lleguen a la conclusión de que ese descriptor no debe asignarse y acuerden que no forme parte del patrón. c) Que no lleguen a ningún acuerdo. Entonces entraría en acción el tercer experto, que jugaría un papel de “desempatador” y su opinión decidiría si el descriptor sobre el que se discute se debería incluir o excluir definitivamente del patrón.

134 Parte II: Evaluación de la calidad desde la perspectiva operativa... De ese modo, entre los tres expertos se constituiría por consenso, para cada artículo, un patrón de indización, que si bien sensu estricto no sería el correcto, al menos sí que sería el mejor disponible. Una vez construido el patrón, ya podría compararse con lo indizado previamente y así obtener los indicadores de calidad o corrección, de exhaustividad y de omisión en la indización. CUADRO.6.1. Ejemplo de actuación de un panel de tres expertos para la construcción de un patrón para la evaluación de la indización

Artículo 1

Artículo 2

Descriptores de experto A

Descriptores de experto B

Descriptores de experto C

Descriptores patrón

XXX YYY SSS

XXX ZZZ ZZZ

YYY

XXX YYY

DDD AAA FFF

DDD AAA

DDD AAA

Al contar con un patrón que contiene la forma “correcta” de indizar un documento, es posible que se pueda obtener el indicador de exactitud o de corrección de la indización (IE). Este indicador se calcula como la relación expresada en forma de porcentaje entre el número de descriptores asignados en común por el indizador y por el patrón (c) y el total de descriptores asignados al conjunto de documentos: número de descriptores comunes (c), más el número de descriptores asignados sólo por el indizador (m), más número de descriptores asignados sólo por el patrón (n). (Véase la figura 6.1.)

I _ Correción =

c ×100 m+n+c

El resultado de este indicador nos daría una medida global de la calidad de la indización. No obstante, hay que hacer notar que el uso de esta fórmula no permite conocer si la coincidencia entre el indizador y el patrón se produce en los descriptores que describen los aspectos centrales de un documento o en los que representan aspectos más periféricos o superficiales. Para

Capítulo 6: Evaluación del proceso documental

135

que el indicador reflejara esta cuestión debería procederse, como indica Rolling (1981), a la realización de una ponderación de los descriptores.

Indizador (M)

P a t r ó n (N)

c

n

m

Descriptores asignados erróneamente

c

Descriptores correctamente asignados

Descriptores omitidos en la indización

Figura 6.1. Comparación de la indización entre el indizador (M) y el patrón (N).

De acuerdo con el esquema, además de poder obtener la medida en la que los documentos se indizan correctamente, también se puede calcular el indicador de exahustividad en la indización, que relaciona el número de descriptores correctamente asignados por el indizador con el total de descriptores que se deberían haber asignado según el patrón. La exhaustividad está relacionada con una asignación correcta de descriptores, a lo que se añade la ausencia de errores de omisión. Ambos indicadores se obtienen de la forma siguiente: – Indicador de exhaustividad en la asignación de descriptores. Este indicador se calcula como la relación expresada en forma de porcentaje entre el número de descriptores correctos asignados por el indizador (c) y el número de descriptores totales que debería haber asignado: número de descriptores comunes entre patrón e indizador (c), más el número de descriptores asignados sólo por el patrón (n).

Exhaustividad _ indicación =

c ×100 c+n

136 Parte II: Evaluación de la calidad desde la perspectiva operativa... – Omisión en la asignación de descriptores. Este indicador es el inverso del anterior y se calcula como la relación expresada en forma de porcentaje entre el número de descriptores asignados por el patrón que están ausentes entre los asignados por el indizador (n) y el número total de descriptores que contiene el patrón (c+n).

I _ Omisión =

n ×100 c+n

Los defectos de indización por omisión deben distinguirse de aquellos debidos a una falta de exhaustividad en la política de indización. En este sentido, puede decirse que hay una omisión cuando un concepto central tratado en un documento no ha quedado reflejado en la indización. Es decir, cuando el concepto omitido es suficientemente importante para que estuviera cubierto aun en el caso de existir una política de indización poco exhaustiva (Lancaster y Warner, 1993). Lo más interesante de este tipo de estudios no es tanto la obtención de estos indicadores, pues están limitados a proporcionar una visión excesivamente cuantitativa del modo en el que se realiza este proceso, como poder derivar medidas correctoras o educativas. Para ello es necesario realizar análisis pormenorizados de los resultados por pares de documentos o por grupos de documentos para averiguar qué temas o conceptos son los que, por ejemplo, son omitidos con mayor frecuencia y por qué, y qué tipo de errores se han cometido con mayor frecuencia. En cuanto a la repercusión de la falta de corrección en la indización, hay que señalar que los errores de omisión causarán defectos en la exhaustividad de la recuperación y que la asignación de descriptores erróneos repercutirá directamente en una menor precisión de las búsquedas.

6.3.2. Evaluación de la consistencia o reproducibilidad de la indización Se entiende por consistencia o reproducibilidad la cualidad de un procedimiento para dar el mismo resultado en cada ocasión que es realizado bajo idénticas condiciones. En el mismo sentido también se habla de variabilidad o de fiabilidad. La evaluación de la consistencia puede realizarse desde dos perspectivas: la consistencia interindizador, que es la conseguida entre dos o más indizadores al indizar el mismo documento de forma independiente y en las mismas condiciones; y consistencia intraindizador, que es la obtenida al valorar

Capítulo 6: Evaluación del proceso documental

137

la realización de un mismo proceso por el mismo indizador en ocasiones diferentes. Saracevic (1987) considera que la consistencia interindizador es uno de los aspectos que recaen en el ámbito de los estudios sobre las diferencias individuales en el marco de los sistemas de recuperación de información y que trata de medir las diferentes reacciones de los seres humanos cuando procesan la misma información. Los primeros trabajos sobre estos aspectos tienen hoy cerca de cincuenta años de antigüedad (Leonard, 1977), aunque en las últimas décadas siguen produciéndose investigaciones de un gran interés (Middleton y Diorio, 1984; Star, 1982; Konnings, 1985; Sievert y Verbeck, 1987; Barber et al., 1988; Iivonen, 1990; Sievert y Andrews, 1991; Tonta, 1991; Moreiro et al., 1998 y Gil Leiva, 2001 y 2002 entre otros) debido a la innegable repercusión que estos procedimientos tienen en la eficacia recuperadora del sistema.

A) Evaluación de la consistencia interindizador La evaluación de la consistencia obedece genéricamente a la siguiente cuestión: ¿En qué medida personas con una determinada característica en común producen los mismos resultados cuando realizan la misma tarea? O dicho de otro modo, ¿cuál es la magnitud de la diferencia? (Saracevic, 1987). En líneas generales, el método para la evaluación de la consistencia interindizador se fundamenta en la comparación de los términos asignados por dos indizadores distintos a un mismo documento. El procedimiento para la selección de los documentos a evaluar es variable. Entre ellos cabe destacar: – Selección de una muestra de documentos de un determinado sistema de información para que dos indizadores distintos asignen de forma independiente los descriptores. – Selección en un sistema de información de aquellos registros que están duplicados y comparación de los descriptores que se le han asignado a estos pares de documentos (Funk y Reid, 1983; Sievert y Andrews, 1991). – Selección en dos (o más) sistemas de información de una muestra de documentos que están en ambos sistemas y comparación de la asignación de descriptores que recibe el mismo material por sistemas distintos. En este caso, los resultados de la evaluación además proporcionarán una medida de la variabilidad de criterios y políticas de indización existentes en los mismos lenguajes (Middleton y Di’Orio, 1984; Starr, 1984; Konnings, 1985; Barber et al., 1988; Tonta, 1990).

138 Parte II: Evaluación de la calidad desde la perspectiva operativa... Para la obtención de la medida de la consistencia, el indicador más comúnmente utilizado es el porcentaje de concordancia basado en la siguiente fórmula propuesta por Hooper (1965) y recogida por Leonard (1977) y que ha sido aplicada en varios trabajos, entre otros los de Funk y Reid (1983), Sievert y Andrews (1991), Tonta (1991) y Moreiro et al. (1998). Esta fórmula hace referencia a parámetros que quedan reflejados en la figura 6.2. Indizador (M) I n d i z a d o r (N)

c

n

m

Descriptores asignados sólo por M

c

Descriptores asignados por N y por M

Descriptores asignados sólo por N

Figura 6.2. Comparación de la asignación de descriptores entre dos indizadores, M y N.

En la fórmula para la obtención del indicador de consistencia (IC), m es el número de términos únicos asignados por el indizador M, n es el número de términos únicos asignados por el indizador N, c es el número de términos comunes a ambos indizadores y 100 es el factor que permite que el indicador de consistencia oscile en un rango de valores de 0 a 100.

IC =

c ×100 c+m+n

De este modo, si el indizador M utiliza 11 términos para describir un documento, el indizador N utiliza 10 para el mismo documento y existen 8 términos comunes, tenemos los siguientes valores para la ecuación: M = 11 (número de términos usados por M). N = 10 (número de términos usados por N).

Capítulo 6: Evaluación del proceso documental

139

c = 8 (número de términos coincidentes en M y N). m = 3 (número de términos utilizados por M y no por N). n = 2 (número de términos utilizados por N pero no por M). IC =

8 8 × 100 = × 100 = 61, 5%  8+ 3+ 2 13

Esta fórmula, cuya concepción es similar a la ya expuesta para valorar la calidad de la indización, no es uniformemente utilizada en todos los estudios de consistencia. Rolling (1981) expone que la reticencia del uso de esta fórmula para el cálculo de la consistencia se debe a que parece ilógico que se comparen los términos correctos asignados sólo por un indizador con los términos asignados por los dos indizadores. De este modo, propone alternativamente esta otra fórmula: IC =

2c × 100  (M + N)

Mediante la cual se obtendrían, si aplicamos los datos del ejemplo anterior, los siguientes resultados: IC =

16 16 × 100 = × 100 = 76 , 2%  21 (11 + 10)

El indicador de consistencia proporciona información acerca de la uniformidad en la aplicación de criterios, pero no sobre la corrección en la aplicación de estos criterios. En este caso, unos niveles elevados de discordancias son indicativos de la aplicación de criterios distintos y el estudio del tipo de discordancia permitirá poner en marcha mecanismos para la corrección de esa situación. Pese a existir bastante consenso en cuanto al método e indicadores para evaluar la consistencia en la indización, no parece que ésa haya sido siempre la situación en cuanto a la interpretación de los resultados. Detrás de casi todas las investigaciones sobre la consistencia en la indización está el intento de averiguar las posibles repercusiones de este proceso en la eficacia de la recuperación. En este contexto se trabaja con la hipótesis de que cifras elevadas de acuerdo entre indizadores resultarán en una mayor eficacia de las búsquedas (medida en términos de exhaustividad y precisión). Sin embargo,

140 Parte II: Evaluación de la calidad desde la perspectiva operativa... autores como Soergel (1994) han puesto en duda tal suposición, argumentando que una indización incorrecta también puede proporcionar cifras de consistencia elevadas cuando se da la situación de que la indización es consistentemente incorrecta, por lo que el conocimiento de los niveles de acuerdo entre indizadores proporcionaría poca o nula información sobre el correcto funcionamiento del sistema. Pese a esa posibilidad, es más probable que exista una relación directa y positiva entre cifras altas de consistencia en la indización y cifras elevadas de eficacia. Los factores que parecen influir en la consistencia de la indización son, entre otros, las características del vocabulario utilizado, el tipo de materias indizadas y las características de los indizadores, especialmente las relacionadas con la experiencia, entrenamiento y políticas de indización de cada sistema. De este modo, investigaciones como las de Svenonius (1972) y la de Sievert y Andrews (1991) han mostrado una relación inversa entre la exhaustividad en la indización y la consistencia en la misma, lo que se traduciría en que a mayor número de términos por documento, menor probabilidad de coincidencia. Así mismo, se ha detectado una relación entre cifras bajas de consistencia en la indización, la complejidad del vocabulario y la ausencia de instrumentos de ayuda para su uso. También la falta de consolidación de la terminología utilizada en diversas áreas o disciplinas influye en la disminución de la consistencia, de tal modo que cuanto más novedosa es la temática y por lo tanto la terminología, mayor es la probabilidad de inconsistencia.

Bibliografía Barber, J.; Moffat, S. y Wood, F. (1988): “Case studies of the indexing and retrieval of pharmacology papers”. Information Processing and Management, 24: 141-150. Bourne, C. H. (1977): “Frequency and impact of spelling errors in bibliographic databases”. Information Processing and Management, 13 (1): 1-12. Chan, L. M. (1989): “Inter-indexer consistency in subject cataloguing”. Information Technology and Libraries, 7 (4): 349-357. Extremeño, A. (1999): “Calidad de la indización e incidencia de errores en la base de datos ECOSOC”. Revista Española de Documentación Científica, 22 (2): 157-173. Extremeño, A. y Moscoso, P. (1998): “El control de calidad en bases de datos de ciencias sociales”. Boletín de la ANABAD, 21: 231-253. Funk, M.; Reid, C. A. y Mcgoogan, L. E. (1983): “Indexing consistency in MEDLINE”. Bulletin of the Medical Library Association, 71: 176-183.

Capítulo 6: Evaluación del proceso documental

141

Gil Leiva, I. (2001): “Consistencia en la asignación de materias de Bibliotecas Públicas del Estado”. Boletín de la Asociación Andaluza de Bibliotecarios, 63: 69-86. — (2002): “Consistencia en la indización de documentos entre indizadores noveles”. Anales de Documentación, 5: 99-111. Herrero Solana, V. (1997): “La calidad total en bases de datos españolas: estudio de la tasa de error en las bases del CSIC”. Revista Española de Documentación Científica, 20 (4): 409-416. Iivonen, M. (1990): “Interindexer consistency and the indexing environment”. International Forum on Information and Documentation, 15 (2): 16-21. Konnings, C. (1985): “Comparison and evaluation of nine bibliographies/bibliographic databases in the field of computer science”. Online Review, 9: 121133. Lancaster, F. W. (1991): Indexing and abstracting in theory and practice. The Library Association. Londres. — (1996): El control del vocabulario en la recuperación de información. Universitat de València. Valencia. Lancaster, F. W. y Warner, A. (1993): Information retrieval today. Information Resources Press. Arlington. Leonard, L. E. (1977): Inter-indexer consistency studies, 1954-1975. A review of the literature and summary of study results. Graduate School of Library Science Occasional Papers. University of Illinois. Middleton, M. R. y Diorio, A. (1984): “A comparison in indexing consistency and coverage in AEI, ERIC and APAIS databases”. Behavioural and Social Sciences Librarian, 3: 33-43. Moreiro, J. A.; Gomes, D.; Ribeiro, J.; Nobrega, E; Albuquerque, M. E.; Arruda, M. L. y Brito, D. A. (1998): “Avaliação de repertórios brasileiros em agricultura, ciência da informação e direito: uma análise de conteúdo”. Ciência da Informação 27 (3), disponible en http://www.ibict.br/cionline/270398/27039806.pdf. Fecha de última visita: 16 de abril de 2004. Ortego de Lorenzo-Cáceres, P. y Bonal Zazo, J. L. (2000): “Métodos de evaluación de calidad de catálogos automatizados: análisis compartivo”, en La Gestión del conocimiento: retos y soluciones de los profesionales de la información. FESABID Libro de actas de las VII Jornadas de Documentación. Bilbao. Rolling, L. (1981): “Indexing consistency, quality and efficiency”. Information Processing and Management, (17): 69-76. Salton, G. y Mcgill, M. J. (1983): Introduction to modern information retrieval. McGraw-Hill. Nueva York. Saracevic, T. (1987): “Individual differences in organizing, searching and retrieving information”. Proceedings of the ASIS Annual Meeting, 28: 82-86.

142 Parte II: Evaluación de la calidad desde la perspectiva operativa... Sievert, M. y Andrews, M. J. (1991): “Indexing consistency in Information Science abstracts”. Journal of the American Society of Information Science, 42: 1-6. Siervert, M. y Verbec, A. (1987): “The indexing of the literature of online searching: a comparison of ERIC and LISA”. Online Review, 11: 95-104. Soergel, D. (1994): “Indexing and retrieval performance: the logical evidence”. Journal of the American Society for Information Science, 45: 589-599. Spinak, E. (1995): “Errores ortográficos en el ingreso en bases de datos”. Revista Española de Documentación Científica, 18 (3): 307-319. Starr, S. (1982): “Database in the marine sciences”. Online Review, 6: 109-126. Svenonious, E. (1972): “An experiment in index term frequency”. Journal of the American Society of Information Science, 23, 109-121. Tarr, D. y Borko, H. (1974): “Factors influencing inter-indexer consistency”. Proceedings of the 37th ASIS Annual Meeting, 11: 50-55. Tonta, Y. (1991): “A study of indexing consistency between Library of Congress and British Library catalogers”. Library Resources and Technical Services, 35: 177-185.

7 EVALUACIÓN DE LA RECUPERACIÓN

7.1. Introducción El principal cometido de un sistema de recuperación de información es actuar como un filtro ante cada demanda formulada por un usuario, proporcionando al usuario todos los documentos que se ajustan a la demanda realizada y ninguno que no cumpla los requisitos que en ella se han especificado. Se trata de que el sistema de información tenga la capacidad de discriminar y recuperar, de entre todos los documentos contenidos en su memoria (o de entre sus representaciones), aquellos que contengan las características especificadas en una solicitud. El fin último de esta operación es proporcionar información capaz de satisfacer las necesidades de información de los usuarios. La medida en la que un sistema de información cumple con estos objetivos se conoce como eficacia. Este término es el que habitualmente se utiliza cuando se trata de poner de manifiesto el funcionamiento de un sistema en entornos experimentales. Sin embargo, cuando esta operación se realiza en entornos reales es más frecuente que se utilice el término efectividad. – Eficacia: del latín efficax, “eficaz”, que tiene el poder de producir el efecto deseado. En el contexto de los sistemas de información, se habla de eficacia como la capacidad del sistema de alcanzar las metas y objetivos propuestos. – Efectividad: del verbo latino efficere, “ejecutar”, llevar a cabo, efectuar, producir, obtener como resultado. En el contexto que nos ocupa es la

144 Parte II: Evaluación de la calidad desde la perspectiva operativa...

capacidad de satisfacer las necesidades de los usuarios adaptando la capacidad de respuesta del sistema a las exigencias de los usuarios. La evaluación de la recuperación ha sido una preocupación constante en el contexto de lo que se conoce como information retrieval. Los motivos de su puesta en marcha, aunque variados, pueden agruparse en torno a los siguientes objetivos: 1. La valoración del funcionamiento del sistema. 2. El conocimiento de la repercusión en la eficacia o rendimiento del sistema de la introducción de nuevos componentes o procedimientos, o de la modificación de los ya existentes. 3. La comparación del funcionamiento de un sistema con otros de semejante naturaleza. El criterio tradicionalmente utilizado para la evaluación de la eficacia en la recuperación es el de relevancia. La definición del concepto de relevancia y del modo de obtención de los juicios de relevancia son dos puntos cruciales de la evaluación. La definición del concepto de relevancia no es tarea sencilla ni conduce a definiciones absolutas y definitivas, motivo por el cual se le dedicará una atención especial en este capítulo. De forma muy general, es posible afirmar que un documento relevante es un documento útil para el usuario que realiza una demanda de información. Así considerado, es evidente que este concepto es enormemente subjetivo, pues la utilidad de un mismo documento puede ser juzgada de forma distinta por dos usuarios diferentes ya que, como se verá posteriormente, su significado depende de múltiples factores, como por ejemplo el momento en el usuario hace la búsqueda, los conocimientos previos que posea sobre el tema, el punto de vista desde el que se valora el contenido del documento, el uso que le vaya a dar a la información, la percepción de la utilidad de buscar información para tomar decisiones, la importancia que le dé a tomar decisiones en ausencia de la información disponible, etc. Los indicadores que tradicionalmente se obtienen de la aplicación de la relevancia como criterio para la evaluación de la recuperación son dos: el índicador de precisión y el de exhaustividad. El indicador de precisión mide la capacidad del sistema de rechazar documentos que no son relevantes. El de exhaustividad determina la capacidad del sistema de proporcionar, para una solicitud, todos los documentos relevantes que contiene en su memoria. Ambos indicadores son fundamentales en la evaluación de la recuperación, pero no los únicos que se utilizan. A éstos se sumarán otros cuya naturaleza dependerá de dos parámetros: el entorno en el que se realiza la evaluación

Capítulo 7: Evaluación de la recuperación

145

(léase entorno experimental o entorno real u operativo) y la orientación de la investigación (evaluación orientada al sistema o evaluación orientada al usuario).

7.2. Concepto y tipos de relevancia Aunque el concepto de relevancia puede expresarse de forma muy general del modo en el que se ha realizado anteriormente, su definición en el contexto de la evaluación de los sistemas de información es compleja. Esto ha generado gran cantidad de investigaciones y publicaciones, como pone de relieve la revisión realizada recientemente por Pia Borlund (2003), algunas de cuyas conclusiones se destacan aquí. La complejidad de la relevancia como criterio para la evaluación proviene de dos aspectos clave: la multidimensionalidad de este concepto y su dinamismo. La relevancia es un concepto multidimensional ya que su significado depende en gran medida de las percepciones del usuario y de sus necesidades de información y es dinámico porque la relación entre la información recuperada y el problema informativo que motive la búsqueda en un momento determinado puede variar con el paso del tiempo.

7.2.1. Tipos de relevancia Desde el punto de vista de la evaluación, pueden considerarse dos tipos de relevancia: la relevancia orientada al sistema y la relevancia orientada al usuario (Saracevic, 1975; Swanson, 1986; Harter, 1992). La relevancia orientada al sistema, también llamada relevancia algorítmica, relevancia sistémica o relevancia formal, es un criterio basado en la coincidencia entre los términos presentes en una búsqueda y los términos presentes en un documento. De acuerdo con este criterio, un documento será considerado relevante cuando los términos expresados en la búsqueda coincidan con los que están presentes en los documentos recuperados o en sus representaciones. Los juicios de relevancia algorítmica excluyen el contexto en el que se produce tanto la necesidad de información como la utilización posterior del documento. Esta exclusión le presta a este criterio una condición estática y al resultado del juicio emitido, un grado de objetividad. El criterio de relevancia sistémica o algorítmica se ha utilizado a menudo en la evaluación de la recuperación de la información en entornos experimentales. La emisión de tales juicios puede llevarse a cabo tanto por una máqui-

146 Parte II: Evaluación de la calidad desde la perspectiva operativa...

na como por expertos en la materia. La ausencia de contexto no hace necesaria la utilización de usuarios reales para este cometido. La relevancia orientada al usuario es de naturaleza subjetiva y presta gran atención al entorno de los usuarios. Saracevic (1996) considera cuatro categorías dentro de este tipo: 1. Relevancia de contenido: criterio según el cual un documento será juzgado relevante no sólo porque en él se traten los contenidos expresados en la solicitud, sino por el modo y orientación en el que son tratados. 2. Pertinencia: término utilizado cuando el juicio de relevancia trata de establecer una relación entre los contenidos del documento y la necesidad de información que motivó la búsqueda. 3. Relevancia situacional: relaciona el contenido del documento con el problema o tarea que motiva la búsqueda de información. 4. Relevancia motivacional o afectiva: relaciona los contenidos del documento con el propósito de uso de ese documento. La orientación al usuario de la relevancia le presta a este criterio un componente altamente subjetivo en el que influyen múltiples factores o dimensiones relacionados tanto con el documento como con el usuario y su entorno, y un carácter dinámico, en tanto que la vigencia de los juicios de relevancia se limita sólo al momento de su realización. Los factores que influyen en este tipo de relevancia son muchos. Sirvan como ejemplo los identificados por Park (1993), que los agrupa en cuatro grupos: – Interpretación de la citación, incluyendo el título, nombre del autor, título de la revista, etc. – Contexto interno (experiencia) lo que incluye la experiencia anterior del usuario, sus percepciones y el nivel de conocimiento en el área o materia de la búsqueda. – Contexto externo (búsqueda), incluyendo percepciones de la calidad de la búsqueda, el propósito de la búsqueda, percepciones acerca de la disponibilidad de documentos, etc. – El contexto del problema, incluyendo la motivación o propósito de uso del documento cuya relevancia se valora. La utilización de cualquiera de los conceptos de relevancia antes mencionados presupone que la emisión de los juicios de relevancia sea realizada por individuos que preferiblemente sean usuarios reales del sistema que se evalúa. Esto presta a estos juicios una gran carga de subjetividad y, por lo tanto, que

Capítulo 7: Evaluación de la recuperación

147

pueda existir una gran variabilidad en los resultados: variabilidad en los juicios emitidos por dos usuarios distintos sobre la relevancia de un documento y variabilidad en el juicio de relevancia de un documento cuando lo realiza un mismo usuario en dos momentos diferentes en el tiempo. Esta variabilidad puede comprometer en gran medida la reproducibilidad de los resultados.

7.2.2. Niveles de relevancia Los resultados del juicio de relevancia pueden llevar a clasificar un documento en dos categorías: relevante o no relevante. Además de esta posibilidad, también es frecuente que se utilicen grados de relevancia en los que se considere la posibilidad de que un documento sea parcialmente relevante. Para ello se puede utilizar una lista de categorías donde se tenga en cuenta varios niveles; por ejemplo, tres (relevante, parcialmente relevante, no relevante), cinco a semejanza de las escalas tipo Likert (totalmente relevante, bastante relevante, ni relevante ni irrelevante, poco relevante, nada relevante), siete o incluso 11 categorías. Otra forma de medir esta posibilidad es utilizando métodos de escala continua. En general se prefiere el uso de grados de relevancia al de la medida dicotómica o bipolar de relevante o no relevante. En cuanto al número de niveles o grados de relevancia, no existe un total consenso, sino más bien una recomendación: muchos grados de relevancia despistan, pocos no discriminan.

7.3. Contextos de la evaluación de la recuperación En la evaluación de la recuperación es clásica la distinción entre dos contextos claramente diferenciados: el entorno experimental, también llamado de laboratorio y el entorno real u operativo de un sistema en funcionamiento. Se dice que una evaluación se ha realizado en un entorno experimental cuando esta investigación se ha diseñado de tal forma que el investigador conoce y tiene un total control sobre las características de todos los elementos o variables que en ella participan. Se trata de investigaciones que se realizan en un medio controlado, de parámetros conocidos, en las que interesa averiguar cuál es el efecto que produce en los resultados la modificación de uno o varios de sus componentes. En estos casos la investigación no se lleva a cabo en un sistema de información real, sino que se utilizan colecciones experimentales o se utilizan prototipos. El uso de entornos experimentales para la evaluación es necesario por varios motivos. El primero y más evidente es que el enorme volumen de documentos que contienen los sistemas en funcionamiento hace imposible la evaluación

148 Parte II: Evaluación de la calidad desde la perspectiva operativa...

de muchos aspectos. Por ejemplo, si se tienen en cuenta sistemas de información que albergan representaciones de más de 10 millones de documentos (como es el caso, por ejemplo, de la base de datos MEDLINE de la National Library of Medicine) es fácil imaginar que es imposible evaluar, por ejemplo, el efecto en la recuperación de la información de la incorporación de un nuevo lenguaje de indización, pues nunca podríamos conocer su repercusión en la exhaustividad de la respuesta al no poder determinar cuántos documentos relevantes están contenidos en la memoria del sistema. El segundo es que cuando lo que se quiere demostrar es que la mejor o peor recuperación de información se debe realmente a una variable en estudio, por ejemplo la indización o el software de recuperación, y no a ninguno de los otros factores que pueden intervenir en el proceso de recuperación (cobertura, estrategia de búsqueda, juicio de relevancia, etc.), se necesita controlar todos estos elementos para que no influyan en los resultados. Las investigaciones llevadas a cabo en entornos reales se centran en sistemas de información en funcionamiento. Al no existir un entorno controlado, los resultados finales de la recuperación pueden obedecer a cualquiera de los factores implicados en el funcionamiento del sistema, tanto los que conciernen al sistema como instrumento, como a los usuarios que lo utilizan. La efectividad o rendimiento del sistema es la suma del comportamiento de todos sus componentes y por lo tanto el análisis retrospectivo para averiguar el origen de los fallos se hace imprescindible.

7.3.1. Evaluación de la eficacia en un entorno experimental Los estudios experimentales constituyen el punto de partida de la línea de investigación de evaluación de los sistemas de recuperación de información bibliográfica. Su impulso se debió a la aparición de nuevas propuestas para el tratamiento de la información (Farradane, 1974) y a la necesidad de decidir cuál de todas ellas era más adecuada. Los intentos más tempranos de evaluar la recuperación de información se remontan a 1953. En esa fecha se llevaron a cabo dos experimentos independientes, uno en EE UU, en la Armed Services Technical Information Agency (ASTIA), y otro en el Reino Unido, en el Crandfield College of Aeronautics. Ambos pretendían poner en evidencia el mejor (o peor rendimiento) de un sistema de indización basado en el uso de términos simples (Uniterm) extraídos del título o del resumen propuesto por Taube como alternativa a otros medios más convencionales como la indización por materias (Ellis, 1990). A grandes rasgos, el diseño de la investigación de ASTIA consistió en la indización simultánea pero independiente de la colección de los 15.000 docu-

Capítulo 7: Evaluación de la recuperación

149

mentos de ASTIA por dos equipos de indizadores, el habitual de esa institución y otro formado por indizadores del Mortimer Taube’s Company Documentation Incorporated. Los indizadores de ASTIA indizaban con un sistema alfabético de materias y los de la Company Documentation, con el sistema de términos simples. El rendimiento de ambos sistemas se evaluó utilizando 93 solicitudes reales de información. El criterio que determinaba el éxito o fracaso de cada búsqueda era la relevancia. Éste fue el primer intento de utilizar la relevancia como criterio y fue también la primera vez que se puso en evidencia que su aplicación era muy complicada. De hecho, fue el uso de la relevancia lo que provocó el fracaso de la investigación, pues no hubo manera de que ambos equipos llegaran a un mínimo acuerdo sobre qué documento era relevante para qué solicitud. El problema que había provocado en el experimento de ASTIA-Uniterm el uso de la relevancia fue sorteado en la investigación que se llevó a cabo en el Reino Unido en Cranfield (Cranfield Uniterm Test) mediante la creación de una colección documental experimental. Esta colección consistía en 200 documentos (llamados documentos fuente) de los que se habían extraído 40 solicitudes de búsqueda artificiales construidas para la ocasión. Así, conociendo de antemano qué documento era relevante para cada solicitud, pudieron comparar el rendimiento de la indización de los 200 documentos con el sistema de términos simples frente al rendimiento de la indización de los documentos con una modificación de la CDU, que era el sistema que se utilizaba habitualmente. El diseño de este experimento fue muy criticado sobre todo porque tenía sesgos evidentes. Baste pensar que se utilizaron búsquedas artificiales extraídas de los documentos fuente, cuando lo que se quería medir era la eficacia de un sistema de términos simples basados en la extracción de palabras relevantes del título y de los resúmenes. Pese a ello, este experimento sentó las bases de otros llevados a cabo posteriormente en el mismo Instituto de Cranfield, conocidos como Cranfield I y II, que se consideran como los primeros experimentos a gran escala en el contexto de la recuperación de información. De los experimentos Cranfield I y II, complejos en cuanto a diseño y controvertidos en lo tocante a resultados, expondremos someramente las características del segundo. El objeto de esta exposición es ilustrar con un ejemplo práctico qué es una colección documental experimental, cómo puede crearse y por qué actúa como un entorno controlado. El objetivo del experimento conocido como Cranfield II fue la evaluación de la eficacia de diferentes lenguajes de indización. En concreto, se valoró la eficacia de 33 tipos de lenguajes documentales que se habían construido mediante el uso de distintos mecanismos de indización (por ejemplo, uso de términos simples o compuestos, estructuras jerárquicas, control de sinónimos u homónimos, etc.). De forma muy simplificada, el método seguido en este experi-

150 Parte II: Evaluación de la calidad desde la perspectiva operativa...

mento para determinar la eficacia de cada uno de los diferentes mecanismos y tipos de indización se basó en los siguientes puntos: – Creación de un entorno artificial mediante la confección de una colección documental experimental. – Uso de la relevancia como criterio para juzgar los resultados de la recuperación. – Utilización de los índices de precisión y de exhaustividad como indicadores de eficacia basados en juicios de relevancia del material recuperado.

A) ¿Qué es una colección documental experimental y cómo se construye? Se trata de una colección finita de documentos cada uno de los cuales tiene una relación de relevancia conocida con una o varias solicitudes de búsqueda. De esta manera se crea un entorno estable donde todos los parámetros o variables son conocidos menos el de la variable en estudio. En este caso, el lenguaje de indización. Para construir la colección experimental, en Cranfield II se partió de un núcleo de documentos escogidos por los investigadores sobre una materia concreta; en este caso, sobre aeronáutica. Posteriormente se pidió a los autores de estos documentos (denominados documentos fuente) que identificaran el problema o tema principal tratado en cada documento y que lo transformaran en una solicitud de búsqueda. Además, se les pidió que indicaran otras referencias relacionadas con ese trabajo que pudieran ser relevantes para la solicitud y así aumentar la colección de documentos. De ese modo, se construyó la colección experimental incorporando a los documentos fuente los trabajos adicionales señalados por los autores de estos documentos (figura 7.1). En el experimento Cranfield II, la colección documental quedó finalmente constituida por 1.400 documentos y por 279 solicitudes de búsqueda. Después, cada uno de los 1.400 documentos fue indizado con los diferentes tipos y lenguajes de indización investigados. • Los juicios de relevancia La creación de este entorno artificial permite sortear un problema evidente: el de conseguir los juicios de relevancia necesarios para obtener los indicadores de exhaustividad y de precisión. En este entorno artificial los juicios de relevancia fueron sustituidos por las relaciones existentes entre los documentos de la colección experimental y las solicitudes de búsqueda que habían sido previamente señaladas por los autores de los trabajos.

Capítulo 7: Evaluación de la recuperación

151

Autores del trabajo · Identificación del problema pricipal tratado en el documento Relev ancia Cono cida

Documentos fuente

· Transformación del problema en Solicitud de Búsqueda

Identificación de otros documentos relevantes para la misma solicitud

Incorporación a la colección documental

Figura 7.1. Creación de la colección documental en el experimento Cranfield II.

La colección experimental en sí misma conforma un entorno controlado en el que, al conocer todos los parámetros, es posible averiguar el efecto que produce en los resultados la modificación de uno o varios de sus componentes. Por ejemplo, utilizar diferentes criterios de indización o diferentes estrategias de búsqueda. O, alternativamente, es posible investigar el rendimiento del sistema de los juicios de relevancia manteniendo constante la colección documental, las solicitudes de búsqueda y el lenguaje de indización (Cleverdon, 1967). B) Obtención de indicadores En el experimento Cranfield II fue la primera vez que se utilizó el binomio de indicadores exhaustividad y precisión para valorar la eficacia recuperadora de un sistema. Eso fue posible porque se conocía, para cada solicitud de búsqueda, la población de documentos de la colección documental experimental que eran relevantes para ella. De este modo, para cada búsqueda y sus respectivos juicios de relevancia, los documentos de la colección documental experimental podían ser clasificados en cuatro subconjuntos (figura 7.2): 1. Documentos recuperados y relevantes representados por a en la tabla. 2. Documentos recuperados y no relevantes, que reciben el nombre de ruido del sistema y que están representados por b en la tabla.

152 Parte II: Evaluación de la calidad desde la perspectiva operativa...

3. Documentos no recuperados y relevantes, que constituyen el silencio del sistema y que están representados por c en la tabla. 4. Documentos no relevantes no recuperados representados por d en la tabla.

Juicio de relevancia Recuperación Relevante

Documento recuperado Documento no recuperado

No relevante

b

a

(ruido)

c

Total recuperado

d

(silencio) a+b

a+b

Total relevantes

Precisión = [a / a + b] × 100 Exhaustividad = [a / a + c] × 100

Figura 7.2. Indicadores de precisión y exhaustividad de una búsqueda.

De acuerdo con estos parámetros, el indicador de precisión (del inglés precision ratio) se obtuvo como la relación expresada en forma de porcentaje entre los documentos relevantes recuperados (a) y el total de documentos recuperados (a + b).

IP =

a × 100 a +b

Además, como era posible para cada búsqueda conocer el total de documentos relevantes que responden a cada solicitud, se pudo calcular el indicador de exhaustividad de la recuperación (del inglés recall ratio), entendido como la relación expresada en forma de porcentaje entre el número de documentos relevantes recuperados y el total de documentos relevantes contenidos en la colección.

IE =

a × 100 a+c

Capítulo 7: Evaluación de la recuperación

153

Ellis (1990) resume los principales resultados que se obtuvieron en el experimento Cranfield II en los siguientes puntos: – El funcionamiento más eficaz se obtuvo utilizando lenguajes basados en términos simples. – Cuando se empleaban lenguajes de términos simples, la formación de grupos de términos o clases más allá del reconocimiento de los verdaderos sinónimos y homónimos daba como resultado una disminución de la eficacia. – El uso de mecanismos para aumentar la precisión más allá de la coordinación de clases no resultó ser más eficaz que la coordinación simple. – El lenguaje natural con control de sinónimos y homónimos combinado con la coordinación simple proporcionaba unas cifras de eficacia razonable. – Cada par de resultados apoyaba la hipótesis previa de la existencia de una relación inversa entre exhaustividad y precisión. En cuanto a estos resultados, hubo dos de especial trascendencia: a) que los lenguajes basados en términos simples eran superiores a cualquier otro lenguaje; y b) que los resultados de los pares de indicadores (exhaustividad y precisión), obtenidos para cada búsqueda, apoyaban la hipótesis original de la existencia de una relación inversa entre precisión y exhaustividad. De estos resultados hay que resaltar que el primero, que podría tener serias consecuencias para el desarrollo profesional de los especialistas de la información, pues ponía en evidencia la supremacía de un sistema basado en términos simples extraídos del título, frente a la indización más intelectual y compleja, no motivó un debate tan amplio como el que suscitó la utilización, como ley inherente al funcionamiento de todo sistema de recuperación de la información, de la existencia de una relación inversa entre exhaustividad y precisión. El uso de este resultado como una especie de “norma general” llevó al mismo Cleverdon (1972) años después a su matización, mostrando especial cautela en distinguir entre los resultados que pueden obtenerse en un entorno controlado, típico de la experimentación, y los que pueden esperarse de los obtenidos en un contexto real y operativo: Dentro de un sistema determinado, asumiendo la realización, para una determinada solicitud, de una serie de búsquedas en un orden lógico de disminución esperada de la precisión y cuando los requisitos son aquellos especificados en la solicitud, existe, si los resultados son promediados, una relación inversa entre exhaustividad y precisión. Relación que no es una ley

154 Parte II: Evaluación de la calidad desde la perspectiva operativa...

fundamental, ni puede ser tomada siempre como verdadera ya que requiere tal número de requisitos que resulta casi sin significado en condiciones operativas.

Desde un punto de vista didáctico, las palabras de Cleverdon han de hacernos reflexionar acerca de la exportación de los resultados obtenidos en entornos experimentales a los entornos reales. En este sentido, el medio experimental es necesario como campo de pruebas para ensayar nuevas teorías y nuevos procesos, pero intentar aplicar directamente sus resultados o sus conclusiones al contexto real es del todo improcedente dado que las condiciones de ambos entornos no son las mismas. Aunque los experimentos llevados a cabo en el Cranfield Institute fueron objeto de numerosas críticas, fundamentadas sobre todo en defectos de su diseño y de lo controvertido de alguno de sus resultados, sentaron los principios metodológicos que han regido hasta fechas bastante recientes la investigación evaluativa, sobre todo en el contexto experimental, y establecieron la necesidad de que los méritos relativos de los diferentes tipos de sistemas de recuperación debían ser demostrados científicamente. Los experimentos de Cranfield constituyeron el punto de partida del desarrollo de una línea de trabajo en evaluación de la recuperación en entornos experimentales o de laboratorio. Algunas de las investigaciones dentro de esta línea han seguido los pasos Cleverdon y utilizan como base para sus experimentos colecciones experimentales. Otras se basan en análisis estadísticos y probabilística, como los experimentos fundamentados en el análisis de clusters o racimos de documentos y los modelos basados en la relevance feed-back, entre otros. La importancia y complejidad de estas investigaciones las hacen merecedoras de un desarrollo que va más allá de los propósitos de esta monografía.

7.3.2. Evaluación de la recuperación en entornos reales u operativos En la evaluación de la recuperación en el entorno real de funcionamiento de los sistemas de información pueden considerarse dos orientaciones: la orientación hacia el sistema, en la que el objetivo prioritario de la evaluación es poner de manifiesto el rendimiento de ese sistema en la recuperación, y la orientación hacia el usuario, en la que la evaluación está más centrada en conocer la capacidad del sistema para proporcionar información capaz de satisfacer las necesidades de información del usuario. Estas dos orientaciones mostrarán diferencias siendo las más significativas las relacionadas con: el alcance del concepto de relevancia; y el significa-

Capítulo 7: Evaluación de la recuperación

155

do que tienen para el usuario los indicadores de exhaustividad y precisión; el uso de otros indicadores relacionados con otros aspectos de importancia para el usuario, como, por ejemplo, el coste (en tiempo y recursos) o el esfuerzo invertido en el proceso de obtención de la información; y el uso de otros parámetros como la satisfacción, el uso del sistema y su impacto, más significativos para el usuario y para la tarea que impulsa la realización de una búsqueda.

A) Evaluación de la efectividad de la recuperación desde el punto de vista del sistema Desde la perspectiva del sistema, la evaluación de la recuperación en el contexto real u operativo (denominada efectividad del sistema) está basada también en la obtención de los indicadores de exhaustividad y precisión. El método para la obtención de los indicadores de exhaustividad y precisión en el contexto real sigue los principios trazados por las investigaciones realizadas en Cranfield. Sin embargo, la adaptación de los criterios propuestos para la evaluación en el contexto experimental a un entorno real (no controlado), con usuarios reales, plantea problemas metodológicos. Estos problemas metodológicos se centran sobre todo en dos cuestiones: la primera, en el concepto de relevancia y en la reproducibilidad de los juicios de relevancia; y la segunda, en la obtención de indicadores, principalmente el de exhaustividad. Además, la ausencia de un entorno controlado supone considerar los resultados de la recuperación como producto de la interacción de todos los componentes del sistema, con lo que en estos estudios la investigación no finaliza con la obtención de los resultados finales, sino que extiende sus objetivos al conocimiento de las causas que originan los fallos como medio para poder establecer recomendaciones para su mejora. • Obtención de indicadores – Obtención del indicador de precisión. El problema de la obtención del indicador de precisión en un contexto real es el de conseguir que los juicios de relevancia sean lo más objetivos y estables posible, habida cuenta de la cantidad de factores que influyen en este tipo de valoración. Los juicios pueden ser formulados por usuarios reales o por expertos en la materia. En este último caso existe la posibilidad de utilizar un panel de expertos para la obtención de un juicio de relevancia “consensuado”. El fundamento del funcionamiento de este panel de expertos sería seme-

156 Parte II: Evaluación de la calidad desde la perspectiva operativa...

jante a lo ya expuesto para la construcción del patrón con el que valorar la exactitud en la asignación de descriptores (véase el apartado 6.3.1). En una investigación, una vez definido el concepto de relevancia a utilizar y decidido quién emite esos juicios de relevancia, la obtención de indicador de precisión no reviste dificultad práctica. De este modo, ante una determinada solicitud de búsqueda para la que el sistema ha dado una respuesta, es posible clasificar los documentos recuperados al menos en dos apartados: uno de documentos recuperados relevantes y otro de documentos recuperados no relevantes. Esto posibilita obtener el cálculo del indicador de precisión como la relación, expresada en forma de porcentaje, entre los documentos relevantes recuperados y el total de documentos recuperados. Si recordamos lo expuesto en el apartado 7.2.2, la precisión se obtendrá de este modo si se decide utilizar para la medida de la relevancia sólo dos posibilidades (relevante y no relevante). En el caso de utilizar grados de relevancia, el cálculo del indicador de precisión se deberá adaptar a ellos. – Obtención del indicador de exhaustividad. En el contexto real, la mayor dificultad reside en obtener el indicador de exhaustividad, ya que no parece existir un modo realista de averiguar cuántos documentos relevantes no han sido recuperados si no es revisando para cada solicitud la totalidad de la colección documental, algo, por otra parte, totalmente inviable. Debido a esta dificultad, los investigadores han tenido que utilizar estrategias que permitan, al menos, una aproximación al número de documentos no recuperados. Una técnica consiste en confeccionar para cada solicitud de búsqueda una lista independiente de documentos relevantes, a partir de la cual es posible calcular un índice aparente o estimado de exhaustividad. Esta lista independiente se construye, por una parte, solicitando a los usuarios que aporten referencias relevantes para la solicitud ya conocidas y, por otra, buscando documentos relevantes en otros sistemas diferentes al evaluado (Lancaster, 1969). El uso de resultados de búsquedas independientes de la base de datos evaluada permite, además de estimar la exhaustividad, analizar los fallos de la misma debidos a la falta de cobertura de un sistema o a fallos de indización. Otro método para poder estimar la exhaustividad es la realización de búsquedas paralelas en la misma base de datos, pero realizadas por diferente personal. De este modo, es posible identificar como causas de las pérdidas, posibles deficiencias en las estrategias de búsqueda, en la

Capítulo 7: Evaluación de la recuperación

157

terminología utilizada o en una falta de adecuación en el uso del sistema, aunque este método no podrá detectar nunca posibles fallos de la cobertura (Lancaster y Warner, 1993). • Análisis de los fallos de las búsquedas En un sistema operativo, una de las tareas más importantes de la evaluación es distinguir los éxitos de los fallos. La idea del análisis de los fallos es crucial en el enfoque del microanálisis del sistema, de modo que determinando qué es lo que hace buena o mala una búsqueda, el evaluador puede identificar los problemas y sugerir posibles soluciones. Desde el punto de vista del sistema, su correcto funcionamiento es el resultado de la adecuada interacción de sus componentes. Por lo tanto, los valores de exhaustividad y precisión en la recuperación pueden verse afectados por: – Aspectos relativos a la entrada de información en el sistema, como la cobertura, la puntualidad en la actualización y la calidad de la información. – Factores relacionados con el análisis documental, como el tipo de lenguaje de indización (grado de control de vocabulario, especificidad del vocabulario, etc.), los criterios de indización utilizados (grado de exhaustividad en la indización) y la adecuación en la identificación de conceptos y en la asignación de términos. – Factores relacionados con el proceso de recuperación, relativos tanto al propio usuario, en lo tocante a la claridad y concreción en la formulación de la solicitud (directamente relacionados con la capacidad del usuario de expresar sus necesidades de información), como a la experiencia y habilidad del documentalista e intermediario en representar las materias o temas, mediante una estrategia de búsqueda y su experiencia en el uso del sistema. Por otra parte, el tiempo de respuesta se verá afectado por el tipo y organización de los ficheros, el modo de acceso a la información, el grado de saturación del servicio, etc. Finalmente, el esfuerzo del usuario depende de factores como: la ayuda recibida por el usuario por parte de documentalistas e intermediarios, la cantidad de información recuperada, el formato de presentación de la información, el tipo de interacción con el sistema, la facilidad de formulación de la búsqueda, y el adiestramiento del usuario.

158 Parte II: Evaluación de la calidad desde la perspectiva operativa...

• ¿Como llevar a cabo el análisis de los fallos? El análisis de los fallos consiste en averiguar las causas por las que en una búsqueda se han producido defectos en la recuperación. Esto es, se han recuperado documentos no relevantes (fallos en la precisión) y se han dejado de recuperar documentos relevantes (fallos en la exhaustividad). En general, el método para realizar el análisis de los fallos se basa en la comparación entre el flujo de procesos y decisiones implicados en el funcionamiento del sistema y el flujo de proceso (figura 7.3). La lista de factores a tener en cuenta incluye los relacionados con: a) Input o entrada de información en el sistema, sobre todo en lo tocante a la cobertura y a la actualización. b) Tratamiento documental, con relación a tipo de lenguaje de indización, política de indización, capacidad del indizador de identificar correctamente los conceptos y selección adecuada de términos. c) Recuperación, relacionados con el análisis de la necesidad de información, formulación de la solicitud, construcción de la estrategia de búsqueda, tipo de interacción con el sistema, facilidad en la formulación de la búsqueda, adiestramiento en el uso del sistema, etc. Input NR

Cobertura Actualización

Datos citación Descriptores

Base de datos Interfaz

R

Resultados

Lenguaje documental

Términos Estrategia

Solicitud de busqueda

Necesidad Usuario

Proposito de uso

Tareas

Figura 7.3. Análisis retrospectivo de los fallos en la recuperación.

Capítulo 7: Evaluación de la recuperación

159

d) Usuario, sobre todo los relativos a la capacidad de analizar y transmitir la necesidad de información, la naturaleza del problema que motiva la búsqueda y el propósito de uso de la información recuperada. Los fallos de precisión pueden deberse a muchas de las causas que se han enumerado anteriormente; veamos algunos ejemplos de ellas: a) Causas atribuibles a la asignación de descriptores, tanto la corrección en la asignación como la política de indización. Así, por ejemplo, un documento puede ser considerado como no relevante porque el indizador le haya asignado un descriptor incorrecto. También puede ocurrir que el sistema utilice una política de indización muy exhaustiva y el indizador haya asignado el descriptor correctamente aunque el tema se trate en el documento de forma muy superficial. b) Limitaciones en el lenguaje de indización. En ocasiones el indizador no puede asignar un descriptor específico para designar los contenidos de un documento debido a limitaciones en el lenguaje documental y necesariamente tiene que asignar un descriptor más genérico, lo que provocará la recuperación de muchos documentos no relevantes. c) Formulación de la estrategia de búsqueda. La recuperación de documentos no relevantes dependerá en gran medida de la capacidad de seleccionar adecuadamente los términos que se utilicen en la realización de la estrategia de búsqueda. Del mismo modo que se comentaba en el apartado anterior, las causas de asignar términos no adecuados en la estrategia de búsqueda pueden residir en la pericia de aquel que busca o en la falta de especificidad del lenguaje documental. d) Formulación de la solicitud. Sin duda otra de las fuentes de fallos en la precisión es la capacidad del usuario de analizar su necesidad de información, o, en el caso de la realización de las búsquedas por intermediarios, de transmitirla. e) Por último, uno de los factores más importantes y difíciles de determinar son los aspectos de tipo intelectual que motivan el rechazo de un documento como relevante. Es el caso, por ejemplo, de un documento que trata el tema que ha motivado la búsqueda pero que se ha rechazado como relevante por motivos como la orientación en el tratamiento de los contenidos, la falta de profundidad o porque no aporta información nueva para el usuario. En cuanto a los fallos en la exhaustividad, hay que señalar como motivos más frecuentes:

160 Parte II: Evaluación de la calidad desde la perspectiva operativa...

a) Falta de la cobertura del sistema para las materias o temas de interés. Igualmente la falta de actualización tendrá también esta consecuencia en los resultados. b) El fallo en la identificación del tema por parte del indizador provocará la ausencia de descriptores adecuados y con ello la imposibilidad de recuperar el documento. Este mismo efecto lo tendrá la falta de descriptores en el lenguaje documental que cubran esas materias o temas. El uso de políticas de indización muy precisas también puede provocar la no recuperación de documentos relevantes (o más frecuentemente de aquellos que resultarían parcialmente relevantes). c) Por último, el fallo en la realización de la estrategia de búsqueda tanto en la inclusión de términos como en su formulación. En el medio operativo, además del enfoque basado en el análisis retrospectivo de los fallos de precisión y exhaustividad de una búsqueda, hay constancia de la utilización de otras técnicas para el análisis de los fallos. En una revisión sobre el tema, Tonta (1992) deja constancia del uso, para tales propósitos, de los libros registro de transacciones (transaction log book), donde se registra información relacionada con la interacción del usuario con el sistema, así como de la aplicación de la técnica del incidente crítico como complementaria de la anterior. Los libros de transacciones son documentos existentes en algunos servicios de referencia en los que queda registrada la información que se genera como resultado de la interacción del usuario con el sistema, incluso alguno de ellos recoge información sobre las características de la solicitud de búsqueda, sobre las referencias obtenidas, sobre los posibles errores, así como otra información que va desde el tiempo transcurrido desde la solicitud hasta el momento en que la información es proporcionada o, incluso, sobre los juicios de relevancia del usuario. Los libros de registro de esta naturaleza contienen información de incalculable valor como fuente para la identificación de búsquedas que han fracasado (Hunter, 1991; Peters, 1989; Zink, 1991). Otra técnica que también se ha utilizado con el propósito de identificar y estudiar los fallos de las búsquedas es la técnica del incidente crítico cuyas características generales ya han sido descritas en esta monografía. En el caso de la investigación de Wilson et al. (1989), se aplicó mediante un proceso de entrevistas estructurado, que incluía la administración de un cuestionario, en el que se invitaba a los usuarios a dar su opinión acerca de las búsquedas bibliográficas realizadas on line en la base de datos MEDLINE. Esta información se obtuvo pidiendo a los usuarios que describieran con detalle aquellas ocasiones en las que la búsqueda resultó especialmente satisfactoria o,

Capítulo 7: Evaluación de la recuperación

161

por el contrario, infructuosa (situaciones que constituían un incidente crítico). Los usuarios debían detallar el problema que motivó la búsqueda, la conducta desarrollada para la localización de la información, las fuentes adicionales que habían utilizado, el modo de uso del sistema en estudio, los resultados obtenidos y la valoración que habían hecho de estos resultados. Adicionalmente, la información obtenida de cada incidente crítico se complementaba con la que constaba en el libro de registro de transacciones del sistema, a fin de obtener datos que pudiera dar más información acerca del éxito o fracaso de la búsqueda. • Otros indicadores de la efectividad de un sistema basados en la relevancia Además de los ya mencionados índices de exhaustividad y precisión, hay otros indicadores cuya obtención también se basa en el uso del criterio de relevancia y que pueden utilizarse en un entorno operativo de los sistemas de información. Dos de ellos pueden considerarse complementarios a los anteriores. Se trata de los indicadores de ruido y silencio del sistema. Los otros dos, el índice de irrelevancia y el de generalidad, acaban de completar la imagen de la distribución de documentos en una base de datos para una búsqueda determinada y un conjunto concreto de juicios de relevancia (figura 7.4).

Juicio de relevancia Recuperación Relevante

Documento recuperado Documento no recuperado

No relevante

b

a

(ruido)

c (silencio)

a+b

Total recuperado

d Total documentos = N

a+b

Total relevantes Ruido = [b / a + b] × 100

Precisión = [a / a + b] × 100 Exhaustividad = [a / a + c] × 100

Silencio = [c / a + c] × 100 Irrelevancia = [d / b + d] × 100 Generalidad = [a / c + N] × 100

Figura 7.4. Indicadores de funcionamiento de un sistema basados en la relevancia.

162 Parte II: Evaluación de la calidad desde la perspectiva operativa...

El ruido es el indicador complementario de la precisión y se obtiene como la relación expresada en forma de porcentaje entre el número de documentos no relevantes recuperados y el total de documentos recuperados.

R=

b × 100 a +b

El silencio es el indicador complementario de la exhaustividad y se obtiene como la relación expresada en forma de porcentaje entre el número de documentos relevantes no recuperados y el total de documentos relevantes en la colección.

S =

c × 100 a+c

El indicador de irrelevancia (del inglés fallout ratio) muestra la capacidad del sistema de descartar documentos no relevantes. Se obtiene como la relación expresada en forma de porcentaje entre el número de documentos no relevantes no recuperados y el total de documentos no relevantes en la colección.

I =

d × 100 b+d

El índice de generalidad (del inglés generality ratio) es indicativo de la densidad de documentos relevantes existentes en la colección. Se obtiene como la relación expresada en forma de porcentaje entre el número de documentos relevantes existentes en la colección y el total de documentos que la componen.

G =

a+c × 100 N

B) Evaluación de la efectividad del sistema desde la perspectiva del usuario – Indicadores basados en la relevancia como criterio. Silencio y ruido son dos indicadores cuyo significado es muy gráfico y muchas veces se utilizan en lugar de los de exhaustividad y precisión. No ocurre lo mismo con el índice de irrelevancia y el de generalidad que, aunque muy inte-

Capítulo 7: Evaluación de la recuperación

163

resantes, son de obtención compleja y de interés relativo para el usuario. Para éste hay otros indicadores (de nuevo basados en el criterio de relevancia) que posiblemente aporten más significado acerca de la valoración que el usuario pueda hacer de los resultados de una búsqueda. Los indicadores a los que se hace referencia son los siguientes: 1. El indicador de cobertura (del inglés coverage ratio) proporciona una imagen cuantitativa de la recuperación por parte del sistema de documentos relevantes que ya eran conocidos por el usuario en el momento de realizar la búsqueda. Este indicador se obtiene como la relación expresada en forma de porcentaje entre el número de documentos relevantes recuperados conocidos por el usuario respecto del total de documentos relevantes que conocía. • El usuario conoce 12 documentos relevantes. • El sistema ha recuperado 18, de ellos 10 eran relevantes, de los que 3 ya eran conocidos por el usuario. • Indicador de cobertura = 3/12 × 100. Este indicador nos da una medida indirecta del grado en el que el sistema cubre las expectativas del usuario, de tal modo que si su valor es bajo, se puede llegar a pensar que el sistema tiene muchas pérdidas al no llegar ni siquiera a proporcionar los documentos que éste ya conoce. Este indicador por sí solo le dará una información incompleta pues es posible que el sistema proporcione un buen número de documentos que son desconocidos para él. En el caso del ejemplo esto sucede con 7 de los 10 documentos recuperados. Un intento de medir lo que aporta de nuevo el sistema es el índice de novedad. 2. El indicador de novedad (del inglés novelty ratio) relaciona la recuperación de documentos relevantes desconocidos por el usuario en el momento de realizar la búsqueda, con los documentos relevantes recuperados midiendo la capacidad de la búsqueda de proporcionar información nueva. En este caso este indicador se obtiene como la relación expresada en forma de porcentaje entre el número de documentos relevantes recuperados desconocidos por el usuario respecto del total de documentos relevantes recuperados en la búsqueda. • El usuario conoce 12 documentos relevantes. • El sistema ha recuperado 18, de ellos 10 eran relevantes y de ellos 3 ya los conocía el usuario. • Indicador de novedad = 7/10 × 100.

164 Parte II: Evaluación de la calidad desde la perspectiva operativa...

3. El indicador de exhaustividad relativa (del inglés relative recall). Se obtiene como la relación expresada en forma de porcentaje entre el número de documentos relevantes recuperados respecto del total de documentos relevantes que el usuario esperaba o deseaba poder recuperar. • El usuario esperaba recuperar al menos 15 documentos relevantes. • El sistema ha recuperado 10. • Exhaustividad relativa = 10/15 × 100. 4. El indicador de esfuerzo de exhaustividad (del inglés recall effort) es un intento de medir el esfuerzo que tiene que realizar el usuario para obtener los documentos relevantes deseados. Se obtiene como la relación expresada en forma de porcentaje entre el número de documentos relevantes deseados por el usuario y el número de documentos que ha tenido que revisar para poder encontrarlos • El usuario desea 15 documentos relevantes. • El usuario ha revisado 200 documentos. • Indicador de esfuerzo de exhaustividad = 15/200 × 100. – Indicadores no basados en la relevancia como criterio. Pese al uso casi universal del criterio de relevancia y de los indicadores de exhaustividad y precisión para la evaluación de un sistema en funcionamiento, son muchas las voces que han planteado las limitaciones que tiene su utilización exclusiva como indicadores de efectividad. Ellis (1984a y 1984b) señala, como una de sus principales deficiencias, la poca información importante para y sobre el usuario que aportan estos indicadores, sobre todo con relación a las opiniones, las características y la conducta del usuario en la búsqueda y recuperación de información. A su vez, Hersh (1994) hace hincapié en la ignorancia que muestra la aplicación de los modelos experimentales para la evaluación de sistemas operativos sobre aspectos de la efectividad del sistema, tales como la consecuencias que el uso de la información recuperada tiene en la actividad realizada por el usuario. Dentro de esta línea, en 1974 el propio Cleverdon publicó uno de los principales trabajos, donde se discute la falta de adecuación de la aplicación exclusiva de los índices de exhaustividad y precisión para medir la eficacia en el con-

Capítulo 7: Evaluación de la recuperación

165

texto real. Con relación a la limitación del alcance de estos indicadores Cleverdon dice: Si lo que se desea es conocer la eficacia recuperadora del sistema, entonces la exhaustividad y la precisión son los indicadores a utilizar, pero si de lo que se trata es de determinar el valor o beneficio de un sistema para sus usuarios reales o si deseamos averiguar cómo el sistema puede ser más útil para el usuario, entonces la perspectiva de la evaluación debe cambiar, orientándose hacia los usuarios más que hacia el sistema. Si éste es nuestro propósito, entonces hay que buscar nuevas medidas.

Desde esta perspectiva se enfocan investigaciones que evalúan la efectividad de un sistema de información utilizando medidas diferentes, aunque a veces complementarias, a las tradicionales obtenidas basando la evaluación en el criterio de relevancia. Entre estos estudios se encuentran aquellos que utilizan la satisfacción del usuario como medida de la efectividad de un sistema de información y que proponen, entre sus objetivos, la identificación de los factores que la determinan con el fin de encontrar indicadores del éxito del funcionamiento de un sistema de información, más acordes con los requisitos planteados por el usuario que los habitualmente utilizados. La definición de satisfacción como medida de eficacia, los métodos de estudio y una pequeña revisión de algunos de los trabajos publicados sobre esta materia serán expuestos en el capítulo 8 de esta monografía.

Bibliografía Borlund, P. (2003): “The concept of relevance in IR”. Journal of the American Society for Information Science and Technology, 54 (10): 913-925. Cleverdon, C. W. (1967): “The Crandfield tests of index language devices”. Aslib Proceedings, 19: 173-194. — (1972): “On the inverse relationship of recall and precision”. Journal of Documentation, 28: 195-201. — (1974): “User Evaluation of information retrieval systems”. Journal Documentation, 30: 170-180. Dickson, J. (1984): “Analysis of user errors in searching an online catalog”. Cataloging and Classification Quarterly, 4: 19-38. Ellis, D. (1984a): “The effectiveness of information retrieval systems: the need for improved explanatory frameworks”. Social Science Information Studies, 4: 261-272.

166 Parte II: Evaluación de la calidad desde la perspectiva operativa...

— (1984b): “Theory and explanation in information retrieval research”. Journal of Information Science, 8: 25-38. — (1990): New horizons in information retrieval. Library Association. Londres. Farradane, J. (1974): “The evaluation of information retrieval systems”. Journal of Documentation, 30: 195-209. Harter, S. (1992): “Psychological relevance and information science”. Journal of the American Society of Information Science, 43: 602-615. Hersh, W. (1994): “Relevance and retrieval evaluation: perspectives from medicine”. Journal of the American Society for Information Science, 45: 201-206. Hunter, R. N. (1991): “Successes and failures of patrons searching the online catalog at a large academic library: a transaction log analysis”. RQ, 30: 395402. Lancaster, F. W. (1969): “MEDLARS: a report on the evaluation of its operating efficiency”. American Documentation, 29: 119-142. Lancaster, F. W. y Warner, A. (1993): Information retrieval today. Information Resources Press. Arlington. McCain, K. W.; White, H. D.; Griffith, A. y Belver, C. (1987): “Comparing retrieval performance in online databases”. Information Processing and Management, 23: 539-553. Park, T. K. (1993): “The nature of relevance in information retrieval: an empirical study”. Library Quarterly, 63 (3): 318-351. Peters, T. A. (1989): “When smart people fail: an analysis of the transaction log of an online public access catalog”. Journal of Academic Librarianship, 15, 267-273. Saracevic, T. (1975): “Relevance: a review and a framework for thinking on the notion in information science”. Journal of the American Society of Information Science, 26: 321-343. — (1996): “Relevance reconsidered ‘96”, en Ingwersen, P. y Pors, N. O. (eds), Proceedings of CoLIS 2, Second International Conference on Conceptions of Library and Information Science: Integration in Perspective. Royal School of Librarianship. Copenague. Schamber, L.; Eisenberg, M. y Nilan, M. (1990): “A re-examination of relevance: Toward a dynamic, situational definition”. Information Processing and Management, 26, 755-776. Swanson, D. R. (1965): “The evidence underlying the Cranfield results”. Library Quaterly, 35, 1-20. — (1986): “Subjective versus objective relevance in bibliographic retrieval systems”. Library Quarterly, 56 (4): 389-398. Tonta, Y. (1992): “Analysis of search failures in document retrieval systems: a review”. The Public Access Computer Systems Review, 3 (1): 4-53. (Dispo-

Capítulo 7: Evaluación de la recuperación

167

nible en http: //www.lib.ncsu.edu/stacks/p/pacsr/pr-v3n01-tonta.txt. Fecha de última visita: abril de 2004.) Wilson, S. R.; Starr-Schneidkraut, N. y Cooper, M. D. (1989): Use of the Critical Incident Technique to Evaluate the Impact of MEDLINE. American Institute for Research in the Behavioral Sciences. Palo Alto, CA. Zink, S. D. (1991): “Monitoring user search success through transaction log analysis: the wolfpac example”. Reference Services Review, 19, 49-56.

PARTE III

EVALUACIÓN DE LA CALIDAD DESDE EL PUNTO DE VISTA DEL USUARIO

8

EVALUACIÓN DE LA SATISFACCIÓN DE LOS USUARIOS

8.1. Introducción En los últimos años conseguir la plena satisfacción de los clientes se ha convertido en uno de los objetivos prioritarios de las empresas de servicios y en un aspecto cuya evaluación está recibiendo mucha atención. En un entorno caracterizado por la competencia, la satisfacción se esgrime como una poderosa arma no sólo para lograr la fidelización del cliente, sino también para aumentar su número. Entre las causas que han influido en la adopción de esta prioridad, cabe destacar el convencimiento de que la calidad material no es suficiente para lograr el éxito de una empresa y que ésta debe complementarse con el pleno entendimiento de las necesidades del cliente y de sus requisitos. Buena parte del protagonismo del cliente ha venido influenciada por la implantación de la calidad total como modelo de gestión. La calidad total es un enfoque por el que toda la organización persigue la mejora sistemática y continua de productos y servicios, con el fin de conseguir la satisfacción de las expectativas y necesidades de los clientes (internos y externos), mediante la participación de todos sus componentes en el desarrollo de procesos libres de defectos (Butterwick, 1993). Stein (1999) pone en evidencia la importancia de escuchar al cliente para la supervivencia y mejor gestión de las organizaciones reproduciendo parte de los resultados de la investigación TARP (The Technical Assistance Research Programs, 1991) llevada a cabo por una firma de consultoría con la finalidad de describir el impacto que tiene la percepción de la calidad del producto en

172 Parte III: Evaluación de la calidad desde el punto de vista del usuario la satisfacción del cliente. Las conclusiones más relevantes del mencionado estudio son: – Por término medio, las empresas sólo tienen noticia de un 4% de los usuarios no satisfechos. Del 96% restante que no se molesta en reclamar, un 25% tiene problemas serios. En otras palabras, una queja equivale a 24 más, seis de las cuales son importantes. – Los que protestan son más propensos a seguir siendo clientes de esa empresa que los que no lo hacen. Las quejas proporcionan información sobre los ajustes que son necesarios. Una respuesta rápida que resuelva rápidamente el problema tiene un impacto positivo en el cliente. – Un 60% de los clientes que protestan se quedaría si sus problemas se resolvieran. El 95% se quedaría si creyera que su problema se resolverá rápidamente. – Los clientes que tienen un problema se lo contarán a entre 10 y 20 personas más. – Los clientes que han tenido un problema que ha sido resuelto por una compañía le contarán cómo se ha resuelto a otras cinco personas aproximadamente. En lo que respecta a la prestación de servicios de información en los últimos años la satisfacción también ha tenido un papel protagonista en el contexto de las unidades de información. Las unidades de información, en tanto que proveedoras de servicios, han ganado conocimiento sobre los riesgos que, como cualquier otra organización, tienen de perder clientes si no son capaces de satisfacer adecuadamente sus necesidades. La fidelización del usuario y la ampliación de la clientela también son prioridades de los profesionales de la información. Los usuarios actuales, lejos de constituir una “audiencia cautiva”, son individuos cada día más autónomos en el uso de los sistemas de información y, además, pueden elegir entre múltiples fuentes que compiten en calidad, precio o, por ejemplo, accesibilidad. El conocimiento de las percepciones y actitudes de los clientes o usuarios hacia los servicios que se prestan o hacia los productos que se ofrecen, aumentará las oportunidades de los servicios de información para decidir de forma más certera. Para ello, sus responsables deben entender los cambios en las necesidades de información de los usuarios y los nuevos requisitos en la provisión de la información que éstos plantean. En el contexto de las unidades de información también se ha adoptado como modelo de gestión la calidad total, aunque con más retraso que en otro tipo de empresa de servicios. Esta filosofía ha propiciado el paso del usuario

Capítulo 8: Evaluación de la satisfación de los usuarios

173

a un merecido primer plano. Usuario al que cada día con mayor frecuencia hemos pasado a llamar cliente. Cabe recordar, no obstante, que la preocupación por la satisfacción del usuario como logro de un servicio y también como criterio para medir su eficacia surge con anterioridad a la emergencia y triunfo de la Gestión de Calidad Total, pues aunque en los años sesenta y los setenta la evaluación de la eficacia de los sistemas de información estuvo dominada por el auge en la utilización de las medidas cuantitativas basadas en el criterio de relevancia, también existieron intentos de poner de manifiesto otras orientaciones. De hecho, Paisley y Parker (1965) comentan que la satisfacción es el único criterio razonable para poder evaluar un sistema de información en un entorno operativo, pero que su puesta en práctica se enfrenta a un gran escollo: la inexistencia de un marco conceptual e instrumental en el campo de la Documentación para la realización de este tipo de investigaciones. Será en una década posterior, en los ochenta, cuando la evaluación de la satisfacción cobre un nuevo impulso sobre todo desde la perspectiva metodológica, es decir, la de conseguir un diseño fiable de los instrumentos con los que obtener la información necesaria: los cuestionarios. Cabe destacar las importantes aportaciones de Bailey y Pearson (1983) e Ives et al. (1983), que permitieron crear un modelo adecuado para el desarrollo de instrumentos para la medición de la satisfacción. Entre ellos se puede contar con el instrumento diseñado por Baroudi y Orlikowski (1988), que es una versión reducida del cuestionario de Ives et al., y que, en opinión de Aydin (1994), constituye uno de los pocos que cumple los criterios de fiabilidad y validez. Los años noventa y el principio del siglo veintiuno están marcados por la publicación de rigurosos e interesantes trabajos sobre el tema, tanto de tipo conceptual (Applegate, 1993; Hernon et al, 1999; Cullen, 2001; Stein, 1999; y Muylle et al., 2004, entre otros) como de investigación aplicada (Zviran, 1992; Ribiere et al., 1999; Rey, 1999; Feliu y Permanyer, 2002; Lee, 2002; Cullen, 2003). De hecho, es relativamente frecuente encontrar bibliotecas o centros de documentación que sistemáticamente monitorizan su funcionamiento mediante cuestionarios de satisfacción, y tampoco resulta extraño que dichos cuestionarios acompañen los servicios proporcionados por la Web (por ejemplo, el de la Unesco Library Portal o de la Marriot Virtual Library, entre los muchos existentes). La satisfacción está incorporada en nuestros días como un importante criterio para la evaluación de los sistemas de información y su realización está impulsada por organismos internacionales. Tal es el caso de las recomendaciones que aparecen en la guía publicada por la IFLA: Measuring Quality: Internacional Guidelines for Performance Measurement in Academic Libraries (Poll y Boekhorst, 1996), en la que, entre otras propuestas, se for-

174 Parte III: Evaluación de la calidad desde el punto de vista del usuario mula la necesidad de que las bibliotecas realicen estudios enfocados a valorar la satisfacción del usuario con la biblioteca como un todo y a evaluar la satisfacción con sus distintos servicios y componentes.

8.2. Concepto y naturaleza de la satisfacción En el contexto particular de los sistemas y servicios de información, se entiende por satisfacción la medida en la que los usuarios perciben que el sistema cumple con sus requisitos informativos. Desde el punto de vista del usuario, la satisfacción de sus necesidades de información es la medida de la eficacia del sistema por excelencia. La satisfacción o insatisfacción resultado de la calidad de un servicio, de sus características o de la información que proporciona, constituye una información muy importante acerca del éxito o fracaso del sistema para cubrir las expectativas de los usuarios. La satisfacción es un resultado buscado por el sistema y dependiente tanto de la calidad del servicio prestado como de los valores y expectativas del propio usuario, y también del esfuerzo (tiempo, dinero, etc.) que éste ha invertido. En cuanto al servicio prestado, Tessier et al. (1977) afirman que cuando el usuario determina su satisfacción, se centra en cuatro factores: la cantidad y calidad de los productos recuperados, la interacción con el sistema o con los intermediarios, la política del servicio y el servicio de información en su conjunto (biblioteca, centro de documentación, etc.). La relación entre calidad de un servicio y satisfacción ha sido puesta de relieve en varias ocasiones. Poll y Boekhoerst (1996) la definen como “una medida con la que valorar si una biblioteca cumple su meta principal de ofrecer servicios de calidad que satisfagan a sus usuarios”. A este respecto, Hernon et al. (1999) hacen una matización: La calidad de un servicio es una cualidad desarrollada a lo largo del tiempo de acuerdo con las expectativas del usuario, mientras que la satisfacción está relacionada con una transacción concreta y es una medida a más corto plazo relacionada con una reacción personal y emocional frente a un servicio… Claramente existe una interrelación entre esos dos aspectos, si bien la calidad es un factor que antecede a la satisfacción.

Las dimensiones de calidad que pueden afectar a la satisfacción varían según el entorno, servicio o sistema que se considere en cada momento. En el caso de la figura 8.1, donde se ha tomado como ejemplo una biblioteca, se ha dejado constancia de las áreas de servicio sobre las que se aplica la calidad (recur-

Capítulo 8: Evaluación de la satisfación de los usuarios

175

sos, organización y prestación de servicio) y las cinco dimensiones de alto orden que genéricamente definirán esa calidad (fiabilidad, confianza, tangibles, empatía e interés) (Parasuramam et al., 1998). Características Valores Expectativas

Usuario

Calidad del servicio

Recursos (calidad y cantidad) Organización (entorno y recursos) Prestación del servicio

Esfuerzo

Satisfacción

Fiabilidad Confianza Tangibles Interés Empatía

Figura 8.1. Relación entre las dimensiones que afectan a la satisfacción de un usuario de una biblioteca.

La relación entre calidad y satisfacción es compleja. La calidad de un servicio se define como un componente de la satisfacción y viceversa. Sin embargo, puede suceder que aunque la calidad del servicio prestado influye decisivamente en la satisfacción, ésta no siempre responde a la calidad del servicio. Esto, que puede parecer una paradoja, se entiende mejor si se tiene en consideración que en la satisfacción intervienen además de la calidad otros muchos factores tanto cognitivos como emocionales. En esta línea, Rachel Applegatte (1993) plantea un modelo (recientemente revisado por C. Rey, 2000) en el que se consideran dos tipos de satisfacción: la satisfacción material y la satisfacción emocional. La satisfacción material está relacionada con la obtención y relevancia del producto. El concepto de satisfacción emocional está relacionado con componentes no cognitivos y sí afectivos, y refleja el grado de complacencia de un usuario tras una transacción. La satisfacción emocional puede o no estar acompañada de satisfacción material. Cuando esto no sucede es lo que se denomina falsos positivos. Éstos serían los casos en los que el usuario no ha recibido una respuesta adecuada a la demanda realizada, pero responde positivamente a la satisfacción por motivos ajenos al resultado del sistema; por ejemplo, por la consideración positiva que se tiene a un determinado servicio.

176 Parte III: Evaluación de la calidad desde el punto de vista del usuario En la satisfacción hay autores que propugnan la consideración de distintos niveles, pues aunque generalmente se dice que la satisfacción es una reacción emocional secundaria a una transacción concreta (Hernon et al, 1999) hay que hacer notar que normalmente se trata de una reacción que se ha ido construyendo poco a poco a lo largo de toda una serie de transacciones de diversa calidad con un servicio o una determinada organización. Basándose en esto, Bitner y Hubert (1994) proponen considerar dos niveles en la satisfacción: la satisfacción o insatisfacción del usuario como resultado de una transacción concreta, y la satisfacción o insatisfacción global con la organización o la unidad de información que estará basada en el conjunto de transacciones y experiencias del usuario con esa organización. Otros autores como Cullen (2001) cuando se refieren a estos dos niveles hablan de satisfacción a un nivel micro y a un nivel macro. En cuanto al usuario, entran en juego muchos factores que hay que tener en cuenta cuando se estudia la satisfacción. Entre ellos, además de las características personales de cada individuo, hay que hacer una mención especial al conocimiento o familiaridad que tenga con el uso de sistemas de información, a sus actitudes y a su valoración positiva hacia los mismos, sin olvidar otros aspectos como la frecuencia y propósito de uso de ese sistema en concreto y las posibles consecuencias que pudieran derivarse de su utilización. Lancaster y Warner (1993) sugieren que, además de la calidad de los productos recuperados, el coste y tiempo invertidos son factores que pueden influir en gran medida en la satisfacción de los usuarios. En este sentido, en el ya mencionado trabajo de Rey (2000) se pone de relieve el modo en que el usuario determina diferentes niveles de satisfacción a partir de la combinación de dos aspectos: la prestación del servicio y el esfuerzo que ha realizado el usuario, poniendo de relieve cómo dependiendo de si el usuario está o no satisfecho se podría prever un posible comportamiento (cuadro 8.1). En resumen, la satisfacción es un estado mental experimentado por un usuario como respuesta a una determinada interacción con un sistema o un servicio de información. Como tal tiene componentes tanto intelectuales como emocionales cuya percepción es difícil de materializar (Tessier et al., 1977). De acuerdo con esto, la satisfacción es una medida subjetiva del éxito alcanzado por el sistema de información, por lo que podemos considerar que es una medida “blanda”, porque está enfocada más hacia percepciones y actitudes que hacia criterios más concretos y objetivos. En cierta manera, la satisfacción proporciona una valoración sobre la visión del sistema que tienen sus usuarios, más que sobre la calidad técnica del mismo. En este sentido, Ives et al. (1983) afirman que “un buen sistema de información que es percibido por sus usuarios como malo o deficiente es un mal sistema de información”.

Capítulo 8: Evaluación de la satisfación de los usuarios

177

CUADRO 8.1. Relación entre el esfuerzo de los usuarios y la calidad del servicio con la satisfacción Esfuerzo del usuario

Prestación del servicio

Mucho

Elevada

Satisfacción contenida

Oportunidad

Mucho

Modesta

Insatisfacción máxima

Reclamación

Bajo

Elevada

Satisfacción máxima

Confianza

Bajo

Modesta

Insatisfacción

Incertidumbre

Satisfacción

Comportamiento

8.3. Método para la valoración de la satisfacción La medición de la satisfacción se realiza recabando la opinión de los usuarios sobre el éxito o fracaso del sistema para cumplir con sus requerimientos informativos. Para ese propósito se utilizan formularios específicamente diseñados y que pueden aplicarse mediante cuestionarios autoadministrados o mediante entrevistas. El mayor problema metodológico al que se enfrenta la evaluación de la satisfacción reside en la construcción del formulario, concretamente en su fiabilidad como instrumento de medida. Este problema se debe a que la naturaleza subjetiva de la satisfacción provoca: a) Dificultad para identificar los aspectos de los servicios y sistemas de información que son relevantes para el usuario (denominados dimensiones de calidad), y que determinarán su satisfacción o insatisfacción. b) Dificultad para traducir estos aspectos en preguntas concretas capaces de suscitar respuestas sinceras y claras. En la construcción de un formulario de esta naturaleza se pueden identificar varias etapas: 1. Identificar la lista de factores o variables capaces de influir en la satisfacción de los usuarios a lo que nos referiremos como dimensiones de calidad.

178 Parte III: Evaluación de la calidad desde el punto de vista del usuario 2. Traducir estas dimensiones en preguntas cuyas respuestas permitan medir las reacciones de los usuarios a cada uno de los factores investigados. 3. Evaluar la validez y fiabilidad del cuestionario como instrumento de medida.

8.3.1. Identificación de las dimensiones de calidad Con frecuencia, para describir un producto o servicio se utilizan diversas dimensiones o características. Por ejemplo, después de haber recibido un servicio, podemos describirlo como rápido, siempre disponible cuando se necesita, pero desagradable. Esta descripción representa respectivamente tres dimensiones diferentes del servicio: el tiempo de reacción, la disponibilidad y la habilidad social. La mezcla de todas las dimensiones posibles describen el producto o servicio en su totalidad (Hayes, 1995). La lista de las dimensiones de calidad que caracterizan a determinados productos o servicios puede generarse de diversas formas y utilizando diferentes fuentes de información. Una de ellas es la revisión de la literatura existente sobre el tema. Otro modo es estudiar el servicio o producto desde el punto de vista tanto de las personas involucradas en el proceso y provisión de los servicios como desde el de los propios usuarios. Un modo de implicar a los distintos grupos de usuarios es utilizar la técnica del focus group. Para ello pueden escogerse grupos representativos de usuarios para así poder poner de relieve el interés de aspectos que interesa estudiar o introducir otros sugeridos por los usuarios y que se han pasado por alto en el diseño inicial. De la misma manera, la opinión de los usuarios para identificar las dimensiones de calidad puede obtenerse aplicando la técnica del incidente crítico cuyas características se han expuesto en el capítulo 3. En su aplicación para este propósito, se trata de obtener de los usuarios información acerca de las interacciones que hayan tenido con el servicio o el sistema investigado con la finalidad de estudiar incidentes reales que ellos consideren que reflejen los aspectos buenos y malos del producto o servicio (Hayes, 1995). Conocer cuáles son los factores o dimensiones de calidad que determinan la satisfacción de los usuarios con los sistemas de información ha centrado la atención de varios autores; de entre las primeras cabe mencionar la publicación de Bailey y Pearson (1983). Estos autores identificaron un total de 39 dimensiones de calidad (cuadro 8.2) con el fin de construir un cuestionario para medir la satisfacción de los usuarios con los sistemas de información automatizados. Para ello realizaron una revisión de la literatura sobre la interacción de los usuarios con sistemas de información automatizados y llevaron a cabo entrevistas con expertos en sistemas de información. La importancia de esta

Capítulo 8: Evaluación de la satisfación de los usuarios

179

investigación reside en que es una de las primeras realizadas con solvencia sobre este tema en el entorno de los sistemas de información. El interés de mostrar sus resultados en esta monografía es disponer de una lista de dimensiones de calidad de carácter orientativo, habida cuenta de que cada entorno, sistema o servicio de información tiene sus propias características y peculiaridades y que, aun existiendo cuestionarios, éstos siempre deberán sufrir una adaptación al entorno en estudio y una validación posterior. CUADRO 8.2. Ejemplo de dimensiones de calidad identificadas en el instrumento diseñado por Bailey y Pearson (1983) 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20.

Flexibilidad Exactitud Puntualidad Fiabilidad Exhaustividad de la cobertura Confianza en el sistema Relevancia Precisión Competencia técnica del personal Actualización Determinación de prioridades Recuperación de errores Tiempo de respuesta Accesibilidad Actitud del personal Tiempo necesario para realizar una nueva aplicación Utilidad percibida Documentación Sentimiento de participación Proceso de los cambios solicitados

21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37.

38.

Comunicación con el personal Relación con el personal Comprensión de los sistemas Nivel de entrenamiento Efecto en el trabajo Implicación en la gestión Sentimiento de control Lista de productos y servicios Formato de salida Tipo de interfaz Seguridad de los datos Expectativas Posición de la unidad de información en el organigrama Cantidad de productos Idioma Tipo de pago por los servicios Competitividad de la unidad de información dentro de la organización Servicio de mantenimiento

Un ejemplo actual de adaptación de un cuestionario a entornos diferentes respecto al que han sido diseñados es LIBQUAL. Se trata de un cuestionario configurado para su uso en la Web que se utiliza para medir las percepciones, la calidad y satisfacción de los usuarios con los servicios de las bibliotecas. Este cuestionario es fruto de sucesivas adaptaciones a este entorno de SERVQUAL, un instrumento diseñado originalmente para medir las percepciones, calidad

180 Parte III: Evaluación de la calidad desde el punto de vista del usuario y satisfacción de los clientes con los servicios proporcionados en entornos comerciales (Parasuraman et al., 1988).

8.3.2. Confección del cuestionario: Traducción de las dimensiones de calidad en preguntas y selección del formato de las respuestas Una vez que las dimensiones de calidad han sido determinadas, será necesaria su transformación en preguntas, así como seleccionar el formato de respuesta adecuado. Las dimensiones de calidad (disponibilidad, puntualidad, etc.) son demasiado genéricas para poder utilizarse directamente en forma de preguntas, por lo que deben ser trasformadas en enunciados más concretos que permitan obtener respuestas que se refieran exactamente a lo que se pregunta. Con relación a las dimensiones de calidad que deben estar reflejadas en un cuestionario, Stein (1999) realiza las siguientes recomendaciones: El que se identifiquen todas las dimensiones de calidad no quiere decir que todas ellas deban incluirse en el cuestionario. Éste deberá formular preguntas sólo sobre aquellos factores que quieran estudiarse pues el riesgo de un cuestionario excesivamente largo es el que disminuya mucho la tasa de respuesta en ese momento. Además, si es largo, esto dificultará su contestación y consumirá un tiempo excesivo de los usuarios que en un futuro próximo, cuando el estudio deba repetirse para ver si han mejorado o no las condiciones del servicio, pueden no estar dispuestos a contestarlo de nuevo.

El segundo paso en la confección del cuestionario es la selección del formato de respuesta. A este respecto hay que mencionar que los cuestionarios de satisfacción pueden incluir preguntas o utilizar artículos aseverativos que reflejen aspectos buenos y malos del servicio o producto. La utilización de escalas de actitudes u opiniones es el método más frecuentemente utilizado para medir la reacción del usuario ante cada uno de los factores investigados. Estas escalas son instrumentos utilizados en las ciencias sociales en general para medir determinados fenómenos de la forma más objetiva posible. Existen numerosas clases de escalas, entre las que cabe destacar las de ordenación, la de Guttman, la de Thurstone y las de tipo Lickert (Sierra Bravo, 1997), siendo esta última una de las utilizadas con mayor frecuencia en esta clase de estudios junto con el formato de check list. La escala tipo Lickert permite al usuario expresar su opinión sobre la bondad de las actuaciones o la calidad de un servicio o producto en grados variables, mediante un procedimiento de escalado. En un extremo de la escala se

Capítulo 8: Evaluación de la satisfación de los usuarios

181

representa la respuesta negativa, mientras que en el otro se representa la positiva. En el cuadro 8.3 aparecen algunos formatos de escalas tipo Likert. CUADRO 8.3. Ejemplo de formatos de escalas tipo Likert. Fuente: Hayes (1995) Total desacuerdo

No estoy de acuerdo

Ni de acuerdo ni en desacuerdo

Estoy de acuerdo

Estoy muy de acuerdo

1

2

3

4

5

Muy insatisfecho

Insatisfecho

Ni satisfecho ni insatisfecho

Satisfecho

Muy satisfecho

1

2

3

4

5

Muy deficiente

Deficiente

Ni deficiente ni correcto

Correcto

Muy correcto

1

2

3

4

5

Cuando se utiliza el formato check list, a los usuarios se les permite contestar de forma afirmativa o negativa a una serie de enunciados en relación con el producto o servicio recibido. Los usuarios deberán contestar sí cuando el enunciado refleja las características o condiciones del servicio o producto que recibieron, y no cuando esto no es así (cuadro 8.4). CUADRO 8.4. Ejemplo de un formato de respuesta tipo check list

Por favor, indique si cada enunciado describe o no el servicio que recibió. Marque sí, si el enunciado describe el servicio y no cuando no lo hace.

1. Pude utilizar el sistema a la hora que yo quería 2. El sistema estaba disponible cuando a mí me convenía 3. El personal me atendió rápidamente 4. No hubo retraso en la hora programada para mi búsqueda



No





■ ■ ■

■ ■ ■

182 Parte III: Evaluación de la calidad desde el punto de vista del usuario 8.3.3. Evaluación de la fiabilidad y validez del cuestionario La última etapa en la construcción de un cuestionario consiste en la evaluación de la calidad del mismo como instrumento de medida. Los cuestionarios, bien sean autoadministrados o bien utilizados mediante entrevista, son instrumentos de precisión cuya calidad debe ser explorada. Los dos requisitos básicos de calidad de un cuestionario son la fiabilidad y la validez. La fiabilidad se define como el grado en el que las mediciones están libres de la desviación producida por errores casuales o aleatorios. A su vez, la validez hace referencia a la capacidad del cuestionario para medir aquello para lo que ha sido construido. La fiabilidad es una condición necesaria, pero no suficiente para la validez, ya que hay que tener en cuenta que, aunque las medidas sean fiables, pueden no ser válidas. Existen tres métodos generales para medir la fiabilidad: a) el test-retest, b) la estimación media, y c) la estimación del coeficiente alfa de Cronbach. a) La estimación de la fiabilidad mediante el método test-retest pretende medir la variabilidad del instrumento para proporcionar las mismas puntuaciones, cuando el instrumento es aplicado más de una vez al mismo individuo (variabilidad intraobservador). En el caso de las entrevistas se puede medir también la variabilidad interobservador administrando la entrevista a varios individuos al mismo tiempo e interpretando los resultados de forma independiente. El índice Kappa es el indicador que suele utilizarse para el cálculo de la concordancia entre dos observaciones (Fleis, 1981). b) El método de la estimación media de la fiabilidad trata de determinar la coherencia interna del cuestionario. Para ello se divide el cuestionario en dos partes con el fin de obtener la correlación en las puntuaciones de cada una de ellas. Una correlación alta indica que los dos conjuntos proporcionan una información consistente, es decir, si una persona puntúa alto un conjunto de ítems también puntuará alto el otro conjunto. Por lo tanto, es probable que los ítems estén midiendo lo mismo (Hayes, 1995). c) La estimación de la fiabilidad utilizando el coeficiente alfa de Cronbach (Cronbach, 1951) indica la profundidad con la que las diferentes preguntas o enunciados del cuestionario están interrelacionados y miden el mismo concepto. Este coeficiente se calcula utilizando las varianzas de los resultados individuales y las covarianzas entre los diferentes resultados. Para su cálculo se utiliza habitualmente un paquete estadístico de tipo SPSS.

Capítulo 8: Evaluación de la satisfación de los usuarios

183

En cuanto a las fuentes de variación que pueden afectar a la fiabilidad, Comín (1990) las resume en las siguientes: – Cambio en el tiempo de la característica estudiada. – Cambios acontecidos en el sujeto entrevistado debidos a las condiciones de administración de la encuesta. – Variaciones introducidas por el propio instrumento de medida (formulación ambigua de las preguntas que puedan dar lugar a varias interpretaciones). – Cambios introducidos por los entrevistadores por defecto en la formulación de las preguntas o en la transcripción de las respuestas. – Errores en el manejo de los datos. En el diseño de cuestionarios y en su administración, es necesario tomar medidas para reducir la variabilidad hasta unos límites razonables, ya que su total eliminación es casi imposible. Para ello cabe mencionar medidas tales como el uso de procedimientos normalizados, la utilización de definiciones operativas de cada variable, así como la utilización y realización de las preguntas de forma estandarizada. Dos factores que reducen la variabilidad considerablemente son, por una parte, la confección y utilización de manuales de procedimiento y, por otra, el entrenamiento previo de los encuestadores. La validez es la adecuación del instrumento para medir lo que se pretende medir y puede hacer referencia a varios aspectos (Abramson, 1990): a) Validez lógica (denominada en la literatura anglosajona como face validity). Al formular las preguntas de un cuestionario, la primera consideración es si estas preguntas son capaces de recabar información relevante sobre lo que se pretende medir. Un método para aproximarnos a esta faceta de la validez es la realización de un estudio piloto que nos permita ensayar el cuestionario. Una elevada frecuencia de contestaciones dentro de la categoría “no sabe” o la obtención de hallazgos no razonables deben hacernos sospechar una ausencia de validez. b) Validez de contenido (del inglés content validity). Si la variable, aspecto o fenómeno que se pretende medir es compuesta, es decir, si depende de varios elementos, entonces hay que ver si todos estos elementos quedan recogidos a lo largo de las preguntas formuladas. c) Validez consensuada (del inglés consensual validity). Hace referencia a la existencia de consenso entre los expertos para decir que un determinado instrumento es válido. d) Validez de criterio. La mejor manera de saber si la información obtenida utilizando un instrumento es válida, es teniendo un patrón o están-

184 Parte III: Evaluación de la calidad desde el punto de vista del usuario dar con el que comparar. Cuando este patrón (o criterio) no existe, podemos aproximarnos a la validez de forma indirecta, mediante estudios de correlación con otras variables que se creen relacionadas con esta característica; a esto se le denomina validez de construcción (del inglés construct validity). Por ejemplo, en un estudio sobre las actitudes en el trabajo, las contestaciones pueden ser comparadas con información existente sobre absentismo laboral, conflictividad laboral, etc. O, en el caso de evaluar la satisfacción de la atención médica, la información que se podría utilizar podría ser, por ejemplo, la relacionada con las solicitudes de cambio de médico. Las consecuencias de la falta de calidad (validez y fiabilidad) de las encuestas es la obtención de información no representativa de la realidad que se pretende medir. El problema de la construcción de un instrumento adecuado de medida es común a todos los estudios de satisfacción, sea cual sea la naturaleza del objeto investigado.

8.4. Utilidad práctica La evaluación de la satisfacción tiene como meta poner en evidencia aquellas áreas en la provisión de servicios que funcionan bien y descubrir aquellas que necesitan mejoras y ajustes. Las encuestas de satisfacción son una vía para que el usuario exprese su opinión favorable o no, y una oportunidad para un servicio para realizar cambios que mantengan contenta a su clientela. Uno de los riesgos de la falta de satisfacción es que el usuario decline el uso de un sistema de información, sobre todo cuando el uso del sistema es opcional. Esto es, cuando existen fuentes alternativas que le puedan proporcionar la información que necesita. El interés de los resultados de las encuestas de satisfacción es doble: por una parte, ayudan a mejorar el conocimiento sobre el sistema y su verdadero funcionamiento sobre el terreno y, por otra, constituyen la base para la construcción de listas de tareas y modificaciones a emprender para mejorar el servicio. Los resultados deben impulsar a la acción si se pretende que los usuarios se impliquen en futuras investigaciones, ya que en caso contrario lo único que se conseguiría sería alimentar su frustración. Además de emprender los cambios, es importante difundir tanto los problemas como los logros que el sistema ha alcanzado tanto entre la población de usuarios como en el grupo de trabajo. Por último, hay que tener en cuenta que, como en toda evaluación, cuando se determina la satisfacción, se detectan áreas deficientes, se toman accio-

Capítulo 8: Evaluación de la satisfación de los usuarios

185

nes para su mejora y se deberá volver a medir en un futuro para determinar si las soluciones adoptadas realmente resuelven los problemas o están creando unos nuevos.

Bibliografía Abramson, J. M. (1990): Métodos de estudio en medicina comunitaria. Díaz de Santos. Madrid. Applegate, R. (1993): “Models of User Satisfaction: understanding false positives”. RQ, 32 (4): 525-539. Aydin, C. (1994): “Survey methods for assessing social impacts of computers in health care organizations”, en Anderson, J. G.; Aydin, C. E. y Jay, S. J. Evaluating health care information systems: Methods and applications. Sage. California. Bailey, J. E. y Pearson, S. W. (1983): “Development of a tool for measuring and analyzing computer user satisfaction”. Management Science, 5: 530-545. Baroudi, J. J. y Orliowski, W. J. (1988): “A short form measure of user information satisfaction. A psychometric evaluation and notes on use”. Journal of Management Information Systems, 4: 44-59. Bitner, M. J. y Hubbert, A. R. (1994): “Encounter satisfaction versus overall satisfaction versus quality”, en Roland, T. R. y Olivier, R., The customer’s voice. In service quality: New directions in theory and practice. Thousand Oacks, Sage. California. Butterwick, N. B. (1993): “Total quality management in university library”. Library Management, 5: 23-25. Comín Bertrán, E. (1990): “Validación de encuestas”. Atención Primaria, 7: 386-390. Cronbach, L. J. (1951): “Coefficient alpha and the internal structure of tests”. Psychometrica, 3: 297-334. Cullen, R. (2001): “Perspectives on user satisfaction surveys”. Library trends, 48 (4): 662-686. — (2003): “Evaluating digital libraries in the health sector. Part 1: Measuring inputs and outputs”. Health Libraries and Information Journal, 20: 195-204. Feliu, T. y Permanyer, J. (2002): “Avaluaciò de la satisfacció dels usuaris de les biblioteques públiques”. Biblioteconomia I Documentaciò, 9. (Disponible en http: //www.ub.es/biblio/bid/09feliu.htm. Fecha de última visita: 15 de abril de 2004). Fleis, J. (1981): Statistical methods for rates and proportions. John Wiley and Sons. Nueva York.

186 Parte III: Evaluación de la calidad desde el punto de vista del usuario Hayes, B. E. (1995): Cómo medir la satisfacción del cliente. Gestión 2000. Barcelona. Hernon, P; Nitecki, D. A y Altman, E. (1999): “Service Quality and Consumer Satisfaction: An Assessment and Future Directions”. The Journal of the academic Librarianship, 25 (1): 9-17. Ives, B; Olson, M. H. y Baroudi, J. (1983): “The Measurement of user information satisfaction”. Communications of the ACM, 10: 785-793. Lancaster, F. W y Warner, A. (1993): Information retrieval today. Information Resources Press. Arlington. Lee, O. (2002): “An action research report on the Korean National Digital Library”. Information and Management 39: 255-260. Marriott Library Satisfaction Survey. (Disponible en http: //www.lib.utah.edu/ information/satsur4.html. Fecha de última visita: 15 de abril de 2004). Muylle, S; Moenaert, R. y Despontin, M. (2004): “The conceptualization and empirical validation of Web site user evaluation”. Information and Management, 41: 543-560. Paisley, W. S. y Parker, E. B. (1965): “Information retrieval as a receiver controlled comunication system”, en Halperin, L; Markuson, B y Goodman, G., Proceedings of the Symposium on Education for Information Sciences. McMillan. Nueva York. Parasuramam, A; Berry, L. L. y Zeihaml, V. A. (1988): “SERVQUAL: a multiple item scale for measuring customer perceptions of service quality”. Journal of retailing, 64: 12-40. Poll, R. y Boekhorst, P. (1996): Measuring quality international guidelines for performance measurement in academic libraries. Saur (IFLA publications, n.º 76). Múnich. Rey Martín, C. (1999): “La aplicación de los estudios de satisfacción de usuarios en la biblioteca universitaria: el caso de las bibliotecas catalanas”. Biblioteconomia I Documentació, 9. (Disponible en http: //www.ub.es/biblio/ bid/03rey2.htm. Fecha de última vista: 15 de abril 2004). — (2000): “La satisfacción del usuario: Un concepto en alza”. Anales de Documentación, 3: 139-153. Ribière, V.; La Salle, A. J.; Khorramshahgol, R. y Goust, Y. (1999): “Hospital Information Systems Quality: A customer Satisfaction Assessment Tool”. Proceedings of the 32nd Hawaii International Conference on System Sciences. Sierra Bravo, R. (1997): Técnicas de investigación social. Teoría y ejercicios. Paraninfo. Madrid. Stein, J. (1999): “Designing user satisfaction surveys for interlibrary loan services”. Performance Measurement and Metrics, 1 (1): 45-61.

Capítulo 8: Evaluación de la satisfación de los usuarios

187

Technical Assistance Research Programs, Inc. (1991): Quality training Participant’s workbook. Xerox Corporation, Corporate Education and training. Stamford, Connecticut. Tessier. J.; Crouch, W. W. y Atherton, P. (1977): “New measures of user satisfaction with computer-based literature searches”. Special Libraries, 68: 383389. UNESCO Library Portal questionnaire. (Disponible en http: //www.surveytools.com/library.htm. Fecha de última vista: 15 de abril de 2004.) Zviran, M. (1992): “Evaluating user satisfaction in a hospital environment: an exploratory study”. Health Care Managment Review, 17: 51-62.

9

EVALUACIÓN DE LOS RESULTADOS

9.1. Introducción Las instituciones académicas, las empresas, las administraciones públicas o las instituciones sanitarias invierten cada vez más dinero en el establecimiento o en la suscripción de sistemas de información, en tecnología y en personal encargado del análisis de datos, todo ello con la finalidad de ayudar a que los usuarios y las distintas organizaciones consigan alcanzar con éxito las metas y objetivos que se han propuesto. Una prueba palpable de esto es, por ejemplo, la enorme inversión de dinero realizada por la Fundación Española de Ciencia y Tecnología para suscribir con la empresa Thomson ISI 400 licencias concurrentes a la Web of Knowledge conocida coloquialmente como WoK (constituida por un conjunto de bases de datos producidas por el Institute of Scientific Information de Philadelfia: Science Citation Index, Social Science Citation Index, Arts & Humanities Citation Index, Current Chemical Reactions, Index Chemicus, ISI Current Content Contents, ISI Proceedings, Index to Social Science & Humanities Proceedings, etc.). Esta suscripción se realizó con la finalidad de facilitar el acceso de las instituciones españolas de I+D (universidades, organismos públicos de investigación, centros tecnológicos, hospitales, etc.) a la información necesaria para, entre otras cosas, llevar a cabo la evaluación de su actividad científica. En la misma línea, podría mencionarse el contrato suscrito por el Ministerio de Sanidad Español para garantizar el acceso gratuito desde todo el territorio español a la Cochrane Library, que constituye la fuente de información por excelencia de la infor-

190 Parte III: Evaluación de la calidad desde el punto de vista del usuario mación médica para el ejercicio de lo que se ha venido en llamar Medicina Basada en la Evidencia. Término con el que se define la utilización concienzuda, juiciosa y explícita de las mejores pruebas disponibles en la toma de decisiones sobre el cuidado de pacientes. La justificación de este tipo de inversiones se fundamenta en el supuesto, tantas veces esgrimido, de que la información es la base para la toma de decisiones por su valor para reducir la incertidumbre. Para ilustrar este valor, en el contexto particular de los negocios, José Cabanelas Omil, director científico del servicio de información empresarial ARDAN, comentaba en el diario Cinco Días (1996) el modo en el que los Rothschild lograron comenzar su fortuna: Cuentan que la fortuna de Rothschild empezó a amasarse gracias a un eficaz sistema de información. El 15 de julio de 1815, dos años después de que los Rothschild establecieran su residencia en Londres, tiene lugar la batalla de Waterloo. Rothschild recibe información de la victoria, antes que el propio gobierno inglés, a través de un peculiar sistema de información: un servicio de palomas mensajeras. Rothschild toma una decisión singular: decide vender un amplio paquete de acciones en el mercado de Londres. El mensaje para el resto de los inversores es claro, se ha perdido la batalla contra Napoleón y vienen malos tiempos. Pero antes de que cierre la jornada, Rothschild cambia su posición y adquiere una masa ingente de títulos que van a revalorizarse de forma espectacular al conocerse la victoria de Wellington.

Más allá de situaciones anecdóticas o incluso de ocasiones cuya gravedad puede conducir a los tribunales a tener que demostrar la existencia o no de “información privilegiada”, la capacidad de demostrar objetivamente el valor de la información es harina de otro costal. La cuestión es que cuando se están realizando inversiones importantes en la provisión de sistemas de información y cuando, además, existe competencia evidente en la distribución de las distintas partidas que conforman un determinado presupuesto, es cada vez más necesario demostrar objetivamente cuáles son los resultados de estas inversiones. Esto supone demostrar la existencia de un vínculo entre la inversión en información, un bien intangible, y la toma de mejores decisiones, o entre la inversión en información y la mejora de la empresa, de la investigación o en su caso de la docencia. Conocer cuánto hemos avanzado en este terreno es el objetivo del último capítulo de esta monografía que se ha dedicado a la evaluación de los resultados de los sistemas de información o lo que en la literatura anglosajona se denomina outcome assessment. Desde esta perspectiva, se abre un nuevo horizonte en la evaluación que va mas allá del enfoque basado en modelos semejantes

Capítulo 9: Evaluación de los resultados

191

a los de la producción industrial, basados en las medidas de cantidad y calidad del input, proceso y productos. Se trata de poner el acento en aspectos que van más lejos del entorno o cascarón del sistema y que son los resultados o efectos de los sistemas y servicios de información en la actividad del usuario y en su entorno organizacional y social. Con relación a este tema hay que hacer una serie de consideraciones que nos acompañarán a lo largo de este capítulo. La primera es que ésta es, sin duda, el área más novedosa de la evaluación de los sistemas y servicios de información. Eso no quiere decir que no se puedan encontrar trabajos importantes escritos hace bastantes años. Así, en la década de los setenta y ochenta, se pueden destacar las evaluaciones del programa de los Clinical Medical Librarians, bibliotecarios integrados en el equipo médico con la función de proveer información a los médicos para mejorar la asistencia de los pacientes hospitalizados (Schnall y Wilson, 1976; Greenberg et al., 1978; Scura y Davidoff, 1981, o Veenstra, 1992, entre otros), o la realizada por King (1987) para determinar el impacto de las bibliotecas hospitalarias. Sin embargo, puede decirse que la valoración de las consecuencias del uso de un sistema o un servicio de información se ha incorporado tardíamente al marco general de la evaluación y que son los años noventa y estos primeros años del siglo XXI, donde se empieza a prestar la atención que merece a este tema. En los noventa encontramos trabajos importantes de los que algunos ejemplos puntuales son la investigación de Marshall (1992), enfocada a medir el impacto de las bibliotecas especializadas, la de Winterman, Smith y Abell (1998), basada en la anterior pero aplicada en el contexto de la toma de decisiones políticas. También se publicaron algunas monografías muy interesantes como la de Michel Menou (1993), sobre la medida del impacto de la información en el desarrollo, o la de Anderson, Aydin y Jay (1994), que trata de mostrar un marco de trabajo para medir la contribución de los sistemas de información en la asistencia sanitaria. En el medio bibliotecario, este tema ha cobrado un gran interés en estos últimos tiempos, tanto en el contexto de las bibliotecas universitarias (Gratch Lindauer, 2000) como públicas (Bertot y McClure, 2003). Como área nueva que es, hay dos hechos destacables que la caracterizan: el primero es que hay más preguntas que respuestas y el segundo, que no existe ningún modelo metodológico consolidado que resuelva el problema de la evaluación de los resultados. Así las cosas, los profesionales de la información se enfrentan con retos que consisten en: ser capaces de identificar modelos de referencia que actúen como marco de trabajo, proponer parámetros e indicadores (cuantitativos y cualitativos) capaces de proporcionar información sobre los resultados de los sistemas, servicios y, por último, diseñar los procedimientos adecuados para la recogida de datos.

192 Parte III: Evaluación de la calidad desde el punto de vista del usuario 9.2. Qué es la evaluación de los resultados Definir qué entendemos por evaluación de resultados no es tarea sencilla pues, como ponen de manifiesto Bertot y McClure (2003), no existe una definición clara y concisa sobre el tema. Pese a eso, en lo que sí parece existir cierto acuerdo es en establecer una serie de rasgos comunes que ayudan a concretar de qué estamos hablando. Basándonos en estos autores podemos decir de la evaluación de los resultados que: a) Incluye la noción de impacto, beneficio, diferencia o cambio en un usuario, grupo o institución derivado del uso de una unidad, servicio o sistema de información. b) Es una medida predeterminada basada en las metas y objetivos que se han planteado en el proceso de planificación de una unidad, servicio o sistema de información. c) Incluye medir y demostrar en qué grado se cumplen los resultados esperados para una unidad, servicio o sistema de información. En definitiva, la evaluación de los resultados es un intento de medir las consecuencias beneficiosas que el uso de ésta tiene para sus usuarios en términos de, por ejemplo, toma de mejores decisiones, cambio de conducta de los usuarios, ahorro de tiempo y dinero, etc. Es el estudio de aquello que marca la diferencia entre el uso y no uso de un sistema de información. La aplicación de este enfoque a la evaluación de los sistemas y servicios de información lleva a la conclusión de que éstos deben ser juzgados en última instancia por la medida en la que son capaces de ayudar a los usuarios a realizar las tareas que han motivado su consulta y a las instituciones a conseguir las metas y objetivos propuestos. 9.3. Tipos de resultados y niveles para su valoración Los tipos de resultados que pueden esperarse dependen de cada tipo de sistema o servicio y, sobre todo, de cada contexto particular. Para poder definir estos aspectos es necesario, ante todo, conocer las características de la organización o del entorno donde se integra el sistema, su misión, metas y objetivos, cómo espera que contribuya al logro de sus metas, etc. Será entonces cuando se podrá decidir cuál es la perspectiva o las dimensiones desde las que se pueden evaluar los resultados. La definición de dimensiones o variables desde las que valorar los resultados también dependerá de los niveles en los que se pretenda hacer esta valoración. Los tres niveles básicos a considerar son tres:

Capítulo 9: Evaluación de los resultados

193

1. Nivel del usuario. Se tendrán en cuenta los posibles efectos beneficiosos de la información para realizar las tareas o resolver los problemas que hayan motivado al usuario la búsqueda y uso de la información. 2. Nivel organizacional. El trabajo de un usuario habitualmente se enmarca en el contexto de una organización; por ejemplo, una empresa, un hospital o una comunidad como la universitaria. Todo efecto beneficioso en el usuario repercutirá no sólo en el individuo, a título personal, sino en el conjunto de la comunidad o de la organización en donde éste realiza sus funciones e integra sus logros y fracasos. Es decir, tendrá un efecto en su entorno más próximo. Pongamos por ejemplo un hospital. Si el uso de una determinada información ayuda a un médico a resolver mejor el tratamiento de un determinado paciente, se producirá un beneficio en varias direcciones: la del paciente (sin duda el más beneficiado), la del médico o usuario de la información (que, por ejemplo, ha adquirido nuevos conocimientos, ha mejorado sus destrezas, ha ganado seguridad en sí mismo, proyecta una buena imagen profesional, mejora su control de las situaciones, etc.) y, lógicamente, la de la institución en la que ese médico integra su trabajo, que obtiene buenas tasas de éxito en determinados tratamientos y que posiblemente tenga un beneficio económico derivado de la eficacia de una buena práctica médica, etc. 3. Nivel social. A este nivel se evalúan los resultados o efectos en el entorno más lejano del sistema o servicio de información. Siguiendo con el ejemplo anterior, el efecto en el paciente es un beneficio social para él y para los familiares, lo mismo que la repercusión de una mejor asistencia individual repercutirá en un mejor nivel sociosanitario de una comunidad.

9.4. Dimensiones para la evaluación de los resultados de los sistemas de información Como se ha descrito anteriormente, las dimensiones con las que valorar el impacto o los resultados de un sistema o servicio dependerán de cada contexto particular. A título de ejemplo describiremos dos listas de posibles criterios, la primera enfocada a su aplicación para la valoración de los resultados de un sistema de información en general y la segunda enfocada a la evaluación de las bibliotecas. Como ejemplo de dimensiones para la valoración del impacto podemos utilizar las propuestas por Kraemer y Danzinger (1990) para medir el impacto de la informatización en la vida laboral de los especialistas de la información. Estos autores establecen las siguientes dimensiones:

194 Parte III: Evaluación de la calidad desde el punto de vista del usuario 1. Toma de decisiones: definida como la capacidad de formular alternativas, estimar los efectos y realizar selecciones. 2. Control: es la medida en la que el sistema es capaz de: a) proporcionar a un individuo el control sobre el trabajo de otros; b) aumentar la capacidad de alterar la conducta de otros; c) ayudar a superar dificultades propias de un puesto de trabajo como, por ejemplo, la falta de tiempo; y d) aumentar el sentimiento de confianza en los conocimientos del individuo en relación con su trabajo. 3. Productividad: definida como la relación input/productos y su repercusión en la producción de bienes y servicios. 4. Interacción social: entendida como la repercusión que puede tener el uso de los sistemas de información en la frecuencia y calidad de las relaciones interpersonales entre los colaboradores. 5. Mejora del trabajo: referida como el grado en el que el uso de un sistema de información beneficia la realización de un rango de actividades, la obtención de habilidades que un determinado trabajo requiere para su realización o la mejora en la competencia profesional. 6. Ambiente de trabajo: esta dimensión hace referencia a aspectos más generales relacionados con el trabajo, como la satisfacción laboral, el estrés o la presión laboral, entre otros. Esta lista de dimensiones a partir de la cual estudiar el impacto es una de las muchas que pueden proponerse, pues, sin duda, no está completa ni se adapta a todos los entornos. Otro ejemplo de dimensiones, en este caso de aplicación en el entorno bibliotecario, son las que se recogen en el trabajo de Bertot y McClure (2003) como resultado de estudiar las propuestas realizadas por varios autores. Estas dimensiones proponen medir el impacto desde las siguientes perspectivas: – Económica: los resultados incluirían la medida del impacto de los servicios y recursos de la biblioteca en la capacidad de los usuarios de prosperar económicamente, buscar un empleo de forma satisfactoria o desarrollar un negocio. – Aprendizaje: los resultados incluirían la capacidad de los servicios y recursos de la biblioteca de atraer a los usuarios hacia un aprendizaje continuado, de interactuar y “enganchar” a los usuarios en el uso de determinados recursos de información, de fomentar el desarrollo de determinadas habilidades de tipo informacional y de tipo tecnológico, o de desarrollar habilidades de tipo analítico para juzgar la fiabilidad y validez de las fuentes de información.

Capítulo 9: Evaluación de los resultados

195

– Investigación: los resultados incluirían, entre otros, la medida en la que los servicios y recursos de la biblioteca han colaborado con los estudiantes y el profesorado en tareas tales como la realización de tesis y tesinas, la solicitud de becas o la publicación de trabajos científicos. – Intercambio de información: los resultados podrían incluir, entre otros, la medida en la que los servicios y recursos de la biblioteca han colaborado a facilitar el intercambio de información entre los usuarios de la biblioteca y agencias gubernamentales, su familia (por ejemplo, vía correo electrónico), o fomentando el conocimiento de la cultura de otros países (mediante periódicos de otras nacionalidades, etc.). – Cultural: los resultados podrían incluir, entre otros, la medida en la que los servicios y recursos de la biblioteca han colaborado a fomentar en los usuarios el gusto por el arte, la literatura, la historia, la música u otros aspectos sociales. – Comunitaria: muchos de los resultados de la biblioteca pueden afectar a la comunidad, se trate de un entorno académico, una ciudad, un pueblo o una comunidad virtual. Este tipo de resultados podría afectar a la calidad de vida global de todos los miembros de una comunidad, a las actitudes de los miembros de esa comunidad hacia los servicios o incluso tener una repercusión de tipo político.

9.5. Métodos para la evaluación de los resultados Del mismo modo que no existe un marco de referencia que contenga un abanico consensuado de dimensiones o criterios desde los que medir los resultados, tampoco hay un único enfoque metodológico que guíe el diseño de la investigación y la elección de las técnicas de recogida de datos. De entre los diferentes métodos que se han propuesto para el estudio del impacto de los sistemas de información, cabe destacar los basados en: a) la utilización de encuestas, cuestionarios y estudios de observación de los propios usuarios; b) el enfoque de los análisis coste-beneficio; c) la utilización de los métodos de resolución de problemas (problem solving) y de simulación; y d) el uso de paneles de usuarios.

9.5.1. Cuestionarios y entrevistas Dicen que cuando se trata de averiguar en qué medida le sirve algo a alguien, lo mejor que podemos hacer es preguntar a esa persona para recabar la información necesaria. En este sentido, lo cierto es que los cuestionarios y las entrevis-

196 Parte III: Evaluación de la calidad desde el punto de vista del usuario tas son las técnicas que con mayor frecuencia se utilizan para la recogida de datos en los estudios de evaluación de resultados. No obstante, si bien como técnica su aplicación es común en muchos estudios, no sucede lo mismo con su enfoque metodológico. De ese modo, podemos encontrar varias situaciones. Estudios que utilizan cuestionarios y entrevistas en los que se pregunta al usuario acerca de la repercusión que tiene el uso de un determinado sistema de información, servicio en relación a determinadas dimensiones fijadas de antemano (por ejemplo, aprendizaje, control, etc.). En este tipo de estudios lo más frecuente es que se pregunte por la experiencia o percepción que tiene el usuario acerca de un sistema o servicio en general. Cuando esto se realiza de este modo, el usuario contesta de acuerdo con la experiencia que ha ido acumulando a lo largo de las distintas interacciones con ese sistema o servicio y su respuesta obedece a una valoración global de dicha interacción. Otro enfoque es el que se basa en centrar al usuario en un momento concreto en el tiempo y relacionar el uso de un sistema de información con una tarea, decisión o acción a realizar. De este modo, el usuario ciñe su respuesta a lo sucedido en ese caso en concreto, obteniendo respuestas más precisas. La investigación de King (1987) realizada con el fin de evaluar el impacto de las bibliotecas hospitalarias en la toma de decisiones clínicas es un ejemplo claro de cómo se plantea una investigación con este enfoque. En este estudio, cada persona seleccionada (médicos, enfermeras y otros profesionales sanitarios) eligió un caso o situación clínica real sobre la que necesitara información. Dicha información debía solicitarla a la biblioteca sin revelar su participación en el estudio. Una vez recibida la información debía cumplimentar un cuestionario y enviarlo al responsable del estudio. En este cuestionario se preguntaba sobre cinco grandes áreas: calidad de la información obtenida (relevancia con relación a la situación clínica que ha motivado la solicitud y actualización), valor cognitivo (contribución al conocimiento sanitario del usuario), valor clínico de la información (impacto en la calidad de la asistencia del paciente) y funcionamiento de la biblioteca con relación a la provisión de información (rapidez, puntualidad, habilidad del personal en el reconocimiento de las necesidades, etc.). Un total de 172 participantes contestaron al cuestionario. Cerca de dos tercios aseguraron que, como consecuencia de la información obtenida, habían tratado al paciente de forma diferente de lo que lo habrían hecho originalmente. Dentro de este mismo enfoque se encuentra el trabajo de Marshall (1992) que, como el anterior, tiene como propósito la evaluación del impacto de una biblioteca hospitalaria en la toma de decisiones. En su investigación, el 80% de los participantes contestaron que trataron al paciente de forma diferente. Pero, además del método, lo importante en este estudio es la naturaleza de los cambios, ya que cerca de un tercio de ellos estaban relacionados con el diagnóstico, el 51% con la elección de pruebas complementarias, el 45% con la

Capítulo 9: Evaluación de los resultados

197

elección de medicamentos y el 19% con los días de estancia en el hospital. Además, los médicos contestaron que la información obtenida ayudó a evitar en el 12% de las ocasiones el ingreso del paciente, en el 19% la mortalidad del paciente, en el 8% infecciones hospitalarias, en el 21% una intervención quirúrgica y en el 49% la realización de procedimientos y pruebas adicionales. Ante estos resultados, el valor de la información se vuelve tangible y los beneficios para el paciente, médico e institución quedan patentes. El diseño y el cuestionario de la investigación llevada a cabo por Marshall, aunque adaptados a otro entorno, han sido posteriormente utilizados por Winterman, Smith y Abell (1998) en el marco de la toma de decisiones políticas. De este estudio reproducimos con fines ilustrativos las preguntas 6 y 7 del cuestionario (cuadro 9.1). CUADRO 9.1. Preguntas utilizadas en la investigación de Winterman et al. (1998) para la valoración del impacto de la información

£

£ £

£ £

£

198 Parte III: Evaluación de la calidad desde el punto de vista del usuario Estas cuestiones siguen a otras donde se le ha preguntado al encuestado sobre el tipo de decisión que debía tomar, qué acción debía realizar, qué información se le proporcionó y la importancia que le otorgaba a la información, así como quién obtuvo la información (él mismo o delegó esa tarea en otro). Hay también otros estudios que utilizan cuestionarios pero que están diseñados basándose en la Técnica del Incidente Crítico. Con esta técnica la recogida de datos también se centra en un momento del tiempo y conduce al usuario a contestar sobre una experiencia concreta. Sin embargo, a diferencia de lo anterior, la selección de ese momento obedece a que se trate de una situación que sea significativa, bien por lo bueno de los resultados, o bien por lo contrario.

9.5.2. Análisis coste-beneficio Pese a que cuando se pretende utilizar el enfoque del análisis coste-beneficio las técnicas habitualmente empleadas para la recogida de datos también son las entrevistas y los cuestionarios, la particularidad de esta orientación es merecedora de un tratamiento a parte. • Qué es el análisis coste-beneficio El análisis coste-beneficio se refiere al estudio de la relación entre el coste que supone realizar una determinada actividad y el beneficio derivado de la misma. Es decir, es el análisis a través del cual tratamos de justificar la existencia de una actividad demostrando que los beneficios superan a los costes. En este sentido, Lancaster (1988) opina que: […] de forma ideal, los beneficios deben estar expresados en la misma medida que los costes, es decir, en pesetas, dólares, libras o cualquier otra moneda. Desafortunadamente, es muy difícil, si no imposible, expresar los beneficios de un sistema de información en unidades monetarias… De hecho, no es fácil pensar en los beneficios de una biblioteca de otra forma que no sean beneficios subjetivos.

Aunque esa dificultad realmente existe, son varios los intentos llevados a cabo para la puesta en marcha de estudios conducentes a la obtención de datos económicos para valorar la información y los servicios que la proporcionan. De entre éstos cabe destacar el proyecto The St. Louis CBA (Cost-Benefits

Capítulo 9: Evaluación de los resultados

199

Analysis: Holt et al., 1998; Holt y Elliot, 1988; Holt y Holt, 1999) llevado a cabo con dos grandes objetivos: El primero en medir el valor de los servicios de la biblioteca pública y el segundo, crear una metodología aplicable para que las grandes bibliotecas públicas pudieran adoptarla para valorar sus resultados. En el CBA I se demostró la viabilidad de aplicar esa metodología para medir los resultados de las bibliotecas. En un reciente trabajo Holt y Elliot (2003) exponen su adaptación para la evaluación de las bibliotecas públicas de mediano y pequeño tamaño. De estas investigaciones cabe destacar las dos herramientas utilizadas para el análisis coste-beneficio: la primera es una herramienta económica llamada consumer surplus y la segunda está basada en la contingent valuation. Consumer surplus mide la diferencia entre lo que un cliente está dispuesto a pagar por un servicio o un objeto y lo que realmente tiene que pagar. Esta herramienta se utiliza para medir el valor que los usuarios le asignan al consumo (o al disfrute) de un bien o un servicio por encima de lo que realmente tendrían que pagar por él. En su aplicación, los autores del proyecto argumentan que: [...] aunque las bibliotecas son servicios típicamente gratuitos, muchos de los productos que tienen están accesibles en el mercado. Por ejemplo, los usuarios pueden comprar novelas en vez de tomarlas prestadas de la biblioteca. El deseo de los usuarios de comprar esos sustitutos si la biblioteca no estuviera disponible es un indicador del valor que el usuario atribuye a ese servicio en particular.

Estas estimaciones se deberán realizar para cada uno de los servicios de la biblioteca. La otra herramienta también procedente de la economía es la contingent valuation. La aplicación de esta herramienta se basa en la valoración por los usuarios de posibles escenarios. En el CBA I se utilizaron dos análisis basados en esta herramienta: el deseo de pagar por y el deseo de aceptar por. En el análisis del deseo de pagar por a los entrevistados se les pregunta acerca de lo que estarían dispuestos a pagar por conseguir algo que no tienen. En el análisis deseo de aceptar por se pregunta al usuario sobre lo que está dispuesto a aceptar por renunciar a algo que ya tiene. Respondiendo a la lógica, el segundo análisis resultó ser mucho menos fiable que el primero. Tanto es así que las preguntas basadas en él se eliminaron en el proyecto CAB II. Además del contexto bibliotecario, el análisis coste-beneficio también se está aplicando para evaluar los resultados de sistemas de información como es el caso de los sistemas de información geográfica (Oswald, 1998).

200 Parte III: Evaluación de la calidad desde el punto de vista del usuario 9.5.3. Método de simulación Además de lo mencionado, existen otras propuestas para el estudio del impacto de los sistemas de información. Hersh (1994) ha planteado la posibilidad de aplicar métodos basados en los utilizados por los investigadores en educación médica para evaluar la toma de decisiones de los médicos, distinguiendo para este fin dos orientaciones diferentes: la del análisis de protocolos y la de la simulación. La primera de ellas ha sido utilizada para la investigación de la resolución de problemas médicos (medical problem solving; Kassier y Gorry, 1978) y consiste en la observación del médico mientras está realizando una tarea determinada, en el registro de las acciones que lleva a cabo y, ocasionalmente, en la solicitud al individuo observado de que exprese su pensamiento en voz alta. En el caso de los sistemas de recuperación de la información, la aplicación de este método podría consistir en el registro de la actividad del usuario y de la situación en la que se produce un acontecimiento que requiere la obtención de información adicional. Este registro podría incluir desde la manifestación de la necesidad de información y de la primera interacción con el sistema de información hasta la valoración final de la información recuperada, así como del impacto que ha tenido en el trabajo del usuario. La segunda propuesta de Hersh (1994) es la de la simulación de problemas de carácter clínico. Se trata de aplicar tests que simulan un caso clínico que debe ser resuelto mediante la aplicación de pruebas diagnósticas y de tratamientos específicos. A cada médico (o estudiante) se le plantea el mismo problema del que pueden obtener diferentes resultados, según la solución escogida. De este modo, se puede evaluar su competencia clínica. Aplicando este método de simulación a la evaluación de los sistemas de recuperación de la información, es posible plantear a un conjunto de usuarios la resolución de un problema proporcionándoles acceso a un sistema de recuperación de información (a varios o también a ninguno) y analizar el beneficio logrado con el uso de los mismos y las posibles diferencias entre grupos.

9.5.4. Paneles de usuarios Otra propuesta para la realización de este tipo de investigaciones es la realizada por Powell (1995). Este autor ha sugerido el uso de paneles de usuarios para el estudio del impacto de los sistemas de información. Un panel de usuarios es un grupo de individuos a los que con una cierta regularidad se les solicita que respondan a ciertas preguntas o que proporcionen información en relación con su uso de sistemas de información, circunstancias que motivaron el

Capítulo 9: Evaluación de los resultados

201

uso y sus posibles consecuencias. Los instrumentos de recogida de datos que se proponen son desde libros de registro, donde el participante irá anotando cualquier actividad relevante en relación con el uso del sistema de información en cuestión, hasta entrevistas periódicas y el uso de fuentes externas para validar la información obtenida. Esta técnica parece que es muy apropiada cuando lo que se pretende medir son posibles cambios en la conducta o en el modo de actuar a lo largo de un período de tiempo.

Bibliografía Aydin, C. (1994): “Survey methods for assessing social impacts of computers in health care organizations”, en Anderson, J. G.; Aydin, C. E. y Jay, S. J. (eds.). Evaluating health care information systems: Methods and applications, pp. 69-96. Sage. California. Bertot, J. C. y MacClure, C. H. (2003): “Outcomes assessment in the networked environment: research questions, issues, considerations, and moving forward”. Library-Trends, 51 (4): 590-613. Bravo Toledo, R. y Campos Asensio, C. (1997): “Medicina basada en pruebas (Evidence-based Medicine)”. JANO, 1218: 71-72. Cabanelas Omil, J. (1996): “Ardan: Información para la toma de decisiones”. Diario Cinco Días, lunes 22 de julio, p. III. Gratch Lindauer, B. (2000): “Definición y medida del impacto de las bibliotecas universitarias sobre los resultados globales de la institución”. Asociación Andaluza de Bibliotecarios, 59. (Disponible en http: //www.aab.es/ 51n59a4.htm. Fecha de última visita: 3 de abril de 2004.) Greenberg, B.; Battison, S.; Kolisch, M. y Leredu, M. (1978): “Evaluation of clinical medical librarian program at the Yale Medical Library”. Bulletin of the Medical Library Association, 66 (3): 319-326. Hersh, W. (1994): “Relevance and retrieval evaluation: perspectives from medicine”. Journal of the American Society for Information Science, 45: 201-206. Holt, G. E. y Elliott, D. (1998): “Proving your library’s worth: A test case”. Library Journal, 123 (18): 42-44. — (2003): “Measuring outcomes: Applying cost-benefit analysis to middle-sized and smaller public libraries”. Library Trends, 51 (3): 424-440. Holt, G. E.; Elliott, D. y Moore, A. (1998): “Placing a value on public library services. A St. Louis case study”. Public Libraries, 98-108. Holt, G.; Elliott, D.; Watts, A. y Holt, LE. (2000): Libraries are valuable... Prove it! St. Louis Public Library. St. Louis. Holt, G. E. y Holt, L. E. (1999): “Assessing the value of children’s library services”. School Library Journal, 45 (6): 47-48.

202 Parte III: Evaluación de la calidad desde el punto de vista del usuario Kassier, J. y Gorry, G. (1978): “Clinical problem solving: a behavioral analysis”. Annals of Internal Medicine, 89: 245-255. King, D. W. (1987): “The contribution of hospital library information services to clinical care: a study in eight hospitals”. Bulletin of the Medical Library Association, 75: 291-301. Kraemer, K. y Danzinger, J. N. (1990): “The impact of computer technology on the worklife of information workers”. Social Science Computers Review, 8: 592-613. Lancaster, F. W. (1988): If you want to evaluate your library. Library Association. Londres. Marshall, J. (1992): “The impact of hospital library on clinical decision making: the Rochester study”. Bulletin of the Medical Library Association, 80: 169-178. — (1993): The impact of the special library on corporate decision making. Marshall JG and Special Libraries Association. Toronto. Menou, M. (1993): Measuring the impact on development. Michel J. Menou IDRC. (Disponible en http://web.idrc.ca/en/ev-32763-201-1-DO_TOPIC. html. Fecha de última visita: 15 de abril de 2004.) Oswald, B. (1998): “Cost-Benefit Analysis for Geographic Information Systems”. (Disponible en http: //www.nysgis.state.ny.us/costanal.htm. Fecha última visita: 15 de abril de 2004.) Powell, R. R. (1995): “Impact assessment of university libraries”. Encyclopedia of Library and Information Science, 55: 151-164. Schnall, J. G. y Wilson, J. W. (1976): ”Evaluation of a clinical medical librarianship program at a university health science library”. Bulletin of the Medical Library Association, 64 (3): 278-281. Scura, G. y Davidoff, F. (1981): “Case-related use of the medical literature: clinical librarian services for improving patient care”. JAMA, 245 (1): 50-52. Veenstra, R. J. (1992): “Clinical medical librarian impact on patient care: a oneyear analysis.” Bulletin of the Medical Library Association, 80 (1): 19-22. Winterman, V.; Smith, C. y Abell, A. (1998): “Impact of information on decision making in government departments”. Library management, 19 (2): 110-132.