Tema 4


 

 

TEMA 4

RECOGIDA DE INFORMACIÓN:

LAS PRUEBAS O TEST

 

 

 

0. LA MEDIDA EN EDUCACIÓN

1. LAS CRÍTICAS A LAS PRUEBAS DE RENDIMIENTO

2. TIPOS DE PRUEBAS

3. PROPIEDADES PSICOMÉTRICAS DE LAS PRUEBAS

3.1. LA CUESTIÓN DE LA FIABILIDAD

3.2. EL PROBLEMA DE LA VALIDEZ

3.3. PUNTUACIONES E INDICES

4. CRITERIOS DE CALIDAD EN LA EVALUACIÓN EDUCATIVA

 

Profesor: JESÚS GARCÍA VIDAL


0. LOS LA MEDIDA EN EDUCACIÓN.

Si hay una distinción clásica en el ámbito de la evaluación psicológica y pedagógica es ººla que enfrenta los procedimientos de observación a los de medida y, más concretamente, a la observación con la utilización de “pruebas” o, en su denominación en inglés, tests: “¿De dónde proviene la evidencia por medio de la cual podemos evaluar las características de una persona? Las fuentes se dividen en dos tipos principales: situaciones naturales que ocurren en la vida cotidiana y situaciones de “prueba” especialmente estructuradas” (Thorndike y Hagen, 1989:15).

Evidentemente, cuando Thorndike y Hagen hacían esta afirmación no se referían sólo a los tests en sentido estricto, sino que incluían en su definición otros procedimientos de recogida de datos, como los cuestionarios e inventarios, en la medida en que su cumplimentación supone una situación artificial y sus datos son susceptibles de cuantificación, pero su definición es válida en general para el tipo de instrumentos que vamos a considerar a continuación: instrumentos que colocan al individuo en una situación más o menos artificial en la que debe dar respuesta a una o más tareas diseñadas específicamente para provocar determinadas conductas en particular, para poner a prueba alguna de sus características (habilidades, rasgos de personalidad, conocimientos...) y poder “medirlas” en condiciones controladas.

Así, aunque su autora la refiera sólo a los test psicológicos, la definición de Martínez Arias (1996:32) también podría servirnos para situarnos: «Un reactivo que aplicado a un sujeto revela y da testimonio del tipo de o grado de su aptitud, de su forma de ser o del grado de instrucción que posee».

En definitiva, pues, cuando hablamos de “las pruebas” o “los test” como procedimiento de recogida de información, nos estamos refiriendo a cualquier tipo de situación en la que, con independencia del contenido concreto o finalidad específica del instrumento empleado, ponemos al individuo en una situación de examen frente a determinados estímulos (reactivos) que se han elaborado explícitamente con el objetivo de elicitar una serie de conductas que, por alguna razón teórica y/o empírica, se consideran como signo de una determinada aptitud o rasgo subyacentes o como muestra representativa de un determinado dominio comportamental.

                  

1. LAS CRÍTICAS A LOS TEST O PRUEBAS DE RENDIMIENTO.

Aunque, así definidas, son muchas las formas posibles que puede adoptar una prueba psicopedagógica, lo cierto es que en los modelos tradicionales de evaluación ha habido una utilización casi exclusiva de las pruebas objetivas referidas a una norma estadística (y en particular de test psicológicos de inteligencia y habilidades especiales), un abuso incluso, en la medida en que la evaluación se ha reducido, además, en ocasiones sólo a la aplicación de este tipo de instrumentos, complementados en aspectos parciales con cuestionarios e inventarios tipificados y entrevistas.

Si a ello le añadimos que, con demasiada frecuencia, los resultados obtenidos de la aplicación rutinaria y acrítica de estos instrumentos se ha empleado más para dar marchamo de cientificidad (¡?) a situaciones de marginación social y educativa y a prejuicios acerca de la determinación genética de las diferencias sociales, que para ofrecer alternativas de superación de tales situaciones, no puede extrañar que en las últimas décadas se haya producido un fuerte movimiento de contestación que, como no podía ser de otro modo, no ha hecho matices: se ha descalificado todo tipo de prueba psicológica y pedagógica y todo posible uso de ellas. Como recuerdan Gª Jiménez y Gª Vidal (1995:70), «el uso de los tests para la identificación, clasificación y posterior ubicación de los sujetos examinados en programas e instituciones diferenciadas (escolares, asistenciales,...), ha creado toda una cultura contraria al uso de los test, sobre todo a los test de inteligencia».

Desde luego, además de las razones aquí aludidas, en el rechazo hacia las pruebas o test ha participado también, ya en el ámbito estrictamente profesional y académico, el agrio debate entre racionalismo y naturalismo como marcos epistemológicos para la evaluación educativa, en general, pero al haber comentado ya esta cuestión al principio del capítulo quisiéramos limitarnos en este momento a señalar que, a nuestro juicio, esa descalificación global de los test de evaluación psicopedagógica es injusta, de un lado, y empobrecedora, de otro.

Injusta, porque si es lícito (y necesario) denunciar el abuso y el mal uso de los instrumentos de evaluación cuando, a partir de sus datos, se derivan prácticas sociales indeseables, es también preciso dejar constancia de dos cuestiones que nos parecen fundamentales:

- En primer lugar, que muchos de los problemas denunciados no lo son tanto de los instrumentos como de un uso inapropiado de ellos. Como veremos más adelante, al hablar de la validez de los instrumentos de recogida de datos, nadie con una mínima formación en psicometría considera que un test, sea el que sea, produce “verdades comprobadas”, sino hipótesis de trabajo (la denominada validez de constructo) que deben ser sometidas a investigación y contraste científicos en cada uso del mismo. El documento sobre estándares en la evaluación educativa y psicológica de las asociaciones norteamericanas de investigación educativa y de psicología lo deja bien claro: “Es importante notar que la validez es en sí misma inferida, no medida. Se pueden presentar coeficientes de validez  en un manual, pero la validez para un aspecto particular de la utilización de un test se infiere a partir del conjunto de estos coeficientes. Por tanto, es algo que se juzga como adecuado o marginal o insatisfactorio” (AERA, APA y NCME, 1974:25). Cualquier “profesional” que ignore o vulnere este principio básico en su práctica, sencillamente, no merece ese calificativo.

- En segundo lugar, que en los últimos veinticinco o treinta años el avance de la psicometría ha permitido superar muchas de las limitaciones que, efectivamente, presentaban las tradicionales pruebas normativas basadas en la teoría clásica de los tests: el desarrollo de las Pruebas Referidas a Criterios (PRC), la aparición y desarrollo de nuevos instrumentos basados en la Teoría de Respuesta al Item (TRI), incluídos los Tests Adaptativos Computerizados (TAC)... entre otros desarrollos técnicos en este campo, unidos al avance teórico en la Psicología y Pedagogía comtem-poráneas han hecho que, siendo limitadas (algo inevitable), las actuales pruebas o tests psicopedagógicos ofrezcan unas posibilidades que, simplemente, no existían hace dos décadas.

Pero decíamos también que la descalificación global y sin matices de las pruebas nos parece, además, empobrecedora, ya que en el contexto de la evaluación psicopedagógica el referente último es siempre el aprendizaje de nuestros alumnos y alumnas: si examinamos el contexto social y familiar o las distintas variables que conforman lo que podríamos llamar “respuesta educativa” a las necesidades de formación, si se examina el desarrollo biológico, psicológico y social del individuo... es porque, en última instancia, creemos que en esos ámbitos existen aspectos negativos que pueden estar minimizando el aprendizaje y el desarrollo de los alumnos o aspectos potencialmente educativos que no están siendo utilizados, de modo que su descubrimiento, como paso previo a su transformación, nos permitiría mejorar la ayuda al desarrollo y el aprendizaje que, en definitiva, es la educación.

Expresado en términos experimentales, explícita o implícitamente, en la evaluación psicopedagógica consideramos el aprendizaje y el desarrollo de los alumnos como la variable dependiente que esperamos poder modificar mediante el control de las demás, que serían las variables independientes, de modo que cualquier recurso que nos permita aproximarnos a una definición lo más rica, precisa y matizada de aquélla debería ser bienvenido. Sería un error de bulto reducir tal variable dependiente a los datos que proporcionan las pruebas o tests, pero no lo sería menos el ignorar lo que tales datos, debida-mente contextualizados, analizados y valorados, puedan aportarnos, ya que esto no es sino otra forma más de reduccionismo. Pero es que los tests nos proporcionan, además, una serie de informaciones sumamente ricas y variadas en relación con muchas de las variables independientes en juego (especialmente, variables del propio individuo), a las que resulta extremadamente difícil, cuando no imposible, acceder por otros medios, de modo que este segundo tipo de reduccionismo al que acabamos de aludir resulta especialmente limitador en orden a nuestro objetivo final.

Así, aunque nada hay más alejado de nuestra idea de la evaluación psicopedagógica que la imagen tópica del orientador provisto de una o más cajas mágicas, con precisos, preciados y “preciosos” instrumentos de diagnóstico que (convenientemente aplicados en espacios tranquilos, bien iluminados, a la temperatura adecuada y con cierto grado de humedad), si se siguen los patrones estándar de examen proporcionan un conocimiento científico definitivo sobre “el caso”, pese a todo, creemos que es preciso conocer los tests di-sponibles para la evaluación y que, llegado el caso, no es ningún pecado aplicarlos. Bien al contrario, creemos que se trata de instrumentos útiles que, como cualesquiera otros, deben conocerse en profundidad y aplicarse con buen criterio, esto es, cuando puedan aportar algo interesante, siguiendo los estándares profesionales al uso y en el marco de un plan de evaluación global que no debe ser sólo, ni principalmente, tecnológico, sino teórico.

 

2. TIPOS DE PRUEBAS.

El problema, dicho esto, es que el enorme desarrollo de este tipo de instrumentos a lo largo de un siglo ya hace necesario, en un capítulo como éste, en donde no podemos ponernos a examinar pruebas particulares una a una, elaborar una clasificación que permita al lector hacerse una idea global ver un poco de orden en un panorama más bien confuso, como consecuencia de su amplitud y variedad.

Así, hemos optado por clasificar las pruebas tomando como referencia 5 ejes diferentes, pero complementarios: el planteamiento del problema, el contenido del problema, la interpretación de los resultados, la aplicación y el modelo estadístico utilizado.

2.1. EN FUNCIÓN DE PROBLEMA. Un mismo contenido se puede plantear a los sujetos de manera diferente, es decir, que puede requerirle distintas demandas. En función de la demanda que se le realiza al sujeto podemos clasificar las pruebas desde tres perspectivas diferentes:

a) Realización típica versus realización máxima. De acuerdo con Crombach (1972:56-62), las pruebas pueden pretender medir la capacidad «máxima» (son los llamados «test de habilidad»); o precisar la conducta «tipica» del sujeto, es decir lo que acostumbra hacer en determinadas situaciones y/o circunstancias, entre los que se encontrarían las pruebas de personalidad, intereses, técnicas de estudio, etc.

b) Velocidad versus potencia. En la realización de una prueba podemos pretender comprobar dos cuestiones diferentes: la velocidad de ejecución, para lo cual emplearemos ítems sin dificultad objetiva para los sujetos dependiendo las diferencias individuales de la rapidez de las respuestas (p.e. las pruebas que miden atención, velocidad lectora, ect.) y en las cuales el tiempo tiene que estar rigurosamente controlado; o la calidad de la ejecución, en las que las diferencias individuales se encuentran en función de la corrección/incorreción de las respuestas del sujeto, en este tipo de pruebas el tiempo no suele ser un factor determinante (p.e. la mayoría de las pruebas de razonamiento, comprensión lectora, resolución de problema, etc.).

c) Comprensivas versus objetivas. Y finalmente por el tipo de respuesta que exigimos al sujeto vamos a encontrar: pruebas comprensivas, que plantean al sujeto cuestiones abiertas que han de ser desarrolladas, libremente,  poniendo en juego los conocimientos de que dispone; y pruebas objetivas que plantean al sujeto cuestiones cerradas, que exigen una respuesta concre-ta mediante formas diversas: completamiento, elección, jerarquización, correspondencia o identificación. 

 

2.2. EN FUNCIÓN DEL CONTENIDO DEL PROBLEMA. Lo primero que diferencia  a las distintas pruebas de rendimiento es el tipo de problemas a los que se refiere. Teniendo en cuenta esta perspectiva nos vamos a encontrar con los siguientes tipos:

a) Rendimiento. Son pruebas de ejecución «máxima» cuya finalidad es medir las adquisiciones o conocimiento específicos.

b) Inteligencia y aptitudes. Pretenden medir rasgos psicológicos de naturaleza cognitiva, siendo la mayoría de ellos de ejecución máxima.

c) Personalidad, actitudes e intereses. Son tests de ejecución típica, que pretenden medir el comportamiento del sujeto en relación con situaciones descritas previamente.

 

2.3. EN FUNCIÓN DE CÓMO SE INTERPRETAN LOS RESULTADOS. Cuando se trata de interpretar los resultados de una prueba podemos adoptar dos perspectivas básicas, identificadas por Glaser (1963), en función de las cuales podemos diferenciar:

a) Pruebas Referidas a Normas (PRN). Son aquellas que describen la realización del sujeto en términos de la posición relativa que ocupa en algún grupo conocido, es lo que ocurre cuando obtenemos puntuaciones normalizadas de un sujeto (p.e. las puntuaciones centiles).

   De esta manera, la puntuación directa (PD) obtenida por el sujeto se traduce en una posición respecto a la muestra que se ha utililizado para la fabricación de la prueba. La determinación precisa de la posición relativa de un sujeto respecto a un grupo exige la transformación de las puntuaciones directas en puntuaciones transformadas, como:

·   Puntuaciones de nivel, se basan en las puntuaciones promedios que obtienen los sujetos de un nivel determinado. Son muy utilizadas en los tests de rendimiento académico.

·   Puntuaciones de edad, que pueden obtenerse a partir de la estructuración de los ítems de la prueba en edades y por comparación con las puntuaciones promedios de cada edad.

·   Puntuaciones percentiles, que indican los porcentajes del grupo normativo que han obtenido una puntuación inferior a la del sujeto. Pero como señala Anastassi (1980:55), no indica la «cuantia» de la diferencia entre su puntuación y la de otra persona.

·   Puntuaciones típicas, que muestran la posición relativa de un sujeto en un grupo, indicando el grado en que una puntuación directa se situa por encima o por debajo del promedio. Su cálculo implica determinar la diferencia entre la puntuación directa del sujeto y la puntuación media del grupo normativo, dividiéndola por la desviación tipica del mismo grupo.

b) Pruebas Referidas a Criterios. Son aquellas que toman como referencia para la intepretación del rendimiento logrado un criterio definido con anterioridad y por tanto describe la realización específica que ha tenido lugar (p.e.: lee 100 palabras por minuto).

Gronlud (1985:15) señala como diferencias básicas entre ambos tipos de pruebas las siguientes:

- Las PRN suelen cubrir un amplio dominio de tareas con un pequeño número de ítems, mientras que las PRC se centran en un limitado dominio de tareas con un número relativamente grande de ítems.

- Las PRN subrayan las diferencias entre individuos, y las PRC destacan la descripción de las tareas realizadas, o no realizadas por el sujeto.

- Las PRN favorece aquellos ítems de dificultad promedio y omite los más fáciles y las PRC relaciona la dificultad de los ítems con la dificultad de las tareas de aprendizaje.

- Las PRN se utilizan fundamentalmente para examinar (no exclusivamente) y las PRC se utilizan para comprobar un dominio (no exclusivamente).

 - Las PRN exigen para su interpretación un grupo claramente definido, y las PRC requieren un dominio de rendimiento claramente definido y delimitado.

 

2.4.  EN FUNCIÓN DE LA APLICACIÓN. La forma en que se aplican las pruebas también dan lugar a una perspectiva clasificatoria, como la que señala Martinez Arias (1995:33-34):

a) Orales. Las instrucciones y respuestas son siempre orales, siendo especial-mente adecuados para niñas pequeños, analfabetos, individuos de culturas diferentes al aplicador, etc.

b) Papel y lápiz. Son pruebas en las que, al menos, la respuesta del sujeto es recogida en soporte de papel. La mayoría de ellas requieren para su administración un cierto dominio del lenguaje escrito, utilizándose cuadernillos y/u hojas de respuesta. Son los más generalizados.

c) Manipulativas o de ejecución. En este tipo de pruebas se exige al  sujeto que manipule los materiales que se le presentan y/o ejecuten órdenes, de acuerdo con unas instrucciones y/o modelo.

d) Situacionales o simulaciones. En este tipo se somete a los sujetos  a modelos de situaciones reales, registrándose su comportamiento de alguna manera.

e) Computerizadas. Son pruebas en las que la presentación, registro   e incluso la interpretación se realiza por medio de un computador. Cuando la selección de los ítems también es realizada por el computador en función de las sucesivas respuestas del sujeto es lo que constituye lo que se denomina Test Adaptativo Computerizado (TAC).

 

2.5. EN FUNCIÓN DEL MODELO ESTADÍSTICO UTILIZADO. Cuando los datos obtenidos conllevan el tratamiento estadístico de los mismos (es obligado en todas las pruebas normalizadas), podemos clasificar las pruebas en tres grupos (Martínez Arias, 1995:35):

a) Teoría clásica de los tests (TCT), que tienen como fundamento básico el Modelo Lineal de la Regresión con dos variables.

b) Teoría de la generalizabilidad (TG), que se basa en el Modelo Lineal del Diseño Experimental.

c) Teoría de respuesta al ítem (TRI), que se basa en modelizar las probabilidades de respuestas correctas a cada ítem según las funciones de distribución normal y logística.

No queremos finalizar este apartado sin subrayar una vez más que la eventual decisión sobre la utilización o no de pruebas y, en su caso, la selección de la prueba o pruebas a emplear, no puede ser una cuestión rutinaria, sino obedecer a criterios específicos, relacionados con al menos tres cuestiones principales: el tipo de situación que ha dado lugar al proceso de evaluación psicopedagógica, la clase de contenidos acerca de los que queremos obtener información y, finalmente (pero no en último lugar), la perspectiva teórica desde la que estemos abordando la problemática evaluada.

 

 

3. PROPIEDADES PSICOMÉTRICAS DE LAS PRUEBAS

En la medida en que, como hemos reiterado en diversas ocasiones a lo largo de estas páginas, las conclusiones de la evaluación nunca pueden ser mejores que los datos en que se fundamentan, un tema fundamental al considerar la metodología de la evaluación psicopedagógica es el de la calidad de los procesos de obtención de esos datos, que Anaya (1994) describe como "excelencia del conocimiento diagnóstico", señalando que descansa sobre dos pilares básicos: el rigor con que se haya seguido el proceso diagnóstico y la bondad de los procedimientos de recogida de información utilizados.

Centrándonos en este último aspecto, parece claro que de lo que se trata en última instancia es de las cuestiones de la fiabilidad y la validez de los instrumentos de evaluación, de modo que será de ellos de los que nos ocupemos a continuación, pero en la medida en que estos conceptos psicométricos han sido criticados como no aplicables a los procedimientos cualitativos, en los que se precisaría de criterios de rigor diferentes y específicos, dedicaremos también unas líneas a esta última cuestión.

 

3.1. EL PROBLEMA DE LA FIABILIDAD. Cuando establecemos relaciones con "alguien" (personas, instituciones, organizaciones, etc.) a la mayoría de los seres humanos nos gustaría que ese alguien fuera "de fiar", es decir, que nos digan hoy una cosa, y a la vuelta de la esquina nos digan lo contrario.  Esta es una cuestión importante en las relaciones humanas, de modo que es casi imposible tener  confianza en una persona o institución si no podemos "fiarnos" de ella. Pues bien, la fiabilidad estadística de una prueba tiene el mismo sentido que esa condición de "fiable" que deseamos que tengan los que se relacionan con nosotros, aunque para llegar a establecerla sea necesaria realizar numerosos  y complicados cálculos.

Dicho más formalmente, lo que entendemos por fiabilidad de un test es el grado en que las puntuaciones observadas al emplearlo coinciden con las puntuaciones verdaderas que deberían obtenerse en el caso de que sus mediciones estuviesen libres de error, sólo que al definir de este modo la fiabilidad tenemos un problema de gran importancia: puesto que ningún test está completamente libre de errores de medida, es imposible conocer directamente las puntuaciones verdaderas.

Por tanto, cuando hablamos de fiabilidad de una prueba, estamos hablando del nivel al que nos podemos "fiar" de ella, de manera que podemos afirmar con Fdez Ballesteros y Carrobles (1981:165), que es "la consistencia con que mide un instrumento... la fiabilidad es el grado de acuerdo o correspondencia entre medidas, que deberían ser iguales si no existiesen errores de medición"

Y es que cuando se realizan mediciones con un instrumento, es habitual cometer errores  como son los derivados de la medida en dos momentos diferentes, relativamente lejanos, y que pueden ser explicados por la presencia de procesos de maduración o tratamiento; los referidos a errores de aplicación de las pruebas (p.e.: un aplicador proporciona más tiempo que otro en la misma prueba), los referidos a las diferencias existentes entre dos puntuaciones explicables desde el desigual nivel de fatiga que en un momento determinado presenta dos sujetos, etc.  A este tipo de errores se les llama errores siste-máticos y pueden atribuirse a la variable medida, al contexto de aplicación, etc.  y pueden controlarse, predecirse  explicarse desde la teoría.

Para resolver este problema, que lógicamente nos impide establecer la fiabalidad absoluta de un test, lo que se hace habitualmente es definir ésta no como la relación existente entre puntuaciones observadas y puntuaciones verdaderas, sino como el grado en que las diferentes puntuaciones observadas (es decir, las diferentes medidas) que nos proporciona al aplicarlo a una misma muestra de sujetos son consistentes entre sí, ya que todas ellas “deberían ser iguales si no existiesen errores de medición” (Fdez. Ballesteros y Carrobles, 1981: 165).

Así, pues, para establecer la fiabilidad de un test lo que debemos hacer es comparar entre sí las puntuaciones obtenidas al aplicarlo a los mismos sujetos, pero debe observarse que, si un test se aplica en dos momentos distintos, cabe la posibilidad de que haya entre las puntuaciones observadas en uno y otro caso diferencias no debidas a problemas de fiabilidad del instrumento, sino al hecho de que en ese lapso de tiempo hayan actuado ya sea la maduración del organismo o el aprendizaje (el instrumento mide correctamente, pero la variable medida ha cambiado en sus valores entre la primera y la segunda aplicación).

Este tipo de error de medida debido a la maduración o el aprendizaje, así como otros debidos a las condiciones en que se ha aplicado el test (p.e., el examinador no respeta escrupulosamente las consignas que debe dar o muestra expresiones no neutras, ya sea de apoyo y aprobación o de desaprobación, ante las respuestas del sujeto) o a las diferencias en el estado psicofísico del individuo examinado, por citar sólo dos ejemplos, son lo que se denomina errores sistemáticos de medida.

Los errores sistemáticos de medida introducen diferencias entre las puntuaciones observadas y las puntuaciones verdaderas, pero realmente no afectan a la fiabilidad del test, pues se trata de diferencias explicables desde la teoría y, en consecuencia, pueden ser previstas y controladas, tomando las medidas oportunas en la construcción y en la aplicación del test.

Existe, sin embargo, un segundo tipo de errores de medida que no son explicables desde la teoría y no son, por tanto, ni predecibles ni controlables, en sentido estricto. Son los denominados errores aleatorios de medida, que constituyen la auténtica amenaza a la fiabilidad de una prueba: “La falta de fiabilidad de las puntuaciones está ligada a errores aleatorios no sometidos a control y, en consecuencia, no predecibles” (Martínez Arias, 1995:74).

Por su parte, Kerlinger (1975:311) nos señala que "la confiabilidad de un instrumento dependerá del grado en que produzca errores de medición. Dicho de otro modo, la confiabilidad se puede definir como la carencia relativa de errores de medición del instrumento. La confiabilidad es la exactitud o precisión de un instrumento de medición"

Podemos afirmar, por tanto, que fiabilidad es sinónimo de estabilidad, exactitud, confiabilidad, precisión, acuerdo, consistencia, etc., términos que hacen referencia a la coherencia existente entre diferentes grupos de datos obtenidos con el mismo instrumento y los mismos sujetos. La fiabilidad de un procedimiento de evaluación es, pues, una cuestión básica, y tiene que constituirse en un referente esencial, tanto cuando construimos una prueba como cuando procedemos a seleccionarla, ya que las consecuencias de una baja, o alta, fiabilidad afectará de manera directa a las puntuaciones que un sujeto logra.

Aunque la fiabilidad de una prueba tiene que ver directamente con la correlación entre puntuaciones verdaderas y observadas, el coeficiente de fiabilidad suele calcularse desde la perspectiva de la consistencia de las pun-tuaciones obtenidas en diversas aplicaciones, ya que aquellas nunca llegarán a conocerse.

Al igual que la confianza en las personas no tiene carácter absoluto, sino relativo, la fiabilidad de las pruebas tampoco es  una cuestión del "todo o nada" sino que es una cuestión relativa, y por ello, el coeficiente de fiabilidad de una prueba admite valores entre 0 y 1, de manera que cuanto más se acerca el valor a 1 mayor es la fiabilidad y cuanto más se acerca a 0 menor es la misma.

¿Cómo podemos calcular la fiabilidad de una prueba de rendimiento? sin la intención profundizar en esta cuestión, que no es objeto de nuestro trabajo ni nuestra especialidad, señalaremos con Martínez Arias (1995:81) que para calcular el coeficiente de fiabilidad de una prueba es necesario disponer, al menos, de dos conjuntos de medidas "paralelas" de los mismos sujetos. Existiendo tres métodos comunes para obtener el coeficiente de fiabilidad de una prueba:

- Método de formas paralelas. Consiste en: 1) "Construir" una prueba con dos formas paralelas (A y B); 2) aplicar las dos formas a la muestra que se utilice, y 3) Calcular el coeficiente de correlación producto-momento de Pearson a los dos conjuntos de puntuaciones que será el coeficiente de fiabilidad.

- Método del test-retest. Consiste en aplicar la prueba en dos ocasiones al mismo grupo de sujetos, siendo la correlación entre las puntuaciones de las dos ocasiones su coeficiente de fiabilidad. Este método admite realizarse con la misma prueba y con pruebas alternativas.

- Métodos de consistencia interna. Estos métodos no se basan en las correlaciones entre puntuaciones correspondientes a aplicaciones sucesivas de pruebas sino en las correlaciones encontradas dentro de "una" aplicación del test, admitiendo dos formas básicas: la correlación entre dos mitades y la covarianza entre todos los ítems que forman la prueba.

Es necesario resaltar para el cálculo de un coeficiente de fiabilidad  sería necesario aplicar la prueba a toda la población, por lo que el coeficiente de fiabilidad que se suele suministrar en las pruebas estandarizadas constituye realmente una estimación del mismo. Como señala Martínez Arias (1995:91-92) esta estimación puede mejorarse aumentando en las pruebas las siguientes condiciones:

a) El tamaño muestral.

b) La representatividad de la muestra utilizada.

c) La independencia experimental de las medidas.

d) Identidad de las aplicaciones a las que se realizarán con la prueba.

e) Disposición de dos o más medidas  para cada sujeto.

Además de las condiciones que mejoran la estimación del coeficiente de fiabilidad de una prueba, éste se verá afectado, en todo caso por los dos factores:

- La variabilidad del grupo: cuanto mayor sea la misma mejor será la fiabilidad de la prueba.

- La longitud de la prueba: cuanto mayor sea la longitud de un prueba  mayor será su fiabilidad.

Resumiendo, podemos afirmar que una cuestión relevante a la hora de seleccionar una determinada prueba (mucho más, desde luego, cuando se construye) es comprobar en qué medida nos podemos "fiar" de ella,  es decir cuan elevado es la estimación de su coeficiente de fiabilidad.

 

3.2. EL PROBLEMA DE LA VALIDEZ.  Con ser importante, la fiabilidad de un test es una condición insuficiente por sí misma para determinar su valor como instrumento de evaluación, ya que una alta fiabilidad asegura que estamos midiendo correctamente algo, pero... ¿qué es lo que estamos midiendo? Y es que no basta con que digamos que un instrumento mide tal variable para que ello sea cierto: ¿cómo podemos estar seguros de que es así? Como señalara Cronbach (1984), el más básico y fundamental de los criterios de calidad psicométrica de cualquier test es, sin duda, la validez, un concepto que incluye al menos las siguientes dimensiones: la validez de contenido, la validez criterial y la validez de constructo.

A) Validez de contenido. La validez de contenido hace referencia al grado en que los ítems de un instrumento de medida son una muestra adecuada del dominio o ámbito que se pretende testar, esto es, al hecho de si el instrumento examina la variable o variables que intenta examinar y si examina todos los aspectos relevantes de la misma (Cronbach, 1971).

El establecimiento de la validez de contenido se basa en el análisis racional de los ítems que componen un instrumento de medida (por lo general, recurriendo al juicio de varios expertos en la materia objeto de examen) y se define básicamente como validez muestral, esto es, como el grado en que los ítems que conforman el test cubren el conjunto de aspectos del dominio objeto de examen y relevancia de dichos ítems con respecto a tal dominio.

La validez muestral es un requisito absolutamente indispensable para cualquier test de ejecución, incluidos los tests de inteligencia, de modo que todo test de esta naturaleza deberá dar respuesta satisfactoria a tres preguntas clave:

- ¿Son los ítems elegidos apropiados para el test y éste mide el objeto que interesa?

- ¿Contiene el test la información necesaria para abarcar bien el conjunto de aquello que se supone que se va a medir?

- ¿A qué nivel de dominio se evalúa esa variable?

Si la respuesta a estas tres preguntas es satisfactoria, podremos acordar que el instrumento en cuestión posee una adecuada validez de contenido (Sattler, 1988:23).

B) Validez criterial. La validez criterial o validez con respecto a un criterio, por su parte, hace referencia al grado en que las medidas de un test son consistentes con otras medidas externas que, teóricamente, debieran estar relacionadas con ellas.

En este sentido, podemos hablar de un tipo particular de validez criterial que sería la validez predictiva, definida como el grado en que, a partir de las medidas que nos proporciona el test en cuestión, podemos predecir los valores que adoptarán las mediciones de una variable diferente.

Desde luego, éste es uno de los aspectos cruciales para cualquier test de inteligencia, pues la única justificación ética posible para aplicar un instrumento de tal naturaleza es que sus resultados sean capaces de anticipar el rendimiento del individuo en otras actividades, de modo que podamos tomar medidas efectivas de ayuda basadas en esa predicción. En el ámbito educativo, por ejemplo, la justificación para la utilización de este tipo de tests ha sido precisamente que, por la relación causa-efecto entre inteligencia y rendimiento académico, son capaces de proporcionar predicciones altamente fiables acerca de si un alumno podrá tener éxito o no en el seguimiento de un determinado currículo antes de enfrentarlo a él (una cosa, claro, es esta afirmación y otra, bien diferente, que sea correcta).

La validez predictiva de un test se establece analizando con procedimientos estadísticos complejos (por lo general, una ecuación de regresión) el grado de correlación existente entre las puntuaciones del test observadas en una muestra dada y los valores de la variable criterio observados con un instrumento diferente (por ejemplo, un test de rendimiento académico, las calificaciones escolares, etc.) en esa misma muestra. Este procedimiento nos ofrece un coeficiente de validez predictiva del test, como es el coeficiente de correlación lineal producto-momento de Pearson, que exige muestras de 200 ó más sujetos.

El procedimiento es básicamente el mismo que se utiliza para calcular los coeficientes de validez criterial cuando ésta se considera no en su dimensión predictiva, sino como validez concurrente (las puntuaciones de un test dado se correlacionan con las puntuaciones de un test diferente que mide la misma variable, obtenidas ambas con la misma muestra de sujetos) o validez retrospectiva (el caso inverso de la validez predictiva).

Por lo que se refiere a la validez criterial en su dimensión predictiva, constituye sin duda uno de los requisitos fundamentales que, en la evaluación psicopedagógica, debemos exigir a cualquier instrumento que mida variables diferentes al rendimiento académico, ya que su inclusión en el plan de evaluación se debe siempre a que “suponemos” que dichas variables guardan una relación determinada (por lo general, de causa-efecto) con el aprendizaje del alumno... Una suposición que debe ser demostrada, tal y como ha puesto de manifiesto la historia de la evaluación de las dificultades de aprendizaje de la lecto-escritura en relación con la cuestión de la “madurez escolar” (cfr. García Vidal y Glez. Manjón, 2000).

La validez criterial, no obstante, no sólo implica esta dimensión predictiva; también implica los conceptos de validez concurrente y validez retrospectiva:

- Las medidas obtenidas con el instrumento examinado no sólo deben predecir la variable criterio, sino que deben correlacionar con otras medidas independientes de su objeto de estudio, obtenidas con instrumentos de cualidades psicométricas ya probadas que se aplican al mismo tiempo a una misma muestra representativa.

- Igualmente, deben correlacionar con otras medidas de eventuales variables criterio obtenidas con anterioridad.

C) Validez de constructo. Con todo, los diferentes “tipos” de validez analizados no constituyen, por sí mismos, criterios de calidad psicométrica definitiva: “Se ponen sin más en relación los resultados buenos, malos o medianos de los tests con las actividades prácticas del individuo, con lo que es significativo para su vida (...) Los coeficientes de correlación muestran entonces el grado de relación que existe entre los resultados de los tests y las cualidades o insuficiencias que se manifiestan en la vida cotidiana (...) Si este procedimiento tiene a su favor la solidez de la experiencia, tiene también los inconvenientes del empirismo y hace que se eche a menudo de menos un buen modelo del funcionamiento mental” (Rey, 1974:259).

El establecimiento de la validez de un instrumento de medida implica por tanto, siempre e indefectiblemente, la comprobación de su validez de constructo, al entenderse que es en ella en donde “reside la evidencia de base para inferir el significado de una medida. La validación de constructo consiste en el proceso de ordenar la evidencia en forma de relaciones empíricas teóricamente importantes, con el fin de sustentar la inferencia de que una consistencia de respuesta observada posee un significado particular” (Messick, 1975:995). El resto de “tipos” de validez no podrían considerarse, en sentido estricto, sino como diferentes tipos de evidencias orientados a esta validación de constructo.

En palabras de Messick (1975:995), es en la validez de constructo en donde “reside la evidencia de base para inferir el significado de una medida”, ya que es justamente en el proceso de validación de constructo cuando se ordena la evidencia en forma de relaciones empíricas teóricamente importantes, capaces de sustentar la inferencia de que la conducta observada posee un significado psicológico real. Consecuentemente, los demás “tipos” de validez no podrían considerarse, en sentido estricto, sino como diferentes tipos de evidencias orientadas a esta validación de constructo.

Dicho de otro modo, sólo si un instrumento demuestra poseer una validez de constructo suficiente (no suele ser algo de todo o nada, sino de grado) podemos considerarlo psicométricamente apropiado, pero el establecimiento de esta cualidad no es una cuestión exclusivamente empírica, sino que exige además la demostración de que la hipótesis que subyace al constructo posee realmente entidad teórica. La cuestión, como puede comprenderse, es que sólo si demostramos tanto  que el constructo se soporta en la evidencia empírica, como que tiene sentido en un marco teórico explícito, será lícito derivar conclusiones e interpretaciones de los datos proporcionados por el instrumento de medida.

Pero la validez de constructo no se establece tanto para el instrumento en sí, como para las interpretaciones e inferencias que hacemos desde los datos que nos proporciona, de modo que no puede considerarse lograda de una vez y para siempre cuando se valida por primera vez el instrumento, sino que ha de demostrarse para cada nuevo fin que persigamos con ella:  “No existe algo parecido a la validez de un test. Ningún test es válido para todos los propósitos, en todas las situaciones o para todos los grupos” (Cronbach y Quirk, 1976:165).

Y cada vez que lo apliquemos: “La expresión validación de un test es fuente de muchos malentendidos. Se valida no el test, sino una interpretación de los datos que surgen de un determinado procedimiento” (Cronbach, 1971:447).

Así, pues, nunca se llamará lo suficiente la atención acerca de la importancia central que tiene concebir y llevar a cabo la evaluación psicopedagógica como un proceso de investigación, lejos de la simple aplicación rutinaria y no controlada de instrumentos que se suponen válidos y fiables per se, con independencia del uso que hagamos de ellos; una práctica cuyos efectos perversos han tenido la ocasión de sufrir, por ejemplo, miles de escolares con dificultades de aprendizaje a los que se ha tratado en la escuela a partir de inferencias no justificadas y no sometidas a verificación, derivadas de la aplicación rutinaria y acrítica de instrumentos no validados más que por la tradición.

Como señala Anaya (1994), plantear la evaluación como investigación constituye un elemento más de garantía en orden a asegurar la calidad del proceso y de sus conclusiones, y esa investigación debe entenderse, en gran parte, como investigación de la validez de constructo no de los instrumentos en general, sino del uso que en cada caso hacemos de ellos y de los datos que nos aportan, tal y como afirman Pawlik (1980), al sugerir que la idoneidad de cada instrumento debe comprobarse nuevamente en cada caso, o Cronbach (1975:125) cuando subraya que “cuando damos el debido peso a las condiciones locales, cualquier generalización es sólo una hipótesis de trabajo, no una conclusión”.

En definitiva, pues, el establecimiento de la validez de constructo no es una cuestión de medidas, sino de inferencias, y resulta un aspecto central en cualquier  proceso de evaluación psicopedagógica, en la medida en que sólo ella nos permite determinar el grado de generalizabilidad de nuestros resultados (en el doble sentido de si las muestras efectivamente medidas son representativas de los universos que pretendemos medir y de  si lo observado en las diferentes situaciones de examen es representativo de las demás situaciones  de la vida de los sujetos) y en que sólo si los resultados son generalizables es posible hacer inferencias lícitas respecto al problema examinado.

 

3.3. PUNTUACIONES E INDICES DE LAS PRUEBAS. Resumiendo, podríamos decir que la evaluación psicométrica de la inteligencia es, en lo esencial, un proceso de medida indirecta de las aptitudes mentales evidenciadas a través del análisis factorial, utilizando unos instrumentos, los tests psicológicos, que reúnen una serie de requisitos mínimos en cuanto a su fiabilidad y validez, establecidas a partir del análisis estadístico de las puntuaciones obtenidas en la aplicación a una muestra que satisface determinados criterios en cuanto a su tamaño y representatividad.

Cuando las autoridades municipales de París a comienzos del s. XX encargaron a Binet y Simon la elaboración de una prueba para seleccionar a los sujetos de bajo rendimiento, la estrategia empleada fue la de seleccionar una serie de tareas que consideraron representativas de los distintos aspectos del desarrollo intelectual en diferentes edades y construir un sistema de puntuación para ellas. Con esta serie de tareas, ordenadas en forma de una escala, y con el sistema de puntuación decidido, estaban en condiciones de aplicar el test a individuos de diferentes edades y determinar una puntuación media, característica para cada edad.

La Escala Métrica de la Inteligencia (EMI) elaborada de este modo permitía, al aplicarse a un individuo dado, determinar su edad mental comparando las puntuaciones que obtenía con la escala de puntuaciones características de cada edad. Por ejemplo, un niño podía tener 8 años de edad cronológica, pero si al realizar el test su puntuación era la característica (la puntuación media) de los niños de 6 años, se podía determinar que existía un desfase de 2 años entre su edad real y su edad mental.

Sin embargo, el problema fundamental de este índice, la edad mental (EM), es que el crecimiento intelectual ni sigue un ritmo regular, ni es indefinido, lo que produce un claro sesgo en la relación entre EM y edad cronológica a partir de la adolescencia. Al seguir creciendo la edad cronológica y lentificarse, si no detenerse, el crecimiento de la edad mental, a partir de los 12 ó 13 años la EM se convierte en un índice artificial, que pierde todo su significado original (Greene, 1941; Sattler, 1974).

Para evitar este efecto, Stern y otros autores propusieron que debía sustituirse la edad mental como índice de desarrollo intelectual por un índice alternativo, el Cociente Intelectual (CI). Así, en la revisión de la escala de Binet-Simon efectuada por Terman en 1916 en la Universidad de Stanford (conocida como escala de Stanford-Binet), al igual que en la revisión posterior de 1937, llevada a cabo por Terman y Merrill, la edad mental fue sustituida por este nuevo índice general de inteligencia, el CI, que relacionaba edad mental y edad cronológica mediante una simple división (de ahí su nombre: cociente, que no “coeficiente”):

 

                                                                         Edad Mental

Cociente Intelectual = ————————————————- X 100

                                                                       Edad Cronológica

 

La teórica ventaja de este nuevo índice era que el CI, al relacionar edad mental y edad cronológica, aporta un plus de significado con respecto a la EM, al informarnos directamente sobre la relación entre esta última y la edad real o edad cronológica del individuo. Este CI era un índice estable en el que un valor de 100 representa siempre que EM y EC son iguales (por ejemplo, 9/9=1, 1x100=100), cualquier valor inferior a 100 representa una EM menor que la EC (por ejemplo, una EM=9 años en un individuo de EC=10 años arroja un CI de 90) y cualquier valor superior a 100 una EM superior a la EC (por ejemplo, una EM=11 años en un sujeto con una EC=10 da un CI=110).

Este CI, sin embargo, tampoco era un índice exento de problemas, pues, al basarse en la EM, incurría en el mismo defecto ya señalado para ésta: en el curso del desarrollo intelectual de un individuo llega un momento en que la EM deja de crecer, mientras que su EC aumenta al ritmo inexorable de una unidad por año, de modo que la aplicación de la fórmula original de Terman-Merrill conllevaba que, inevitablemente, el CI tendiese a decrecer con la edad, a partir de los 14 ó 15 años.

Para estos sesgos en la EM y el CI tradicionales, una estrategia alternativa ha sido recurrir a la tipificación estadística de las puntuaciones directas (observadas) en los tests, utilizando como unidad básica de referencia las desviaciones típicas, que constituyen una unidad constante de medida.

Éste fue el método utilizado por Wechsler en sus Escalas de Inteligencia, que ofrecen como medida global un CI obtenido a partir del cálculo de las desviaciones típicas de las puntuaciones observadas en las muestras de normalización, por lo que es conocido como Cociente de Desviación (las versiones actuales de la vieja EMI también lo utilizan). Al proceder de este modo, sean cuales sean los datos brutos originales obtenidos al aplicar el test, su tratamiento estadístico nos ofrece una escala estandarizada, constante, cuya media se ha situado arbitrariamente en 100 y con una desviación típica de 15 puntos (16 en la Stanford - Binet).

Este procedimiento que opera sobre el supuesto de la distribución normal de las aptitudes otorga a estas medidas de los tests unas características que no podemos perder de vista.

En primer lugar, puesto que la tipificación se lleva a cabo a partir de las puntuaciones observadas en muestras de sujetos diferentes para cada edad, dos CI de desviación del mismo valor en sujetos de edades diferentes, no son equivalentes entre sí: al derivarse el primer CI de la tipificación de las puntuaciones de una muestra y el segundo de la tipificación de las puntuaciones de otra distinta, uno y otro no tienen nada que ver, realmente, entre sí... Por el mismo motivo, resulta inadecuado determinar el CI de un sujeto al que se le aplicó la versión española de un test como la Escala de Inteligencia de Wechsler para Niños (WISC) utilizando las normas elaboradas a partir de las puntuaciones de los sujetos de su misma edad en la versión inglesa o francesa.

En segundo lugar, no podemos perder de vista que la tipificación de las puntuaciones de un test implica siempre un proceso probabilístico, con un cierto margen de error, de modo que al obtener un CI de desviación éste se estima con un margen de confianza determinado. Por tanto, un CI nunca es una cifra segura, sino una estimación que se mueve en una banda de valores, mayor o menor en función de que se haya elegido un margen de confianza más o menos elevado (p<0.05, p<0.01, etc.). Ésta es una cuestión especialmente importante y delicada en ciertas situaciones de evaluación en las que “mover” un CI 4 puntos hacia arriba o hacia abajo (es decir, en una banda de 8 puntos) puede suponer llegar a conclusiones muy diferentes. El caso más evidente son las definiciones administrativas de Deficiencia Mental basadas en valores determinados de CI, pero nos referimos también a otros casos, como cuando los resultados de un test aplicado en dos ocasiones (antes y después de una intervención) se utilizan como criterio para determinar la eficacia de un tratamiento, o como cuando se trata de establecer si hay “diferencias significativas” entre dos medidas de aptitudes diferentes para inferir la eventual existencia de un determinado perfil aptitudinal “característico” en un sujeto o grupo de sujetos.

Aunque hasta ahora nos hemos estado refiriendo, en estos últimos párrafos, a los CI de desviación, cuanto hemos dicho sobre la tipificación de puntuaciones es aplicable a aquellos tests de aptitudes que ofrecen los resultados utilizando otro tipo de índices, como percentiles o decatipos.

Este tipo de índices, al igual que el cociente de desviación, son el resultado de una normalización de las puntuaciones observadas en la muestra empleada en la validación del instrumento de acuerdo con el supuesto de distribución normal, con la única diferencia de que el autor del test ha optado por presentar las puntuaciones típicas en forma de una escala ordinal, que indica la posición relativa del sujeto en relación con la población representada por la muestra de referencia (ya sean los niños españoles de entre cinco y seis años, los estudiantes de 6º curso de Enseñanza Primaria, los Técnicos Administrativos de Grado Medio o cualquier otro colectivo).

 

3.4. EL ANÁLISIS FACTORIAL. Entre los procedimientos empleados para contrastar la validez de contenido al construir un tests de inteligencia, la estrategia más importante y más profusamente utilizada es, sin duda, el análisis factorial, un procedimiento matemático cuya finalidad es la detección y análisis de las intercorrelaciones existentes entre las puntuaciones procedentes de uno o más instrumentos de medida y que permite reducir el amplio conjunto de variables observadas a uno bastante más reducido de variables inobservables, que explican un amplio margen de la varianza observada de forma más parsimoniosa.

Básicamente, lo que se hace con este procedimiento es computar todas las correlaciones entre las puntuaciones observadas en uno o varios tests para descubrir si tales puntuaciones se agrupan formando conglomerados (factores), de tal modo que podamos afirmar que las puntuaciones de diversas tareas responden a un mismo factor y en qué grado están determinadas por éste.

El análisis factorial, por tanto, nos informa del número de factores que, potencialmente, explicarían los resultados en un test, pero nos informa también de (Sattler, 1988: 25):

- El grado en que los diversos factores hallados explican las correlaciones entre las pruebas.

- La comunalidad o cantidad total de variabilidad en las puntuaciones que explican los factores comunes presentes en ellas.

- Las cargas factoriales, o peso relativo de cada factor en las puntuaciones de cada prueba de las que forman el test.

El análisis factorial, por tanto, no proporciona una interpretación de las pruebas, sino unos índices del grado en que los resultados en las pruebas covarían o correlacionan entre sí, siendo el investigador quien debe realizar esa interpretación en el marco del proceso de validación de constructo al que antes nos referimos.

Ello es lo que explica que unos mismos resultados cuantitativos puedan ser “leídos” de forma diferente por investigadores que parten de marcos teóricos distintos e, incluso, por investigadores que parten de modelos teóricos parecidos, como es el caso del análisis factorial de un test de inteligencia que se interpreta, según el caso, desde la teoría de Cattell o desde el modelo estructural de Guilford: en ambos casos los datos son los mismos, pero las lecturas de ellos difieren en mayor o menor grado.

 

 

4. LOS CRITERIOS DE CALIDAD EN LA EVALUACIÓN EDUCATIVA.

Como ya se ha señalado en reiteradas ocasiones en estas páginas, desde posiciones interpretativas y etnográficas con respecto a la evaluación se han criticado fuertemente los criterios de fiabilidad y validez como cualidades que determinarían el rigor de los procesos de recogida, análisis e interpretación de datos, dada su naturaleza esencialmente cuantitativa y su (supuesto) desprecio por el mundo de significados de las personas que participan en las situaciones evaluadas. Especialmente el concepto de fiabilidad ha sido criticado en la medida en que, si las situaciones sociales son de naturaleza cambiante y esa historia afecta a la naturaleza de los datos...  ¿cómo se podría replicar un estudio? ¿no sería la obtención de medidas estables, justamente, un indicador de lo inadecuado de la evaluación basada en este criterio?

Sin embargo, enfatizar el carácter subjetivo que, en última instancia, encierra todo proceso evaluador no puede llevar a admitir que todo (salvo lo cuantitativo) sea aceptable: “La naturaleza flexible y emergente del diseño y desarrollo de estudios naturalistas no es causa ni excusa para la ambigüedad y el descuido del control científico de la evaluación, sino que, por el contrario, estas peculiaridades nos fuerzan a ser aún más rigurosos, si cabe, en las cuestiones relativas a la selección y empleo de los métodos adecuados y a los criterios que garanticen y prueben la credibilidad de nuestros trabajos” (Fernández Sierra y Santos, 1992:147).

Y es que, como cualquier otra forma de evaluación, la de naturaleza cualitativa se ve afectada por diversas fuentes de error, procedentes tanto de los propios evaluadores y de sus teorías previas, como –lo que nos interesa más en este momento- de los informantes y de los métodos de recogida de datos

En cuanto a los informantes, la evaluación cualitativa encuentra una de sus mayores debilidades en lo que también es su mayor fuerza: la naturaleza esencialmente subjetiva de la información aportada por cada informante, condicionada porque sólo tiene acceso a una parte de la información relevante y porque esa información está filtrada por la propia perspectiva personal, intenciones e intereses, con lo que resulta extremadamente difícil encontrar datos estables... Salvo que se seleccionen intencionalmente informantes de características muy similares entre sí, lo que supone una decisión, como mínimo, arbitraria.

En cuanto a los métodos de recogida de datos, no puede perderse de vista que cada uno tiene sus propias limitaciones y sesgos, por lo que sólo la triangulación de diversos procedimientos usados simultáneamente puede disminuir el riesgo de interpretaciones sesgadas, especialmente si la unimos a otras estrategias como la negociación de los resultados obtenidos de las diversas fuentes y procedimientos, por ejemplo.

En cualquier caso, esta serie de circunstancias no debería llevarnos a la conclusión de que la evaluación cualitativa no puede llevarse a cabo con un mínimo de rigor, sino a aceptar que tiene criterios de control de calidad propios, diferentes a los de la evaluación cuantitativa. Así, aunque algunos investigadores de la línea cualitativa han rechazado de plano los criterios habituales de calidad de origen positivista (Lincoln y Guba, 1985; Erickson, 1989), otros han planteado que la cuestión es que a aquéllos les corresponden otros alternativos, pero equivalentes (Denzin, 1978; Le Compte y Goetz, 1982; Goetz y Le Compte, 1988), de modo que:

· Al concepto de validez externa18 le correspondería el de transferibilidad

· Al concepto de validez interna le correspondería el de credibilidad.

· Al concepto de objetividad le correspondería el de confirmabilidad

· Al concepto de fiabilidad le correspondería el de dependencia

En definitiva, para algunos defensores de esta línea, cuando empleamos procedimientos de evaluación cualitativa no estamos exentos de cumplir con las cualidades básicas que diferencian a un método científico de otros tipos de medios de producción de conocimiento (esto es, debemos asegurarnos de que los datos obtenidos se corresponden con la realidad objeto de estudio), hemos de asegurar que nuestros datos no reflejan nuestra propia perspectiva en detrimento de la realidad estudiada y hemos de tratar de asegurar que si fuese otro el evaluador llegaría a resultados similares.

La única diferencia es que los criterios y procedimientos para asegurar estas cualidades no son los mismos, al no ser del todo coincidente los objetivos perseguidos ni la perspectiva epistemológica:

1. Cuando hemos hablado hace un momento de la validez de constructo hemos insistido en la idea de que el problema de fondo es el de la generalizabilidad de los datos, pero se da la circunstancia de que entre los supuestos de la evaluación cualitativa ocupa un papel central la idea de que los fenó-menos sociales son siempre únicos en un sentido profundo, de modo que más que el carácter más o menos general de los datos lo que se persigue es su transferibilidad, esto es, se trata más de una cuestión relativa a la utilidad de lo descubierto que a su eventual universalidad.

2. En cuanto al concepto de credibilidad, hace referencia a la consistencia de las descripciones e interpretaciones de la realidad ofrecida por los evaluadores: ¿Han sido adecuados los métodos para reconstruir y reflejar la realidad? ¿Se han usado correctamente esos métodos?...  El problema, en última instancia es, como señalan Lincoln y Guba (1985) el “valor de verdad” que pueda tener un estudio determinado, por lo que proponen como estrategias fundamentales la triangulación y la comprobación con los participantes:

- La triangulación nos permitirá observar si diferentes clases de datos nos llevan, o no, a la misma conclusión.

- La comprobación con los participantes permite que las propias fuentes de datos enjuicien el grado de proximidad entre conclusiones y realidad, en cuanto profundos conocedores de esa realidad.

Sin embargo, algunos autores han puesto objeciones al uso de la triangulación (ver Rodríguez y otros, 1996) y la comprobación con los participantes tiene un muy grave inconveniente: posiblemente Galileo hubiese modificado sus conclusiones si hubiese debido ajustar sus informes sobre el helio-centrismo a la percepción de la realidad de potenciales jueces “profundos conocedores de la realidad”.

Lo que sí parece claro, en cualquier caso, es que los métodos empleados en la evaluación interpretativa para establecer la credibilidad del estudio llevado a cabo han de ser necesariamente acumulativos (cuantos más indicadores se aporten -correcta, conveniente y oportunamente usados-, mayores serán la fuerza, vigor y consistencia de las conclusiones), deben basarse en el contraste y deben poner especial énfasis en la búsqueda de evidencia negativa, más que positiva, frente a las hipótesis sostenidas.

3. En tercer lugar, frente a la preocupación de neutralidad de la investigación cuantitativa, la etnográfica parte del supuesto de que ese es un atributo imposible, de modo que lo más coherente sería tomar conciencia de ello y, en consecuencia, trasladar el peso desde la neutralidad del investigador a la de los datos, definida como la confirmabilidad de éstos: los datos deben poder ser ratificados y se debe asegurar, además, que las interpretaciones se basen efectivamente en ellos.

4. Finalmente, en cuanto a la cuestión de la fiabilidad, ya hemos señalado que es uno de los conceptos más criticados desde este enfoque (por ejemplo, Goetz y Le Compte, 1988) por partir del supuesto de que en los fenómenos sociales no existe estabilidad, de modo que Lincoln y Guba (1985) proponen recurrir al concepto de “dependencia”, que implicaría tanto la constatación de los eventuales cambios en los datos, como la identificación de los factores que explicarían las variaciones observadas al replicar un estudio.

Siendo clara la alternativa en el plano conceptual, sin embargo no lo parece tanto en la práctica, más allá de la idea de que las evaluaciones cualitativas deberían someterse a metaevaluación y que los metaevaluadores deberían poder establecer la veracidad del estudio inicial, lo que resulta más bien complicado, costoso y poco operativo. En una línea más concreta y asumible, estos autores sugieren como estrategias básicas para establecer la cualidad de dependencia el uso de métodos múltiples y solapados para observar el mismo fenómeno, el establecimiento de pistas de revisión (por ejemplo, detallando los procedimientos seguidos en un diario de campo) o la réplica paso a paso entre un equipo de investigadores, sin excluir las revisiones de expertos externos al finalizar el estudio.

REFERENCIAS BIBLIOGRÁFICAS  (Se incluyeron en el Tema 1)

No hay comentarios:

Publicar un comentario