TEMA 4
RECOGIDA DE INFORMACIÓN:
LAS PRUEBAS O TEST
0. LA MEDIDA EN EDUCACIÓN
1. LAS CRÍTICAS A LAS PRUEBAS DE RENDIMIENTO
2. TIPOS DE PRUEBAS
3. PROPIEDADES PSICOMÉTRICAS DE LAS PRUEBAS
3.1. LA CUESTIÓN DE LA FIABILIDAD
3.2. EL PROBLEMA DE LA VALIDEZ
3.3. PUNTUACIONES E INDICES
4. CRITERIOS DE CALIDAD EN LA
EVALUACIÓN EDUCATIVA
Profesor: JESÚS GARCÍA VIDAL
0. LOS LA MEDIDA
EN EDUCACIÓN.
Si
hay una distinción clásica en el ámbito de la evaluación psicológica y
pedagógica es ººla que enfrenta los procedimientos de observación a los de
medida y, más concretamente, a la observación con la utilización de “pruebas”
o, en su denominación en inglés, tests: “¿De dónde proviene la evidencia
por medio de la cual podemos evaluar las características de una persona? Las
fuentes se dividen en dos tipos principales: situaciones naturales que ocurren
en la vida cotidiana y situaciones de “prueba” especialmente estructuradas”
(Thorndike y Hagen, 1989:15).
Evidentemente, cuando Thorndike y Hagen
hacían esta afirmación no se referían sólo a los tests en sentido
estricto, sino que incluían en su definición otros procedimientos de recogida
de datos, como los cuestionarios e inventarios, en la medida en que su
cumplimentación supone una situación artificial y sus datos son susceptibles de
cuantificación, pero su definición es válida en general para el tipo de
instrumentos que vamos a considerar a continuación: instrumentos que colocan al
individuo en una situación más o menos artificial en la que debe dar respuesta
a una o más tareas diseñadas específicamente para provocar determinadas
conductas en particular, para poner a prueba alguna de sus características
(habilidades, rasgos de personalidad, conocimientos...) y poder “medirlas” en
condiciones controladas.
Así, aunque su autora la refiera sólo a
los test psicológicos, la definición de Martínez Arias (1996:32) también podría
servirnos para situarnos: «Un reactivo que aplicado a un sujeto revela y da
testimonio del tipo de o grado de su aptitud, de su forma de ser o del grado de
instrucción que posee».
En definitiva, pues, cuando hablamos de
“las pruebas” o “los test” como procedimiento de recogida de información, nos
estamos refiriendo a cualquier tipo de situación en la que, con independencia
del contenido concreto o finalidad específica del instrumento empleado, ponemos
al individuo en una situación de examen frente a determinados estímulos (reactivos)
que se han elaborado explícitamente con el objetivo de elicitar una serie de
conductas que, por alguna razón teórica y/o empírica, se consideran como signo
de una determinada aptitud o rasgo subyacentes o como muestra representativa de
un determinado dominio comportamental.
1.
LAS CRÍTICAS A LOS TEST O PRUEBAS DE RENDIMIENTO.
Aunque,
así definidas, son muchas las formas posibles que puede adoptar una prueba
psicopedagógica, lo cierto es que en los modelos tradicionales de evaluación ha
habido una utilización casi exclusiva de las pruebas objetivas referidas a una
norma estadística (y en particular de test psicológicos de inteligencia y
habilidades especiales), un abuso incluso, en la medida en que la evaluación se
ha reducido, además, en ocasiones sólo a la aplicación de este tipo de
instrumentos, complementados en aspectos parciales con cuestionarios e
inventarios tipificados y entrevistas.
Si a ello le añadimos que, con demasiada
frecuencia, los resultados obtenidos de la aplicación rutinaria y acrítica de
estos instrumentos se ha empleado más para dar marchamo de cientificidad (¡?) a
situaciones de marginación social y educativa y a prejuicios acerca de la
determinación genética de las diferencias sociales, que para ofrecer
alternativas de superación de tales situaciones, no puede extrañar que en las
últimas décadas se haya producido un fuerte movimiento de contestación que,
como no podía ser de otro modo, no ha hecho matices: se ha descalificado todo
tipo de prueba psicológica y pedagógica y todo posible uso de ellas. Como
recuerdan Gª Jiménez y Gª Vidal (1995:70), «el uso de los tests para la
identificación, clasificación y posterior ubicación de los sujetos examinados
en programas e instituciones diferenciadas (escolares, asistenciales,...), ha
creado toda una cultura contraria al uso de los test, sobre todo a los test de
inteligencia».
Desde luego, además de las razones aquí
aludidas, en el rechazo hacia las pruebas o test ha participado también, ya en
el ámbito estrictamente profesional y académico, el agrio debate entre
racionalismo y naturalismo como marcos epistemológicos para la evaluación
educativa, en general, pero al haber comentado ya esta cuestión al principio
del capítulo quisiéramos limitarnos en este momento a señalar que, a nuestro
juicio, esa descalificación global de los test de evaluación psicopedagógica es
injusta, de un lado, y empobrecedora, de otro.
Injusta, porque si es lícito (y
necesario) denunciar el abuso y el mal uso de los instrumentos de evaluación
cuando, a partir de sus datos, se derivan prácticas sociales indeseables, es
también preciso dejar constancia de dos cuestiones que nos parecen fundamentales:
- En primer lugar, que muchos de los
problemas denunciados no lo son tanto de los instrumentos como de un uso
inapropiado de ellos. Como veremos más adelante, al hablar de la validez de los
instrumentos de recogida de datos, nadie con una mínima formación en
psicometría considera que un test, sea el que sea, produce “verdades
comprobadas”, sino hipótesis de trabajo (la denominada validez de constructo)
que deben ser sometidas a investigación y contraste científicos en cada uso
del mismo. El documento sobre estándares en la evaluación educativa y
psicológica de las asociaciones norteamericanas de investigación educativa y de
psicología lo deja bien claro: “Es importante notar que la validez es en sí
misma inferida, no medida. Se pueden presentar coeficientes de validez en un manual, pero la validez para un aspecto
particular de la utilización de un test se infiere a partir del conjunto de
estos coeficientes. Por tanto, es algo que se juzga como adecuado o marginal o
insatisfactorio” (AERA, APA y NCME, 1974:25). Cualquier “profesional” que
ignore o vulnere este principio básico en su práctica, sencillamente, no merece
ese calificativo.
- En segundo lugar, que en los últimos
veinticinco o treinta años el avance de la psicometría ha permitido superar muchas
de las limitaciones que, efectivamente, presentaban las tradicionales pruebas
normativas basadas en la teoría clásica de los tests: el desarrollo de las
Pruebas Referidas a Criterios (PRC), la aparición y desarrollo de nuevos
instrumentos basados en la Teoría de Respuesta al Item (TRI), incluídos los
Tests Adaptativos Computerizados (TAC)... entre otros desarrollos técnicos en
este campo, unidos al avance teórico en la Psicología y Pedagogía
comtem-poráneas han hecho que, siendo limitadas (algo inevitable), las actuales
pruebas o tests psicopedagógicos ofrezcan unas posibilidades que, simplemente,
no existían hace dos décadas.
Pero
decíamos también que la descalificación global y sin matices de las pruebas nos
parece, además, empobrecedora, ya que en el contexto de la evaluación
psicopedagógica el referente último es siempre el aprendizaje de nuestros
alumnos y alumnas: si examinamos el contexto social y familiar o las distintas
variables que conforman lo que podríamos llamar “respuesta educativa” a las
necesidades de formación, si se examina el desarrollo biológico, psicológico y
social del individuo... es porque, en última instancia, creemos que en esos
ámbitos existen aspectos negativos que pueden estar minimizando el aprendizaje
y el desarrollo de los alumnos o aspectos potencialmente educativos que no
están siendo utilizados, de modo que su descubrimiento, como paso previo a su
transformación, nos permitiría mejorar la ayuda al desarrollo y el aprendizaje
que, en definitiva, es la educación.
Expresado
en términos experimentales, explícita o implícitamente, en la evaluación
psicopedagógica consideramos el aprendizaje y el desarrollo de los alumnos como
la variable dependiente que esperamos poder modificar mediante el
control de las demás, que serían las variables independientes, de modo
que cualquier recurso que nos permita aproximarnos a una definición lo más
rica, precisa y matizada de aquélla debería ser bienvenido. Sería un error de
bulto reducir tal variable dependiente a los datos que proporcionan las pruebas
o tests, pero no lo sería menos el ignorar lo que tales datos, debida-mente
contextualizados, analizados y valorados, puedan aportarnos, ya que esto no es
sino otra forma más de reduccionismo. Pero es que los tests nos proporcionan,
además, una serie de informaciones sumamente ricas y variadas en relación con
muchas de las variables independientes en juego (especialmente,
variables del propio individuo), a las que resulta extremadamente difícil,
cuando no imposible, acceder por otros medios, de modo que este segundo tipo de
reduccionismo al que acabamos de aludir resulta especialmente limitador en
orden a nuestro objetivo final.
Así,
aunque nada hay más alejado de nuestra idea de la evaluación psicopedagógica
que la imagen tópica del orientador provisto de una o más cajas mágicas,
con precisos, preciados y “preciosos” instrumentos de diagnóstico que
(convenientemente aplicados en espacios tranquilos, bien iluminados, a la
temperatura adecuada y con cierto grado de humedad), si se siguen los patrones
estándar de examen proporcionan un conocimiento científico definitivo sobre “el
caso”, pese a todo, creemos que es preciso conocer los tests di-sponibles para
la evaluación y que, llegado el caso, no es ningún pecado aplicarlos. Bien al
contrario, creemos que se trata de instrumentos útiles que, como cualesquiera
otros, deben conocerse en profundidad y aplicarse con buen criterio, esto es,
cuando puedan aportar algo interesante, siguiendo los estándares profesionales
al uso y en el marco de un plan de evaluación global que no debe ser sólo, ni
principalmente, tecnológico, sino teórico.
2.
TIPOS DE PRUEBAS.
El
problema, dicho esto, es que el enorme desarrollo de este tipo de instrumentos
a lo largo de un siglo ya hace necesario, en un capítulo como éste, en donde no
podemos ponernos a examinar pruebas particulares una a una, elaborar una
clasificación que permita al lector hacerse una idea global ver un poco de
orden en un panorama más bien confuso, como consecuencia de su amplitud y
variedad.
Así,
hemos optado por clasificar las pruebas tomando como referencia 5 ejes
diferentes, pero complementarios: el planteamiento del problema, el contenido
del problema, la interpretación de los resultados, la aplicación y el modelo
estadístico utilizado.
2.1.
EN FUNCIÓN DE PROBLEMA. Un mismo contenido se puede plantear a los sujetos
de manera diferente, es decir, que puede requerirle distintas demandas. En
función de la demanda que se le realiza al sujeto podemos clasificar las
pruebas desde tres perspectivas diferentes:
a)
Realización típica versus realización máxima. De acuerdo con Crombach
(1972:56-62), las pruebas pueden pretender medir la capacidad «máxima» (son los
llamados «test de habilidad»); o precisar la conducta «tipica» del sujeto, es
decir lo que acostumbra hacer en determinadas situaciones y/o circunstancias,
entre los que se encontrarían las pruebas de personalidad, intereses, técnicas
de estudio, etc.
b)
Velocidad versus potencia. En la realización de una prueba podemos
pretender comprobar dos cuestiones diferentes: la velocidad de ejecución,
para lo cual emplearemos ítems sin dificultad objetiva para los sujetos
dependiendo las diferencias individuales de la rapidez de las respuestas (p.e.
las pruebas que miden atención, velocidad lectora, ect.) y en las cuales el
tiempo tiene que estar rigurosamente controlado; o la calidad de la
ejecución, en las que las diferencias individuales se encuentran en función
de la corrección/incorreción de las respuestas del sujeto, en este tipo de
pruebas el tiempo no suele ser un factor determinante (p.e. la mayoría de las
pruebas de razonamiento, comprensión lectora, resolución de problema, etc.).
c)
Comprensivas versus objetivas. Y finalmente por el tipo de respuesta que
exigimos al sujeto vamos a encontrar: pruebas comprensivas, que plantean
al sujeto cuestiones abiertas que han de ser desarrolladas, libremente, poniendo en juego los conocimientos de que
dispone; y pruebas objetivas que plantean al sujeto cuestiones cerradas,
que exigen una respuesta concre-ta mediante formas diversas: completamiento,
elección, jerarquización, correspondencia o identificación.
2.2.
EN FUNCIÓN DEL CONTENIDO DEL PROBLEMA. Lo primero que diferencia a las distintas pruebas de rendimiento es el
tipo de problemas a los que se refiere. Teniendo en cuenta esta perspectiva nos
vamos a encontrar con los siguientes tipos:
a) Rendimiento. Son pruebas de
ejecución «máxima» cuya finalidad es medir las adquisiciones o conocimiento
específicos.
b) Inteligencia y aptitudes.
Pretenden medir rasgos psicológicos de naturaleza cognitiva, siendo la mayoría
de ellos de ejecución máxima.
c) Personalidad, actitudes e
intereses. Son tests de ejecución típica, que pretenden medir el
comportamiento del sujeto en relación con situaciones descritas previamente.
2.3.
EN FUNCIÓN DE CÓMO SE INTERPRETAN LOS RESULTADOS. Cuando se
trata de interpretar los resultados de una prueba podemos adoptar dos
perspectivas básicas, identificadas por Glaser (1963), en función de las cuales
podemos diferenciar:
a)
Pruebas Referidas a Normas (PRN). Son aquellas que describen la
realización del sujeto en términos de la posición relativa que ocupa en algún
grupo conocido, es lo que ocurre cuando obtenemos puntuaciones normalizadas de
un sujeto (p.e. las puntuaciones centiles).
De
esta manera, la puntuación directa (PD) obtenida por el sujeto se traduce en
una posición respecto a la muestra que se ha utililizado para la fabricación de
la prueba. La determinación precisa de la posición relativa de un sujeto
respecto a un grupo exige la transformación de las puntuaciones directas en
puntuaciones transformadas, como:
· Puntuaciones de nivel, se basan en las
puntuaciones promedios que obtienen los sujetos de un nivel determinado. Son
muy utilizadas en los tests de rendimiento académico.
· Puntuaciones de edad, que pueden
obtenerse a partir de la estructuración de los ítems de la prueba en edades y
por comparación con las puntuaciones promedios de cada edad.
· Puntuaciones percentiles, que indican
los porcentajes del grupo normativo que han obtenido una puntuación inferior a
la del sujeto. Pero como señala Anastassi (1980:55), no indica la «cuantia» de
la diferencia entre su puntuación y la de otra persona.
· Puntuaciones típicas, que muestran la
posición relativa de un sujeto en un grupo, indicando el grado en que una
puntuación directa se situa por encima o por debajo del promedio. Su cálculo
implica determinar la diferencia entre la puntuación directa del sujeto y la
puntuación media del grupo normativo, dividiéndola por la desviación tipica del
mismo grupo.
b)
Pruebas Referidas a Criterios. Son aquellas que toman como referencia
para la intepretación del rendimiento logrado un criterio definido con
anterioridad y por tanto describe la realización específica que ha tenido lugar
(p.e.: lee 100 palabras por minuto).
Gronlud
(1985:15) señala como diferencias básicas entre ambos tipos de pruebas las
siguientes:
- Las PRN suelen cubrir un amplio
dominio de tareas con un pequeño número de ítems, mientras que las PRC se
centran en un limitado dominio de tareas con un número relativamente grande de
ítems.
- Las PRN subrayan las diferencias entre
individuos, y las PRC destacan la descripción de las tareas realizadas, o no
realizadas por el sujeto.
-
Las PRN favorece aquellos ítems de dificultad promedio y omite los más fáciles
y las PRC relaciona la dificultad de los ítems con la dificultad de las tareas
de aprendizaje.
-
Las PRN se utilizan fundamentalmente para examinar (no exclusivamente) y las
PRC se utilizan para comprobar un dominio (no exclusivamente).
- Las PRN exigen para su interpretación un
grupo claramente definido, y las PRC requieren un dominio de rendimiento
claramente definido y delimitado.
2.4.
EN FUNCIÓN DE LA APLICACIÓN. La forma en que
se aplican las pruebas también dan lugar a una perspectiva clasificatoria, como
la que señala Martinez Arias (1995:33-34):
a)
Orales. Las instrucciones y respuestas son siempre orales, siendo
especial-mente adecuados para niñas pequeños, analfabetos, individuos de
culturas diferentes al aplicador, etc.
b)
Papel y lápiz. Son pruebas en las que, al menos, la respuesta del sujeto
es recogida en soporte de papel. La mayoría de ellas requieren para su
administración un cierto dominio del lenguaje escrito, utilizándose
cuadernillos y/u hojas de respuesta. Son los más generalizados.
c)
Manipulativas o de ejecución. En este tipo de pruebas se exige al sujeto que manipule los materiales que se le
presentan y/o ejecuten órdenes, de acuerdo con unas instrucciones y/o modelo.
d)
Situacionales o simulaciones. En este tipo se somete a los sujetos a modelos de situaciones reales,
registrándose su comportamiento de alguna manera.
e)
Computerizadas. Son pruebas en las que la presentación, registro e incluso la interpretación se realiza por
medio de un computador. Cuando la selección de los ítems también es realizada
por el computador en función de las sucesivas respuestas del sujeto es lo que
constituye lo que se denomina Test Adaptativo Computerizado (TAC).
2.5.
EN FUNCIÓN DEL MODELO ESTADÍSTICO UTILIZADO. Cuando los datos obtenidos
conllevan el tratamiento estadístico de los mismos (es obligado en todas las
pruebas normalizadas), podemos clasificar las pruebas en tres grupos (Martínez
Arias, 1995:35):
a)
Teoría clásica de los tests (TCT), que tienen como fundamento básico el
Modelo Lineal de la Regresión con dos variables.
b)
Teoría de la generalizabilidad (TG), que se basa en el Modelo Lineal del
Diseño Experimental.
c)
Teoría de respuesta al ítem (TRI), que se basa en modelizar las
probabilidades de respuestas correctas a cada ítem según las funciones de
distribución normal y logística.
No
queremos finalizar este apartado sin subrayar una vez más que la eventual
decisión sobre la utilización o no de pruebas y, en su caso, la selección de la
prueba o pruebas a emplear, no puede ser una cuestión rutinaria, sino obedecer
a criterios específicos, relacionados con al menos tres cuestiones principales:
el tipo de situación que ha dado lugar al proceso de evaluación
psicopedagógica, la clase de contenidos acerca de los que queremos obtener
información y, finalmente (pero no en último lugar), la perspectiva teórica
desde la que estemos abordando la problemática evaluada.
3. PROPIEDADES PSICOMÉTRICAS DE LAS
PRUEBAS
En
la medida en que, como hemos reiterado en diversas ocasiones a lo largo de
estas páginas, las conclusiones de la evaluación nunca pueden ser mejores que
los datos en que se fundamentan, un tema fundamental al considerar la
metodología de la evaluación psicopedagógica es el de la calidad de los
procesos de obtención de esos datos, que Anaya (1994) describe como
"excelencia del conocimiento diagnóstico", señalando que descansa
sobre dos pilares básicos: el rigor con que se haya seguido el proceso
diagnóstico y la bondad de los procedimientos de recogida de información utilizados.
Centrándonos
en este último aspecto, parece claro que de lo que se trata en última instancia
es de las cuestiones de la fiabilidad y la validez de los instrumentos de
evaluación, de modo que será de ellos de los que nos ocupemos a continuación,
pero en la medida en que estos conceptos psicométricos han sido criticados como
no aplicables a los procedimientos cualitativos, en los que se precisaría de
criterios de rigor diferentes y específicos, dedicaremos también unas líneas a
esta última cuestión.
3.1. EL PROBLEMA DE LA FIABILIDAD. Cuando
establecemos relaciones con "alguien" (personas, instituciones,
organizaciones, etc.) a la mayoría de los seres humanos nos gustaría que ese
alguien fuera "de fiar", es decir, que nos digan hoy una cosa, y a la
vuelta de la esquina nos digan lo contrario.
Esta es una cuestión importante en las relaciones humanas, de modo que
es casi imposible tener confianza en una
persona o institución si no podemos "fiarnos" de ella. Pues bien, la
fiabilidad estadística de una prueba tiene el mismo sentido que esa condición
de "fiable" que deseamos que tengan los que se relacionan con
nosotros, aunque para llegar a establecerla sea necesaria realizar
numerosos y complicados cálculos.
Dicho
más formalmente, lo que entendemos por fiabilidad de un test es el grado en que
las puntuaciones observadas al emplearlo coinciden con las puntuaciones verdaderas que deberían obtenerse en el caso de que
sus mediciones estuviesen libres de error, sólo que al definir de este modo la
fiabilidad tenemos un problema de gran importancia: puesto que ningún test está
completamente libre de errores de medida, es imposible conocer directamente las
puntuaciones verdaderas.
Por
tanto, cuando hablamos de fiabilidad de una prueba, estamos hablando del nivel
al que nos podemos "fiar" de ella, de manera que podemos afirmar con
Fdez Ballesteros y Carrobles (1981:165), que es "la consistencia con
que mide un instrumento... la fiabilidad es el grado de acuerdo o
correspondencia entre medidas, que deberían ser iguales si no existiesen
errores de medición"
Y
es que cuando se realizan mediciones con un instrumento, es habitual cometer
errores como son los derivados de la
medida en dos momentos diferentes, relativamente lejanos, y que pueden ser
explicados por la presencia de procesos de maduración o tratamiento; los
referidos a errores de aplicación de las pruebas (p.e.: un aplicador
proporciona más tiempo que otro en la misma prueba), los referidos a las
diferencias existentes entre dos puntuaciones explicables desde el desigual
nivel de fatiga que en un momento determinado presenta dos sujetos, etc. A este tipo de errores se les llama errores
siste-máticos y pueden atribuirse a la variable medida, al contexto de
aplicación, etc. y pueden controlarse,
predecirse explicarse desde la teoría.
Para
resolver este problema, que lógicamente nos impide establecer la fiabalidad
absoluta de un test, lo que se hace habitualmente es definir ésta no como la
relación existente entre puntuaciones observadas y puntuaciones verdaderas,
sino como el grado en que las diferentes puntuaciones observadas (es decir, las
diferentes medidas) que nos proporciona al aplicarlo a una misma muestra de
sujetos son consistentes entre sí, ya que todas ellas “deberían ser iguales si no existiesen errores de medición” (Fdez.
Ballesteros y Carrobles, 1981: 165).
Así,
pues, para establecer la fiabilidad de un test lo que debemos hacer es comparar
entre sí las puntuaciones obtenidas al aplicarlo a los mismos sujetos, pero
debe observarse que, si un test se aplica en dos momentos distintos, cabe la
posibilidad de que haya entre las puntuaciones observadas en uno y otro caso
diferencias no debidas a problemas de fiabilidad del instrumento, sino al hecho
de que en ese lapso de tiempo hayan actuado ya sea la maduración del organismo
o el aprendizaje (el instrumento mide correctamente, pero la variable medida ha
cambiado en sus valores entre la primera y la segunda aplicación).
Este
tipo de error de medida debido a la maduración o el aprendizaje, así como otros
debidos a las condiciones en que se ha aplicado el test (p.e., el examinador no
respeta escrupulosamente las consignas que debe dar o muestra expresiones no
neutras, ya sea de apoyo y aprobación o de desaprobación, ante las respuestas
del sujeto) o a las diferencias en el estado psicofísico del individuo
examinado, por citar sólo dos ejemplos, son lo que se denomina errores
sistemáticos de medida.
Los
errores sistemáticos de medida introducen diferencias entre las puntuaciones
observadas y las puntuaciones verdaderas, pero realmente no afectan a la
fiabilidad del test, pues se trata de diferencias explicables desde la teoría
y, en consecuencia, pueden ser previstas y controladas, tomando las medidas
oportunas en la construcción y en la aplicación del test.
Existe,
sin embargo, un segundo tipo de errores de medida que no son explicables desde
la teoría y no son, por tanto, ni predecibles ni controlables, en sentido
estricto. Son los denominados errores aleatorios de medida, que constituyen la
auténtica amenaza a la fiabilidad de una prueba: “La falta de fiabilidad de las puntuaciones está ligada a errores
aleatorios no sometidos a control y, en consecuencia, no predecibles” (Martínez
Arias, 1995:74).
Por
su parte, Kerlinger (1975:311) nos señala que "la confiabilidad de un
instrumento dependerá del grado en que produzca errores de medición. Dicho de
otro modo, la confiabilidad se puede definir como la carencia relativa de
errores de medición del instrumento. La confiabilidad es la exactitud o
precisión de un instrumento de medición"
Podemos
afirmar, por tanto, que fiabilidad es sinónimo de estabilidad, exactitud,
confiabilidad, precisión, acuerdo, consistencia, etc., términos que hacen
referencia a la coherencia existente entre diferentes grupos de datos obtenidos
con el mismo instrumento y los mismos sujetos. La fiabilidad de un
procedimiento de evaluación es, pues, una cuestión básica, y tiene que
constituirse en un referente esencial, tanto cuando construimos una prueba como
cuando procedemos a seleccionarla, ya que las consecuencias de una baja, o
alta, fiabilidad afectará de manera directa a las puntuaciones que un sujeto
logra.
Aunque
la fiabilidad de una prueba tiene que ver directamente con la correlación entre
puntuaciones verdaderas y observadas, el coeficiente de fiabilidad suele
calcularse desde la perspectiva de la consistencia de las pun-tuaciones
obtenidas en diversas aplicaciones, ya que aquellas nunca llegarán a conocerse.
Al
igual que la confianza en las personas no tiene carácter absoluto, sino
relativo, la fiabilidad de las pruebas tampoco es una cuestión del "todo o nada" sino
que es una cuestión relativa, y por ello, el coeficiente de fiabilidad de una
prueba admite valores entre 0 y 1, de manera que cuanto más se acerca el valor
a 1 mayor es la fiabilidad y cuanto más se acerca a 0 menor es la misma.
¿Cómo
podemos calcular la fiabilidad de una prueba de rendimiento? sin la intención
profundizar en esta cuestión, que no es objeto de nuestro trabajo ni nuestra
especialidad, señalaremos con Martínez Arias (1995:81) que para calcular el
coeficiente de fiabilidad de una prueba es necesario disponer, al menos, de dos
conjuntos de medidas "paralelas" de los mismos sujetos.
Existiendo tres métodos comunes para obtener el coeficiente de fiabilidad de
una prueba:
- Método de formas
paralelas. Consiste en: 1) "Construir" una prueba con dos formas
paralelas (A y B); 2) aplicar las dos formas a la muestra que se utilice, y 3)
Calcular el coeficiente de correlación producto-momento de Pearson a los dos conjuntos
de puntuaciones que será el coeficiente de fiabilidad.
- Método del test-retest.
Consiste en aplicar la prueba en dos ocasiones al mismo grupo de sujetos,
siendo la correlación entre las puntuaciones de las dos ocasiones su
coeficiente de fiabilidad. Este método admite realizarse con la misma prueba y
con pruebas alternativas.
- Métodos de consistencia
interna. Estos métodos no se basan en las correlaciones entre puntuaciones
correspondientes a aplicaciones sucesivas de pruebas sino en las correlaciones
encontradas dentro de "una" aplicación del test, admitiendo dos
formas básicas: la correlación entre dos mitades y la covarianza entre
todos los ítems que forman la prueba.
Es
necesario resaltar para el cálculo de un coeficiente de fiabilidad sería necesario aplicar la prueba a toda la
población, por lo que el coeficiente de fiabilidad que se suele suministrar en
las pruebas estandarizadas constituye realmente una estimación del mismo. Como
señala Martínez Arias (1995:91-92) esta estimación puede mejorarse aumentando
en las pruebas las siguientes condiciones:
a) El tamaño muestral.
b) La representatividad de la muestra
utilizada.
c) La independencia experimental de las
medidas.
d) Identidad de las aplicaciones a las
que se realizarán con la prueba.
e) Disposición de dos o más medidas para cada sujeto.
Además
de las condiciones que mejoran la estimación del coeficiente de fiabilidad de
una prueba, éste se verá afectado, en todo caso por los dos factores:
-
La variabilidad del grupo: cuanto mayor sea la misma mejor será la
fiabilidad de la prueba.
-
La longitud de la prueba: cuanto mayor sea la longitud de un prueba mayor será su fiabilidad.
Resumiendo,
podemos afirmar que una cuestión relevante a la hora de seleccionar una
determinada prueba (mucho más, desde luego, cuando se construye) es comprobar
en qué medida nos podemos "fiar" de ella, es decir cuan elevado es la estimación de su
coeficiente de fiabilidad.
3.2. EL PROBLEMA DE LA VALIDEZ. Con
ser importante, la fiabilidad de un test es una condición insuficiente por sí
misma para determinar su valor como instrumento de evaluación, ya que una alta
fiabilidad asegura que estamos midiendo correctamente algo, pero... ¿qué es lo
que estamos midiendo? Y es que no basta con que digamos que un instrumento mide
tal variable para que ello sea cierto: ¿cómo podemos estar seguros de que es
así? Como señalara Cronbach (1984), el más básico y fundamental de los
criterios de calidad psicométrica de cualquier test es, sin duda, la validez,
un concepto que incluye al menos las siguientes dimensiones: la validez de contenido, la validez criterial y la validez de constructo.
A) Validez de contenido. La validez
de contenido hace referencia al grado en que los ítems de un instrumento de
medida son una muestra adecuada del dominio o ámbito que se pretende testar,
esto es, al hecho de si el instrumento examina la variable o variables que
intenta examinar y si examina todos los aspectos relevantes de la misma
(Cronbach, 1971).
El
establecimiento de la validez de contenido se basa en el análisis racional de
los ítems que componen un instrumento de medida (por lo general, recurriendo al
juicio de varios expertos en la materia objeto de examen) y se define
básicamente como validez muestral, esto es, como el grado en que los ítems que
conforman el test cubren el conjunto de aspectos del dominio objeto de examen y
relevancia de dichos ítems con respecto a tal dominio.
La
validez muestral es un requisito absolutamente indispensable para cualquier
test de ejecución, incluidos los tests de inteligencia, de modo que todo test
de esta naturaleza deberá dar respuesta satisfactoria a tres preguntas clave:
-
¿Son los ítems elegidos apropiados para el test y éste mide el objeto que
interesa?
-
¿Contiene el test la información necesaria para abarcar bien el conjunto de
aquello que se supone que se va a medir?
-
¿A qué nivel de dominio se evalúa esa variable?
Si
la respuesta a estas tres preguntas es satisfactoria, podremos acordar que el
instrumento en cuestión posee una adecuada validez de contenido (Sattler,
1988:23).
B) Validez criterial. La validez
criterial o validez con respecto a un criterio, por su parte, hace referencia
al grado en que las medidas de un test son consistentes con otras medidas
externas que, teóricamente, debieran estar relacionadas con ellas.
En
este sentido, podemos hablar de un tipo particular de validez criterial que
sería la validez predictiva, definida como el grado en que, a partir de las
medidas que nos proporciona el test en cuestión, podemos predecir los valores
que adoptarán las mediciones de una variable diferente.
Desde
luego, éste es uno de los aspectos cruciales para cualquier test de
inteligencia, pues la única justificación ética posible para aplicar un
instrumento de tal naturaleza es que sus resultados sean capaces de anticipar
el rendimiento del individuo en otras actividades, de modo que podamos tomar
medidas efectivas de ayuda basadas en esa predicción. En el ámbito educativo,
por ejemplo, la justificación para la utilización de este tipo de tests ha sido
precisamente que, por la relación causa-efecto entre inteligencia y rendimiento
académico, son capaces de proporcionar predicciones altamente fiables acerca de
si un alumno podrá tener éxito o no en el seguimiento de un determinado
currículo antes de enfrentarlo a él (una cosa, claro, es esta afirmación y
otra, bien diferente, que sea correcta).
La
validez predictiva de un test se establece analizando con procedimientos
estadísticos complejos (por lo general, una ecuación de regresión) el grado de
correlación existente entre las puntuaciones del test observadas en una muestra
dada y los valores de la variable criterio observados con un instrumento
diferente (por ejemplo, un test de rendimiento académico, las calificaciones
escolares, etc.) en esa misma muestra. Este procedimiento nos ofrece un coeficiente de validez predictiva del
test, como es el coeficiente de correlación lineal producto-momento de Pearson,
que exige muestras de 200 ó más sujetos.
El
procedimiento es básicamente el mismo que se utiliza para calcular los
coeficientes de validez criterial cuando ésta se considera no en su dimensión
predictiva, sino como validez
concurrente (las puntuaciones de un test dado se correlacionan con las
puntuaciones de un test diferente que mide la misma variable, obtenidas ambas
con la misma muestra de sujetos) o validez retrospectiva (el caso inverso de la
validez predictiva).
Por
lo que se refiere a la validez criterial en su dimensión predictiva,
constituye sin duda uno de los requisitos fundamentales que, en la evaluación
psicopedagógica, debemos exigir a cualquier instrumento que mida variables
diferentes al rendimiento académico, ya que su inclusión en el plan de
evaluación se debe siempre a que “suponemos” que dichas variables guardan una
relación determinada (por lo general, de causa-efecto) con el aprendizaje del
alumno... Una suposición que debe ser demostrada, tal y como ha puesto de
manifiesto la historia de la evaluación de las dificultades de aprendizaje de
la lecto-escritura en relación con la cuestión de la “madurez escolar” (cfr.
García Vidal y Glez. Manjón, 2000).
La
validez criterial, no obstante, no sólo implica esta dimensión predictiva;
también implica los conceptos de validez concurrente y validez retrospectiva:
-
Las medidas obtenidas con el instrumento examinado no sólo deben predecir la
variable criterio, sino que deben correlacionar con otras medidas
independientes de su objeto de estudio, obtenidas con instrumentos de
cualidades psicométricas ya probadas que se aplican al mismo tiempo a una misma
muestra representativa.
-
Igualmente, deben correlacionar con otras medidas de eventuales variables
criterio obtenidas con anterioridad.
C) Validez de constructo. Con todo, los diferentes
“tipos” de validez analizados no constituyen, por sí mismos, criterios de
calidad psicométrica definitiva: “Se ponen sin más en relación los
resultados buenos, malos o medianos de los tests con las actividades prácticas
del individuo, con lo que es significativo para su vida (...) Los coeficientes
de correlación muestran entonces el grado de relación que existe entre los
resultados de los tests y las cualidades o insuficiencias que se manifiestan en
la vida cotidiana (...) Si este procedimiento tiene a su favor la solidez de la
experiencia, tiene también los inconvenientes del empirismo y hace que se eche
a menudo de menos un buen modelo del funcionamiento mental” (Rey,
1974:259).
El
establecimiento de la validez de un instrumento de medida implica por tanto,
siempre e indefectiblemente, la comprobación de su validez de constructo, al
entenderse que es en ella en donde “reside la evidencia de base para inferir el
significado de una medida. La validación de constructo consiste en el proceso
de ordenar la evidencia en forma de relaciones empíricas teóricamente importantes,
con el fin de sustentar la inferencia de que una consistencia de respuesta
observada posee un significado particular” (Messick, 1975:995). El resto de
“tipos” de validez no podrían considerarse, en sentido estricto, sino como
diferentes tipos de evidencias orientados a esta validación de constructo.
En
palabras de Messick (1975:995), es en la validez de constructo en donde “reside la evidencia de base para inferir el
significado de una medida”, ya que es justamente en el proceso de
validación de constructo cuando se ordena la evidencia en forma de relaciones
empíricas teóricamente importantes, capaces de sustentar la inferencia de que
la conducta observada posee un significado psicológico real. Consecuentemente,
los demás “tipos” de validez no podrían considerarse, en sentido estricto, sino
como diferentes tipos de evidencias orientadas a esta validación de constructo.
Dicho
de otro modo, sólo si un instrumento demuestra poseer una validez de constructo
suficiente (no suele ser algo de todo o nada, sino de grado) podemos
considerarlo psicométricamente apropiado, pero el establecimiento de esta
cualidad no es una cuestión exclusivamente empírica, sino que exige además la
demostración de que la hipótesis que subyace al constructo posee realmente
entidad teórica. La cuestión, como puede comprenderse, es que sólo si
demostramos tanto que el constructo se
soporta en la evidencia empírica, como que tiene sentido en un marco teórico
explícito, será lícito derivar conclusiones e interpretaciones de los datos proporcionados
por el instrumento de medida.
Pero
la validez de constructo no se establece tanto para el instrumento en sí, como
para las interpretaciones e inferencias que hacemos desde los datos que nos
proporciona, de modo que no puede considerarse lograda de una vez y para
siempre cuando se valida por primera vez el instrumento, sino que ha de
demostrarse para cada nuevo fin que persigamos con ella: “No existe algo parecido a la validez
de un test. Ningún test es válido para todos los propósitos, en todas las
situaciones o para todos los grupos” (Cronbach y Quirk, 1976:165).
Y
cada vez que lo apliquemos: “La expresión validación de un test es fuente de
muchos malentendidos. Se valida no el test, sino una interpretación de los
datos que surgen de un determinado procedimiento” (Cronbach, 1971:447).
Así,
pues, nunca se llamará lo suficiente la atención acerca de la importancia
central que tiene concebir y llevar a cabo la evaluación psicopedagógica como
un proceso de investigación, lejos de la simple aplicación rutinaria y no
controlada de instrumentos que se suponen válidos y fiables per se,
con independencia del uso que hagamos de ellos; una práctica cuyos efectos
perversos han tenido la ocasión de sufrir, por ejemplo, miles de escolares con
dificultades de aprendizaje a los que se ha tratado en la escuela a partir de
inferencias no justificadas y no sometidas a verificación, derivadas de la
aplicación rutinaria y acrítica de instrumentos no validados más que por la
tradición.
Como
señala Anaya (1994), plantear la evaluación como investigación constituye un
elemento más de garantía en orden a asegurar la calidad del proceso y de sus
conclusiones, y esa investigación debe entenderse, en gran parte, como
investigación de la validez de constructo no de los instrumentos en general,
sino del uso que en cada caso hacemos de ellos y de los datos que nos aportan,
tal y como afirman Pawlik (1980), al sugerir que la idoneidad de cada
instrumento debe comprobarse nuevamente en cada caso, o Cronbach (1975:125)
cuando subraya que “cuando damos el debido peso a las condiciones locales,
cualquier generalización es sólo una hipótesis de trabajo, no una conclusión”.
En
definitiva, pues, el establecimiento de la validez de constructo no es una
cuestión de medidas, sino de inferencias, y resulta un aspecto central en
cualquier proceso de evaluación
psicopedagógica, en la medida en que sólo ella nos permite determinar el grado
de generalizabilidad de nuestros resultados (en el doble sentido de si las
muestras efectivamente medidas son representativas de los universos que
pretendemos medir y de si lo observado
en las diferentes situaciones de examen es representativo de las demás
situaciones de la vida de los sujetos) y
en que sólo si los resultados son generalizables es posible hacer inferencias
lícitas respecto al problema examinado.
3.3.
PUNTUACIONES E INDICES DE LAS PRUEBAS. Resumiendo, podríamos decir que
la evaluación psicométrica de la inteligencia es, en lo esencial, un proceso de
medida indirecta de las aptitudes mentales evidenciadas
a través del análisis factorial, utilizando unos instrumentos, los tests
psicológicos, que reúnen una serie de requisitos mínimos en cuanto a su
fiabilidad y validez, establecidas a partir del análisis estadístico de las
puntuaciones obtenidas en la aplicación a una muestra que satisface
determinados criterios en cuanto a su tamaño y representatividad.
Cuando
las autoridades municipales de París a comienzos del s. XX encargaron a Binet y
Simon la elaboración de una prueba para seleccionar a los sujetos de bajo
rendimiento, la estrategia empleada fue la de seleccionar una serie de tareas
que consideraron representativas de los distintos aspectos del desarrollo
intelectual en diferentes edades y construir un sistema de puntuación para
ellas. Con esta serie de tareas, ordenadas en forma de una escala, y con el
sistema de puntuación decidido, estaban en condiciones de aplicar el test a
individuos de diferentes edades y determinar una puntuación media,
característica para cada edad.
La
Escala Métrica de la Inteligencia (EMI)
elaborada de este modo permitía, al aplicarse a un individuo dado, determinar
su edad mental comparando las puntuaciones que obtenía con la escala de
puntuaciones características de cada edad. Por ejemplo, un niño podía tener 8 años
de edad cronológica, pero si al realizar el test su puntuación era la
característica (la puntuación media) de los niños de 6 años, se podía
determinar que existía un desfase de 2 años entre su edad real y su edad
mental.
Sin
embargo, el problema fundamental de este índice, la edad mental (EM), es que el
crecimiento intelectual ni sigue un ritmo regular, ni es indefinido, lo que
produce un claro sesgo en la relación entre EM y edad cronológica a partir de
la adolescencia. Al seguir creciendo la edad cronológica y lentificarse, si no
detenerse, el crecimiento de la edad mental, a partir de los 12 ó 13 años la EM
se convierte en un índice artificial, que pierde todo su significado original
(Greene, 1941; Sattler, 1974).
Para
evitar este efecto, Stern y otros autores propusieron que debía sustituirse la
edad mental como índice de desarrollo intelectual por un índice alternativo, el
Cociente Intelectual (CI). Así, en la revisión de la escala de Binet-Simon
efectuada por Terman en 1916 en la Universidad de Stanford (conocida como
escala de Stanford-Binet), al igual que en la revisión posterior de 1937,
llevada a cabo por Terman y Merrill, la edad mental fue sustituida por este
nuevo índice general de inteligencia, el CI, que relacionaba edad mental y edad
cronológica mediante una simple división (de ahí su nombre: cociente, que no
“coeficiente”):
Edad Mental
Cociente Intelectual =
————————————————- X 100
Edad
Cronológica
La
teórica ventaja de este nuevo índice era que el CI, al relacionar edad mental y
edad cronológica, aporta un plus de significado con respecto a la EM, al
informarnos directamente sobre la relación entre esta última y la edad real o
edad cronológica del individuo. Este CI era un índice estable en el que un
valor de 100 representa siempre que EM y EC son iguales (por ejemplo, 9/9=1,
1x100=100), cualquier valor inferior a 100 representa una EM menor que la EC
(por ejemplo, una EM=9 años en un individuo de EC=10 años arroja un CI de 90) y
cualquier valor superior a 100 una EM superior a la EC (por ejemplo, una EM=11
años en un sujeto con una EC=10 da un CI=110).
Este
CI, sin embargo, tampoco era un índice exento de problemas, pues, al basarse en
la EM, incurría en el mismo defecto ya señalado para ésta: en el curso del
desarrollo intelectual de un individuo llega un momento en que la EM deja de
crecer, mientras que su EC aumenta al ritmo inexorable de una unidad por año,
de modo que la aplicación de la fórmula original de Terman-Merrill conllevaba
que, inevitablemente, el CI tendiese a decrecer con la edad, a partir de los 14
ó 15 años.
Para
estos sesgos en la EM y el CI tradicionales, una estrategia alternativa ha sido
recurrir a la tipificación estadística de las puntuaciones directas
(observadas) en los tests, utilizando como unidad básica de referencia las
desviaciones típicas, que constituyen una unidad constante de medida.
Éste
fue el método utilizado por Wechsler en sus Escalas de Inteligencia, que
ofrecen como medida global un CI obtenido a partir del cálculo de las
desviaciones típicas de las puntuaciones observadas en las muestras de
normalización, por lo que es conocido como Cociente de Desviación (las
versiones actuales de la vieja EMI también lo utilizan). Al proceder de este
modo, sean cuales sean los datos brutos originales obtenidos al aplicar el
test, su tratamiento estadístico nos ofrece una escala estandarizada,
constante, cuya media se ha situado arbitrariamente en 100 y con una desviación
típica de 15 puntos (16 en la Stanford - Binet).
Este
procedimiento que opera sobre el supuesto de la distribución normal de las
aptitudes otorga a estas medidas de los tests unas características que no
podemos perder de vista.
En
primer lugar, puesto que la tipificación se lleva a cabo a partir de las
puntuaciones observadas en muestras de sujetos diferentes para cada edad, dos
CI de desviación del mismo valor en sujetos de edades diferentes, no son
equivalentes entre sí: al derivarse el primer CI de la tipificación de las
puntuaciones de una muestra y el segundo de la tipificación de las puntuaciones
de otra distinta, uno y otro no tienen nada que ver, realmente, entre sí... Por
el mismo motivo, resulta inadecuado determinar el CI de un sujeto al que se le
aplicó la versión española de un test como la Escala de Inteligencia de Wechsler
para Niños (WISC) utilizando las normas elaboradas a partir de las puntuaciones
de los sujetos de su misma edad en la versión inglesa o francesa.
En
segundo lugar, no podemos perder de vista que la tipificación de las
puntuaciones de un test implica siempre un proceso probabilístico, con un
cierto margen de error, de modo que al obtener un CI de desviación éste se
estima con un margen de confianza determinado. Por tanto, un CI nunca es una
cifra segura, sino una estimación que se mueve en una banda de valores, mayor o
menor en función de que se haya elegido un margen de confianza más o menos
elevado (p<0.05, p<0.01, etc.). Ésta es una cuestión especialmente
importante y delicada en ciertas situaciones de evaluación en las que “mover”
un CI 4 puntos hacia arriba o hacia abajo (es decir, en una banda de 8 puntos)
puede suponer llegar a conclusiones muy diferentes. El caso más evidente son
las definiciones administrativas de Deficiencia Mental basadas en valores
determinados de CI, pero nos referimos también a otros casos, como cuando los
resultados de un test aplicado en dos ocasiones (antes y después de una
intervención) se utilizan como criterio para determinar la eficacia de un
tratamiento, o como cuando se trata de establecer si hay “diferencias
significativas” entre dos medidas de aptitudes diferentes para inferir la
eventual existencia de un determinado perfil aptitudinal “característico” en un
sujeto o grupo de sujetos.
Aunque
hasta ahora nos hemos estado refiriendo, en estos últimos párrafos, a los CI de
desviación, cuanto hemos dicho sobre la tipificación de puntuaciones es
aplicable a aquellos tests de aptitudes que ofrecen los resultados utilizando
otro tipo de índices, como percentiles o decatipos.
Este
tipo de índices, al igual que el cociente de desviación, son el resultado de
una normalización de las puntuaciones observadas en la muestra empleada en la
validación del instrumento de acuerdo con el supuesto de distribución normal,
con la única diferencia de que el autor del test ha optado por presentar las
puntuaciones típicas en forma de una escala ordinal, que indica la posición
relativa del sujeto en relación con la población representada por la muestra de
referencia (ya sean los niños españoles de entre cinco y seis años, los
estudiantes de 6º curso de Enseñanza Primaria, los Técnicos Administrativos de
Grado Medio o cualquier otro colectivo).
3.4.
EL ANÁLISIS FACTORIAL. Entre los procedimientos
empleados para contrastar la validez de contenido al construir un tests de
inteligencia, la estrategia más importante y más profusamente utilizada es, sin
duda, el análisis factorial, un procedimiento matemático cuya finalidad es la
detección y análisis de las intercorrelaciones existentes entre las
puntuaciones procedentes de uno o más instrumentos de medida y que permite
reducir el amplio conjunto de variables observadas a uno bastante más reducido
de variables inobservables, que explican un amplio margen de la varianza
observada de forma más parsimoniosa.
Básicamente,
lo que se hace con este procedimiento es computar todas las correlaciones entre
las puntuaciones observadas en uno o varios tests para descubrir si tales
puntuaciones se agrupan formando conglomerados (factores), de tal modo que
podamos afirmar que las puntuaciones de diversas tareas responden a un mismo
factor y en qué grado están determinadas por éste.
El
análisis factorial, por tanto, nos informa del número de factores que,
potencialmente, explicarían los resultados en un test, pero nos informa también
de (Sattler, 1988: 25):
-
El grado en que los diversos factores hallados explican las correlaciones entre
las pruebas.
-
La comunalidad o cantidad total de variabilidad en las puntuaciones que
explican los factores comunes presentes en ellas.
-
Las cargas factoriales, o peso relativo de cada factor en las puntuaciones de
cada prueba de las que forman el test.
El
análisis factorial, por tanto, no proporciona una interpretación de las
pruebas, sino unos índices del grado en que los resultados en las pruebas
covarían o correlacionan entre sí, siendo el investigador quien debe realizar
esa interpretación en el marco del proceso de validación de constructo al que
antes nos referimos.
Ello
es lo que explica que unos mismos resultados cuantitativos puedan ser “leídos”
de forma diferente por investigadores que parten de marcos teóricos distintos
e, incluso, por investigadores que parten de modelos teóricos parecidos, como
es el caso del análisis factorial de un test de inteligencia que se interpreta,
según el caso, desde la teoría de Cattell o desde el modelo estructural de
Guilford: en ambos casos los datos son los mismos, pero las lecturas de ellos
difieren en mayor o menor grado.
4. LOS CRITERIOS DE CALIDAD EN LA
EVALUACIÓN EDUCATIVA.
Como ya se ha
señalado en reiteradas ocasiones en estas páginas, desde posiciones
interpretativas y etnográficas con respecto a la evaluación se han criticado
fuertemente los criterios de fiabilidad y validez como cualidades que
determinarían el rigor de los procesos de recogida, análisis e interpretación
de datos, dada su naturaleza esencialmente cuantitativa y su (supuesto)
desprecio por el mundo de significados de las personas que participan en las
situaciones evaluadas. Especialmente el concepto de fiabilidad ha sido
criticado en la medida en que, si las situaciones sociales son de naturaleza
cambiante y esa historia afecta a la naturaleza de los datos... ¿cómo se podría replicar un estudio? ¿no
sería la obtención de medidas estables, justamente, un indicador de lo
inadecuado de la evaluación basada en este criterio?
Sin embargo, enfatizar el carácter
subjetivo que, en última instancia, encierra todo proceso evaluador no puede
llevar a admitir que todo (salvo lo cuantitativo) sea aceptable: “La
naturaleza flexible y emergente del diseño y desarrollo de estudios naturalistas
no es causa ni excusa para la ambigüedad y el descuido del control científico
de la evaluación, sino que, por el contrario, estas peculiaridades nos fuerzan
a ser aún más rigurosos, si cabe, en las cuestiones relativas a la selección y
empleo de los métodos adecuados y a los criterios que garanticen y prueben la
credibilidad de nuestros trabajos” (Fernández Sierra y Santos, 1992:147).
Y es que, como cualquier otra forma de
evaluación, la de naturaleza cualitativa se ve afectada por diversas fuentes de
error, procedentes tanto de los propios evaluadores y de sus teorías previas,
como –lo que nos interesa más en este momento- de los informantes y de los
métodos de recogida de datos
En
cuanto a los informantes, la evaluación cualitativa encuentra una de sus
mayores debilidades en lo que también es su mayor fuerza: la naturaleza
esencialmente subjetiva de la información aportada por cada informante,
condicionada porque sólo tiene acceso a una parte de la información relevante y
porque esa información está filtrada por la propia perspectiva personal,
intenciones e intereses, con lo que resulta extremadamente difícil encontrar
datos estables... Salvo que se seleccionen intencionalmente informantes de
características muy similares entre sí, lo que supone una decisión, como
mínimo, arbitraria.
En
cuanto a los métodos de recogida de datos, no puede perderse de vista que cada
uno tiene sus propias limitaciones y sesgos, por lo que sólo la triangulación
de diversos procedimientos usados simultáneamente puede disminuir el riesgo de
interpretaciones sesgadas, especialmente si la unimos a otras estrategias como
la negociación de los resultados obtenidos de las diversas fuentes y
procedimientos, por ejemplo.
En
cualquier caso, esta serie de circunstancias no debería llevarnos a la
conclusión de que la evaluación cualitativa no puede llevarse a cabo con un
mínimo de rigor, sino a aceptar que tiene criterios de control de calidad
propios, diferentes a los de la evaluación cuantitativa. Así, aunque algunos
investigadores de la línea cualitativa han rechazado de plano los criterios
habituales de calidad de origen positivista (Lincoln y Guba, 1985; Erickson,
1989), otros han planteado que la cuestión es que a aquéllos les corresponden
otros alternativos, pero equivalentes (Denzin, 1978; Le Compte y Goetz, 1982;
Goetz y Le Compte, 1988), de modo que:
· Al
concepto de validez externa18 le
correspondería el de transferibilidad
· Al
concepto de validez interna le correspondería el de credibilidad.
· Al
concepto de objetividad le correspondería el de confirmabilidad
· Al concepto de fiabilidad le
correspondería el de dependencia
En
definitiva, para algunos defensores de esta línea, cuando empleamos
procedimientos de evaluación cualitativa no estamos exentos de cumplir con las
cualidades básicas que diferencian a un método científico de otros tipos de
medios de producción de conocimiento (esto es, debemos asegurarnos de que los
datos obtenidos se corresponden con la realidad objeto de estudio), hemos de
asegurar que nuestros datos no reflejan nuestra propia perspectiva en
detrimento de la realidad estudiada y hemos de tratar de asegurar que si fuese
otro el evaluador llegaría a resultados similares.
La
única diferencia es que los criterios y procedimientos para asegurar estas
cualidades no son los mismos, al no ser del todo coincidente los objetivos
perseguidos ni la perspectiva epistemológica:
1.
Cuando hemos hablado hace un momento de la validez de constructo hemos
insistido en la idea de que el problema de fondo es el de la generalizabilidad
de los datos, pero se da la circunstancia de que entre los supuestos de la
evaluación cualitativa ocupa un papel central la idea de que los fenó-menos
sociales son siempre únicos en un sentido profundo, de modo que más que el
carácter más o menos general de los datos lo que se persigue es su transferibilidad,
esto es, se trata más de una cuestión relativa a la utilidad de lo descubierto
que a su eventual universalidad.
2.
En cuanto al concepto de credibilidad, hace referencia a
la consistencia de las descripciones e interpretaciones de la realidad ofrecida
por los evaluadores: ¿Han sido adecuados los métodos para reconstruir y
reflejar la realidad? ¿Se han usado correctamente esos métodos?... El problema, en última instancia es, como
señalan Lincoln y Guba (1985) el “valor de verdad” que pueda tener un estudio
determinado, por lo que proponen como estrategias fundamentales la
triangulación y la comprobación con los participantes:
- La triangulación nos permitirá
observar si diferentes clases de datos nos llevan, o no, a la misma conclusión.
-
La comprobación con los participantes permite que las propias fuentes de datos
enjuicien el grado de proximidad entre conclusiones y realidad, en cuanto
profundos conocedores de esa realidad.
Sin
embargo, algunos autores han puesto objeciones al uso de la triangulación (ver
Rodríguez y otros, 1996) y la comprobación con los participantes tiene un muy
grave inconveniente: posiblemente Galileo hubiese modificado sus conclusiones
si hubiese debido ajustar sus informes sobre el helio-centrismo a la percepción
de la realidad de potenciales jueces “profundos conocedores de la realidad”.
Lo
que sí parece claro, en cualquier caso, es que los métodos empleados en la
evaluación interpretativa para establecer la credibilidad del estudio llevado a
cabo han de ser necesariamente acumulativos (cuantos más indicadores se aporten
-correcta, conveniente y oportunamente usados-, mayores serán la fuerza, vigor
y consistencia de las conclusiones), deben basarse en el contraste y deben
poner especial énfasis en la búsqueda de evidencia negativa, más que positiva,
frente a las hipótesis sostenidas.
3.
En tercer lugar, frente a la preocupación de neutralidad de la investigación
cuantitativa, la etnográfica parte del supuesto de que ese es un atributo
imposible, de modo que lo más coherente sería tomar conciencia de ello y, en
consecuencia, trasladar el peso desde la neutralidad del investigador a la de
los datos, definida como la confirmabilidad de éstos: los datos
deben poder ser ratificados y se debe asegurar, además, que las
interpretaciones se basen efectivamente en ellos.
4.
Finalmente, en cuanto a la cuestión de la fiabilidad, ya hemos señalado que es
uno de los conceptos más criticados desde este enfoque (por ejemplo, Goetz y Le
Compte, 1988) por partir del supuesto de que en los fenómenos sociales no
existe estabilidad, de modo que Lincoln y Guba (1985) proponen recurrir al
concepto de “dependencia”, que implicaría tanto la constatación de los
eventuales cambios en los datos, como la identificación de los factores que
explicarían las variaciones observadas al replicar un estudio.
Siendo
clara la alternativa en el plano conceptual, sin embargo no lo parece tanto en
la práctica, más allá de la idea de que las evaluaciones cualitativas deberían
someterse a metaevaluación y que los metaevaluadores deberían poder establecer
la veracidad del estudio inicial, lo que resulta más bien complicado, costoso y
poco operativo. En una línea más concreta y asumible, estos autores sugieren
como estrategias básicas para establecer la cualidad de dependencia el uso de
métodos múltiples y solapados para observar el mismo fenómeno, el
establecimiento de pistas de revisión (por ejemplo, detallando los
procedimientos seguidos en un diario de campo) o la réplica paso a paso entre
un equipo de investigadores, sin excluir las revisiones de expertos externos al
finalizar el estudio.
REFERENCIAS BIBLIOGRÁFICAS (Se incluyeron en el Tema 1)
No hay comentarios:
Publicar un comentario