|
Uma avaliação
só é válida se medir exactamente o
que é suposto medir. Se um teste ou
um inquérito forem administrados a
pessoas satisfeitas, os resultados
deverão mostrar que estão satisfeitas.
Similarmente, se um grupo de pessoas
inteligentes for testado, os resultados
de teste deverão revelar que são inteligentes.
As boas avaliações
são fiáveis e válidas
Se uma avaliação
for válida, reflecte a ocupação de
quem executa a avaliação, estando
o conteúdo alinhado com as tarefas
dessa mesma ocupação, aos olhos dos
especialistas naquela ocupação. Este
tipo de validação é conhecido como
validação de conteúdo. A fim de assegurar
esta validação, os responsáveis pela
avaliação devem, em primeiro lugar,
empreender um trabalho de análise
que permita distinguir quais as tarefas
que são requeridas para um trabalho
em particular. Esta análise é realizada
por peritos na matéria (SMEs - Subject
Matter Experts), ou pessoas do próprio
posto de trabalho, para determinar
que conhecimentos e competências são
necessários para executar as tarefas
descritas. A partir dessa informação
torna-se possível produzir um teste
válido.
Para que um teste
seja válido, tem que ser fiável. No
entanto, um teste pode ser fiável
e não ser válido. Um exemplo ilustra
como a fiabilidade e a validade de
uma avaliação estão relacionadas.
Se facultássemos um teste de vocabulário
duas vezes a um grupo das enfermeiras,
e as pontuações apresentassem os mesmos
valores em ambas as vezes, o teste
seria considerado como altamente fiável.
No entanto, apenas o facto de os resultados
do teste serem fiáveis não significa
que o teste meça competências de enfermagem.
O teste é fiável,
mas é inválido como medida de competências
de enfermagem. É meramente uma medida
consistente de vocabulário. Imagine
agora que é administrado duas vezes
um teste de competências de enfermagem
a um grupo de enfermeiras competentes
e incompetentes e que os resultados
são diferentes de cada vez que se
aplica o teste. O teste claramente
não é fiável. E se não é fiável, não
pode ser válido. Resultados oscilantes
para os mesmos participantes no teste
não estão a medir nada em particular.
Assim, o teste não é fiável nem válido.
O teste seria
fiável e válido se obtivesse resultados
similares quando entregue sempre ao
mesmo grupo de elementos do teste
e fornecendo sempre resultados que
permitissem distinguir as enfermeiras
competentes das incompetentes. É consistente
e mede o que é suposto medir.

(Clique na imagem para a visualizar
em tamanho maior)
Um outro exemplo
mais visual do relacionamento entre
a fiabilidade e a validade é apresentado
acima pelos alvos de dardos. O alvo
apresentado na figura um mostra que
todos os dardos estão na mesma área,
ilustrando que o atirador - o análogo
da avaliação - é fiável e consistente,
mas infelizmente os seus lançamentos
não são válidos. Se seus lançamentos
fossem válidos, todos os dardos estariam
no centro. Na figura dois os dardos
acertaram em várias áreas do alvo.
Esta avaliação não é fiável porque
não é consistente. Finalmente, o último
exemplo é o de uma avaliação que é
fiável e válida, porque todas os resultados
estão aglomerados e alinhados com
o objectivo. Observe que a fiabilidade
é possível sem validade, mas que a
validade é impossível sem a fiabilidade.
nterpretações
dos resultados da avaliação
Quando alguém
faz exame de avaliação, é importante
compreender as implicações que os
resultados dessa avaliação podem ter,
particularmente quando a aprovação
ou a reprovação fazem uma grande diferença
nas suas vidas. Existem duas formas
de pontuar uma avaliação sendo estas
denominadas como Referenciadas a Critérios
ou Referenciadas a Normas.
Com uma interpretação
de resultados baseada em critérios
de referência, os criadores de testes
estabeleceram um padrão para determinar
os níveis de aprovação/reprovação.
Se alguém passar este tipo de teste,
é determinado que está qualificado,
quer se trate de um cirurgião ou de
um canalizador - isto independentemente
das competências profissionais que
são medidas no teste.

Curva dominante característica de
um teste referenciado a critérios.
(Clique na imagem para a visualizar
em tamanho maior)
Esta curva mostra
o número de pessoas que realizaram
uma avaliação e as pontuações obtidas.
A escala do eixo X representa as pontuações
no teste, de 0 a 100, enquanto o eixo
dos Y (do lado esquerdo), representa
o número de pessoas que conseguiram
atingir determinada pontuação. A pontuação
do limite "aprovação/reprovação" foi
determinada por volta dos 70 por cento,
e foi provavelmente definida pelos
especialistas na matéria que determinaram
a competência requerida para passar
o exame.
Com uma interpretação
de resultados baseada em critérios,
mais ou menos pessoas se qualificarão
de exame para exame, uma vez que de
cada vez que o exame for aplicado,
existirão candidatos com mais ou menos
conhecimento. No entanto, o que é
importante é que foi estabelecido
um benchmark dos padrões requeridos
para um trabalho em particular. Por
exemplo, um teste de condução utiliza
uma interpretação de resultados baseada
em critérios, uma vez que foi determinado
um nível do conhecimento e de competências
para se ser aprovado ou reprovado
num teste de condução.
Um teste referenciado
a normas, por outro lado, compara
os resultados de um grupo de examinandos
versus os resultados de outros examinandos.
Frequentemente, os resultados obtidos
por um grupo de utilizadores identificados
numa população alvo, ou seja, as referidas
normas, são publicados para estes
testes. Os testes referenciados a
normas são utilizados para tomar "decisões
de selecção".
Por exemplo, um
exame de entrada na faculdade pode
ser projectado para seleccionar candidatos
para 100 vagas disponíveis numa faculdade.
Os responsáveis pelas decisões da
faculdade recorrem às pontuações do
teste final e seleccionam os 100 melhores
elementos daqueles que fizeram o exame
do teste para preencher aquelas vagas.
Em certos anos serão seleccionados
grupos de estudantes de maior qualidade,
noutros anos poderão ser seleccionados
grupos de uma qualidade mais baixa.
O ponto chave, no entanto, é que através
do teste se fará a separação das pontuações
dos examinandos, de modo que os 100
melhores desempenhos sejam prontamente
identificáveis.

Curva típica para um teste referenciado
a normas.
(Clique na imagem para a visualizar
em tamanho maior)
Porque são estas
referências importantes? Se uma cidade
decidisse delegar a um arquitecto
o projecto de um edifício, a comissão
de planeamento gostaria de se certificar
de que o arquitecto tinha passado
num teste critério-referenciado. Não
quereriam delegar um grande projecto
a alguém baseados no facto de que
esse arquitecto tinha sido um dos
melhores da classe de 1977. Por outro
lado, um teste referenciado a normas
poderia seleccionar os 10 melhores
fornecedores ou os melhores estudantes
do ano.
Enquanto consumidores,
sentimo-nos seguros e confiantes sabendo
que nossos médicos, enfermeiros e
farmacêuticos passaram num exame da
certificação que determina que são
competentes e que têm o conhecimento
e o perfil requeridos para seu trabalho.
Seria desconcertante saber que o seu
médico foi formado ou é graduado por
uma universidade desconhecida que
certifica sempre os 50 melhores estudantes,
independentemente das suas capacidades.
Avaliações
temporizadas versus avaliações rápidas
A maioria de
testes têm um tempo limite, mas estudos
realizados demonstram que 95 por cento
dos estudantes terminam normalmente
o exame dentro do tempo limite, demonstrando
portanto que este limite está ajustado
à realidade. No entanto, há testes
que têm que ser feitos rapidamente,
porque a velocidade é uma parte importante
do desempenho no local de trabalho.
Por exemplo, um
teste para um técnico de uma central
de um reactor nuclear fornece um bom
estudo de caso. Um item de um teste
poderia simular uma situação de perigo,
fazendo soar alarmes e apresentando
sinais gráficos nos painéis de controlo.
Esta situação obriga a uma reacção
por parte da pessoa, para que aja
dentro de um tempo limite. A situação
requer acção imediata e não há margem
para consulta a manuais a fim de determinar
a melhor forma de agir. A pessoa tem
que saber qual a acção a realizar
e efectuá-la dentro do tempo limite.
Este é considerado um teste de rapidez,
porque o tempo de reacção do examinando
é a chave do seu trabalho real e deve,
por conseguinte, ser medido para manter
a validade do teste.
Baseado num texto intitulado "Assessments
Through the Learning Process", publicado
pela Questionmark no site http://www.questionmark.com/
catalog/uk/resources/ Assessments%20Through%20the%20Learning%20ProcessA4.pdf.
Adaptado por Paulo Pinto, consultor
na unidade estratégica de negócio
e-Learning da Sinfic
|