Evnetesting i 3000 år.

4. apr.

En evne-test, IQ-test eller kognitiv test (utskjelt barn har mange navn) består av oppgaver som løses med hodet. Blant annet problemløsnings-oppgaver, kunnskaps-spørsmål, oppgaver der en må huske og gjengi informasjon etc.

Her følger noen eksempler på IQ-test-oppgaver:

Hva betyr dominerende?
Hvor er Lima hovedstad?
Finn ut hvilke tall (1, 2, 3) som passer sammen med a, b og c.
Ola gleder seg til…
a) ferien… b) helgen… c) han er ferdig med utdannelsen…
for da skal han
1) til syden med hele familien. 2) begynne å tjene penger. 3) treffe sine klassekammerater fra barneskolen.

4. Én av 8 figurene skal inn i på den tomme delen av arket. Hvilken?

5. Hvor mange av tallene under kan du gjengi etter en gangs gjennomlesning?

3 -6-2-1-9-0-1-6-3-6-8

Vurdering ved representativitet

Resultatet du oppnår på testen, brukes for å si noe om hvordan du klarer deg på enkelte arenaer utenfor testsituasjonen.

IQ-tester brukes særlig for å forutsi akademiske og arbeidsrelaterte prestasjoner for eksempel i klasserommet, på arbeidsplassen eller sammen med andre mennesker.

Målet er altså at vi skal uttale oss om noe annet (hvordan vedkommende fungerer utenfor testrommet) enn det vi observerer (testresultatet). Skåren blir dermed en alternativt informasjonskilde for å vurdere potensialet til den vi har testet.

I dagliglivet bruker vi ofte alternative kriterier når vi mangler informasjon om det vi skal vurdere. Et typisk eksempel er når vi vurderer en persons kompetanse på bakgrunn av hvor selvsikker personen er. En selvsikker person blir gjerne vurdert som mer kompetent enn en lite selvsikker person.

Litteraturen[1] forteller oss til og med at hvis en person er overkonfident (mer selvsikker enn hun eller han har grunn til), har denne personen større sjanse for å bli forfremmet i arbeidslivet.

Interessante lenker.

Pearson Assessment eier Wechslertestene.

Vitenskapelige artikler om evnetesting.

Innføring i evnetesting. Gir en god oversikt over feltet.

Vi bruker altså personens selvsikkerhet som tegn på at han eller hun også mestrer de oppgavene som jobben krever. Slik er det selvsagt ikke alltid. Man ville foretrukket en intelligent og pliktoppfyllende person som ble tryggere etter hvert som vedkommende lærte seg å mestre arbeidsoppgavene.

En persons evne til å mestre fremtidige oppgaver er imidlertid mindre tilgjengelig for observasjon enn personens selvsikkerhet, og dermed blir selvsikkerhet brukt som et «mål» på personens kompetanse. I forskningslitteraturen kalles denne tendensen vurdering ved representativitet. Vi bruker en synlig egenskap (evne til å fremstå som selvsikker) som representasjon på en annen egenskap (for eksempel kompetanse).

Fordommer.

Vi forbinder gjerne denne typen vurderinger med fordommer. Slike fordommer kommer til uttrykk når vi for eksempel lar en persons utseende styre oppfatningen av andre egenskaper hos personen. Det blir for eksempel sagt at pene mennesker får bedre behandling både i helsevesenet, i rettsvesenet og i sosiale sammenhenger. Vi har til og med en tendens til å betrakte pene mennesker som snillere.

Poenget er at vi mennesker konstruerer forklaringer, mening og sammenheng: selv når vi observerer mennesker eller situasjoner som vi ikke kan vite noe om. Vi ønsker rett og slett forutsigbarhet og kontroll. Vi vil vite hvem vi ansetter, og vi ønsker å vite om de vi omgås, er til å stole på.

Denne typen vurderinger er intuitive, ufrivillige og oppstår uten noen form for bevisst refleksjon. Når slike intuitive vurderinger blir til fordommer, kommer de gjerne til uttrykk gjennom negative karakteristikker av andre, gjerne mennesker som kommer fra andre kulturer eller lever etter andre prinsipper enn oss selv. Fordommer kan imidlertid også være positive, eksempel den som sier at alle prester er snille.

Resultatet sammenlignes med en normgruppe.

Evnetesting er også en form for vurdering ved representasjon, men i motsetning til de vurderingene som er generert av fordommer, fungerer testresultatet som et korrektiv til vår intuisjon, fordi det er basert på aggregerte data. Ved hjelp av statistiske metoder, analyserer man testresultater fra en stor normgruppe, og når vi har testet en bestemt person, sammenligner vi denne personens resultat med normgruppen.

Standardisert.

For at man skal unngå at intuisjon og personlige fordommer har for stor plass i tolkningen av resultatet, blir administrasjon og tolkning standardisert. Vi gjør altså en systematisk observasjon av spesifikke ferdigheter (testskårer) for å forutsi prestasjoner på et annet område (for eksempel akademisk progresjon).

At man gjør systematisk observasjon av spesifikke ferdigheter for å forutsi prestasjoner på et annet område, er ikke noe som ble innført med testpsykologien. De fleste samfunn har for eksempel ritualer og manndomsprøver der den som utsettes for prøvelsen, skal vise mot, styrke eller andre egenskaper som er nyttige for å møte tilværelsens utfordringer.

Man kan utfordre noen til å gjøre en farlig handling, og den som tar utfordringen og demonstrerer mot, vil ofte nyte større tillit og få tildelt større ansvar, enn den som vegrer seg. Sannsynligvis har mennesker utsatt hverandre for slike utfordringer i alle samfunn og til alle tider, men det finnes også historiske eksempler på mer sofistikerte tilnærminger til å vurdere ferdigheter, og de tidligste eksempler på noe som minner om evnetester finner vi i Kina.

Ifølge de historiske kildene,[2] brukte kineserne standardiserte tester for opptak av offentlige tjenestemenn allerede for 4000 år siden. Tjenestemennene ble prøvd i riding, lesing, skriving, fekting og regning. Kineserne hadde med andre ord en idé om at det kandidatene presterte på disse testene, kunne si noe om de var egnet for den jobben de skulle gjøre.

Det som er interessant, er at de kinesiske styresmakter må ha hatt en forståelse av at det inntrykket man danner seg av en person, ikke nødvendigvis er representativt for hvordan denne personen egentlig er, og at undersøkelse av ferdigheter krever en mer systematisk tilnærming.

Det er selvsagt tvilsomt om de kinesiske opptaksprøvene kom med standardiserte skårer, standardavvik, gjennomsnitt osv., men kunne testene likevel ha produsert valide skårer?

For at skal vi kunne svare på dette, må vi først ta stilling til om oppgavene er relevante. Riding og fekting kan kanskje ha vært relevant for dem som skulle i strid, men det finnes lite evidens for at disse edle kunstene gjør en god byråkrat.

Ferdigheter på de andre oppgavene, derimot – regning, lesing og skriving – korrelerer med intelligens, og intelligens er det som best predikerer fremgang i arbeidslivet.

Vi kan derfor – hvis vi tillater oss å være litt spekulative – anta at kineserne brukte oppgaver som ga valide skårer når det gjelder om vedkommende var egnet eller ikke.

Vi må imidlertid føye til en annen forutsetning, nemlig at resultatene ble tolket på en korrekt måte. Det betyr at de som leste og skrev bedre enn konkurrentene, faktisk også var flinkere i disse disiplinene. De som skåret høyest på regneoppgavene, måtte ha vært de som var blant de flinkeste til å regne.

Det innebærer at man må ha konstruert oppgaver som skilte de flinke fra de mindre flinke på en systematisk og forutsigbar måte. I så fall kunne man anta at de som skåret høyest, også var de flinkeste, og i praksis kunne testkårene gi nyttige og relevante opplysninger selv om testene ikke var normert, forutsatt at testresultatene rangerte kandidatene på en korrekt måte.

Vi kan altså si at de kinesiske opptaksprøvene kan ha gitt valide (gyldige) vurderingsgrunnlag. Oppgavene var de samme for alle, og dermed kunne man sammenligne kandidater. Noen av oppgavene kunne ha ladet på intelligens, og dermed ville den som skåret høyest, kunne regnes som mer intelligent enn dem som skåret lavest.

Her er det imidlertid mange feilkilder. Test-takerne kan ha hatt ulike forutsetninger, ulik kulturell bakgrunn, ulik grad av eksponering for slike oppgaver, altså ikke tilhørt den potensielt samme norm-gruppen. Vi må også føye til at det er en rekke feilkilder knyttet til bare å prøve noen i regning og skriving. For det første vet vi ikke om kandidater som ikke nådde opp, hadde en svakhet når det kom til regning og skriving, men for øvrig var svært intelligente. Kandidatene kan også ha tilhørt et bestemt sjikt av befolkningen. Hvis alle som søkte denne typen jobber, hadde over 120 i IQ, var kanskje alle intelligente nok, og det ville være mer relevant å undersøke egenskaper som selvdisiplin og evne til samarbeid. Med andre ord: Forsvarlig testing krever både god standardisering og gode normer.

Vitenskapelige forsøk på å utvikle differensial-psykologiske tester kom mange tusen år senere, og det er Darwins fetter, Francis Galton (1822–1911), som regnes som den som først utviklet en evnetest. Galton, som for øvrig har fått IQ-en estimert til 200 (Lewis M. Terman[3]), var den som først utviklet metoder for å studere individuelle forskjeller, og han var blant annet opptatt av intelligens og genenes rolle i en persons intellektuelle utvikling.

Reaksjonstid.

Galtons tester besto først og fremst i å undersøke slike ting som reaksjonstid og evne til å diskriminere sanseinntrykk, og testene viste seg å være et blindspor. Selv om man fant at psykisk utviklingshemmede skåret spesielt lavt på slike tester, kunne ikke enkle undersøkelser av sanseapparatet si noe om intelligens hos mennesker med «normalt» funksjonsnivå. Galtons viktigste bidrag var å vise hvordan individuelle forskjeller kan måles og representeres ved hjelp av standardiserte skårer.

Det var franskmannen Alfred Binet (1857–1911) som først utviklet en intelligenstest med oppgaver av den typen som vi i dag anser for å være egnet for IQ-testing. Binet oppdaget, blant annet gjennom undersøkelser av sine tre døtre, at oppgaver som krevde logisk tenkning, effektivt skilte voksnes prestasjoner fra barns. Han så dette som et tegn på at slike oppgaver målte mental kapasitet, basert på en antakelse av at et barns hjerne var mindre utviklet enn hjernen til en voksen person.

På denne tiden skjedde det også en utvikling innen skolen, og på grunn av økende akademiske krav var det stadig flere barn som ikke klarte å følge vanlig undervisning. Binet fikk i oppdrag av den franske staten å lage en metode for å identifisere disse barna, slik at de kunne få et egnet opplæringstilbud. I 1900 publiserte han en evnetest som besto av 30 oppgaver, og som var prøvd ut på 50 «normale» barn.

Ideen var at man skulle kunne sammenligne test-takeren med normal-populasjonen. Testen fikk stor fremgang, og 1908 ble den revidert, denne gangen med en norm-gruppe på 300, som besto av både normale og «forsinkede» barn. De normerte skårene gjorde det mulig å beskrive barnets mentale alder. Dette var en ny måte å betrakte intelligens på, og den ble utgangspunkt for IQ-begrepet.

IQ-begrepet

Den tyske psykologen William Stern (1871–1938) foreslo man knne få en kvotient som kunne representere barnets intelligens, ved å dele barnets kronologiske alder på dets mentale alder (den aldersgruppen som hadde et gjennomsnitt tilsvarende barnets skår). Hvis barnet var syv år, men hadde samme skår som en gjennomsnittlig femåring, fikk det en intelligenskvotient på 0,71 (5 : 7). For at skalaen skulle bli mer anvendelig, ble denne kvotienten multiplisert med 100, slik at en sjuåring med mental alder på fem år, fikk en IQ på 71 (5 : 7 · 100).

I dag bruker vi testskårens avstand fra gjennomsnittet i stedet for alderstypiske skårer når vi skal beregne IQ. Det var David Wechsler som introduserte denne tilnærmingen. I stedet for å bruke mentalalder som utgangspunkt for IQ-skårene, ble standardavviket rådende måten å beskrive intelligensskåren på. I Wechsler-testene ble ett standardavvik satt til å være 15 IQ-poeng (Stanford–Binet-testen hadde for øvrig 16 poeng som ett standardavvik), for at skårene skulle minne om dem som man fikk med den gamle metoden. Det er imidlertid viktig på presisere at et standardavvik ikke er det samme som en aldersskår, og vi kan for eksempel ikke si at en person som skårer to standardavvik under gjennomsnitt, «ligger to år etter».

Binet-testen i USA

Alfred Binet fikk stor oppmerksomhet blant amerikanske psykologer, der savnet av gode metoder for å diagnostisere svaktfungerende var stort, og i 1916 ble testen publisert i USA av psykologen Henry Hebert Goddard (1866–1957). Binet-testen ble straks en suksess, særlig i skolen, selv om det (den gang som nå), var mye debatt og forvirring om hvordan skårene skulle tolkes, og ikke minst hvordan de skulle kategoriseres. Blant annet fikk man eksempler på samfunnstopper som tok testen og endte opp i kategorien åndssvake.

Binet-testen fikk i 1916 betegnelsen Stanford–Binet, da Lewis Terman, ved Stanford-universitet, publiserte en revidert versjon. Testen bidro til at den anvendte psykologien fikk stor fremgang, særlig innenfor forsvaret.

Testing av soldater

Blant de militære hadde man lenge antatt at intelligens var et viktig kriterium for å plassere mannskaper, og med utgangspunkt i Standford–Binet-testen utviklet psykologen Robert M. Yerkes (1876–1956) de to evnetestene Army Alpha (skriftlig) og Army Beta (basert på bildemateriale). Soldatene ble klassifisert på en skala fra A (mulig offiser) til E (ikke egnet for tjeneste). Testen ble standardisert på 1,7 millioner soldater, det største normeringsutvalg noensinne, men resultatene ble ikke helt som forventet. Gjennomsnittsskåren var nemlig 70, noe som vakte stor oppstandelse, og det oppsto en debatt under overskriften «Is America Feeble-minded?». Etter hvert oppdaget man imidlertid at normene ikke var gode nok, og til slutt fikk også amerikanerne en gjennomsnittlig IQ på 100.

Begrenset klinisk nytteverdi

Stanford–Binet testen var på 1920–1930- og 1940-tallet den overlegent mest brukte evnetesten i USA. Testen hadde imidlertid en stor begrensning når det kom til dens kliniske nytteverdi. Testresultatet ble nemlig bare representert ved en enkelt IQ-skår, og dette ga – etter manges mening – mangelfull informasjon om hvordan testtakeren fungerte.

David Wechsler

En av dem som ikke var helt fornøyd med testen, var David Wechsler (1896–1981), som blant annet hadde arbeidet med å teste soldater under første verdenskrig. På 1930-tallet begynte han å prøve ut alternative måter å teste på, blant annet ved å inkludere flere ikke-verbale oppgaver og ved å beregne både verbale og ikke-verbale skårer. Det var imidlertid få som så poenget med å vurdere verbale og ikke-verbale evner hver for seg, og da han hadde en versjon klar til standardisering, var det ingen forlag som var villige til å publisere den.

Wechsler lot seg imidlertid ikke stoppe, og han gikk igang med å standardisere testen på egen hånd. I 1939, mens han arbeidet på Bellevue Hospital i New York, publiserte han Wechsler–Bellevue, den første av Wechsler-testene.

På tross av skepsisen han hadde møtt blant kolleger, fikk den nye testen raskt gehør blant klinikere, som satte pris på den utvidede modellen. I tillegg til å måle verbale og ikke-verbale evner hver for seg ga testen mulighet for profilanalyser basert på deltestskårer. Etter hvert gikk the Psychological Corporation med på å gi ut de neste versjonene av testen, og Wechsler Intelligence Scale for Children (WISC) ble publisert i 1949. I 1955 kom det en versjon for voksne: Wechsler Adult Intelligence Scale (WAIS), mens Wechsler Primary and Preschool Scale of Intelligence (WPPSI) ble publisert i 1967. På 1960-tallet ble Wechsler-testene de mest brukte instrumentene for psykologisk testing, mye på grunn av interessen for å sammenligne ulike evnefunksjoner og ikke minst den stadig økende mengden litteratur som ble publisert rundt ulike profilanalyser.

Siden den gangen har Wechsler-testene vært under kontinuerlig revidering og utvikling, og i dag kommer det en ny skala (WPPSI, WISC eller WAIS) hvert fjerde år, slik at det er tolvs år mellom hver gang det kommer en ny WISC, WAIS eller WPPSI. De ulike variantene egentlig er tre utgaver av samme test, og de legger føringer på hverandres utvikling, slik at for eksempel WISC-V bygger på WAIS-III, WAIS-IV bygger på WISC-IV, osv.

[1] Cutler, B.L. (1989). Self-monitoring and the association between confidence and accuracy. Journal of Research in Personality, 4, s. 410–420.

[2] Thorndike, R.M. (1990). A century of ability testing. Chicago: Riverside.

[3] Terman begrunner dette tallet med at Galton som fireåring hadde evner tilsvarende en åtteåring, og basert på datidens utregning ville dette gi en IQ som var dobbelt så høy som gjennomsnittet. Det finnes mange kuriøse forsøk på å estimere kjente personers IQ, uten at man har tilgang til testresultater. George Bush jr. har fått sin IQ estimert til 82 (!), mens Bill Clintons skal ha en IQ på over 160 (Simonton, D.K. (2009). The «other IQ»: Historiometric assessments of intelligence and related constructs. Review of General Psychology, 13, s. 315–326).

Dag Øyvind Engen Nilsen https://www.psychol.net

Evnetesting i 3000 år.

Vurdering ved representativitet

Interessante lenker.

Fordommer.

Resultatet sammenlignes med en normgruppe.

Standardisert.

Reaksjonstid.

IQ-begrepet

PSYCHOL.net

MMPI-2.

Evnetesting i 3000 år.

Vurdering ved representativitet

Interessante lenker.

Fordommer.

Resultatet sammenlignes med en normgruppe.

Standardisert.

Reaksjonstid.

IQ-begrepet

Hva måler Wisc-V?

Wisc-III og normer.

PSYCHOL.net

MMPI-2.