Psykometriske tester.
Selv om IQ-testen har et frynsete rykte, er testpsykologien på fremmarsj. Spør du en psykolog om hva som er fagets største vitenskapelige bidrag, er det stor sjanse for at svaret blir “IQ-testing” eller “Bedømmelse- og beslutningspsykologi”, slik den amerikanske psykologen Steven Pinker svarte da han fikk spørsmålet.
Intelligenstesten ble introdusert i Paris i 1900, og var en diagnostisk metode for barn med lærevansker. Mannen bak testen het Alfred Binet, og Stanford-Binet-testen bærer fortsatt hans navn. I 1912 introduserte den tyske psykologen William Stern introduserte Intelligenskvotient (IQ) som et mål på intelligens.
Intelligenstesten er en av de mest brukte metodene for å vurdere en persons muligheter både i skolen, arbeid- slivet og i militæret. I USA tar man f.eks. ikke inn rekrutter som har IQ på 85 eller lavere. Begrunnelsen er at lav IQ indikerer høye opplæringskostnader. Da er det kanskje ikke så rart at mange er skeptiske til slik testing. Hvordan kan resultatet på en test si noe om din evne til å mestre soldatlivets mange utfordringer? Kritikerne har alltid vært mange, og mye av kritikken peker på at det er svært mange andre egenskaper som må til for å lykkes. Vurderingsevne, klokskap, utholdenhet, selvdisiplin og evne til å kommunisere er egenskaper som ikke nødvendigvis er tilstede hos den med høy IQ. Du kjenner kanskje noen som er smartere, men samtidig mer misfornøyd enn deg selv? Hvis du googler “smartest person in the world” får du opp mange historier om genier som det aldri ble noe av. Dermed kan vi slå fast at høy IQ ikke er nok for å lykkes, så hvorfor alt dette maset?
Denne anbefalingen blir gjerne begrunnet med at «testen er mer valid enn det du selv er». Det betyr at person-lighetstesten er mer treffsikker en vår egen vurdering, som gjerne sier mer om oss selv, enn om jobbsøkeren. Vi foretrekker gjerne den kandidaten som er mest lik oss selv. Testen har ingen slike preferanser.
Ydmykhet i forhold til egen vurderingsevne er bra, men vi kan ikke overlate kandidatvurderingen til en personlighetstest. Personlighetstesten presenterer kandidatens resultat på ulike skalaer, men det er vi som vurderer hva disse måler. La oss si at bestemmer oss får å bruke en personlighetstest som blant annet inneholder en skala som kalles «Samarbeidsevne». Dette er en av de egenskapene vi er ute etter hos den som skal ansettes.
Problemet er at det kan være gjort mange studier som finner valide skårer for de ulike personlighetstrekkene, men det betyr ikke at testen er validert for vårt formål. Hvis vi ikke er nøye med å undersøke hvilke betingelser skårene gir god validitet, er det stor sjanse for at vi gir testen mer tillit enn vi bør. Når en skala presenterer mål på Samarbeidsevne, så må vi undersøke kriterievaliditeten. Samarbeidsevne er en egenskap som ikke kan måles på en personlighetstest. Sannsynligvis inneholder denne skalaen skårene fra mer spesifikke egenskaper, f.eks. personlighetstrekkene utadvendthet, vennlighet og sosial trygghet.
Hvis skåren på samarbeidsevne er en summering av disse tre personlighetstrekkene, så er ikke denne skåren et mål på Samarbeidsevne, men en tolkning av skåren på de tre trekkene vi har målt. Selv om testskårene er valide mål på kandidatens grad av utadvendthet, vennlighet og sosiale trygghet, vet vi ikke noe om skalaen samarbeidsevne. Denne skalaen må valideres for seg, og det kan være en krevende jobb.
Det første du bør undersøke, er hvordan er skalaen er konstruert. Hvis den f.eks. er en summe-ring av de tre underliggende trekkene, risikerer vi at skåren på samarbeidsevne gir samme skår til personer som har ulike besvarelser. En skårer høyt på Utadvendt og lavt på Vennlighet, en annen skårer høyt på Vennlighet og lavt på Utadvendt. De to personene skårer likt på samar-beidsevne, men er de like gode til å samarbeide? Det er lite sannsynlig.
Testvaliditet handler ikke om testen, men tolkningen. Hvis skårene tolkes som kriterier for en bestemt egenskap, så må testleverandøren dokumentere kriterievaliditet, sammenheng mellom testskår og kriterium (f.eks. sam-arbeidsevne). I noen tilfeller kan kriterievaliditeten ved å henvise til forskning på sammenhengen mellom testskår og jobbprestasjon. Skåren på «planmessighet/ integritet/ ordentlighet» blir regnet for å ha kriterievalidtet i forhold til mange ulike jobber, fordi det finnes en stor forskningslitteratur som dokumenterer sammenhengen.
Sammenhengen mellom personlighet og kompetanse blir imidlertid sjelden dokumentert. En kompetanse kan ikke deles opp i avgrensede egenskaper. To personer kan ha høy kompetanse på samme område, og samtidig skåre ulikt på alle personlighetestrekkene. En skala som oppgir mål på spesifikke ferdigheter eller kompetanser, reflekterer som regel hva man ønsker å måle, og ikke hva testen faktisk måler.
Kriterievaliditet handler om kvaliteten på tolkningen av testresultatene. så er reliabiliteten (om testen er til å stole på) en egenskap ved testen. Vi kan ikke vurdere kriterievaliditeten med mindre testen har høy retest-reliabilitet. Hvis du tester en stabil egenskap, så må du forvente at testen gir samme resultat, hver gang du tester denne egenskapen. Uten dokumentasjon på re-test-reliabilitet og kriterievaliditet gir det lite mening å bruke personlighetstester som måler kompetanse. Utfordringen med å lage tester som måler en bestemt kompetanse, er at reliabiliteten går på bekostning av validiteten.
Reliabilitet er en forutsetning for validitet, og testen konstrueres slik at skåren på en bestemt skala skal være den samme uavhengig av når man tar testen. Dette krever at hver skala inneholder så mange ledd, at skåren ikke påvirkes av «feilsvar». I tillegg må man avgrense innholdet i testleddene slik at man hva som gir høye og lave skårer på en bestemt skala. Egenskapene som måles på skalaen må være formulert på en entydig og lettforståelig måte, slik at vi er enige om hva det er vi måler.
Kravet til reliabilitet legger altså føringer på testens innhold, noe som begrenser bredden på egenskapen vi måler. En fullstendig beskrivelse av personlighet blir mest meningsfull hvis den inneholder informasjon om personens tanker (synspunkter, vurderinger, preferanser), følelser (motivasjon, interesser, energinivå) og handlinger (hvordan reagerer personen, hvordan oppfø-rer han eller hun seg under stress, hvordan er gjennomføringsevnen når oppgaven er kjedelig, kan vedkommende motstå fristelser).
Personlighetstesten måler ikke handling eller følelse, persons vurdering av seg selv. Testsituasjonen krever ingen annen kompetanse enn at vi kan lese og forstå spørsmålene testen stiller. Vår antakelse om at selvbeskrivelsen gjenspeiler prestasjon utenfor testsituasjonen, har størst gyldighet så lenge beskrivelsen er uavhengig av kontekst. Vi kan forvente at den som beskriver seg som utadvendt, er mer utadvendt enn noen som beskriver seg som innadvendt. Men hva denne tendensen kan si om personens atferd i en bestemt situasjon, vet vi lite om.
Testskårene har høyest validitet vi beskriver tendenser, og lavest når vi beskriver fremtidig atferd. Dette poenget er åpenbart. En tendens er lettere å predikere, fordi den har større feilmargin, enn en bestemt hendelse.
De utfordringene vi møter utenfor testsituasjonene, kan kreve helt andre egenskaper en de tendensene som reflekteres i personlighetstesten. Vi kan anta at samarbeidsevne gjenspeiles i enkelte personlighetstrekk, er det absurd å anta at høye skårer på disse trekkene predikerer samarbeids-evne i en bestemt kontekst, f.eks. på en bestemt arbeidsplass. Et samarbeid kan utfordre oss på ulike måte i to ulike situasjoner.
Avveiningen står altså mellom å gjøre beskrivelsen konkret og eller å gjøre den pålitelig. Studier har undersøkt om man øker den prediktive validiteten ved å måle flere trekk eller egenskaper. Resultatene fra slike studier gir ikke indikasjon om at den prediktive validiteten går opp med flere mål. Dette kan skyldes at de smale målene predikerer smale kriterier. Brede kriterier krever brede mål. Dette poenget er nevnt av den amerikanske test-utvikleren Robert Hogan. I følge Hogan er ikke denne avveiningen et problem, dersom målene genereres ut fra kriteriene, og ikke ut fra trekk. Problemet er at én metode kan ikke beskrive komplekse fenomener som jobbprestasjon, samtidig som den er informativ og presis.
Hvis vi ser testen og den som vurderer som to ulike kilder, kan vi si at de to har ulike feilkilder. Den som vurderer, kan fange opp informasjon som er uventet eller uvanlig, mens det som er innenfor normaliteten har en ten-dens til å bli påvirket av feilkilder. Testen fanger bare opp det som er definert på forhånd, men er upåvirket av følelser, og kan gi oss mer nøyaktig informasjon. om hvordan man skårer i forhold til andre mennesker.