Den primære fordelen med norm-referansetester er at de kan gi informasjon om hvordan individets ytelse på testen sammenlignes med andre i referansegruppen.
En alvorlig begrensning av normreferansetester er at referansegruppen kanskje ikke representerer den nåværende befolkningen av interesse. Som bemerket av Oregon Research Institute «International Personality Item Pool», bør man være veldig forsiktig med å bruke hermetisert normer «fordi det ikke er åpenbart at man noen gang kan finne en populasjon som det nåværende utvalget er en representativ delmengde av. De fleste» normer «er misvisende, og derfor bør de ikke brukes. Mye mer forsvarlig er lokale normer, som man utvikler seg selv. For eksempel, hvis man ønsker å gi tilbakemelding til medlemmer av en klasse av studenter, bør man relatere poengsummen til hver enkelt person til middel og standardavvik fra selve klassen. For å maksimere informativitet, kan man gi studentene med frekvensen cy-distribusjon for hver skala, basert på disse lokale normene, og individene kan da finne (og sirkle) sine egne score på disse relevante distribusjonene. »
Normreferanse sikrer ikke at en test er gyldig (dvs. at den måler konstruksjonen den er ment å måle).
En annen ulempe med normhenviste tester er at de ikke kan måle fremdriften for befolkningen som helhet, bare der enkeltpersoner faller innenfor helheten. Snarere må man måle seg mot et fast mål, for eksempel å måle suksessen til et pedagogisk reformprogram som søker å heve prestasjonen til alle studenter.
Med en norm-referert test var klassetrinn tradisjonelt satt til nivået som er satt av de midterste 50 prosent av poengene. Derimot mener National Childrens Reading Foundation at det er viktig å sikre at praktisk talt alle barn leser på eller over klassetrinn etter tredje klasse, et mål som ikke kan oppnås med en norm-referert definisjon av klassetrinn.
Normer innebærer ikke automatisk en standard. En norm-referert test søker ikke å håndheve forventning om hva testtakere bør vite eller være i stand til å gjøre. Den måler testtakernes nåværende nivå ved å sammenligne testtakerne med sine jevnaldrende. Et rangbasert system produserer bare data som forteller hvilke studenter som presterer på et gjennomsnittlig nivå, hvilke studenter som gjør det bedre og hvilke studenter som gjør det dårligere. Den identifiserer ikke hvilke testtakere som er i stand til å utføre oppgavene riktig på et nivå som vil være akseptabelt for ansettelse eller videreutdanning.
Det endelige målet med graderingskurver er å minimere eller eliminere påvirkningen av variasjon mellom forskjellige instruktører på samme kurs, og sørger for at studentene i en gitt klasse blir vurdert i forhold til sine jevnaldrende. Dette omgår også problemer knyttet til bruk av flere versjoner av en bestemt undersøkelse, en metode som ofte brukes der testadministrasjonsdatoer varierer mellom klasseseksjoner. Uansett forskjell i vanskelighetsgrad, reell eller oppfattet, sikrer karakterkurven en balansert fordeling av faglige resultater.
Imidlertid kan kurvet gradering øke konkurranseevnen mellom studentene og påvirke deres følelse av fakultetets rettferdighet i en klasse. Studentene er generelt mest opprørte i tilfelle at kurven senket karakteren sammenlignet med hva de ville ha fått hvis en kurve ikke ble brukt. For å sikre at dette ikke skjer, legger lærerne vanligvis anstrengelser for å sikre at selve testen er vanskelig nok når de har tenkt å bruke en karakterkurve, slik at de forventer at den gjennomsnittlige studenten får en lavere rå score enn poengsummen brukes til gjennomsnittet i kurven, og dermed sikre at alle studenter drar nytte av kurven. Dermed kan ikke buede karakterer brukes blindt og må vurderes nøye og vurderes i forhold til alternativer som kriterier referert karakter. Videre kan konstant misbruk av buet karakterering justere karakterer på dårlig utformede tester, mens vurderinger bør utformes for å gjenspeile nøyaktig læringsmålene som instruktøren har satt.