Etternavnslister for å identifisere sør-asiatisk og kinesisk etnisitet fra sekundære data i Ontario, Canada: en valideringsstudie BMC Medical Research Methodology

Utvikling av etternavnslistene

Å utvikle Sør Asiatisk etternavneliste, vi startet med den tidligere utviklede kanadiske listen over sørasiatiske etternavn utviklet ved hjelp av dødsattestdata. Vi la til etternavn som ble funnet i telefonkataloger i samfunnet og i et leksikon med etternavn publisert av den indiske regjeringen. Hvert navn ble deretter gjennomgått av minst to forskere med sør-asiatisk opprinnelse. Etternavn ble ekskludert hvis de ikke føltes å være unikt sørasiatiske (dvs. hvis etternavnet var vanlig også i andre befolkninger, samfunn eller etniske grupper). Hvis det var uenighet mellom forskerne om å utelukke et etternavn eller ikke, ble det gjennomgått av et panel på fem forskere med sør-asiatisk opprinnelse til enighet om enighet ble nådd. Den endelige listen inkluderte alle etternavn som man etter konsensus antok var unikt sørasiatiske.

Selv om en omfattende liste over kinesiske etternavn tidligere er publisert og validert, bemerket vi at denne listen inneholdt noen navn som var ikke unikt kinesisk (f.eks. Diep, Jain, Kang og Sen). Som sådan var vi bekymret for den positive prediktive verdien av å identifisere kohorter av pasienter med kinesisk opprinnelse ved hjelp av denne listen. Derfor gjentok vi en lignende konsensusprosess for etternavnene fra den listen, for å lage en endelig liste over etternavn som etter konsensus antas å være unikt kinesiske.

Administrative datakilder

The Institute for Clinical Evaluative Sciences (ICES) er en forskningsorganisasjon for helsetjenester som delvis er finansiert av Ontario Ministry of Health and Long-Term Care (MOH) for å gjennomføre analyser av provinsielle helsevesenets administrative databaser for politikkrelevant og vitenskapelig forskning. En av disse administrative datakildene er den registrerte persondatabasen (RPDB), som er et register over tildelte helsekortnumre for alle nåværende og tidligere innbyggere i provinsen Ontario (nåværende befolkning = 13 millioner). Den nominelle filen mottatt fra MOH inkluderer pasientens etternavn. I datadelingsavtalen mellom MOH og ICES har bare tre navngitte personer tilgang til denne nominelle filen. De anonymiserer den før den ble utgitt for generell analytisk bruk ved å fjerne navnene og ved å kryptere helsekortnumrene. Fordi denne krypteringen bruker en reproduserbar algoritme som er felles for alle de administrative datakildene, kan enkeltpersoner kobles mellom databaser via dette unike krypterte nummeret.

Etternavnelistene ble brukt på det nominelle RPDB-fil for å opprette en etnisk identifikasjonsfil. Alle innbyggere i Ontario som hadde etternavn på den sørasiatiske listen, ble tildelt sør-asiatisk etnisitet; alle innbyggere med etternavn på den kinesiske listen ble tildelt kinesisk etnisitet; alle andre ble tildelt den generelle befolkningen Den endelige etternavnet-avledede etniske identifikasjonsfilen inkluderte både det krypterte helsekortnummeret og etnisitetsoppdraget for alle Onta innbyggere i Rio. (Se figur 1.)

Validering

Vi validerte etternavnslistene mot egenrapportert etnisitet fra Canadian Community Health Survey (CCHS). CCHS er en tilbakevendende tverrsnittsnasjonal telefonundersøkelse utført av Statistics Canada, rettet mot husholdningsboere på 12 år eller eldre, unntatt de som bor på indiske reserver, kanadiske styrker, institusjoner og noen avsidesliggende områder. Før 2007 opererte undersøkelsen en to-årig innsamlingssyklus, med det første året som undersøkte generell befolkningshelse i et stort utvalg, og det andre året fokuserte på spesifikke helseemner i et mindre utvalg. Hver respondent i hver undersøkelse tildeles en vekt på personnivå, slik at vekten tilsvarer antall personer i hele befolkningen som er representert av respondenten, og summen av alle vekter i ett års undersøkelse tilsvarer befolkningen i Canada. Tre prøvetakingsrammer brukes til undersøkelsen, og den endelige vekten som tildeles en person integreres fra vektene uavhengig tilordnet fra hver prøvetakingsramme. Vekter er også kalibrert for å ta hensyn til andre potensielle skjevheter, inkludert manglende respons og oversampling av husholdninger bruk av vekter i analyser av disse dataene er nødvendig for å sikre at funn er representative for befolkningen, og ikke bare for undersøkelsesutvalget.Selv om etnisitet ikke er spesifikt inkludert i avledningen av respondentenes vekter, velges deltakerne tilfeldig fra befolkningen, så det er ingen grunn til å mistenke at vektingene systematisk ville under- eller overrepresentere enhver etnisk gruppe, spesielt siden undersøkelsen er administreres på over 20 språk. CCHS-datasettet inkluderer ikke respondentenes etternavn, men respondentene ga tillatelse til å ha sine undersøkelsessvar knyttet til helseadministrative datakilder via helsekortnummeret. Dette ble anonymisert ved hjelp av den vanlige krypteringsalgoritmen ved ICES, slik at CCHS-dataene kan kobles til de andre administrative datakildene, inkludert RPDB.

Gullstandarden var egenrapportert etnisitet fra CCHS. To CCHS-spørsmål, som rutinemessig ble samlet inn som en del av respondentens demografiske profil, ble brukt. Disse var «Til hvilke etniske grupper tilhørte dine forfedre?» og «Mennesker som bor i Canada kommer fra mange forskjellige kulturelle og rasemessige bakgrunner. Er du …?» Flere svar var tillatt for hvert spørsmål. De respondentene som hadde et enkelt svar fra «sør-asiatisk» på begge spørsmålene, ble tildelt sør-asiatisk etnisitet; de som hadde et eneste svar på «kinesisk» på begge spørsmålene, ble tildelt kinesisk etnisitet; og alle andre ble tildelt den generelle befolkningen.

Vi studerte alle voksne respondenter til noen av 2001, 2002 eller 2003 syklusene i CCHS. For hver respondent ble gullstandarden etnisitet etablert fra deres selvrapporterte svar på undersøkelsen, mens deres etternavledede etnisitet ble avledet gjennom kobling av deres krypterte helsekortnummer fra CCHS-datasettet med deres etnisitetsoppgave i etternavnet-avledet etnisk identifikasjonsfil. Gyldigheten til den sørasiatiske etternavnslisten ble bestemt ved å måle følsomheten (andelen mennesker som selv ble identifisert som sør-asiatiske som ble oppdaget som sådan av etternavnslisten), spesifisitet (andelen mennesker som selv ble identifisert som ikke sør-asiatiske som var oppdaget som sådan av etternavnelisten), positiv prediktiv verdi (andelen av de som oppdages av etternavnlisten som sørasiatiske som selvidentifiserte seg som sådan) og negativ prediktiv verdi (andelen av de oppdaget av etternavnlisten som ikke er sør Asiatiske som selvidentifiserte seg som sådan). Lignende beregninger ble gjort for å validere den kinesiske etternavnslisten. I disse beregningene ble hver respondent vektet etter hans eller hennes vekt på personnivå (delt på 3, fordi vi kombinerte respondenter fra tre undersøkelsesår). Vi sammenlignet den tidligere publiserte kinesiske etternavnslisten med vår kinesiske etternavneliste ved å sammenligne etternavledet etnisitet ved å bruke begge listene mot samme gullstandard. Til slutt sammenlignet vi den positive prediktive verdien av hver av etternavnelistene våre stratifisert etter kjønn, alder og innvandringsstatus.

Etikk

Dataene for studien er ikke offentlig tilgjengelig, men var levert til ICES av MOH under en forskningsavtale. ICES har tillatelse til å oppbevare, lenke og analysere disse dataene for forskningsformål som en kalt «foreskrevet enhet» i Ontarios helseinformasjonslov, Health Information Protection Act. Studien ble godkjent av institusjonskomiteen for Sunnybrook Health Sciences Center. .

Utvikling av etternavnslistene

Administrative datakilder

Validering

Etikk

Legg igjen en kommentar Avbryt svar