Efternavnslister til identifikation af sydasiatiske og kinesiske etnicitet fra sekundære data i Ontario, Canada: en valideringsundersøgelse

Udvikling af efternavnslisterne

At udvikle Syd Asiatisk efternavnsliste, vi startede med den tidligere udviklede canadiske liste over sydasiatiske efternavne udviklet ved hjælp af dødsattestdata. Vi tilføjede efternavne, der findes i telefonbøger i samfundet og i et encyklopædi med efternavne, der er udgivet af den indiske regering. Hvert navn blev derefter gennemgået af mindst to forskere med sydasiatiske oprindelse. Efternavne blev udelukket, hvis de ikke blev anset for at være unikt sydasiatiske (dvs. hvis efternavnet var almindeligt også i andre befolkninger, samfund eller etniske grupper). Hvis der var uenighed mellem forskerne om, hvorvidt et efternavn skulle udelukkes, blev det gennemgået af et panel bestående af fem forskere med sydasiatiske oprindelse, indtil der blev opnået enighed om enighed. Den endelige liste indeholdt alle efternavne, der efter konsensus blev anset for at være unikt sydasiatiske.

Selvom en omfattende liste over kinesiske efternavne tidligere er blevet offentliggjort og valideret, bemærkede vi, at denne liste indeholdt nogle navne, der var ikke unikt kinesisk (f.eks. Diep, Jain, Kang og Sen). Som sådan var vi bekymrede over den positive forudsigelige værdi ved at identificere kohorter af patienter med kinesisk oprindelse ved hjælp af denne liste. Derfor gentog vi en lignende konsensusproces for efternavne fra denne liste for at oprette en endelig liste over efternavne, der efter konsensus antages at være entydigt kinesiske.

Administrative datakilder

The Institute for Clinical Evaluative Sciences (ICES) er en forskningsorganisation inden for sundhedstjenester, der delvist er finansieret af Ontario Ministry of Health and Long-Term Care (MOH) til at udføre analyser af provinsielle administrationsdatabaser for sundhedspleje til politisk relevant og videnskabelig forskning. En af disse administrative datakilder er den registrerede persondatabase (RPDB), som er et register over de tildelte sundhedskortnumre for alle nuværende og tidligere beboere i provinsen Ontario (nuværende befolkning = 13 millioner). Den nominelle fil modtaget fra MOH inkluderer patientens efternavne. I datadelingsaftalen mellem MOH og ICES har kun tre navngivne personer adgang til denne nominelle fil. De anonymiserer den inden dens frigivelse til generel analytisk brug ved at fjerne navnene og ved at kryptere sundhedskortnumrene. Da denne kryptering bruger en reproducerbar algoritme, der er fælles for alle de administrative datakilder, kan enkeltpersoner linkes mellem databaser via dette unikke krypterede nummer.

Efternavnslisterne blev anvendt på det nominelle RPDB-fil for at oprette en etnisk identifikationsfil. Alle beboere i Ontario, hvis efternavne var på den sydasiatiske liste, blev tildelt den sydasiatiske etnicitet; alle beboere, hvis efternavne var på den kinesiske liste, blev tildelt kinesisk etnicitet; alle andre blev tildelt den generelle befolkning Den endelige efternavn-afledte etniske identifikationsfil inkluderede både det krypterede sundhedskortnummer og etnicitetstildelingen for alle Onta rio beboere. (Se figur 1.)

Figur 1

Afledningen af efternavnet afledt etnisk identifikationsfil fra den registrerede persondatabase.

Validering

Vi validerede efternavnslisterne mod selvrapporteret etnicitet fra Canadian Community Health Survey (CCHS). CCHS er en tilbagevendende tværsnits national telefonundersøgelse foretaget af Statistics Canada, der er målrettet mod husstandsbeboere på 12 år eller derover, eksklusive dem, der bor på indiske reserver, canadiske styrker, institutioner og nogle fjerntliggende områder. Før 2007 gennemførte undersøgelsen en to-årig indsamlingscyklus, hvor det første år undersøgte befolkningens generelle sundhed i en stor stikprøve, og det andet år fokuserede på specifikke sundhedsemner i en mindre prøve. Hver respondent i hver undersøgelse tildeles en vægt på personniveau, så vægten svarer til antallet af personer i hele befolkningen, der er repræsenteret af den pågældende respondent, og summen af alle vægte i et års undersøgelse er lig med befolkningen i Canada. Der anvendes tre prøveudtagningsrammer til undersøgelsen, og den endelige vægt, der tildeles en enkeltperson, er integreret fra vægten uafhængigt af hver prøveudtagningsramme. Vægte kalibreres også for at tage højde for andre potentielle forspændinger, herunder manglende respons og oversampling af husstande Brug af vægten til analyser af disse data er påkrævet for at sikre, at resultaterne er repræsentative for befolkningen og ikke kun for undersøgelsesprøven.Selvom etnicitet ikke specifikt er inkluderet i afledningen af respondenternes “vægte, vælges deltagerne tilfældigt blandt befolkningen, så der er ingen grund til at mistænke, at vægtningen systematisk ville under- eller overrepræsentere enhver etnisk gruppe, især da undersøgelsen er administreres på over 20 sprog. CCHS-datasættet inkluderer ikke respondenternes efternavne, men respondenterne gav tilladelse til at få deres undersøgelsessvar knyttet til sundhedsadministrative datakilder via deres sundhedskortnummer. Dette blev anonymiseret ved hjælp af den sædvanlige krypteringsalgoritme ved ICES, så CCHS-dataene kan linkes til de andre administrative datakilder, herunder RPDB.

Guldstandarden var selvrapporteret etnicitet fra CCHS. To CCHS-spørgsmål, som rutinemæssigt blev indsamlet som en del af respondenternes demografiske profil, blev brugt. Disse var “Til hvilke etniske grupper tilhørte dine forfædre?” og “Mennesker, der bor i Canada kommer fra mange forskellige kulturelle og racemæssige baggrunde. Er du …?” Flere svar var tilladt for hvert spørgsmål. De respondenter, der havde et enkelt svar fra “sydasiatiske” på begge spørgsmål, blev tildelt sydasiatiske etnicitet; dem, der havde et enkelt svar fra “kinesisk” på begge spørgsmål, blev tildelt kinesisk etnicitet; og alle andre blev tildelt den generelle befolkning.

Vi studerede alle voksne respondenter til nogen af 2001, 2002 eller 2003 cyklerne i CCHS. For hver respondent blev guldstandardets etnicitet etableret ud fra deres selvrapporterede svar på undersøgelsen, mens deres efternavn-afledte etnicitet blev afledt ved sammenkædning af deres krypterede sundhedskortnummer fra CCHS-datasættet med deres etnicitetstildeling i det efternavn-afledte etnisk identifikationsfil. Gyldigheden af den sydasiatiske efternavnsliste blev bestemt ved måling af følsomhed (andelen af mennesker, der selv identificerede sig som sydasiatiske, der blev opdaget som sådan af efternavnslisten), specificitet (andelen af mennesker, der selv identificerede sig som ikke sydasiatiske, der var detekteret som sådan af efternavnslisten), positiv forudsigelsesværdi (andelen af dem, der er opdaget af efternavnslisten som sydasiatiske, der selvidentificerer sig som sådan) og negativ forudsigelsesværdi (andelen af dem, der opdages af efternavnslisten som ikke sydlige Asiatiske, der selvidentificerede sig som sådan). Lignende beregninger blev foretaget for at validere den kinesiske efternavnsliste. I disse beregninger blev hver respondent vægtet efter sin personvægt (divideret med 3, fordi vi kombinerede respondenter fra tre undersøgelsesår). Vi sammenlignede den tidligere offentliggjorte kinesiske efternavnsliste med vores kinesiske efternavnsliste ved at sammenligne efternavnet afledt etnicitet ved hjælp af begge lister mod den samme guldstandard. Endelig sammenlignede vi den positive forudsigelsesværdi af hver af vores efternavnslister stratificeret efter køn, alder og indvandringsstatus.

Etik

Dataene for undersøgelsen er ikke offentligt tilgængelige, men var leveret til ICES af MOH under en forskningsaftale. ICES har tilladelse til at opbevare, linke og analysere disse data til forskningsformål som en navngivet “ordineret enhed” i Ontarios sundhedsoplysningslov, Health Information Protection Act. Undersøgelsen blev godkendt af det institutionelle revisionsudvalg for Sunnybrook Health Sciences Center. .

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *