Efternamnlistor för att identifiera sydasiatisk och kinesisk etnicitet från sekundära data i Ontario, Kanada: en valideringsstudie BMC Medical Research Methodology

Utveckling av efternamnlistorna

Att utveckla Syd Asiatiska efternamnlista, vi började med den tidigare utvecklade kanadensiska listan över sydasiatiska efternamn som utvecklats med hjälp av dödsintyg. Vi har lagt till efternamn som finns i telefonens telefonböcker och i ett uppslagsverk med efternamn som publicerats av den indiska regeringen. Varje namn granskades sedan av minst två forskare med sydasiatiskt ursprung. Efternamn uteslöts om de inte ansågs vara unika sydasiatiska (dvs. om efternamnet var vanligt även i andra befolkningar, samhällen eller etniska grupper). Om det var oenighet mellan forskarna om huruvida ett efternamn skulle uteslutas eller inte, granskades det av en panel med fem forskare med sydasiatiskt ursprung tills ett samförståndsbeslut nåddes. Den slutgiltiga listan innehöll alla efternamn som trodde att de var unikt sydasiatiska.

Även om en omfattande lista över kinesiska efternamn tidigare har publicerats och validerats noterade vi att denna lista innehöll några namn som var inte unikt kinesiska (t.ex. Diep, Jain, Kang och Sen). Som sådan var vi oroade över det positiva prediktiva värdet av att identifiera kohorter av patienter med kinesiskt ursprung med hjälp av denna lista. Därför upprepade vi en liknande konsensusprocess för efternamnen från listan, för att skapa en slutlig lista över efternamn som enligt konsensus tros vara unikt kinesiska.

Administrativa datakällor

The Institute for Clinical Evaluative Sciences (ICES) är en forskningsorganisation för hälso- och sjukvård som delvis finansieras av Ontario Ministry of Health and Long-Term Care (MOH) för att genomföra analyser av provinsiella administrativa databaser för hälsovård för policyrelevant och vetenskaplig forskning. En av dessa administrativa datakällor är den registrerade persondatabasen (RPDB), som är ett register över tilldelade hälsokortnummer för alla nuvarande och tidigare invånare i provinsen Ontario (nuvarande befolkning = 13 miljoner). Den nominella filen som mottogs från MOH inkluderar patientens efternamn. I datadelningsavtalet mellan MOH och ICES har endast tre namngivna personer tillgång till denna nominella fil. De anonymiserar den innan den släpptes för allmän analytisk användning genom att ta bort namn och genom att kryptera hälsokortnumren. Eftersom denna kryptering använder en reproducerbar algoritm som är gemensam för alla administrativa datakällor kan individer länkas mellan databaser via detta unika krypterade nummer.

Efternamnlistorna tillämpades på det nominella RPDB-fil för att skapa en etnisk identitetsfil. Alla invånare i Ontario vars efternamn stod på den sydasiatiska listan tilldelades sydasiatisk etnicitet; alla invånare vars efternamn stod på den kinesiska listan tilldelades kinesisk etnicitet; alla andra tilldelades den allmänna befolkningen Den slutliga efternamnet härledda etniska identifieringsfilen innehöll både det krypterade hälsokortnumret och etnicitetstilldelningen för alla Onta invånarna i Rio. (Se figur 1.)

Validering

Vi validerade efternamnlistorna mot självrapporterad etnicitet från Canadian Community Health Survey (CCHS). CCHS är en återkommande tvärsnitts nationell telefonundersökning utförd av Statistics Canada, inriktad på hushållsboende i åldern 12 år eller äldre, exklusive dem som bor på indiska reserver, kanadensiska styrkor, institutioner och vissa avlägsna områden. Före 2007 genomfördes undersökningen under en tvåårig insamlingscykel, med det första året som undersökte allmän befolkningshälsa i ett stort urval, och det andra året fokuserade på specifika hälsoämnen i ett mindre prov. Varje respondent i varje undersökning tilldelas en personnivåvikt så att vikten motsvarar antalet personer i hela befolkningen som representeras av respondenten, och summan av alla vikter under ett års undersökning är lika med befolkningen i Kanada. Tre provtagningsramar används för undersökningen, och den slutliga vikten som tilldelats en individ integreras från vikterna oberoende av varje provtagningsram. Vikter kalibreras också för att ta hänsyn till andra potentiella förspänningar, inklusive bristande respons och överprovtagning av hushåll med flera telefonlinjer. Användningen av vikterna vid analyser av dessa data krävs för att säkerställa att resultaten är representativa för befolkningen och inte bara för undersökningen.Även om etnicitet inte specifikt ingår i härledningen av respondenternas vikter väljs deltagare slumpmässigt från befolkningen, så det finns ingen anledning att misstänka att viktningarna systematiskt skulle under- eller överrepresentera någon etnisk grupp, särskilt eftersom undersökningen är administreras på över 20 språk. CCHS-datauppsättningen inkluderar inte respondenternas efternamn, men respondenterna gav tillstånd att ha sina enkätsvar kopplade till hälsoadministrativa datakällor via deras hälsokortnummer. Detta anonymiserades med den vanliga krypteringsalgoritmen på ICES, så att CCHS-data kan länkas till andra administrativa datakällor, inklusive RPDB.

Guldstandarden var självrapporterad etnicitet från CCHS. Två CCHS-frågor, som rutinmässigt samlades in som en del av respondenternas demografiska profil, användes. Dessa var ”Till vilka etniska grupper tillhörde dina förfäder?” och ”Människor som bor i Kanada kommer från många olika kulturella och rasbakgrunder. Är du …?” Flera svar tillåts för varje fråga. De svarande som hade ett enda svar från ”sydasiatiska” på endera frågan tilldelades sydasiatisk etnicitet; de som hade ett ”kinesiskt” svar på endera frågan tilldelades kinesisk etnicitet; och alla andra tilldelades den allmänna befolkningen.

Vi studerade alla vuxna respondenter på någon av CCHS-cyklerna 2001, 2002 eller 2003. För varje respondent fastställdes guldstandardetniciteten från deras självrapporterade svar på undersökningen, medan deras efternamn härledda etnicitet härleddes genom koppling av deras krypterade hälsokortnummer från CCHS-datasetet med deras etnicitetstilldelning i efternamn-härledda etnisk identifieringsfil. Giltigheten för efternamnlistan i Sydasien bestämdes genom att mäta känsligheten (andelen personer som identifierats som sydasiatiska som upptäcktes som sådana av efternamnlistan), specificitet (andelen personer som identifierats som icke-asiatiska som var detekteras som sådant av efternamnlistan), positivt prediktivt värde (andelen av dem som upptäcks av efternamnlistan som sydasiatiska som självidentifierade sig som sådana) och negativa prediktiva värden (andelen av dem som upptäcks av efternamnlistan som inte är sydliga Asiat som själv identifierade sig som sådan). Liknande beräkningar gjordes för att validera den kinesiska efternamnlistan. I dessa beräkningar vägdes varje respondent efter sin personliga vikt (dividerat med 3, eftersom vi kombinerade respondenter från tre undersökningsår). Vi jämförde den tidigare publicerade kinesiska efternamnlistan med vår kinesiska efternamnlista genom att jämföra efternamn härledd etnicitet genom att använda båda listorna mot samma guldstandard. Slutligen jämförde vi det positiva prediktiva värdet för var och en av våra efternamnlistor stratifierade efter kön, ålder och invandringsstatus.

Etik

Uppgifterna för studien är inte offentligt tillgängliga, men var tillhandahålls ICES av MOH enligt ett forskningsavtal. ICES har tillåtelse att hålla, länka och analysera dessa data för forskningsändamål som en benämnd ”föreskriven enhet” i Ontarios hälsoinformationslagstiftning, Health Information Protection Act. Studien godkändes av den institutionella granskningsnämnden för Sunnybrook Health Sciences Center. .

Utveckling av efternamnlistorna

Administrativa datakällor

Validering

Etik

Lämna ett svar Avbryt svar