Listy nazwisk w celu określenia przynależności etnicznej Azji Południowej i Chińskiej na podstawie danych wtórnych w Ontario w Kanadzie: badanie walidacyjne

Opracowanie list nazwisk

Aby rozwinąć południe Listę nazwisk azjatyckich rozpoczęliśmy od wcześniej opracowanej kanadyjskiej listy nazwisk południowoazjatyckich opracowanej na podstawie danych z aktów zgonu. Dodaliśmy nazwiska znalezione w spisach telefonów społeczności oraz w encyklopedii nazwisk opublikowanej przez rząd Indii. Każda nazwa została następnie zweryfikowana przez co najmniej dwóch badaczy z południowoazjatyckim pochodzeniem. Nazwiska były wykluczane, jeśli nie były uważane za wyjątkowo południowoazjatyckie (tj. Jeśli nazwisko było powszechne również w innych populacjach, społecznościach lub grupach etnicznych). Jeśli między badaczami istniała różnica zdań co do tego, czy wykluczyć nazwisko, czy też nie, zostało ono poddane przeglądowi przez panel pięciu badaczy pochodzenia południowoazjatyckiego, aż do osiągnięcia konsensusu. Ostateczna lista obejmowała wszystkie nazwiska, które w drodze konsensusu uważano za unikalne południowoazjatyckie.

Chociaż obszerna lista chińskich nazwisk została wcześniej opublikowana i zweryfikowana, zauważyliśmy, że zawiera ona kilka nazwisk, które zostały nie tylko w języku chińskim (np. Diep, Jain, Kang i Sen). W związku z tym byliśmy zaniepokojeni pozytywną wartością predykcyjną identyfikacji kohort pacjentów pochodzenia chińskiego za pomocą tej listy. Dlatego powtórzyliśmy podobny proces konsensusu dla nazwisk z tej listy, aby stworzyć ostateczną listę nazwisk uznawanych w drodze konsensusu za wyłącznie chińskie.

Administracyjne źródła danych

Institute for Clinical Evaluative Sciences (ICES) jest organizacją badawczą zajmującą się usługami zdrowotnymi, finansowaną częściowo przez Ministerstwo Zdrowia i Opieki Długoterminowej Ontario (MOH) w celu przeprowadzania analiz prowincjonalnych administracyjnych baz danych dotyczących opieki zdrowotnej w celu prowadzenia badań naukowych i związanych z polityką. Jednym z tych administracyjnych źródeł danych jest Registered Persons Database (RPDB), która jest rejestrem numerów przypisanych wszystkim obecnym i byłym mieszkańcom prowincji Ontario (obecna populacja = 13 milionów). Plik nominalny otrzymany od MOH zawiera nazwiska pacjentów. W umowie o udostępnianiu danych między MOH i ICES tylko trzy wymienione osoby mają dostęp do tego pliku nominalnego. Anonimizują go przed udostępnieniem do ogólnego użytku analitycznego poprzez usunięcie nazwisk i poprzez szyfrowanie numerów kart zdrowia. Ponieważ szyfrowanie to wykorzystuje powtarzalny algorytm wspólny dla wszystkich administracyjnych źródeł danych, osoby mogą być łączone między bazami danych za pomocą tego unikalnego zaszyfrowanego numeru.

Listy nazwisk zostały zastosowane do nazw RPDB, aby utworzyć plik identyfikacji etnicznej. Wszyscy mieszkańcy Ontario, których nazwiska znajdowały się na liście południowoazjatyckiej, zostali przypisani do grupy etnicznej Azji Południowej; wszyscy mieszkańcy, których nazwiska znajdowały się na chińskiej liście, zostali przypisani do pochodzenia chińskiego; wszyscy inni zostali przypisani do ogólnej populacji Ostateczny plik identyfikacji etnicznej na podstawie nazwiska zawierał zarówno zaszyfrowany numer karty zdrowia, jak i przypisanie pochodzenia etnicznego dla wszystkich mieszkańców Onta mieszkańcy Rio. (Patrz rysunek 1.)

Rysunek 1

Wyprowadzenie pliku identyfikacji etnicznej opartego na nazwisku z bazy danych zarejestrowanych osób.

Walidacja

Sprawdziliśmy listy nazwisk pod kątem deklarowanego pochodzenia etnicznego z kanadyjskiego badania zdrowia społeczności (CCHS). CCHS to powtarzające się ogólnokrajowe badanie telefoniczne przeprowadzone przez Statistics Canada, skierowane do mieszkańców gospodarstw domowych w wieku 12 lat lub starszych, z wyłączeniem osób mieszkających w rezerwatach indyjskich, bazach kanadyjskich sił zbrojnych, instytucjach i niektórych odległych obszarach. Przed 2007 rokiem badanie działało w dwuletnim cyklu gromadzenia danych, przy czym w pierwszym roku badano ogólny stan zdrowia populacji na dużej próbie, a w drugim roku koncentrowano się na konkretnych zagadnieniach zdrowotnych w mniejszej próbie. Każdemu respondentowi w każdej ankiecie przypisana jest waga na poziomie osoby, tak aby waga odpowiadała liczbie osób w całej populacji, które są reprezentowane przez tego respondenta, a suma wszystkich wag w rocznym badaniu jest równa populacji Kanada. Do badania wykorzystuje się trzy operaty losowania, a ostateczna waga przypisana osobie jest integrowana z wag niezależnie przypisywanych z każdego operatu losowania. Wagi są również kalibrowane w celu uwzględnienia innych potencjalnych błędów, w tym braku odpowiedzi i nadpróbkowania gospodarstw domowych z wieloma liniami telefonicznymi. Stosowanie wag w analizach tych danych jest wymagane, aby zapewnić reprezentatywność wyników dla populacji, a nie tylko dla próby badanej.Chociaż pochodzenie etniczne nie jest konkretnie uwzględnione w wyprowadzaniu wag respondentów, uczestnicy są wybierani losowo z populacji, więc nie ma powodu, aby podejrzewać, że wagi systematycznie zaniżają lub nadmiernie reprezentują jakąkolwiek grupę etniczną, zwłaszcza że badanie jest jest podawany w ponad 20 językach. Zbiór danych CCHS nie zawiera nazwisk respondentów, ale respondenci wyrazili zgodę na powiązanie ich odpowiedzi z ankiet ze źródłami danych administracyjnych dotyczących zdrowia poprzez numer ich karty zdrowia. Zostało to zanonimizowane przy użyciu zwykłego algorytmu szyfrowania w ICES, dzięki czemu dane CCHS można powiązać z innymi administracyjnymi źródłami danych, w tym z RPDB.

Złotym standardem była deklaracja pochodzenia etnicznego z CCHS. Wykorzystano dwa pytania CCHS, które były rutynowo zbierane w ramach profilu demograficznego respondentów. Były to „Do jakich grup etnicznych należeli twoi przodkowie?” oraz „Ludzie mieszkający w Kanadzie pochodzą z wielu różnych środowisk kulturowych i rasowych. Czy ty…?” Na każde pytanie dopuszczono wiele odpowiedzi. Respondenci, którzy mieli tylko jedną odpowiedź „Azji Południowej” na którekolwiek z pytań, zostali przypisani do pochodzenia etnicznego Azji Południowej; ci, którzy odpowiedzieli tylko „Chińczyk” na którekolwiek z pytań, zostali przypisani do chińskiego pochodzenia etnicznego; a wszyscy inni zostali przypisani do ogólnej populacji.

Przebadaliśmy wszystkich dorosłych respondentów w którymkolwiek z cykli CCHS w latach 2001, 2002 lub 2003. Dla każdego respondenta złoty standard pochodzenia etnicznego został ustalony na podstawie ich własnych odpowiedzi w ankiecie, podczas gdy ich pochodzenie etniczne oparte na nazwisku zostało wyprowadzone poprzez powiązanie ich zaszyfrowanego numeru karty zdrowia ze zbioru danych CCHS z przypisaniem etnicznym w pochodzącym z nazwiska plik identyfikacji etnicznej. Trafność listy nazwisk południowoazjatyckich została określona przez pomiar wrażliwości (odsetek osób samodzielnie zidentyfikowanych jako południowoazjatyckie, które zostały wykryte jako takie na podstawie listy nazwisk), specyficzności (odsetek osób, które samodzielnie zidentyfikowały się jako niebędące wykrywane jako takie przez listę nazwisk), pozytywna wartość predykcyjna (odsetek osób wykrytych na liście nazwisk jako południowoazjatyckich, którzy samodzielnie zidentyfikowali się jako tacy) i negatywna wartość predykcyjna (odsetek osób wykrytych na liście nazw Azjata, który sam siebie zidentyfikował). Podobne obliczenia przeprowadzono w celu sprawdzenia chińskiej listy nazwisk. W tych obliczeniach każdemu respondentowi przypisano wagę na poziomie osoby (podzieloną przez 3, ponieważ łączyliśmy respondentów z trzech lat badania). Porównaliśmy wcześniej opublikowaną chińską listę nazwisk z naszą chińską listą nazwisk, porównując pochodzenie etniczne na podstawie nazwiska przy użyciu obu list w odniesieniu do tego samego złotego standardu. Na koniec porównaliśmy pozytywną wartość predykcyjną każdej z naszych list nazwisk podzielonych według płci, wieku i statusu imigracyjnego.

Etyka

Dane do badania nie są publicznie dostępne, ale zostały dostarczone ICES przez MOH na podstawie umowy badawczej. ICES ma prawo do przechowywania, łączenia i analizowania tych danych do celów badawczych jako „określony podmiot” w ustawie o ochronie informacji zdrowotnych Ontario, ustawie o ochronie informacji zdrowotnych. Badanie zostało zatwierdzone przez instytucjonalną komisję rewizyjną Sunnybrook Health Sciences Center .

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *