Listes de noms de famille pour identifier les ethnies sud-asiatique et chinoise à partir de données secondaires en Ontario, Canada: une étude de validation

Développement des listes de noms de famille

Pour développer le Sud Liste des noms de famille asiatiques, nous avons commencé avec la liste canadienne des noms de famille sud-asiatiques élaborée précédemment à partir des données des certificats de décès. Nous avons ajouté les noms de famille trouvés dans les annuaires téléphoniques communautaires et dans une encyclopédie des noms de famille publiée par le gouvernement indien. Chaque nom a ensuite été examiné par au moins deux chercheurs dorigine sud-asiatique. Les noms de famille ont été exclus sils nétaient pas considérés comme étant uniquement sud-asiatiques (cest-à-dire si le nom de famille était également courant dans dautres populations, communautés ou groupes ethniques). En cas de désaccord entre les chercheurs sur lopportunité dexclure ou non un nom de famille, il a été examiné par un panel de cinq chercheurs dorigine sud-asiatique jusquà ce quune décision consensuelle soit prise. La liste finale comprenait tous les noms de famille que lon croyait, par consensus, comme étant uniquement sud-asiatiques.

Bien quune liste complète des noms de famille chinois ait déjà été publiée et validée, nous avons noté que cette liste comprenait des noms qui étaient pas uniquement chinois (par exemple, Diep, Jain, Kang et Sen). À ce titre, nous étions préoccupés par la valeur prédictive positive de lidentification des cohortes de patients dorigine chinoise à laide de cette liste. Par conséquent, nous avons répété un processus de consensus similaire pour les noms de famille de cette liste, afin de créer une liste finale de noms de famille considérés, par consensus, comme étant uniquement chinois.

Sources de données administratives

Le LInstitut des sciences de lévaluation clinique (ICES) est un organisme de recherche sur les services de santé financé en partie par le ministère de la Santé et des Soins de longue durée de lOntario (MS) pour effectuer des analyses des bases de données administratives provinciales sur les soins de santé à des fins de recherche scientifique et stratégique. Lune de ces sources de données administratives est la Base de données sur les personnes inscrites (BDRP), qui est un registre des numéros de carte Santé attribués à tous les résidents actuels et anciens de la province de lOntario (population actuelle = 13 millions). Le fichier nominal reçu du ministère de la Santé comprend les noms de famille des patients. Dans laccord de partage de données entre le ministère de la Santé et le CIEM, seules trois personnes nommées ont accès à ce fichier nominatif. Ils lanonymisent avant sa diffusion pour une utilisation analytique générale en supprimant les noms et en cryptant les numéros de carte Santé. Comme ce cryptage utilise un algorithme reproductible commun à toutes les sources de données administratives, les individus peuvent être liés entre les bases de données via ce numéro crypté unique.

Les listes de noms de famille ont été appliquées au nom Fichier RPDB pour créer un fichier didentification ethnique. Tous les résidents de lOntario dont le nom de famille figurait sur la liste sud-asiatique ont été attribués à lethnie sud-asiatique; tous les résidents dont le nom figurait sur la liste chinoise ont été assignés à lethnie chinoise; tous les autres ont été assignés à la population générale groupe. Le fichier final didentification ethnique dérivé du nom de famille comprenait à la fois le numéro de carte Santé crypté et lattribution de lappartenance ethnique pour tous les Onta résidents de rio. (Voir la Figure 1.)

Figure 1

La dérivation du fichier didentification ethnique dérivé du nom de famille à partir de la base de données des personnes inscrites.

Validation

Nous avons validé les listes de noms de famille par rapport à lappartenance ethnique autodéclarée à partir de lEnquête sur la santé dans les collectivités canadiennes (ESCC). LESCC est une enquête téléphonique nationale transversale récurrente menée par Statistique Canada, ciblant les résidents des ménages âgés de 12 ans ou plus, à lexclusion de ceux vivant dans les réserves indiennes, les bases des Forces canadiennes, les institutions et certaines régions éloignées. Avant 2007, lenquête fonctionnait selon un cycle de collecte de deux ans, la première année examinant la santé de la population générale dans un grand échantillon et la deuxième année portant sur des sujets de santé précis dans un échantillon plus petit. Chaque répondant de chaque enquête se voit attribuer un poids au niveau de la personne, de sorte que le poids correspond au nombre de personnes dans lensemble de la population qui sont représentées par ce répondant, et la somme de tous les poids dans lenquête dune année équivaut à la population de Canada. Trois bases de sondage sont utilisées pour lenquête, et le poids final attribué à un individu est intégré à partir des poids attribués indépendamment à partir de chaque base de sondage. Les poids sont également calibrés pour tenir compte dautres biais potentiels, y compris la non-réponse et le suréchantillonnage des ménages Lutilisation des poids dans les analyses de ces données est nécessaire pour sassurer que les résultats sont représentatifs de la population et pas seulement de léchantillon de lenquête.Bien que lappartenance ethnique ne soit pas spécifiquement incluse dans le calcul des poids des répondants, les participants sont sélectionnés au hasard dans la population, il ny a donc aucune raison de soupçonner que les pondérations sous- ou sur-représenteraient systématiquement un groupe ethnique, dautant plus que lenquête est Lensemble de données de lESCC ne comprend pas les noms de famille des répondants, mais les répondants ont donné la permission de relier leurs réponses à des sources de données administratives sur la santé via leur numéro de carte Santé. Cela a été rendu anonyme à laide de lalgorithme de chiffrement habituel de lICES, de sorte que les données de lESCC puissent être liées aux autres sources de données administratives, y compris la RPDB.

Létalon-or était lappartenance ethnique autodéclarée par lESCC. Deux questions de lESCC, qui étaient régulièrement recueillies dans le cadre du profil démographique des répondants à lenquête, ont été utilisées. Cétaient «À quels groupes ethniques vos ancêtres appartenaient-ils?» et «Les gens qui vivent au Canada viennent de différents milieux culturels et raciaux. Êtes-vous …?» Des réponses multiples étaient autorisées pour chaque question. Les répondants qui avaient une seule réponse «sud-asiatique» à lune ou lautre des questions ont été affectés à lethnie sud-asiatique; ceux qui avaient une seule réponse «chinois» à lune ou lautre des questions étaient attribués à lethnie chinoise; et tous les autres ont été affectés à la population générale.

Nous avons étudié tous les répondants adultes à lun des cycles de 2001, 2002 ou 2003 de lESCC. Pour chaque répondant, lorigine ethnique de référence a été établie à partir de leurs réponses autodéclarées à lenquête, tandis que leur appartenance ethnique dérivée du nom de famille a été dérivée par le couplage de leur numéro de carte Santé crypté à partir de lensemble de données de lESCC avec leur attribution dorigine ethnique dans le nom de famille fichier didentification ethnique. La validité de la liste de noms de famille sud-asiatique a été déterminée en mesurant la sensibilité (la proportion de personnes auto-identifiées comme sud-asiatiques qui ont été détectées comme telles par la liste de noms de famille), la spécificité (la proportion de personnes auto-identifiées comme nétant pas sud-asiatiques qui étaient détecté comme tel par la liste de noms de famille), valeur prédictive positive (la proportion de ceux détectés par la liste de noms comme sud-asiatiques qui se sont identifiés comme tels) et valeur prédictive négative (la proportion de ceux détectés par la liste de noms comme nétant pas du Sud Asiatique qui sest auto-identifié comme tel). Des calculs similaires ont été effectués pour valider la liste des noms de famille chinois. Dans ces calculs, chaque répondant a été pondéré en fonction de son poids au niveau de la personne (divisé par 3, car nous combinions les répondants de trois années denquête). Nous avons comparé la liste de noms de famille chinois publiée précédemment avec notre liste de noms de famille chinois en comparant lappartenance ethnique dérivée du nom de famille en utilisant les deux listes avec le même étalon-or. Enfin, nous avons comparé la valeur prédictive positive de chacune de nos listes de noms stratifiées par sexe, âge et statut dimmigration.

Éthique

Les données de létude ne sont pas accessibles au public, mais fournis au CIEM par le MS dans le cadre dun accord de recherche. ICES est autorisé à détenir, lier et analyser ces données à des fins de recherche en tant qu «entité prescrite» dans la loi ontarienne sur la protection des renseignements personnels sur la santé, la Health Information Protection Act. Létude a été approuvée par le comité dexamen institutionnel du Sunnybrook Health Sciences Centre .

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *