Menu ENN Search
Changer la langue : English Français

Enquête de couverture utilisant Bootstrap pondéré bloqués

Cette question a été affichée dans le forum de discussion Évaluation et Surveillance et a des réponses 14.

» Afficher une réponse

Roman

Utilisateur régulier

24 avr. 2014, 10:27

Ceci a été traduit automatiquement.

Je veux voir la couverture de poudre micro-nutriments dans les différentes régions du Bangladesh. Pour cela, je me sers d'échantillonnage à deux étapes. Pour l'analyse de but, je veux utiliser blocs pondérés méthodes de bootstrap avec algorithme de sélection de roue de roulette pour le poids postérieure. Comment pouvons-nous réaliser cela? Quelqu'un peut-il me donner une suggestion à propos BWB et roue de la roulette? Y at-il tout matériel disponibles pour comprendre l'ensemble du processus?

Mark Myatt

Utilisateur fréquent

27 avr. 2014, 10:32

Ceci a été traduit automatiquement.

Le bootstrap pondérée bloqué (BBW) est une technique d'estimation pour une utilisation avec les données des enquêtes en grappe échantillonnée à deux étages dans lequel soit pondération avant (par exemple PPS tel qu'il est utilisé dans les enquêtes SMART) ou la pondération postérieur (par exemple, tel qu'il est utilisé dans la RAM et enquêtes S3M). La méthode a été développée par ACF, Brixton Santé, l'inquiétude, GAIN, l'UNICEF (Sierra Leone), l'UNICEF (Soudan) et valides. Il a été testé par les CDC en utilisant les données ANJE.

La méthode bootstrap est résumée dans cette article de Wikipedia. Le BWB utilisé dans la RAM et S3M est une modification de l'amorce du percentile pour inclure le blocage et la pesée pour expliquer un plan d'échantillonnage complexe.

Avec RAM et enquêtes S3M, l'échantillon est complexe en ce sens qu'il est un échantillon non pondéré de cluster. Procédures d'analyse des données doivent tenir compte de la conception de l'échantillon. Un bootstrap pondérée bloqué (BWB) peut être utilisé:

Bloqué: Le bloc correspond à l'unité primaire d'échantillonnage (PSU = de cluster). UAR sont rééchantillonnées avec remplacement. Observations dans les UPE rééchantillonnées sont également échantillonnées avec remise.

Pondérée: RAM et échantillons S3M ne pas utiliser le prélèvement proportionnel de la population (PPS) pour pondérer l'échantillon avant la collecte de données (par exemple, comme on le fait avec les enquêtes SMART). Cela signifie qu'une procédure de pondération postérieur est nécessaire. BBW utilise un algorithme de «roulette» (voir illustration ci-dessous) au poids (par exemple par la population), la probabilité de sélection d'UPE dans répliques bootstrap.

Dans le cas de la pondération préalable PPS toutes les grappes sont donnés le même poids. Avec pondération postérieure (comme dans la mémoire RAM ou S3M) le poids est la population de chaque PSU. Cette procédure est très similaire à la sélection proportionnelle remise en forme technique utilisée dans l'informatique évolutive.

Un total de m UPE sont échantillonnées avec remplacement pour chaque réplique bootstrap (où m est le nombre d'UPE dans l'échantillon de l'enquête).

La statistique requise est appliquée à chaque répétition. L'estimation présentée se compose de la 0.025th (95% LCL), 0.5th (estimation ponctuelle), et 0.975th (95% UCL) quantiles de la distribution de la statistique sur l'ensemble enquête réplique.

Les premières versions du BBW ne rééchantillonner observations dans UAR suivantes:

    Cameron AC, Gelbach JB Miller, DL, des améliorations sur la base Bootstrap-
    pour l'inférence avec des erreurs en cluster, Revue d'Economie et
    Statistiques 2008: 90; 414-427

et a utilisé un grand nombre (par exemple 3999) enquête réplique. Les versions actuelles de la BBW rééchantillonner observations dans les UPE et utilisent un plus petit nombre de répétitions de l'enquête (par exemple, n = 400). Ceci est une approche plus efficace de calcul

Le BBW a été mis en œuvre dans la langue de R pour l'analyse des données et des graphiques. Le code curent (au 21/03/2014) pour le BBW est disponible ici. Ce code fait habituellement partie d'une enquête plus vaste analyse workflow.

Je suis heureux de vous aider à obtenir que cela fonctionne.

BTW: Je pense que d'un échantillon de cluster en utilisant un échantillon non pondéré spatiale est la meilleure approche pour estimer la couverture.

Je espère que cela est d'une certaine utilité.

Mark Myatt

Utilisateur fréquent

28 avr. 2014, 11:45

Ceci a été traduit automatiquement.

Je oublié de mentionner ...

Pour la plupart des besoins d'analyse de l'enquête (par exemple, les moyens et les proportions estimation), vous pouvez utiliser des techniques à la place de la BBW (ou technique de ré-échantillonnage de nay) Estimation fondée sur un modèle. Ces informations sont fournies dans les progiciels statistiques standards (par exemple SPSS modules des échantillons complexes, EpiInfo module de CSAMPLE, STATA "svy" commandes, R / S + "enquête" bibliothèque, SAS via SUDAAN) ainsi que dans les systèmes d'analyse spécialisés complexes de sondage comme SUDAAN.

La principale raison d'utiliser BBW est que le bootstrap permet à un plus large éventail de statistiques à calculer que les techniques basées sur des modèles sans avoir recours aux grands hypothèses concernant la distribution d'échantillonnage de la statistique nécessaire. Un bon exemple de ceci est l'intervalle de confiance de la différence entre les deux médianes qui pourraient être utilisés pour de nombreuses variables socio-économiques. Le BBW permet également une large gamme de tests d'hypothèses à être utilisé avec des données complexes de sondage.

Je veux le bootstrap en raison de sa "complexité fixe" (avec le bootstrap toutes les questions statistiques sont tout aussi simple), une précision améliorée sur la plupart des techniques basées sur des modèles, la polyvalence (voir ci-dessus), et la capacité de faire des inférences en utilisant petite (c.-à-petit que couramment utilisé avec les procédures statistiques classiques) de la taille des échantillons.

Si vous avez seulement besoin de (par exemple) calculer les proportions de couverture et les barrières de rang à la couverture, alors vous pouvez analyser vos données de l'enquête en utilisant l'un des forfaits mentionnés ci-dessus.

J'espère que cela aide.

Roman

Utilisateur régulier

1 mai 2014, 06:15

Ceci a été traduit automatiquement.

Merci beaucoup pour votre Mark Myatt aimable coopération. Vos réponses sont très instructifs. Ceux-ci m'a beaucoup pour mon travail futur.

Mark Myatt

Utilisateur fréquent

1 mai 2014, 08:16

Ceci a été traduit automatiquement.

Heureux d'avoir pu aider. Ne pas hésiter à me contacter (via ce forum ou directement) si vous avez besoin d'aide pour cela.

Roman

Utilisateur régulier

29 mai 2014, 02:42

Ceci a été traduit automatiquement.

Si je veux voir la prévalence de l'utilisation de poudre de micro-nutriments dans différentes régions du Bangladesh par enquête de couverture avec la cartographie spatiale. Quelle est la procédure actuelle de présenter graphiquement? Comment pouvons-nous le faire en utilisant le logiciel statistique R?

Mark Myatt

Utilisateur fréquent

29 mai 2014, 08:49

Ceci a été traduit automatiquement.

Il existe trois approches que je l'utilise.

La première consiste à utiliser un ensemble d'enquêtes de RAM. Une enquête par district. Ceci fournit la cartographie au niveau du district. Voici un exemple de la Sierra Leone:

Pour cette carte ... les données ont été importées dans R, les indicateurs ont été créés à partir de variables recueillies, et la proportion de couverture estimé. L'estimation ponctuelle de la proportion de la couverture a été cartographiée. La carte ci-dessus a été dessiné dans OpenOffice.org Draw mais R aurait pu être utilisé pour produire une carte semblable automatiquement. L'approche de la RAM par district donne une sortie similaire en termes de résolution de la cartographie que vous pouvez obtenir à partir d'enquêtes par SMART-district ou d'enquêtes étendus tels que MICS ou EDS. Un procédé apparenté est SLEAC. Celui-ci utilise une petite taille de l'échantillon (soit n = 40) et des cartes de couverture des classes secondaires (par exemple <20%, 20% - 50%,> 50%). Logiciel d'analyse et de rapports sur les données de l'enquête de RAM est disponible. Ceci est un système de flux de travail personnalisable. Personnalisation de ce logiciel nécessite une certaine connaissance de R.

Meilleure résolution peut être réalisée en utilisant l'approche du SCCS qui a été utilisé lorsque nous développions CTC (nous l'appelons maintenant PCMA). Ceci est à peu près aussi simple que d'une méthode d'enquête spatiale peut obtenir. Voici un exemple de sortie du SCCS pour la couverture PCMA:

Les données de cette carte ont été rassemblés à la main sur une feuille de pointage. Estimations ont été calculées dans un tableur. La carte a été faite en utilisant OpenOffice Draw. Logiciel (dans Excel et R) est disponible qui produit des cartes directement à partir des données. SCCS est si simple que l'analyse et la cartographie peuvent être (et a été) fait à la main.

Une version moins simple mais beaucoup améliorée du SCCS a été développé par un certain nombre de partenaires (c.-à Brixton Santé, VALIDE, EHNRI, l'inquiétude, le gain et l'UNICEF). Ceci est connu comme S3M. La résolution est beaucoup mieux que est possible avec SCCS et de données sont utilisés de manière plus intensive. Voici un exemple de carte S3M montrant la couverture de la FBE dans plusieurs districts en Ethiopie:

Cette carte a été produite en R en utilisant les données de l'enquête et S3M fichiers des limites ArcGIS.

Je ne veux pas entrer dans les procédures exactes pour ce faire dans l'arrêt R. Je ne pense pas que ce soit le bon endroit pour ce que R est bien soutenu ailleurs avec des sites qui soutiennent de manière spécifique en utilisant R pour l'analyse géo-statistique. La procédure est assez simple si vous êtes familier avec R et R gère la façon dont les objets spatiaux (il ya un livre dans le "User!" Série). Gratuit et open-source logiciel de sondage personnalisable pour S3M est disponible. Cela nécessite une familiarité avec la langue de R (il existe de nombreux livres, dont un écrit par moi). Le mode commun de travail est pour les données de l'enquête pour être analysées et cartographiées lors d'un cours de formation qui enseigne l'utilisation R pour le travail épidémiologique puis personnalise le système d'enquête S3M pour produire les indicateurs et les cartes nécessaires. Vous pouvez envisager cette approche.

De vos messages précédents, je pense que vous seriez en utilisant une approche de RAM par district. Je pense que la meilleure approche serait d'utiliser le R workflow pour gérer et analyser les données et ensuite la carte à la main en utilisant un / SIG au niveau d'entrée bas de gamme (par exemple ArcView ... maintenant appelé ArcGIS BASIC) ou un programme de graphiques vectoriels tels OpenOffice Draw.

J'espère que cela aide.

Roman

Utilisateur régulier

1 juin 2014, 03:38

Ceci a été traduit automatiquement.

Merci pour votre réponse informative. Je veux que ces types de cartes que vous mentionnés ci-dessus. Je suis bien familiarisé avec R, mais ne pas familier avec les paquets qui peuvent attirer ces types de cartes. Il ya beaucoup de paquets dans R de le faire comme "ggplot2", "SP", "cartes", etc. Je veux savoir quel paquet sera être utile de faire cela? Vous pouvez me faire parvenir dans mon email (shopnobazami@gmail.com) certains mannequin ou un code rugueuse ou aidant des documents si cela est possible.

Merci pour votre temps.

Ernest Guevarra

Valid International

Utilisateur fréquent

2 juin 2014, 07:42

Ceci a été traduit automatiquement.

Mark a gentiment appelé votre question me concernant paquets dans R pour la création de cartes.

Premièrement, je pense que Mark a dit dans sa dernière réponse, basée sur ce que vous nous avez dit au sujet de l'enquête que vous faites, vous êtes le plus susceptible de faire une enquête par-district avec des résultats étant représentative de chaque district (soit un résultat par district ). Ainsi, vous serez plus susceptibles de vouloir présenter ces résultats spatialement que des couleurs par district basé sur une certaine échelle ou le spectre des couleurs qui représentent la gamme des valeurs de vos résultats par district ou une échelle de 0 à 100 varier si vous êtes proportions déclaré ou des classifications ou des regroupements de valeurs.

Premier exemple de Mark pour la Sierra Leone je pense est celui qui est le plus adapté pour la présentation des résultats de votre enquête.

En ce qui concerne la façon de le faire, je vais faire écho aux suggestions que Mark a donnés. Parfois, l'approche cartographie par la main est le plus accessible pour nous parce que nous n'y avons pas accès aux données les plus à jour qui précise les limites de la localité ou région que nous sommes désireux de cartographier et souvent ce que nous avons est un disque copie ou une version imprimée de la carte et non pas les données sur les limites lui-même. Ceci est une considération que vous aurez toujours à réfléchir et qui déterminera si la cartographie par la main est la meilleure approche.

Comme vous le savez probablement très bien étant donné que vous êtes bien versé dans R, il est un outil de programmation statistique et il peut faire beaucoup de choses différentes pour différentes applications aussi longtemps que vous pouvez saisir, de manipuler et de données de sortie. Le même principe vaut à la cartographie dans R. Pour être en mesure de cartographier vos résultats, vous aurez non seulement besoin des données de votre enquête, mais vous aurez également besoin d'autres données qui contient les coordonnées des frontières ou la forme de la région / emplacement que vous faites correspondre. En outre, vos données de l'enquête devront identificateurs qui correspond à celle des données sur les limites de sorte que vous pouvez lier des données d'enquête avec les données de coordonnées.

Je pensais que je partage la note ci-dessus pour le forum comme une introduction générale de ce que l'on doit penser à ce qui concerne les données et les exigences en matière de structure de données pour la cartographie. Compte tenu de cela, je pense que vous pouvez évaluer les données que vous avez en ce moment pour vous aider à décider quelle cartographie approche à adopter.

Je communiquerai avec vous à travers votre e-mail que vous avez suggéré de partager un peu de code pour les techniques de cartographie générales dans R.

J'espère que cela aide.

Mark Myatt

Utilisateur fréquent

2 juin 2014, 14:49

Ceci a été traduit automatiquement.

Merci de payer cela.

Roman

Utilisateur régulier

3 juin 2014, 02:56

Ceci a été traduit automatiquement.

Merci vous Ernest. Oui, je veux plan de la zone de couverture sage avec des couleurs différentes. Vos suggestions vous aideront à moi de faire mon travail de façon droite. Merci pour votre temps.

Roman

Utilisateur régulier

3 juin 2014, 03:00

Ceci a été traduit automatiquement.

Merci Mark pour votre aimable coopération.

Roman

Utilisateur régulier

29 sept. 2015, 03:22

Ceci a été traduit automatiquement.

Si nous voulons comparer le niveau de référence et à la fin ligne prévalence de la couverture MNP, alors nous pouvons appliquer test t apparié. Mais comment pouvons-nous appliquer ce test t en ajustant bloc technique du bootstrap pondérée? Si nous ré-échantillonné 500 fois dans BTW, alors nous obtenons 400 prévalence de base et la fin de ligne; 500 et p-valeurs sur la différence entre la ligne de base et à la fin de ligne. Ensuite, nous pouvons appliquer test de permutation. Est-ce correct? Quelqu'un peut-il me donner une suggestion?

Merci pour votre temps.

Mark Myatt

Utilisateur fréquent

29 sept. 2015, 08:51

Ceci a été traduit automatiquement.

Première nous déballons le terme «bloc de bootstrap pondérée". Le "bloc" et des parties pondérés se réfèrent à la façon dont une réplique bootstrap (un «pseudo-enquête" créés par ré les données réelles) est créé. Pour le travail d'enquête de cette réplique de la méthode d'échantillonnage. Avec une enquête de type SMART, nous avons utilisé une méthode bloqué et l'échantillon répété est pris comme échantillon avec remplacement des grappes, puis un échantillon avec remplacement à partir avec le cluster. Il est sur la pondération parce qu'une enquête SMART utilise PPS au poids avant l'échantillon. Pour un échantillon de RAM ou S3M (les deux utilisent un échantillonnage spatial) les répétitions est faite par échantillonnage clusters avec remplacement et proportionnelle à la taille des populations.

Vous remettez en question est plus sur la partie «bootstrap» du terme. la méthode est très simple. Utilisation de votre exemple:

(1) Prendre r = 500 réplique à partir de l'enquête de référence. Calculer la prévalence dans chaque répétitions. Cela vous donnera R = 500 prévalences de base. Appelons cette BP.

(2) Prendre r = 500 répliques de l'enquête de fin d'étude. Calculer la prévalence dans chaque répétitions. Cela vous donnera R = 500 prévalences de fin d'étude. Appelons cet EP.

(3) Vous êtes intéressé par la différence entre la ligne de base et la prévalence ligne de fond. Nous pouvons estimer ce en soustrayant les prévalences répliquer à partir de l'autre:

    Répliquer BP EP Différence (BP - EP)
    ------------ ----- ----- --------------------
               0,121 0,105 0,016 1
               0,133 0,114 0,019 2
               3 0,125 0,129 -0,004
               4 0,091 0,113 -0,022
               . . . .
               . . . . 
               . . . .
             0,120 0,112 0,008 500
    ------------ ----- ----- --------------------

(4) Il ya deux façons de procéder d'ici. Si vous êtes intéressé à estimer l'ampleur de la différence ensuite trouver la différence MEDIAN (ce qui est l'estimation ponctuelle de la différence) et le 2,5e percentile et le percentile 97,5 (ce sont les limites de confiance inférieure et supérieure de 95% de la différence ). Si l'intervalle de confiance contient zéro, alors vous pourriez conclure qu'il n'y a pas de différence significative. Si vous voulez une valeur p puis de compter le nombre de différences qui sont inférieures ou égales à zéro et diviser par le nombre de répétitions. Si (par exemple), il y avait 11 différences <= 0 et 500 répétitions alors p = 11/500 = 0,0220.

Je présente ici un exemple codé en R d'un exemple bootstrap norme relative au gain de poids en deux groupes de porcs sur différents compléments alimentaires:

    #
    # Les gains de poids sur les deux régimes
    #
    diet1 <- c (31, 34, 29, 26, 32, 35, 38, 34, 31, 29, 32, 31)
    diet2 <- c (26, 24, 28, 29, 30, 29, 31, 29, 32, 26, 28, 32)
    #
    # Accumulateur pour les différences
    #
    différences <- NULL
    #
    # Prenez 500 répliques
    #
    pour (i à 1: 500)
      {
      #
      # Répétés sont des gains de poids moyen sur chaque régime
      #
      r1 <- moyenne (échantillon (diet1, replace = TRUE))
      r2 <- moyenne (échantillon (diet2, replace = TRUE))
      #
      # Différences
      #
      différences <- c (différences, R1 - R2)
      }
    #
    # Estimations
    #
    quantile (différences, probs = c (0,5, 0,025, 0,975))
    #
    # Une valeur p
    #
    z <- IfElse différences (<= 0, 1, 0)
    somme (z) / 500

Quand je lance ce je me suis différence = 3,17 (IC à 95% = 1,08; 5,58) avec p = 0,0020. Des résultats similaires peuvent être obtenus en utilisant un test t simple.

Vous pouvez vous demander "Pourquoi utiliser le bootstrap?" ... Plusieurs réponses:

(1) Il est très efficace taille de l'échantillon de WRT.

(2) Il est (sous la forme donnée ci-dessus) non-paramétrique utilisant empiriques plutôt que des distributions théoriques. Il n'y a pas d'hypothèses (par exemple) la normalité de violer.

(3) Nous pouvons utiliser toute statistique nous voulons. Il est (par exemple) ne classique des tests des différences dans les valeurs médianes. Pour le bootstrap ci-dessus, nous pouvons le faire en remplaçant «moyenne» avec «médiane». Nous aurions pu facilement regardé gain de poids total en remplaçant "signifie" avec "somme". Essai classique sont limitées à quelques statistiques.

(4) Ce que vous voyez ci-dessus est aussi compliqué qu'il obtient. Essai classique peut devenir compliqué assez rapidement.

Quoi qu'il en soit ... Je espère que cette aide.

Roman

Utilisateur régulier

3 oct. 2015, 00:27

Merci beaucoup, Mark Myatt, pour votre réponse et  les explications détaillées.

Si vous rencontrez des problèmes pour poster une réponse, veuillez contacter le modérateur à post@en-net.org.

Retour en haut de page

» Afficher une réponse