[Fr] L’étude des accidents d’avions (Partie 2)

4. Analyse des échantillons appariés

Pour cette partie, notre but est de déterminer le taux de nombre de morts/nombres de passagers. L’hypothèse est que dans un crash aérien de n’importe quelle taille, il est impossible d’y survivre. Les 2 échantillons utilisés sont Aboard et Fatalities du jeu de données extrait accident. Ils sont évidemment appariés.

4.1 Statistique descriptive

4.1.a) Représentation graphique

On utilise toujours la même jeu de données accident, donc on n’a pas besoin de re-examiner sa distribution. On commence avec un nuage de point pour visualiser l’association entre ces 2 échantillons (figure 8) :

Figure 8 – Nuage de points du nombre de morts en fonction du nombre de passagers de chaque accident de 1994 à 2009
Figure 8 – Nuage de points du nombre de morts en fonction du nombre de passagers de chaque accident de 1994 à 2009
On observe une très forte relation y=x (ie. dans un accident, tous les passagers sont morts), ce qui convient bien à notre hypothèse. On peut distinguer 2 catégories de nombre de personnes sur le vol :
—  Le premier cas des petits avions (< 30 passagers), ou tout est possible, peut de morts, beaucoup de mort, pas de mort.
—  Le second cas des avions moyens (> 20) ou tout le monde meurt ou tout le monde survie même si le cas de survie est plus faible que le cas de mort.

On examine ensuite la dispersion des données (figure 9):

Figure 9 – Box plot du nombre de passagers et nombre de morts
Figure 9 – Box plot du nombre de passagers et nombre de morts
Figure 10 – Courbe des fréquences cumulées du nombre de passagers et nombre de morts
Figure 10 – Courbe des fréquences cumulées du nombre de passagers et nombre de morts

Tout ces éléments font apparaitre une différence entre le nombre de morts et le nombre de passagers assez significative, un crash ne signifie pas nécessairement la mort de tous les passagers, on peut cependant dire que la risque est très grande. Ceci s’explique par le fait que pour tout avions, un nombre de crash significatif se termine avec un très petit nombre de mort par rapport au nombre de passager.

4.1.b) Caractéristique numérique

La tendance centrale:

> summary(accident$Aboard)
 Min   1st Qu.   Median   Mean   3rd Qu.   Max
 1.00   5.00     10.00    30.21   25.00   517.00
 > summary(accident$Fatalities)
 Min   1st Qu.   Median   Mean   3rd Qu.   Max
 0.00   3.00      7.00    20.2   17.00    349.00
La différence entre le nombre moyen de passagers et celui de morts est remarquable (environ 33%). Par contre les médianes des 2 échantillons ne sont pas trop écartées (10 par rapport à 7). Pour l’expliquer, on peut retourner à l’observation dans la partie descriptive : dans le cas des gros avions, il peut y avoir plus de centaine de morts ou aucun, cette grose différence provoque un décalage dans les moyennes des deux groupes.

La dispersion:

> var(accident$Aboard)
[1] 2840.458
> sd(accident$Aboard)
[1] 53.29594
> var(accident$Fatalities)
[1] 1468.7
> sd(accident$Fatalities)
[1] 38.32362

On observe une très forte variabilité dans les deux cas : 53.29 personnes par rapport à 38.32.

4.2 Statistique inférentielle

On pose :
—  H0 : la différence entre les deux moyennes est 0.
—  H1 : La moyenne du nombre de passagers est significativement plus grande que celle du nombre de morts.
On veux utiliser le test de rang signé Wilcoxon pour les mêmes raisons que le cas des 2 échantillons indépendents. Les hypothèses de ce test sont :
— Les données sont appariées et viennent d’une même distribution
— Chaque paire est choisie aléatoirement et de façon indépendant.
— La distribution de la différence entre 2 groups est symétrique.

La nature de notre échantillon est assez spéciale : les valeurs sont non- négatives avec beaucoup de valeurs nulles, la 3ème hypothèse risque de ne peut pas être satisfaite. On le teste en traçant un histogramme (figure 11) :

Figure 11 – Distribution des di�érences entre deux échantillons
Figure 11 – Distribution des différences entre deux échantillons

La figure confirme que la différence des 2 groupes ne vient pas d’une distribution symétrique. Alors on ne peut pas utiliser le test Wilcoxon. On a 2 options : effectuer une transformation pour normaliser les données ou choisir le test de Student. Comme on ne maitrise pas les techniques de transformation, on a décidé à ignorer la risque des valeurs aberrantes et faire un test de Student.

D’après cet article, les tests de normalités ont souvent une puissance statistique peu élevée et le test de Welch (les variances sont diérentes) est aussi performant que le test de Student même dans le cas des variances égaux, alors on va utiliser directement le test de Welch :

> t.test(accident$Aboard, accident$Fatalities, alternative =
         "greater", paired = TRUE, var.equal=FALSE)
  Paired t-test 
  data: accident$Aboard and accident$Fatalities
  t=8.3134, df=1043, p-value < 2.2e-16 
  alternative hypothesis: true difference in mean is greater than 0 
  95 percent confidence interval
    8.028903   Inf
  sample estimates: 
  mean of the differences
     10.01149
On calcule aussi la taille d’effet Cohen’s:
 > cohen
 [1] 0.2156839

Parmi les 2 échantillons, statistiquement, il y a une différence signifiante entre la moyenne du nombre de passagers (M=30.31, SD=53.29) et celle du nombre de morts (M=20, SD=38.32) : t=8.3134, df=1043, p-value=2.2e-16 < 0.05. Par conséquent, on peut rejeter l’hypothèse nulle que les deux moyennes sont identiques. Pourtant, l’intervalle de confiance à 95% vas de 8 à l’infini et le coeffcient Cohen’s d donne une valeur assez petite (0.21), ce qui suggère un niveau de signification pratique moyennement faible.

4.3 Résumé et Conclusions Préliminaires

Les vols qui causent la mort de peu de passagers sont représentés significativement pour des avions de toutes les tailles, mais plus particuliérement (en masse même) par des avions de petites tailles (<20 places).

5. Conclusion

Les 2 études amènent quelques conclusions :
—  Les accidents les plus fréquents causent la mort de peu de personne, mais participent le plus en terme de quantité de mort dans les avions.
—  Les vols au coeur de ces accidents sont de tout types (commerciaux, domestiques, militaire à usage civils) mais sont avant tout représentés par des avions de petites taille! (pour plus de 75% des avions d’une capacité inférieure à 20 places)
—  Après 2001, le nombre d’accident causant la mort de peu de personnes diminue drastiquement.
—  Les chiffres ne bougent quasiment pas pour les avions de grandes tailles malgrés l’augmentation du trafic.
—  On peut conclure par rapport au 11 septembre que la mise en place d’un gigantesque nombre de règles sécuritaire a permis d’une certaine manière de réduire le nombre de mort en avion chaque année. Pour aller plus loin il faudrait plutôt comprendre pourquoi. On peut rappeler qu’en France près de 4000 personnes meurent sur la route chaque année contre 8215 en avions dans le monde en 8 ans…L’imaginaire, la médiatisation, et la gravité des accidensts médiatisées font que l’on a toujours plus d’appréhension avec l’avion, mais l’avion est beaucoup plus sur que la voiture.
—  Si on se trouve dans un avion et qu’un problème intervient, il y a encore un peu d’espoir d’après nos résultats !
Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s