[Fr] L’étude des accidents d’avions (Partie 1)

1. Introduction

7 gros accidents, 22 accidents mortels, 992 morts, plus de 1000 disparus… L’année 2014 est l’une des plus meurtrières de ces quinze dernières
années. Une année noire pour le transport aérien. La question suivante se
pose donc : plus d’une décennie après l’évènement tragique du 11 Septembre,
étants donnés les milliards de dollars investis dans le secteur aérien, le renforcement des mesures de sécurité dans les aéroports et des avions, la sécurité aérienne a-t-elle vraiment été améliorée et sur quels type de vol ?

La réponse affirmative à cette question s’impose aujourd’hui comme idée communément acquise. En effet, en quelques minutes sur Google, on peut trouver autant de statistiques que l’on veut pour confirmer cette réponse.

Figure 1 – Nombre d’accidents mortels (vols avec plus de 19 passagers) de 1950 à 2014. Source : plancrashinfo.com
Figure 1 – Nombre d’accidents mortels (vols avec plus de 19 passagers) de 1950 à 2014. Source : plancrashinfo.com
Figure 2 – Nombre total d’accidents (ligne rouge) et moyenne des 10 dernières années (ligne bleue). Source : Aviation Sagety Network
Figure 2 – Nombre total d’accidents (ligne rouge) et moyenne des 10 dernières années (ligne bleue). Source : Aviation Sagety Network

Aujourd’hui nous voulons aller chercher notre propre réponse. Ce document va être partagé en 5 parties :

  1. Préparation du jeu de donnée.
  2. Analyse de la fatalité entre deux époques avant et après le 11/09 (échan- tillons indépendants).
  3. Analyse du taux de fatalité/passager dans les accidents (échantillons appariés).
  4. Conclusion.
  5. Quelques idées pour aller plus loin.

2. Le jeu de donnée

  • Introduction
    Pour ce projet, nous utilisons le jeu de données “Airplane Crashes and Fatalities Since 1908” (Source : Open data – socrata). Ce jeu de données rassemble tous les informations concernant des accidents aériens de 1908 jusqu’à 2009. Il contient 5268 observations avec 13 variables indépendentes: “Date”,  “Time”, “Flight..”, “Route” , “Registration”, “cn.In”, “Ground”, “Summary”, “Location”, “Operator”, “Type”, “Aboard”, “Fatalities”.Dans le cadre de notre projet, on s’intéresse principalement aux variables “Aboard” (nombre de passagers) et “Fatalities” (nombre de morts). Concrètement, pour la première partie avec des échantillons indépendants, on utilisera uniquement la variable “Fatalities” pour réaliser l’analyse en nous basant sur 2 périodes : avant le 11/09 et après le 11/09. Ensuite, pour des échantillons appariés, on comparera les 2 variables “Aboard” et “Fatalities”. Dans la partie “Aller plus loin” on utilisera également les variables “Location”, “Route”…
  • Préparation

    Etant donnée que l’on ne possède pas de données après 2009, on travaille seulement sur 2 échantillons de périodes de 8 ans : de 1994 à 2001 et de 2002 à 2009. Avant d’extraire les données, on doit modifier le format de la variable Date (qui est du type Character pour l’instant) pour pouvoir des facilités de manipulation:

     > library(lubridate) #package permettant de manipuler les
                dates
    
     > airplane$Date <- mdy(airplane$Date) #reformule le format
                Date du jeu de données sous forme YYYY-MM-DD
    

    Maintenant on extrait le jeu de données en 2 parties :

      > accidentAvant <- subset(airplane, year(Date)>1993 &
                year(Date)<2002, select=c(Aboard, Fatalities)) #on
                garde seulement les 2 variables nécessaires sur la
                période utile.
    
    > accidentApres <- subset(airplane, year(Date)>2001,
                select=c(Aboard, Fatalities))
    
    > accidentAvant <- na.omit(accidentAvant) #on supprime les
                observations n’ayant pas de valeurs
    
    > accidentApres <- na.omit(accidentApres)
    

    accidentAvant est composé de 607 observations et accidentApres est composé de 437 observations.

    Pour faciliter les démarches de la partie de représentation graphique, on combine les 2 jeux de données:

    > accidentAvant[,"Periode"] <- "Avant le 11/09" #on ajoute
                la variable Periode pour distinguer entre 2 périodes
    
    > accidentApres[,"Periode"] <- "Après le 11/09"
    > accident <- rbind(accidentAvant, accidentApres)
    

    L’échantillon accident est composé de 1044 observations au total.

    > head(accident)
     Aboard     Fatalities     Periode
      124          124       Avant le 11/09
      10           10        Avant le 11/09
      8            5         Avant le 11/09
      2            2         Avant le 11/09
      13           13        Avant le 11/09
      31           31        Avant le 11/09
    
    3. Analyse des échantillons indépendants
    3.1. Statistique descriptive
    3.1.a) Représentation graphique

    Dans le cadre de ce projet, on utilise toujours le package R “ggplot2” pour les représentations graphiques.

    On commence par chercher la forme de la distribution de ces 2 échantillons. Si l’on se contente de penser aux accidents très médiatisés, on peut imaginer que le nombre d’accidents d’avions est relativement petit (< 10 par ans) et qu’ils sont toujours très meurtriers, on entend donc très peu parler des accidents avec un petit nombre de morts. Sont ils plus nombreux ? Qu’en est il avant et après le 11/09? Etant donné que la variable “Fatalities” est quantitative discrète, pour l’histogramme (figure 3) on groupe les observations par classes de 5 (un choix aléatoire) :

    Figure 3 – Histogramme du nombre de morts et moyenne des 2 périodes
    Figure 3 – Histogramme du nombre de morts et moyenne des 2 périodes

    Pour mieux observer la distribution estimée sur les données, on utilise également la courbe de densité de Kernel (figure 4) :

    Figure 4 – Densité du nombre de morts des 2 périodes
    Figure 4 – Densité du nombre de morts des 2 périodes

    Les 2 figures répondent très simplement à notre question, les accidents qui causent la mort d’un petit nombre de personne sont beaucoup plus nombreux que ceux causant la mort d’un grand nombre de personnes : les 2 jeux de données ont une même distribution qui est très décalée vers la gauche avec une queue de distribution étalée vers la droite. Le pic des deux échantillons tombent dans l’éventail de 8-12 morts. A droite de la moyenne (à partir de 15-20 morts), la fréquence des accidents devient très petite par rapport à la partie gauche. Sans l’analyse couplé du nombre de mort et du nombre de passager on ne peut pas correler un petit nombre de mort avec un petit avion donc on ne peut pas à ce stade de l’analyse faire une interprétation sur la taille des avions. Par rapport à la question initiale que pose ce rapport et avec les inofarmations que nous donne cette description mathématique, on peut donner l’interprétation suivante. On s’apperçoit que avant le 11/09, le nombre d’accidents ayant moins de 100 morts est beaucoup plus élevé que celui après le 11/09, mais à partir de ce seuil là, il y a approximativement autant d’accident entre les 2 périodes. Les moyennes sont assez proches aussi, avec une valeur estimée d’environ 15 morts. Ces remarques sont assez importantes, puisqu’elles nous suggèrent que la sécurié aérienne après le 11/09, a significativement augmenté (On en entend par augmentation de la sécurité le fait que les vols soit moins sujet aux accidents) pour les vols sujets à des accidents avec un petit nombre de mort, sans pour autant être impactées pour les vols sujet à des accidents avec un grand nombre de morts (>100 donc nécessairement des grands avions, c’est la seule interprétation de taille d’avions que l’on peut faire à ce stade l’analyse).

    Par curiosité, on veut déterminer concrètement la distribution la plus proche de ces échantillons. Pour cela, on utilise le package fitdistrplus qui implémente des fonctions pour la recherche de distributions. On commence avec la fonction descdist pour avoir une première idées des distributions qui correspondent le mieux à notre jeu de données (figure 5). Les 2 échantillons vennant d’une même distribution, on ne fait pas de distinction entre les 2.

    Figure 5 – Les distributions possbiles pour Fatalities
    Figure 5 – Les distributions possbiles pour Fatalities

    Le kurtosis et le skewness carré de notre échantillon sont représentés par le point bleu Observation. Il apparait que le choix le plus plausible est la loi binomiale négative. On compare cette distribution avec notre jeu de données (figure 6) :

    Figure 6 – Distribution binomiale négative et notre jeu de données
    Figure 6 – Distribution binomiale négative et notre jeu de données

    Le graphe à gauche représente les courbes de densité tandis que celui à droite compare les courbes des fréquences cumulées. Etant donné qu’un échantillon réel ne collera jamais parfaitement avec un modèle théorique et la proximité des deux ici, on peut aisément se contenter de ces résultats.

    On examine maintenant la dispersion des données en utilisant les box plots (figure 7):

    Figure 7 – Box plots du nombre de morts des 2 périodes
    Figure 7 – Box plots du nombre de morts des 2 périodes

    Ce graphe nous indique qu’il n’y a pas de différences remarquable entre les 2 périodes. Les 3 quartiles Q1 (25%), Q2 (la médiane), Q3 (75%) et les valeurs maximales et minimales sont quasiment identiques. L’intervalle interquartille est assez étroit (environ 10 morts), l’étendue est un peu plus grand (environ 30 morts). Ce graphe confirme également la tendance de la distribution du jeu de données que l’on a trouvé: la médiane est beaucoup plus proche du premier quartile que du troisième quartile, autrement dit les accidents provoquant un faible nombre de mort sont plus fréquents.

    Les box plots ont certainement considérés certains points comme aberrants, cela peut s’expliquer par le fait que la distrubution des échantillons est très étalée et dense à une extrémité.

    3.1.b) Caractéristique numérique

    La tendance centrale:

    > summary(accidentAvant$Fatalities) #période 1994-2001
    Min.  1st Qu.  Median  Mean  3rd Qu.  Max.
    0.0     3.0     7.0    21.2   18.0    349.0
    > summary(accidentApres$Fatalities) #période 2002-2009
    Min.  1st Qu.  Median  Mean  3rd Qu.  Max.
    0.0     3.0     6.0    18.8   16.0    275.0

    Ces valeurs numériques nous apportent plusieurs informations : la sécurité aérienne après le onze septembre en terme de nombre de mort par vol accidenté augmente très légerement, il y a en moyenne moins de mort par avions accidenté que la période pré onze septembre. La medianne nous confirme que la moitié des victimes est toujours due aux vols accidentés causant un petit nombre de victime (<6/7).

    La dispersion:

    > var(accidentAvant$Fatalities) #période 1994-2001
                 [1] 1589.696
    > sd(accidentAvant$Fatalities)
                 [1] 39.87099
     > var(accidentApres$Fatalities) #période 2002-2009
                 [1] 1300.533
     > sd(accidentApres$Fatalities)
                 [1] 36.0629
     > colSums(accidentAvant[,-3])
                 Fatalities
                 12869 # nombre total de mort sur la période avant 2001
     > colSums(accidentApres[,-3])
                 Fatalities
                 8215 # nombre total de mort sur la période aprés 2001
    

    Un chiffre révelateur est celui du nombre total de mort, il baisse considérablement, on passe de 12869 morts a 8215 morts après le 11 septembre! Ceci peut s’expliquer par la baisse drastique du nombre du nombre d’accidents , on passe de 607 accidents à 347 accidents après le 11 septembre ! Au niveau de l’écart-type, l’échantillon de la période avant 11/09 est un peu plus grand que l’autre ( 40 morts par rapport à 36 morts). Dans les deux cas, on observe un écart-type environ deux fois plus grand que la moyenne (39.8 – 21.2 pour le premier et 36 et 18.8 pour le deuxième), ce qui exprime une grande dispersion de données. En observant les représentations graphiques, on sait que cette dispersion vient du fait que d’un côté la majorité des accidents a très peu de victimes (<20), voir personne, et d’autre côté il existe des gros accidents avec plus de 100 morts.

    3.2 Statistique inférentielle

    On pose :
    — Ho : La différence entre les deux moyennes est 0.
    — H1 : La différence entre les deux moyennes est signifiante.

    On choisie α = 0.05

    Notre première idée était d’effectuer un test de Student : la taille de nos échantillons est grande et donc grâce à la loi des grandes nombres, on peut ignorer la non-normalité de la distribution initiale. Pourtant, en prenant en compte le risque d’avoir des valeurs aberrantes, on a choisie le test non paramétrique de Wilcoxon.

    Les hypothèses de ce test sont :
    — Les données sont indépendentes et viennent d’une même distribution. — Chaque observation est choisie aléatoirement et de façon indépendant.

    Ce test compare la distribution des rangs des 2 groupes. Pour comparer la différence entre leurs médianes (ou leurs moyennes dans notre cas), on assume en plus que les 2 échantillons viennent de la même distribution, ce qui est totallement plausible après tout ce que l’on a trouvé dans la partie statistique descriptive.

    Notre seuil de différence pratique est 10 morts en moyenne : en dessous de ce seuil, même si la différence est statistiquement signifiante, on la considère sans intérêt en pratique.

    > wilcox.test(accidentAvant$Fatalities,
             accidentApres$Fatalities, conf.int = TRUE)
      Wilcoxon rank sum test with continuity correction
    
     data: accidentAvant$Fatalities and accidentApres$Fatalities
     W = 140592, p-value = 0.09694
     alternative hypothesis: true location shift is not equal to 0 95 percent confidence interval:
     -0.0000738414 1.00004 
     sample estimate: 
      difference in location 
            0.9999799
    

    Parmi les 2 échantillons, statistiquement, il n’il y a pas de différence signi- fiante entre la moyenne du nombre de morts avant 2001 (M=21.2, SD=39.87) et celle après 2001 (M=18.8 SD=36.0629) : P = 140592, p-value = 0.09694 > 0.05. Par conséquent, on ne peut pas rejeter l’hypothèse nulle. En addition, le 95% intervale de confience vient de 0.00 à 1.00 (qui sont des extrémités très insignifiantes), ce qui suggère un niveau de signification pratique très bas. En d’autres termes, on peut imaginer d’après ces résultats que le nombre moyen de mort par vol n’est quasiment pas impacté par les règles sécuritaire misent en place dans les aéroports et les avions.

    3.3 Résumé et Conclusions préliminaires:

    Nous allons ici résumer puis commenter les résultats donnés dans cette partie :

    —  Indépendamment des périodes, les accidents qui causent la mort d’un petit nombre de personne sont beaucoup plus nombreux que ceux causant la mort d’un grand nombre de personnes. La majorité des accidents causent la mort de moins de 20 personnes.

    —  Dans la période post 11/09, on constate beaucoup moins d’accidents et beaucoup moins de morts que dans la période pré 11/09.

    —  On constate que le nombre des accidents provoquant un petit nombre de morts à drastiquement diminué après le 11/09.

    —  La moyenne du nombre de mort par vol accidente est stable et d’après les résultats du test d’hypothése et sans évenement particulier il n’y a pas de raison que le renforcement des régles de sécurités du au onze septembre n’impacte cette moyenne.

    On peut d’après ces résultats dire que effectivement le 11/09 a eu un impacte fort sur la sécurité aérienne. Le nombre d’accident et le nombre de morts ont beaucoup baissés (607− > 347, 12869− > 8215).

    On se rend compte d’un autre phénomène, la majorité des accidents causent la mort de peut de personnes, et c’est la quantité de ces accidents qui a drastiquement baissée.

    On se rend également compte que le nombre des vols accidentés provoquant la mort d’un grand nombre de personnes (nécessairement des gros avions) ne diminue pas non plus. En effet, il est noté que le traffic aérien ne cesse d’augmenter à travers l’histoire excepté suite au 11 septembre 2001 où l’on enregistre une baisse du nombre de vols pendant 2 ans, cependant cette baisse est très relative et est compensée en nombre par la forte augmentation qui suit, il ya plus de vols sur la seconde période de l’étude que sur la première.

    On peut donc retenir ici que, les accidents provoquant la mort d’un petit nombre de personnes sont majoritaires, que leur quantité diminue après 2001, que l’on observe une stabilité du point de vue des accidents causant la mort d’un grand nombre de personnes et que le nombre global de mort et d’accident baisse drastiquement dans la période post 11/09.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s