[Fr] L’étude des accident d’avions (Partie 3)

6. Quelques idées pour aller plus loin

6.1 Exploiter les données spatiales

On a vu que dans notre jeu de données initial (airplane), il y a 2 variables géographiques : Location pour le nom des sites du crash et Route pour le nom du point de départ et d’arrivée de l’avion. Ces informations spatiales ne sont pas évidentes à interpréter si on les garde sous cette forme, alors nous pensons à les transformer en coordonnées et les afficher sur une cartographie (figure 12).

Figure 12 – Cartographie des accidents d’avions de 1994 à 2009
Figure 12 – Cartographie des accidents d’avions de 1994 à 2009

Quelques observations :

• Avant 2001, il y avait beaucoup d’accidents d’avions en Europe de l’Ouest, notamment en France et Italie. Après 2001, cette tendance déplace vers l’Europe de l’Est. Particulièrement, Moscow est souvent le point de départ ou d’arrivée de plusieurs accidents.

• Avant, la plupart des accidents graves s’est passée en Asie de l’Est, maintenant ils sont plus souvent en Asie de l’Ouest, en Europe de l’Est et en Afrique. • En parlant de l’Afrique, les accidents ici sont très locaux et centralisés. Angola, Congo, Tanzania, et surtout Nigeria sont des pays où s’est passée la plupart des accidents. En plus, vu que les chemins de vols sont souvent très courts, il nous suggère que la sécurité aérienne en Afrique n’est pas encore mise en valeur.

• Environ 70% des sites de crash sont au bord de la mer. Cette tendance peut être observée très claire à l’État Unis, en Mexique et à l’Amérique du Sud dans les années avant 2001. • Avant 2001, le chemin de vol le plus dangereux est Japon – Colombie. Il y avait au moins 3 gros accidents et plusieurs petits accidents.

• La plupart des accidents sont aux décollages et aux attérissages, c’est-à- dire quand l’avion change d’altitude. Ce sont des étapes les plus difficiles dans le pilotage d’un avion, ce qui nous pose des questions sur le niveau d’expertise des pilotes dans les accidents.

6.2 Modèle de prédiction

Avec les outils de machine learning, on pourrait construire un modèle de prédiction en associant ces données avec des jeux de données de la météorologie (les zones de turbulences, les hurricaines, les ouragans, les saisons cycloniques,…), de la militaire (des zones de guerre, du conflit armé,…) ou encore des informations techniques concernant les avions,..pour trouver les patterns. Pourtant, on pense que ça sera un tâche très difficile. Les 2 problèmes majeures avec la construction d’un tel modèle sont la rareté des accidents par rapport au nombre total des vols et la richesse des variables indépendantes. Si on inclut tous ces variables dans le modèle, on face à un gros risque de sur-ajustement, et donc le modèle ne peut plus distinguer entre le signal et les bruits. Pour l’instant, beaucoup de statisticiens, data scientists … travaillent sur les problèmes aériennes, particulièrement sur la prédiction des annulations et retards de vol. Pourtant, la prédiction des accidents restent toujours un problème très complexe à interpréter et donc il n’existe pas énormement des études sur ce sujet. Un example que l’on peut trouver est cet article. L’auteur utilise un arbre de décision pour générer un modèle. On retournera à ce problème dans un avenir proche, quand on aura une solide connaissance en statistique et machine learning…
Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s