Comment surveiller les vagues d'ovnis ?

Giorgio AbrainiAbraini, Giorgio: CISU, mardi 22 novembre 2005

Si nous ne pouvons pas prédire les vagues d'ovnis, pouvons-nous au moins les surveiller ?

Les études de vagues d'ovnis se focalisent généralement sur la recherche d'un schéma périodique ou de quelque autre caractéristique donnant des indices quant à la nature des phénomènes d'ovnis et la prédiction de vagues d'ovnis. Nous préférons ici une approche plus modeste, visant à une surveillance en temps-réel des vagues d'ovnis : nous décrivons un instrument statistique spécifiquement conçu pour signaler la présence d'un nombre significativement élevé de signalements d'ovnis.

Pour ce faire, nous avons besoin d'ajuster de manière saisonnière les données sur les ovnis et de trouver quelle distribution statistique elles suivent. En connaissant la distribution de données ovnis ajustées de façon saisonnière, nous pouvons décider si un nombre donné de signalements d'ovnis est significativement élevé d'un point de vue statistique, signalant ainsi la probabilité de l'occurence d'une vague.

Introduction

Les études vagues d'ovnis vont de paire avec l'ufologie depuis le début ; il ne pourrait en être autrement, l'ère des ovnis ayant tout simplement commencé avec une "vague" en juillet 1947 aux USA.

Etudier les vagues d'ovnis vise généralement à rechercher des schémas périodiques spécifiques ou autres caractéristiques qui pourraient fournir des indices quant à la nature du phénomène ovni. Un objectif basique fut bien sûr la capacité à prédire une vague, permettant la falsification du modèle de prévision proposé. Dans l'état de l'art actuel, il semble qu'aucune théorie ne soit capable d'expliquer toutes les données de vagues d'ovnis disponibles.

Un problème différent est lié à la définition des critères d'une vague : quels paramètres devons-nous considérer, et quel seuil devraient-ils dépasser pour que l'on puisse parler de "vagues" de manière adéquate ? Les vagues d'ovnis sont généralement reconnues après qu'elles aient eu lieu, par exemple en comparant le nombre d'observation durant la vague prétendue avec le nombre d'observation lors de périodes "normales".

Cependant, il semble important d'être capable de reconnaître une vague d'ovnis lorsqu'elle se déroule, et encore plus lorsqu'elle vient juste de commencer : cette capacité permettrait aux ufologues d'étudier le phénomène avec une plus grande prise de conscience et, on le souhaite, une plus grande organisation qu'il ne serait possible autrement.

Dans cet article nous préférons par conséquent une approche plus modeste : si nous ne pouvons pas prédire les vagues d'ovnis, pouvons-nous au moins les surveiller en temps réel ? Il est évident que tout ufologue qui suit régulièrement l'évolution du phénomène ovni a une opinion quant à savoir si une vague a effectivement lieu.

Cependant, un critère basé sur des paramètres mesurables serait préférable, étant moins subjectif que l'intuition personnelle. Au cours de 2003, suite à une suggestion de Giuseppe Stilo (CISU), nous avons conçu un outil statistique pour surveiller la fréquence des signalements d'ovnis recueillis par le CISU depuis différentes sources s1Abraini, G. : "Come monitorare le ondate", traduit "How to Monitor UFO Waves", CISU, 2005-11-22. L'outil, bien qu'utile, ne se révéla pas complètement fiable, étant trop dépendant de la saisonnalité des données et il était basé sur la supposition de signalements d'ovnis distribués selon la loi de Poisson : cette supposition se révéla être incorrecte, comme l'expliquera la section 4.

Afin d'améliorer ce premier outil de surveillance, une approche en 3 étape fut définie :

  1. Ajuster les données ovni de manière saisonnière, pour éviter les distortions causées par la saisonnalité
  2. Trouver une distribution statistique, si elle existe, décrivant les données de manière appropriée
  3. Vérifier si le nombre de signalements d'ovnis reçus était cohérent avec une vague d'ovnis.

D'autres discussions à la conférence annuelle du CISU de 2005, dédiées aux vagues d'ovnis, dégagèrent des suggestions sur la manière d'examiner les données ovni dans un contexte de vague.

Dans ce qui suit, la section 2 décrit les données utilisées ; la section 3 décrit l'ajustement saisonnier ; la section 4 décrit la recherche d'une distribution statistique adaptée ; la section 5 décrit comment appliquer les résultats précédents à la surveillance de vague ; la section 6 conclut.

Données

Depuis 2000 le CISU a mis en place une liste de diffusion pour collecter tout élément d'information lié aux observations d'ovnis italiennes. Cependant, une mise à jour mensuelle du catalogue italien n'a commencé que vers la fin l'année suivante. En regardant les données mensuelles brutes on peut remarquer une distortion dans les comparaisons de Mois pour Mois (MpM) et d'Année pour Année (ApA) : si nous sommes en septembre 2005, par exemple, nous avons eu 2 mois pour recueillir les observations de juillet et seulement 1 mois pour recueillir les observations d'août. Par conséquent il n'est pas surprenant de voir qu'en août il y a eu moins d'observations qu'en juillet ; de la même manière, il n'est pas surprenant qu'en le mois précédent il y ait moins d'observations qu'en août 2004, puisque nous n'avons eu que 1 an pour recueillir les signalements d'août 2004.

Pour éviter une telle distortion, seuls les chiffres de 1ʳᵉ mise-à-jour ont été considérés : e.g. le nombre de signalements attribué à février 2003 est celui connu à la mise à jour mensuelle de le mois suivant, pas le dernier chiffre disponible aujourd'hui. Appelons cet ajustment "ajustement à la date de mise-à-jour" (admj). Comme indiqué précédemment, la mise-à-jour mensuelle n'est disponible qu'à partir de la fin 2001 : par conséquent, seuls les signalements d'ovnis admj depuis janvier 2002 ont été considérés dans l'analyse.

Le catalogue italien inclut des signalements traitant d'ovnis au sens strict aussi bien que d'observations conventionnellement explicables d'objets non reconnus par le témoin (ovnis au sens large), des signalements d'événements que le témoin considère lié aux phénomènes ovnis (e.g. crop circles), des photos d'objets non vu par le photographe et ainsi de suite. Le catalogue italien collecte ainsi une très large gamme de signalements, mais les informations sont stockées de manière telle que l'ufologue peut facilement les distinguer selon ces critères.

Certains pourraient objecter que certains de ces signalements (e.g. enlèvements, crop circles, ORBs, etc.) n'ont rien à voir avec le véritablement phénomène ovni ; d'autres pourraient faire remarquer que, puisque nous traitons de vagues d'ovnis, les signalements expliqués représentent un "bruit" qui pourrait être exclu de l'analyse. Mon opinion est que, lorsque nous parlons de vagues d'ovnis, nous parlons plus d'un climat social que d'un véritable accroissement des signalements inexpliqués ; et ce climat social comprend tout phénomène que les témoins relient aux ovnis, pas seulement les classiques "lumières" ou "objets". Il est largement connu, par exemple, que les vagues de météores ont joué un rôle crucial dans le développement de nombreuses vagues d'ovnis. Mais même si la plupart des observations étaient dues à des météores, néanmoins une vague d'ovnis a eut lieu, parce que tout le monde a vu des ovnis, indépendamment de ce qu'étaient réellement ces ovnis.

Cependant, afin de prévenir ces critiques, dans les 2 premières étapes de l'approche décrite dans l'introduction (ajustement saisonnier et distribution statistique) nous avons utilisé les données d'à la fois tous les signalements disponibles et uniquement les signalements d'ovnis, excluant ainsi des signalements de lumières ou objets sans réelle observation (e.g. crop circles, photos d'objets invisibles, etc.) et les signalements potentiellement expliqués par des causes ordinaires (comme des météores, avions, ballons, etc.). Ce qui reste sont les signalements d'observations de lumières ou objets non immédiatement explicable n1Cela ne signifie pas bien sûr que tous ces signalements sont inexplicables : sur le moment et avec les données disponibles ils ne sont simplement pas encore expliqués.

D'ailleurs, une distortion différente est causée par des vagues étendues : lorsqu'une grosse boule de feu est observée, nous recevons de nombreux signalements liés au même événement ; cela gonfle le nombre de signalements, même si le nombre réel d'événements ovnis n'est pas particulièrement élevé. Afin d'éviter de telles distortions nous avons aussi utilisé des données sur les événements, plutôt que sur les signalements.

Par conséquent, l'analysis a été effectuée sur les séries de données mensuelles suivantes :

  1. Tous les signalements OVNI et OVI, admj
  2. Tous les événements OVNI et OVI, admj
  3. Uniquement les signalements d'OVNI, à l'exclusion des signalements sans observation, crop circles, etc., admj
  4. Uniquement les événements OVNI, à l'exclusion des événements sans observation, crop circles, etc., admj

Ajustement saisonnier

En mettant à jour chaque mois le catalogue ovni italien on peut noter une augmentation récurrente d'observations d'ovnis l'été, tout comme une diminution récurrente au printemps : ceci est typique d'un phénomène saisonnier. La saisonnalité est une caractéristique très bien connue de nombreuses données économiques : produit intérieur brut, prix, confiance du consommateur, production industrielle, ventes au détail sont tous des exemples de données saisonnières. Des données non-économique peuvent aussi être saisonnières : les précipitations en sont un exemple évident. Les méthodologie et logiciels statistiques ont été développés pour prendre en compte la saisonnalité et produire des données ajustées de manière saisonnière (as) n2To illustrate the concept of seasonality and seasonal adjustment, let's consider the Italian industrial production: this suffers a severe fall every August, not because of economic recession, but only because of holidays. Therefore, the economists seasonally adjust the data obtaining an industrial production which is not affected by the holidays effect: as such, the seasonally adjusted data better reflect the economic environment. The X-12 software has been used for the computations. It is freely available (along with documentation and research papers) from the US Census Bureau website..

Tableau 1 - Facteurs saisonniers pour les signalements OVNI et OVI italiens, calculés pour la série 1 en novembre 2005.
Mois Facteur saisonnier
Janvier -2
Février -8
Mars -15
Avril -23
Mai -6
Juin 12
Juillet 22
Août 29
Septembre 19
Octobre -2
Novembre -10
Décembre -17

L'ajustement saisonnier, à travers le calcul de moyennes mobiles, décompose la données d'origine (X) en 3 composantes : une "tendance" sous-jacente (T), un facteur "saisonnier" (S) et une composante "irrégulière" (I), comme le montre la relation suivante :

X = T + S + I n3Ceci n'est vrai que si une relation additive maintient les 3 composantes. Dans certains cas une relation multiplicative est plus adaptée, auquel cas X = T * S * I. Ceci est particulièrement utile lorsque X (et donc ses composantes en termes absolus) tend à croître avec le temps : un exemple en est le produit intérieur brut. Les données ovni du catalogue italien se sont révélées être relativement stables dans le temps, et par conséquent la relation additive a eu l'air plus raisonnable.

La série ajustée de façon saisonnière Xas sera par conséquent : Xas = X - S = T + I.

Les résultats les plus intéressants sont bien sûr T et S : le 1er donne un indice sur la tendance courante des observations d'ovni ; nous pouvons avoir une tendance de déclin même avec des signalements d'ovnis en augmentation, suivant les valeurs de S et I. Le 2nd montre quels mois tendent à être positivement ou négativement affectés par la saisonnabilité : certains mois tendant à avoir plus d'observations que d'autres en raison de la saisonnabilité. L'effet général de la saisonnabilité sur 1 année devrait être neutre (les facteurs saisonniers de chaque mois font une somme de 0).

L'ajustement saisonnier appliqué aux données ovni italiennes montre une saisonnabilité statistiquement significative, en particulier pour les séries 3 et 4 n4La statistique-F pour l'ensemble des séries est significative au niveau de 1%, signifiant que la probabilité d'un mauvais résultat du test est inférieure à 1%. Voir l'annexe A. Les facteurs saisonniers sont positifs pour les mois de juin à septembre, et négatifs pour les mois restants : ceci est valable pour toutes séries analysées.

Figure 1. Comparaison entre les signalements OVNI et OVI italiens d'origine et les données ajustées de manière saisonnière correspondantes

La forte saisonnalité l'été est unmanquable, et semble cohérente avec les données d'autres chercheurs comme les données italiennes antérieures à 2000 n5Dans la littérature de statistiques appliquées aux ovnis je n'ai trouvé qu'un article traitant explicitement de l'ajustement saisonnier des séries temporelles sur les ovnis : il s'agit de F. Fernandes & J.M. Ferreira, "Análise da distribuição temporal do fenómeno OVNI na península ibérica (1950-1977)". Dans l'article les auteurs utilisent un modèle multiplicatif et trouvent un indice saisonnier supérieur pour les mois de juillet à décembre, avec un pic en août. Cependant, la manière dont ils calculent l'indice saisonnier n'est pas claire.
Egalement A. Petukhov ("The UFO phenomenon in the mirror of statistics"), avec seulement des statistiques descriptives, trouve des pics stables en janvier et juillet, basées sur des données russes de 1900 à 1980.
La SOBEPS ("OVNI: un phénomène parasolaire?"), en appliquant une approche légèrement différente à une base de données mondiale de 1940 à 1976, trouva que le nombre d'observations d'ovnis atteignait le maximum annuel principalement en juillet et août.
Rutkowski et Dittman (UFOROM), dans "The 2004 CANADIAN UFO SURVEY", concluent que le nombre d'observations d'ovnis n'est pas lié à un temps plus chaud et à l'augmentation des témoins potentiels à l'extérieur que l'on peut attendre en été (page 13). Cependant, l'ajustement saisonnier appliqué aux données ovni canadiennes de 1989 à 2004 montre que l'effet saisonnier est en moyenne positive juste les mois d'été (juillet à septembre), bien que le schéma saisonnier montre certains changements dans le temps.
L'ajustement saisonnier a également été appliqué à des données italiennes de 1946 à 1990 (tous les signalements d'objets connus et inconnus) : en moyenne, les mois d'été montrent la saisonnabilité positive la plus forte.
.

Comme de nombreuses procédures statistique, l'ajustement saisonnier n'est qu'une estimation de T, S et I : avec le temps et l'ajout de nouvelles donnée, les estimations précédentes peuvent changer. Par conséquent, les données ajustées selon les saisons peuvent être utilisées pour effectuer 2 types de comparaison :

  1. Comparaison MpM et ApA avec la dernière estimation disponible : e.g. le nombre de signalements d'ovnis augmente-t-il ou chute-t-il pour un ajustement par saisons donné ? Ceci peut différer de tendances issues des données d'origine ;
  2. Comparison des changements d'estimation : e.g. les facteurs saisonniers sont-ils les mêmes que les mois précédents ?

Au passage, les données ajustées selon les saisons pourraient se révéler utiles aussi pour prévoir le nombre de signalements d'ovnis ou d'événements ovnis dans les mois prochains : puisque la composante irrégulière, par définition, devrait être imprévisible, la meilleur prévision des signalements du mois prochain pourrait être la prévision de la composante de tendance + le facteur saisonnier approprié estimé.

Les ovnis sont-ils distribués selon la loi de Poisson ?

Ce fut le titre d'un article de E. Berger s2Berger, E.: "Are UFOs Poisson-distributed?" : l'auteur utilisa un échantillon de cas d'ovnis autrichiens pour vérifier si leur distribution était semblable à la loi de Poisson. La distribution de Poisson est une distribution aléatoire pour les tirages de Bernoulli, i.e. des tirages ne pouvant avoir que 2 résultats : succès et échec ; la distribution est décrite par 1 paramètre, le nombre moyen de succès dans une unité de temps n6Mathématiquement parlant, la distribution de Poisson est dérivée d'une distribution binomiale bin(N, p), où N est le nombre de tirages indépendants et p la probabilité de succès de chaque tirage. Lorsque N tend vers l'infini et que p tend vers 0, avec N * p = lambda, la distribution binomiale bin(N, p) devient une distribution de Poisson poiss(lambda). Par conséquent la distribution de Poisson est utile pour décrire les événements aléatoires qui interviennent rarement mais dépendent d'un grand nombre de tirages : par exemple, la probabilité qu'une personne voie un ovni est très faible, mais étant donén le nombre de gens (i.e. le nombre de tirages indépendants), il y a une probabilité donnée qu'un ovni soit effectivement vu sur une certaine periode (jour, semaine, mois…).

Le raisonnement de Berger était simple et puissant : Au cas où le […] nombre journalier de signalements pendant une vague est distribué selon une loi de Poisson, nous pourrions conclure que la caractéristique principale de cette vague est la documentation plus large d'observations habituelles, aléatoires stimulées par la presse et l'intéraction sociale […]. Cependant, si les signalements journaliers ne sont pas des tirages de Bernoulli et ne sont pas indépendants, on a raison de postuler un "moteur extérieur" à l'augmentation et à la chute de l'"activité" s3E. Berger, cit..

Les résultats de Berger, corrigés par Ballester-Olmos s4Ballester-Olmos, V. J.: "On UFO and the Poisson distribution", ont montré que l'échantillon autrichien était significativement différent d'un échantillon de Poisson. Il en est de même pour les signalements ou événements ovnis italiens bruts : il semble que leur distribution est relativement différente de celle de Poisson.

Cependant, comme la section précédente l'a montré, les signalements d'ovnis sont saisonniers dans une certaine mesure : cela signifie que les données non ajustées par saisons, alors qu'elles maintiennent la même moyenne mensuelle, montrent une plus grande variance en raison de leur saisonnalité n7La variance d'un ensemble de données est une mesure de sa variabilité. Elle est calculée en faisant la moyenne des différences au carré entre chaque donnée et la moyenne de l'échantillon : Var= (1/(N−1)) Σ(N, i=1) (xi−moy(x))2. Dans une distribution de Poisson, le lambda moyen est aussi égal à la variance de la population ; ainsi, les distributions de données ajustées par saisons et non-ajustées ne peuvent être toutes les 2 distribuées selon une loi de Poisson, la moyenne étant la même mais la variance différente.

Berger a testé l'hypothèse nulle n8En statistique, la procédure de test d'hypothèse distingue une hypothèse "nulle" (celle qui nous intéresse) et une hypothèse "alternative" : un test statistique adapté nous permet de décider s'il faut rejeter ou non (i.e. accepter) l'hypothèse nulle. d'une distribution de Poisson sur des données non-ajustées par saisons : le résultat aurait-il été différent s'il avait été appliqué à des données ajustées par saisons ?

Un regard sur les séries italiennes ajustées par saisons est plus encourageant : l'hypothèse nulle de distribution de Poisson a été examinée en utilisant un test statistique différent de celui utilisé par Berger. Berger a utilisé un test du Chi-carré n9Le test du Chi-carré compare le nombre effectif d'observations avec la valeur attendue dans l'hypothèse nulle, pour chaque classe d'observations. Par exemple, supposons qu'il y a eu 3 mois avec moins de 10 signalements d'ovnis, alors que selon la distribution de Poisson il devrait y avoir eu 4 mois de ce type. Le test du Chi-carré compare les différences entre les nombres réels et attendus pour chaque classe (les classes sont "moins de 10 signalements d'ovnis", "11 à 20 signalements d'ovnis" et ainsi de suite, par exemple) et retourne un nombre permettant de rejeter ou ne pas rejeter l'hypothèse nulle. Le fait est que le choix des classes est pour une partie subjectif, et le résultat du test du Chi-carré dépend des classes choisies., qui souffre de certaines limitations et semble trop dépendant du choix des classes pour lesquelles nous avons besoin de calculer la valeur attendue dans l'hypothèse nulle.

C'est pourquoi nous avons choisi d'utiliser un test différent, le Kolmogorov-Smirnov : celui-ci compare les fonctions de distribution cumulative (fdc) n10La fonction de distribution cumulative d'un ensemble de données est une function qui cumule le pourcentage d'observations inférieur ou égal à une valeur X donnée. Par exemple, dans nos données ovni nous pouvons avoir 11 % des mois avec X<=10 (10 au plus) signalements d'ovnis ; 24 % des mois avoir X<=20 signalements ; 28 % des mois avoir X<=30 signalements ; et ainsi de suite. Ainsi la fdc aura une valeur de 0,11 à X=10, 0,24 à X=20, 0,28 à X=30 et ainsi de suite. En général la fdc a des valeurs allant de 0 à 1 (par exemple si le nombre maximum de signalments mensuels est de 119, alors 100 % des mois auront au plus 119 signalements, et la fdc aura une valeur de 1 lorsque X=119). des données réelles et de l'hypothèse nulle, et calcule la différence maximum entre les 2 fonctions. Comme le test de Chi-carré, le Kolmogorov-Smirnov a aussi au moins un inconvénient, mais est néanmoins plus fiable n11L'inconvénient est que le test conçu pour des distributions continues, alors que la distribution de Poisson est une distribution discrète, i.e. les probabilités ne peuvent être calculées que pour des valeurs entières. Cependant, des simulations étendues montrent que le test de Kolmogorov-Smirnov appliqué à des distributions discrètes rejette plus souvent que d'habitude l'hypothèse nulle lorsque c'est vrai : cela signifie que chaque fois que le test ne rejette pas l'hypothèse nulle, le résultat devrait être totalement fiable.. Le test, appliqué à des données ovni ajustées par saisons, ne rejette pas l'hypothèse null de données distribuées en Poisson. Ceci est vrai en particulier pour les séries 3 et 4, comme le montre l'annexe B.

Figure 2. Comparaison entre distributions selon une loi de Poisson (marques en étoile) et Normale (ligne) : à mesure que le nombre moyen d'observations augmente (de gauche à droite, la moyenne vaut 4, 25, 100), les 2 distributions deviennent de plus en plus semblables.
Figure 2. Comparaison entre distributions selon une loi de Poisson (marques en étoile) et Normale      (ligne) : à mesure que le nombre moyen d'observations augmente (de gauche à droite, la moyenne vaut 4, 25, 100),      les 2 distributions deviennent de plus en plus semblables.

Cependant, il y a un problème : lorsque le nombre moyen de signalements mensuels est trop élevé, le distribution de Poisson devient pratiquement identique à une distribution normale n12La distribution normale, ou Gaussienne, est une des distribution les plus connues : en forme de cloche, elle est souvent utilisée pour décrire des erreurs de mesure, qui concentre autour de la moyenne avec une certaine dispersion., comme le montre la figure 2 : malheureusement, le nombre de signalements mensuels dans les séries ajustées par saisons est simplement si élevé qu'une distribution de Poisson avec cette moyenne est très semblable à une distribution normale.

Ainsi, le test de Kolmogorov-Smirnov ne semble pas concluant pour nos objectifs : il nous indique que les données réelles admj as correspondent assez bien à une distribution de Poisson, mais dirait aussi qu'elles correspondent aussi bien à la distribution normale. Nous ne pouvons décider si les données correspondent plus à la distribution de Poisson distribution qu'à la distribution normale, ou viceversa n13Nous ne pourrions discriminer entre les distributions Poisson et Normale que si le nombre moyen de signalements est faible : utiliser une fréquence hebdomadaire pourrait aider à cela, mais malheureusement il est difficile de calculer des données ajustées par saisons sur une fréquence hedomadaire. Une tentative de calculer des données hebdomadaires ajustées par saisons a débouché sur un résultat controversé.. Cependant, les résultats semblent encourageants puisque ne rejettant au moins pas l'hypothèse de distribution de Poisson : si c'est le cas, le résultat devrait être interprété dans le sens que les signalements et événements ovnis suivent un processus aléatoire, sur lequel des facteurs saisonniers sont appliqués. Les facteurs saisonniers, plus les signalements d'OVI et signalements sans observation constituent la structure aléatoire sous-jacente dissimulée dans une super-structure sociologique, plus difficile à interpréter.

Surveiller les vagues d'ovnis

Les résultats combinés de l'adjustement par saisons et de la distribution statistique des signalements et événements ovnis nous permet de préparer un outil simple et utile pour surveiller les vagues d'ovnis. Le principe de base est la même que l'outil utilisé ces 2 dernières années s5Abraini, G.: cit. : la distribution statistique nous permet de calculer le seuil au-dessus duquel le nombre de signalements d'ovnis est considéré statistiquement significatif ; les données ajustées par saisons nous permettent d'éviter les faux signaux dûs à la saisonabilité, et un seuil plus fiable.

En ce qui concerne la distribution statistique, nous pouvons utiliser la distribution Normale comme la distribution de Poisson : puisque nous ne pouvons les distinguer, le seuil calculé serait très semblable pour les 2 distributions. Alternativement, nous pourrions aussi utiliser la fdc empirque n14Par contraste avec une fdc théorique, l'empirique ne repose pas sur une formule mathématique mais uniquement sur les données réellement observées : en tant que telle, elle peut être dans une certaine mesure "irrégulière"., qui prend aussi en compte les valeurs extrêmes que nous pourrions observer dans les données réelles : à cause de cela, le seuil calculé avec la fdc empirique serait plus élevé que celui calculé avec une distribution de Poisson ou Normale.

Pour calculer le seuil absolu nous avons besoin de fixer un seuil en termes de fréquence relative : par exemple, on pourrait décider qu'une vague n'intervient qu'une fois tous les 100 mois ; cela signifie que la fréquence relative de la vague est de 1 % n15Il serait bien de fixer ce seuil de fréquence sur la base de données historiques : par exemple, si dans les 50 dernières années (600 mois) il y a eu 23 mois considérés comme des vagues d'ovnis, la fréquence relative devrait être de 3,8 %. Cependant, autant que je sache de tels calculs n'existent pas sur une base historique.. En statistique, un seuil courant est fixé à 5 %, signifiant qu'il y 5 % de probabilité d'observer une vague d'ovnis : par conséquent nous pouvons calculer la valeur absolue telle qu'il y ait 5 % de probabilité d'observer une valeur encore plus grande. Comme indiqué précédemment, s'il y a des valeurs extrêmes la fdc empirique fournira le plus grand de ces seuils (au moins pour des probabilités faibles), par rapport aux fdcs théoriques : donc, les seuils calculés avec la fdc empirique seraient plus conservateurs que les autres, parce qu'ilo est plus difficile d'observer des valeurs supérieures que ce seuil. C'est pourquoi nous avons décidé d'utiliser la fdc empirique dans la surveillances des vague d'ovnis.

Figure 3 - Représentation graphique de la règle de décision d'une vague d'ovnis : si le nombre de signalements d'ovnis tombe dans la zone noire (qui représente le seuil de fréquence relative prédéfini), alors il est probable que nous assistions à une "vague".
Figure 3 - Représentation graphique de la règle de décision d'une vague      d'ovnis : si le nombre de signalements d'ovnis tombe dans la zone noire (qui représente le seuil de fréquence      relative prédéfini), alors il est probable que nous assistions à une "vague".

En pratique, l'outil de surveillance fonctionnera de cette manière :

  1. Fixer un seuil de fréquence relatif (disons 5 %) ;
  2. Calculer la valeur absolue correspondante, basée sur la fdc empirique de l'admj as des signalements (ou événements) ovnis (par exemple, cette valeur est de 32 : i.e. seulement 5 % des fréquences mensuelles observées sont supérieures à 32) ;
  3. Ajouter à la valeur calculée en 2 (i.e. basée sur les données ajustées par saisons) le facteur saisonnier attendu le mois suivant (e.g. 4, de sorte que le véritable nombre seuil de signalements/événements ovnis non ajustés par saisons serait de 32 + 4 = 36).

Maintenant, si le mois suivant le nombre effectif de signalements/événements ovni est supérieure à 36, nous pouvons dire que le nombre est significativement élevé d'un point de vue statistique : par conséquent, nous puvons dire qu'une vague d'ovnis est susceptible (à une probabilité de 5 %) d'avoir lieu. La figure suivante explique le concept en termes graphiques, uniquement à des fins d'explication.

Conclusions

Les recherches ufologiques passées semble s'être concentrées sur la prévision de vagues d'ovnis : la capacité à prédire des vagues futures fascine certainement les chercheurs étudiant les ovnis, mais la tâche s'est révélée particulièrement difficile. Non seulement l'occurence de vague d'ovnis ne semble pas suivre de quelconque règle reconnaissable, mais nous devons être conscients que la dynamique des signalements d'ovnis indique une assez forte saisonnabilité dans le temps, ce qui rend encore plus difficile de comprendre les schémas de vague d'ovnis.

Dans cet article nous choisissons d'adopter une approche plus humble : si nous ne pouvons pas prédire les vagues d'ovnis, pouvons-nous les suivre ? Pour suivre des vagues d'ovnis nous avons besoin de nettoyer les données, de supprimer les signalements accidentels (e.g. photos d'objet non vu par le photographe), de considérer les événements ovni plutôt que les signalements d'ovnis, et par-dessus tout de supprimer la saisonnalité présente dans les données brutes. Nous avons aussi besoin de trouver une distribution statistique à laquelle les données correspondent bien : ceci nous permet de reconnaître avec une mesure statistique adaptée si le nombre de signalements d'ovnis effectivement reçu est significativement élevé ou non.

Après avoir supprimer la saisonnalité, les données semblent bien s'adapter à une distribution de Poisson comme Normale : ceci parce que, pour un grand nombre moyen de signalements d'ovnis, les distributions de Poisson et Normale coïncident presque. Etant donnée cette incertitude et pour avoir une régle de décision plus conservatrice, la distribution empirique a eu l'air plus adaptée pour vérifier si le nombre de signalements arrivant est réellement "élevé" ou non. Ceci est réalisé en calculant un seuil pour un nombre significativement elévé de signalements et en prenant aussi en compte l'effet saisonnier de chaque mois : un nombre élevé de signalements est considéré comme signal qu'une vague d'ovnis est probablement en train d'avoir lieu.

Aucun retro-test réel n'a été effectué, en raison du manque de données : cependant, une application simple de la procédure aux signalements italiens ajustés par saisons de 1946 à 1990 a montré que l'outil de surveillance est capable de détecter les principales vagues d'ovnis ayant eu lieu en Italie (annexe C).

Annexe A : significativité statistique de la saisonnalité

Résultat du test-F pour la significativité de saisonnalité, tel qu'en novembre 2005.

Pour chaque série analysée est montrée la valeur de la statistique-F et la valeur-p associée (si inférieure à 5 % la saisonnalité est présente à un niveau significatif, si elle est supérieure à 5 % la saisonnalité n'est pas présente à un niveau significatif). L'hypothèse nulle est "aucune saisonnalité présente".

Série Test-F Valeur-p
1 : Tous les signalements OVNI et OVI, admj 3,894 0,11 %
2 : Tous les événements OVNI et OVI, admj 7,548 0,00 %
3 : Uniquement les signalements OVNI, à l'exclusion des signalements sans observation, crop circles, etc., admj 7,656 0,00 %
4 : Uniquement les événements OVNI, à l'exclusion des signalements sans observation, crop circles, etc., admj 7,598 0,00 %

Les séries 2, 3 et 4 ont la valeur-p la plus basse (la plus significative), et par conséquent il s'agit des séries pour lesquelles la saisonnalité est la plus évidente.

Annexe B : test de distribution de Poisson

Résultat du test Kolmogorov-Smirnov pour la distribution de Poisson, tel qu'en novembre 2005.

Pour chaque série analysée est montré l'hypothèse nulle, la statistique du test de Kolmogorov-Smirnov (KS) et la valeur-p associée (si inférieure à 5 % nous rejettons l'hypothèse nulle, i.e. les données ne sont pas distribuées en Poisson ; si supérieure à 5 % nous ne pouvons pas rejeter l'hypothèse nulle, i.e. elle a l'air distribuée en Poisson).

Série Hypothèse nulle Test-KS Valeur-p
1 : Tous les signalements OVNI et OVI, admj Poiss(41) 0,1885 6,65 %
2 : Tous les événements OVNI et OVI, admj Poiss(33) 0,1569 18,92 %
3 : Uniquement les signalements OVNI, à l'exclusion des signalements sans observation, crop circles, etc., admj Poiss(17) 0,1367 33,30 %
4 : Uniquement les événements OVNI, à l'exclusion des signalements sans observation, crop circles, etc., admj Poiss(17) 0,1312 38,25 %

Les séries 3 et 4 ont la valeur-p la plus élevée (la moins significative), et par conséquent elles sont les plus susceptibles d'avoir des données distribuées en Poisson.

Annexe C : rétro-test de l'outil

Résultat du rétro-test de l'outil, tel qu'en le mois précédent.

Il ne s'agit pas d'un véritable rétro-test, en raison du manque de données : à la place, il s'agit seulement d'une évaluation de la capacité de l'outil à signaler les vagues d'ovnis sur la base des données de 1946 à 1990. La procédure de rétro-test a été la suivante :

  1. Ajuster les données par saisons (pas admj) pour chaque mois Mt, en commençant à janvier 1947
  2. Calculer le percentile de 95 % (i.e. le seuil de 5 % tel que décrit dans la section 5) sur la base des données as de janvier 1946 jusqu'à Mt - 1
  3. Vérifier si le nombre de signalements dans Mt moins le facteur saisonnier correspondant est supérieur à la valeur calculée en 2 ; si c'est le cas, souligner le mois comme un mois probable de "vague".

Et voici le résultat ; ce qui suit sont les mois de "vague" soulignés :

L'outil capte correctement les vagues de mars 1950, 1952, 1954, 1973, 1977, l'année suivante, et identifie également quelques autres pics en partie dûs à de vagues larges (e.g. juin 1983).

s6C. Granger, "Seasonality: Causation, Interpretation, and Implications" s7G. Abraini, "Come monitorare le ondate", in UFO – Rivista di Informazione Ufologica, n. 33. Available in english on request. s8F. Fernandes, J.M. Ferreira, "Análise da distribuição temporal do fenómeno OVNI na península ibérica (1950-1977)", Insolito, n. 41 (Jan-Mar 1981), later published as "Time distribution in Iberian UFO activity", UPIAR Research in Progress, I, 1 (1982) s9 A. Petukhov, "The UFO phenomenon in the mirror of statistics", AURA-Z, II, 1 (1995) s10 SOBEPS, "OVNI: un phénomène parasolaire?", Inforespace, n. 4 hors série (December 1980) s11E. Berger, "Are UFOs Poisson-distributed?", UFO Phenomena, I, 1 (1976) s12V.J. Ballester-Olmos, "On UFO and the Poisson distribution", UFO Phenomena, II, 1 (1977) s13G. Dittman, C. Rutkowski, "The 2004 CANADIAN UFO SURVEY: An analysis of UFO Reports in Canada", 2005.