Statistiques et calculs : Différence entre versions

De Wiki Biolovision
Sauter à la navigation Sauter à la recherche
m (7 révisions importées)
 
(5 révisions intermédiaires par un autre utilisateur non affichées)
Ligne 5 : Ligne 5 :
 
== Comment sont calculées les statistiques ?  ==
 
== Comment sont calculées les statistiques ?  ==
  
- Statistiques d’utilisation et Plan vigilance&nbsp;: c’est la commune du lieu-dit qui est prise en compte, indépendamment du X,Y<br>- Atlas et Carte de présence&nbsp;: c’est la coordonnées précise X, Y qui définit l’appartenance à une maille de la carte<br>- La "fiche de présentation" prend en compte la totalité des données de l'observateur, tandis que la page "statistiques des utilisateurs" ne prend en compte que les données des oiseaux (pour des questions de performance de calcul). Nous allons tenter de remédier à cette différence dans un futur proche, pour autant que cela ne ralentisse pas le système.<br>- Dans la page des fréquentations communales, les données négatives sont comptées. Cela a un sens pour le calcul du nombre de données, un peu moins pour le nombre d'espèces. Malheureusement, les calculs en temps réel sont très difficiles (voir impossible) à faire rapidement si nous devons vérifier si chaque donnée est potentiellement négative.<br>  
+
'''Statistiques d’utilisation et Plan vigilance (listes communales)'''&nbsp;: c’est la commune du lieu-dit qui est prise en compte, indépendamment du X,Y  
 +
 
 +
'''Atlas et Carte de présence'''&nbsp;: c’est la coordonnées précise X, Y qui définit l’appartenance à une maille de la carte<br>  
 +
 
 +
La "'''fiche de présentation'''" prend en compte la totalité des données de l'observateur, tandis que la page "'''statistiques des utilisateurs'''" ne prend en compte que les données des oiseaux (pour des questions de performance de calcul). Nous allons tenter de remédier à cette différence dans un futur proche, pour autant que cela ne ralentisse pas le système.<br>  
 +
 
 +
Dans la page des '''fréquentations communales''', les données négatives sont comptées. Cela a un sens pour le calcul du nombre de données, un peu moins pour le nombre d'espèces. Malheureusement, les calculs en temps réel sont très difficiles (voir impossible) à faire rapidement si nous devons vérifier si chaque donnée est potentiellement négative.<br>  
 +
 
 +
Dans la page '''contrôler mes listes''' et dans la page '''statistique des observateurs''', le nombre d’espèces observées tient compte de tout ce qui a été observé, donc des espèces au sens «&nbsp;informatique&nbsp;». Par contre, les différentes listes ne sont pas nécessairement mise à jour en temps réel. Il peut y avoir jusqu'à 24h (cas extrême) pour qu’elles soient parfaitement justes. (En gros, les nouvelles espèces sont ajoutées immédiatement, les suppressions (plus lourde à calculer) ne sont pas faites immédiatement. Ceci fait donc qu’en cas de suppression de toutes les données d’une espèce, celle-ci n’est pas retirée de la liste dans la seconde qui suit.)
  
 
== Comment sont créés les seuils automatiques des cartes espèces (cartes de progression)&nbsp;?  ==
 
== Comment sont créés les seuils automatiques des cartes espèces (cartes de progression)&nbsp;?  ==
  
 
- Le n est la somme des effectifs de tous les observateurs sur l'intervalle sélectionné et groupé par lieu-dits (les données précises sont considérée comme sur le lieu-dit). Un observateur X voit 3 colverts et un observateur Y, 4 colverts le lendemain, la carte prendra 7 en considération.<br>- Les données sont groupées en 5 classes de taille identique<br>- La taille des points est donc en fonction de la classe et de la couleur (pour les cartes avec un dégradé) qui correspond à l'observation la plus récente de l'agrégat (en rouge le plus récent, en jaune le moins récent)<br>- Les données nulles ne sont pas prises en compte, sauf s'il n'y a QUE des données nulles (une croix est alors affichée)<br>- Les données non comptées sont considérées comme un effectif de 1<br>  
 
- Le n est la somme des effectifs de tous les observateurs sur l'intervalle sélectionné et groupé par lieu-dits (les données précises sont considérée comme sur le lieu-dit). Un observateur X voit 3 colverts et un observateur Y, 4 colverts le lendemain, la carte prendra 7 en considération.<br>- Les données sont groupées en 5 classes de taille identique<br>- La taille des points est donc en fonction de la classe et de la couleur (pour les cartes avec un dégradé) qui correspond à l'observation la plus récente de l'agrégat (en rouge le plus récent, en jaune le moins récent)<br>- Les données nulles ne sont pas prises en compte, sauf s'il n'y a QUE des données nulles (une croix est alors affichée)<br>- Les données non comptées sont considérées comme un effectif de 1<br>  
 +
 +
== Quand est-ce que les données en cours de vérification apparaissent ? ==
 +
 +
Les données marquées pour vérification n'aparaissent pas dans les cartes de présence, l'atlas ou les listes communales. Par contre, elles apparaissent quand vous faites des recherches avec l'outil de recherches multicritères, sinon vous ne les verriez nulle part.
  
 
== Comment sont calculés les quotas qui définissent l'accès à la recherche multicritères&nbsp;?  ==
 
== Comment sont calculés les quotas qui définissent l'accès à la recherche multicritères&nbsp;?  ==
Ligne 17 : Ligne 29 :
 
== Comment est calculé l'effort de prospection&nbsp;?  ==
 
== Comment est calculé l'effort de prospection&nbsp;?  ==
  
le calcul est le suivant&nbsp;: on prend l'ensemble des données de TOUS les sites, puis que les données saisies par formulaire, puis combien de minutes de terrain faut-il pour générer une donnée. Cela donne une moyenne de X minutes de terrain / données Puis chaque donnée d'une obs séparées d'un formulaire ajoute X minute au total en utilisant la moyenne calculée avec les formulaires Si un site n'a pas de formulaire, cette moyenne est calculée avec les données de tous le sites.
+
le calcul est le suivant&nbsp;: on prend l'ensemble des données de TOUS les sites, puis que les données saisies par formulaire, puis combien de minutes de terrain faut-il pour générer une donnée. Cela donne une moyenne de X minutes de terrain / données Puis chaque donnée d'une obs séparées d'un formulaire ajoute X minute au total en utilisant la moyenne calculée avec les formulaires Si un site n'a pas de formulaire, cette moyenne est calculée avec les données de tous le sites.
 +
 
 +
== Pourquoi les données négatives apparaissent sur les graphiques de répartition mensuelle de présence&nbsp;?  ==
 +
 
 +
C'est un graphique de la répartition mensuelle des'''contributions,''' une donnée nulle est donc une contribution&nbsp;!<br>
 +
 
 +
[[Image:Statistiques.png|frame|center]]
 +
 
 +
<br>Pour avoir un graphique qui tient mieux la route, les cartes de présences sont faites pour cela. Nous seulement dans ce graphique, les données nulles ne sont pas prises en compte, mais les données peuvent être annuelles ou agrégées sur plusieurs années. (Les statistiques, elles, prennent l’ensemble des données de la base, sans filtrage possible). D’autre part, les statistiques ne sont mises à jour qu’une fois par jour alors que les cartes de présences sont en temps réel. Par ailleurs, ces graphiques n’ont pas d’échelle car ils sont lissés en utilisant les sommes des maxima par pentade par carré de 10kmx10km de manière à supprimer les doublons et donner une courbe de tendance. La tendance est donc bonne mais les chiffres ne veulent rien dire. Nous avons travaillé, avec Sempach, sur une meilleure méthode encore pour le lissage qui fonctionne même quand la pression d’observation est très forte et croissante basé sur un échantillonnage par bootstrap. Le problème, c’est que cela demande, sans exagérer, au minimum 500x plus de calcul… c’est plus réaliste en temps réel. Donc soit nous affinons les algorithmes, soit nous utilisons des processeurs plus rapide… c’est de la musique d’avenir dans tous les cas.<br>
 +
 
 +
[[Image:Statistiques2.png|frame|center]]
 +
 
 +
<br>
 +
 
 +
== Puis-je avoir accès aux statistiques de fréquentation de mon site&nbsp;?  ==
 +
 
 +
OUI, il nous faut un compte gmail et on vous installe l'accès sur http://www.google.com/analytics/<br>
 +
 
 +
== Pourquoi peut-il y avoir des différences dans le nombre total d'espèces par commune&nbsp;?<br>  ==
 +
 
 +
Le '''moteur de recherche''' est 100% correct, il affiche en fonction de droits de l'utilisateurs. Il indique une liste d’espèce avec «&nbsp;donnée&nbsp;» et pas le nombre d’espèce. (Une donnée nulle est une donnée).<br>
 +
 
 +
La '''liste communale''' affiche le nombre d’espèce (et donc retire les espèces avec des données nulles).<br>
 +
 
 +
La&nbsp;'''fréquentation communale''' n’affiche pas non plus les données nulles, elle n’affiche pas non plus les données cachées (si toutes les données sont cachées).

Version actuelle datée du 26 août 2015 à 21:30

Les statistiques en temps réel

Les informations sous l'éphéméride sont calculées en temps réel et donnent une indication du nombre de visiteurs, du délai de votre dernière transmission de donnée et du délai de la dernière donnée transmise sur le site. Vous pouvez ainsi vous rendre compte de l’activité sur le site. Le site migraction.net affiche également le nombre d'oiseau compté et le nombre d'heure de comptage.

Comment sont calculées les statistiques ?

Statistiques d’utilisation et Plan vigilance (listes communales) : c’est la commune du lieu-dit qui est prise en compte, indépendamment du X,Y

Atlas et Carte de présence : c’est la coordonnées précise X, Y qui définit l’appartenance à une maille de la carte

La "fiche de présentation" prend en compte la totalité des données de l'observateur, tandis que la page "statistiques des utilisateurs" ne prend en compte que les données des oiseaux (pour des questions de performance de calcul). Nous allons tenter de remédier à cette différence dans un futur proche, pour autant que cela ne ralentisse pas le système.

Dans la page des fréquentations communales, les données négatives sont comptées. Cela a un sens pour le calcul du nombre de données, un peu moins pour le nombre d'espèces. Malheureusement, les calculs en temps réel sont très difficiles (voir impossible) à faire rapidement si nous devons vérifier si chaque donnée est potentiellement négative.

Dans la page contrôler mes listes et dans la page statistique des observateurs, le nombre d’espèces observées tient compte de tout ce qui a été observé, donc des espèces au sens « informatique ». Par contre, les différentes listes ne sont pas nécessairement mise à jour en temps réel. Il peut y avoir jusqu'à 24h (cas extrême) pour qu’elles soient parfaitement justes. (En gros, les nouvelles espèces sont ajoutées immédiatement, les suppressions (plus lourde à calculer) ne sont pas faites immédiatement. Ceci fait donc qu’en cas de suppression de toutes les données d’une espèce, celle-ci n’est pas retirée de la liste dans la seconde qui suit.)

Comment sont créés les seuils automatiques des cartes espèces (cartes de progression) ?

- Le n est la somme des effectifs de tous les observateurs sur l'intervalle sélectionné et groupé par lieu-dits (les données précises sont considérée comme sur le lieu-dit). Un observateur X voit 3 colverts et un observateur Y, 4 colverts le lendemain, la carte prendra 7 en considération.
- Les données sont groupées en 5 classes de taille identique
- La taille des points est donc en fonction de la classe et de la couleur (pour les cartes avec un dégradé) qui correspond à l'observation la plus récente de l'agrégat (en rouge le plus récent, en jaune le moins récent)
- Les données nulles ne sont pas prises en compte, sauf s'il n'y a QUE des données nulles (une croix est alors affichée)
- Les données non comptées sont considérées comme un effectif de 1

Quand est-ce que les données en cours de vérification apparaissent ?

Les données marquées pour vérification n'aparaissent pas dans les cartes de présence, l'atlas ou les listes communales. Par contre, elles apparaissent quand vous faites des recherches avec l'outil de recherches multicritères, sinon vous ne les verriez nulle part.

Comment sont calculés les quotas qui définissent l'accès à la recherche multicritères ?

La valeure est seulement indicative. Le vrai calcul se base sur l'historique de la personne, ainsi si une personne active part un mois en vacances, à son retour elle aura toujours accès aux archives même si elle n'a pas transmis de donnée durant ce mois. Pour les premières 48h, personne ne peut avoir accès à la recherche, même si le quota est atteint, afin d'éviter l'entrée de donées fausses juste pour avoir accès à la recherche. Après cette période, il faut atteindre le quota au prorata temporis depuis la date d'inscription. Si le quota est de 10 données par mois (arrondi à 30 jours) et que vous êtes inscrits depuis 50 jours, vous devez avoir 17 données pour avoir accès à la recherche : (=10/30*50). C'est important de noter que nous ne prenons pas en considération les données datées d'avant la date d'inscription de l'utilisateur ou rentrées par des tiers (module d'import par exemple). Enfin, l'accès à la recherche se fait le lendemain du jour où vous avez atteint le quota car les calculs sont faits la nuit.

Comment est calculé l'effort de prospection ?

le calcul est le suivant : on prend l'ensemble des données de TOUS les sites, puis que les données saisies par formulaire, puis combien de minutes de terrain faut-il pour générer une donnée. Cela donne une moyenne de X minutes de terrain / données Puis chaque donnée d'une obs séparées d'un formulaire ajoute X minute au total en utilisant la moyenne calculée avec les formulaires Si un site n'a pas de formulaire, cette moyenne est calculée avec les données de tous le sites.

Pourquoi les données négatives apparaissent sur les graphiques de répartition mensuelle de présence ?

C'est un graphique de la répartition mensuelle descontributions, une donnée nulle est donc une contribution !

Statistiques.png


Pour avoir un graphique qui tient mieux la route, les cartes de présences sont faites pour cela. Nous seulement dans ce graphique, les données nulles ne sont pas prises en compte, mais les données peuvent être annuelles ou agrégées sur plusieurs années. (Les statistiques, elles, prennent l’ensemble des données de la base, sans filtrage possible). D’autre part, les statistiques ne sont mises à jour qu’une fois par jour alors que les cartes de présences sont en temps réel. Par ailleurs, ces graphiques n’ont pas d’échelle car ils sont lissés en utilisant les sommes des maxima par pentade par carré de 10kmx10km de manière à supprimer les doublons et donner une courbe de tendance. La tendance est donc bonne mais les chiffres ne veulent rien dire. Nous avons travaillé, avec Sempach, sur une meilleure méthode encore pour le lissage qui fonctionne même quand la pression d’observation est très forte et croissante basé sur un échantillonnage par bootstrap. Le problème, c’est que cela demande, sans exagérer, au minimum 500x plus de calcul… c’est plus réaliste en temps réel. Donc soit nous affinons les algorithmes, soit nous utilisons des processeurs plus rapide… c’est de la musique d’avenir dans tous les cas.

Statistiques2.png


Puis-je avoir accès aux statistiques de fréquentation de mon site ?

OUI, il nous faut un compte gmail et on vous installe l'accès sur http://www.google.com/analytics/

Pourquoi peut-il y avoir des différences dans le nombre total d'espèces par commune ?

Le moteur de recherche est 100% correct, il affiche en fonction de droits de l'utilisateurs. Il indique une liste d’espèce avec « donnée » et pas le nombre d’espèce. (Une donnée nulle est une donnée).

La liste communale affiche le nombre d’espèce (et donc retire les espèces avec des données nulles).

La fréquentation communale n’affiche pas non plus les données nulles, elle n’affiche pas non plus les données cachées (si toutes les données sont cachées).