Sélection de modèles
Probabilités de présence
Les données d’occurrences seront d’abord rapportées sur une grille de 36 secondes d’arc de résolution afin d’avoir des succès (présences) et des essais (présences et absences combinées) aux centroïdes de chaque cellule. Les paramètres des modèles de distribution des plumes de mer seront estimés avec une régression binomiale dans un cadre bayésien en utilisant l’approximation de Laplace imbriquée et intégrée (INLA) (Rue, Martino, and Chopin 2009). INLA est une procédure d’estimation des paramètres et des hyperparamètres d’un modèle bayésien extrêmement efficace. Elle permet notamment de construire des modèles spatiaux avec un très grand nombre d’échantillons très rapidement en contournant certaines procédures qui sont normalement très coûteuses en temps et en mémoire (Lindgren, Rue, and Lindström 2011).
Un type de modèle spatial est un modèle de distribution d’espèce qui considère explicitement l’autocorrélation spatiale. L’autocorrélation spatiale, dans la distribution d’une espèce, est une similitude plus marquée entre une paire d’observations plus rapprochées comparativement à une paire d’observations plus éloignées (Guélat and Kéry 2018). Cette autocorrélation peut avoir un effet important sur la qualité et l’incertitude des modèles spatiaux (Guélat and Kéry 2018). Modéliser explicitement cette autocorrélation peut grandement améliorer la qualité du modèle (Guélat and Kéry 2018). Comme la modélisation explicite de l’autocorrélation spatiale est particulièrement coûteuse en temps, l’utilisation d’INLA devient alors toute indiquée (Lindgren, Rue, and Lindström 2011).
Les cartes de probabilités de présence obtenues à partir des modèles seront binarisées en présences et absences à l’aide d’une valeur seuil de probabilité de présence. Cette valeur seuil représente la probabilité de présence où la sensibilité (taux de vrais positifs) et la spécificité (taux de vrais négatifs) du modèle sont maximisées et sera calculée à l’aide du paquet R dismo (Hijmans et al. 2022).
Biomasse
Des modèles pour prédire la biomasse seront également construits avec les données de biomasse afin d’avoir un comparatif avec les modèles de probabilités de présence. En inférant les zéros de la même manière que les absences (voir Section 3.2), il y a aura un excès de zéro dans la distribution des données. Dans ce cas, une approche à deux probabilités sera utilisée en décomposant la distribution des données en deux parties (Rustand et al. 2023):
- Issue binaire (présences-absences, régression binomiale)
- Distribution de masses positives continues (loi Gamma ou loi log-normale).
Les méthodes pour construire et valider les performances des modèles et pour obtenir des cartes binaires seront les mêmes que celles utilisées pour les modèles de probabilités de présence.