Skip to content

Commit

Permalink
Merge pull request #25 from EcoNumUdS/update/H2025
Browse files Browse the repository at this point in the history
edits donnees ecologiques
  • Loading branch information
vcameron1 authored Feb 18, 2025
2 parents 7c3994a + 2675936 commit fa5c444
Show file tree
Hide file tree
Showing 2 changed files with 117 additions and 12 deletions.
96 changes: 86 additions & 10 deletions bloc1/03_donnees1.Rmd
Original file line number Diff line number Diff line change
Expand Up @@ -370,6 +370,27 @@ Même si l'identifiant change (nouvelle classification), nous serons en mesure d

---

# Les données taxonomiques

Certains outils permettent d'obtenir les codes d'espèces à partir du nom de l'espèce. Par exemple, le package [`ritis`](https://docs.ropensci.org/ritis/index.html) en R.

```r
# install.packages("ritis")
library("ritis")

# Recherche code TSN pour "Acer"
itis_acer <- itis_search(q = "nameWOInd:Acer")
head(itis_acer)

# Recherche code TSN pour "Castor canadensis"
itis_castor_canadensis <- itis_search(q = "nameWOInd:Castor\\ canadensis")
```

--
> Alors que l'accès aux codes peut être automatisé, il est important de ne pas y mettre trop de temps !
---

# Les données spatiales

- **Ce qu'il est important de savoir:** des coordonnées spatiales sans système de projection ne veulent strictement rien dire.
Expand All @@ -394,7 +415,7 @@ Même si l'identifiant change (nouvelle classification), nous serons en mesure d

---

# L'absence de données
# L'absence de données

## On peut représenter l'absence de données de plusieurs façons:

Expand All @@ -407,13 +428,13 @@ Même si l'identifiant change (nouvelle classification), nous serons en mesure d

---

# Le format des données
# L'absence de données

## On peut représenter l'absence de données de plusieurs façons:

- Laisser la cellule vide: montre que l'information n'a pas été saisie (un oublie)
- Laisser la cellule vide (`NULL`): montre que l'information n'a pas été saisie. *Meilleure pratique*, peut être utilisée en combinaison avec un champ décrivant la raison de l'absence de données.

>- Mettre un `NA` (*Not Available*): Montre que l'information est réellement absente (car le NA est saisi par un humain).
- Mettre un `NA` (*Not Available*): Montre que l'information est réellement absente (car le NA est saisi par un humain).

>- <span style="text-decoration: line-through;"> Mettre un `0` </span>: **JAMAIS** (empêche la distinction entre un vrai d'un faux 0, influence la moyenne)
Expand Down Expand Up @@ -453,6 +474,25 @@ Si l'on ne choisit pas le type de données approprié, cela aura diverses consé
---
class: inverse, center, middle

# Nettoyage et validation des données

<hr width="65%" size="0.3" color="orange" style="margin-top:-20px;"></hr>

---

# Nettoyage et validation des données

Vérifiez pour la présence de :
- Erreurs communes
- Erreurs délétères pour le projet
- La bonne structure de la donnée et du tableau


> Un chapitre du livre de cours est consacré à cette étape cruciale du processus de gestion des données. Voir [*Nettoyage et validation*](https://econumuds.github.io/BIO500/validation.html).
---
class: inverse, center, middle

# Entreposer et archiver les données écologiques

<hr width="65%" size="0.3" color="orange" style="margin-top:-20px;"></hr>
Expand Down Expand Up @@ -550,7 +590,7 @@ class: inverse, center, middle
# Étape 2. Regrouper les variables dans des tables

1. Déterminer les tables/entités:
- Qu'elles sont les unités d'échantillonnage? Autrement dit, sur quelles entités portent les mesures?
- Quelles sont les unités d'échantillonnage? Autrement dit, sur quelles entités portent les mesures?
2. Remplir les tables avec les variables identifiées.

À ce stade de la conceptualisation, une table est une entité possédant des attributs. Chaque attribut est une colonne.
Expand Down Expand Up @@ -1001,7 +1041,7 @@ Résumé des consignes :

# Évaluation formative #1

[Grille d'évaluation](https://github.com/EcoNumUdS/BIO500/ressources/exercie_donnees_grille_de_correction.pdf)
[Grille d'évaluation](https://github.com/EcoNumUdS/BIO500/blob/master/ressources/exercie_donnees_grille_de_correction.pdf)

Les questions questions devront êtres posées sur le forum de Moodle.

Expand All @@ -1016,18 +1056,54 @@ class: inverse, center, middle

# Discussion

## 7 minutes pour résumer le point de vue de l'auteur et ses arguments
## Is there a reproducibility crisis ?

## 10 minutes de discussion
1. Que décrit l'article sur l'état de la reproductibilité en science ?
2. Est-ce que les chercheurs sondés ont une impression juste ?
3. "We want to be discovering new things but not generating too many false leads." Il existe un lien évident entre la reproductibilité et l'innovation.

---

# Discussion

## 10 minutes pour résumer les arguments et points saillants en équipe

Les questions pour alimenter la discussion sont sur Moodle *Bloc1 > Questions pour discussion - cours #2*

- Sur la reproductibilité des résultats scientifiques
- Sur le partage des données
- Sur les défis des études à long terme

## 10 minutes de partage


<!-- # Discussion
## Is there a reproducibility crisis ?
En équpe, résumez les principaux points de l'articles. Puis, discutez des questions suivantes :
En équpe, résumez les principaux points de l'article. Puis, discutez des questions suivantes :
1. Que décrit l'article sur l'état de la reproductibilité en science ? Est-ce que les chercheurs sondés ont une impression juste ?
2. "We want to be discovering new things but not generating too many false leads." Quel est le lien entre la reproductibilité et l'innovation ?
3. Quels sont les particularités des domaines scientifiques qui sont les plus touchés par le problème de la reproductibilité ?
3. Quels sont les particularités des domaines scientifiques qui sont les plus touchés par le problème de la reproductibilité ?
4. Quelles sont les solutions proposées pour améliorer la reproductibilité en science ? -->

<!-- # Discussion : Questions pour discussion - cours #2
### Sur la reproductibilité des résultats scientifiques :
1. Quels sont les principaux facteurs qui expliquent les difficultés de reproduction des études scientifiques ?
2. Pensez-vous que l'incapacité à reproduire une étude remet nécessairement en cause sa validité ?
3. Avez-vous déjà rencontré des problèmes de reproductibilité dans vos propres travaux ou ceux de vos collègues ?
4. Quelles solutions concrètes pourraient améliorer la reproductibilité en science ?
### Sur le partage des données :
5. Quels sont les principaux avantages du partage des données pour la communauté scientifique ?
6. Quels freins empêchent encore aujourd’hui le partage ouvert des données ?
7. Comment peut-on encourager une culture de partage des données sans compromettre la reconnaissance du travail des chercheurs ?
8. Quels types de données devraient être systématiquement partagés et quels types peuvent légitimement être protégés ?
### Sur les défis des études à long terme :
9. Comment concilier le besoin de partage des données avec les investissements importants nécessaires aux études à long terme ?
10. Quelles mesures pourraient être mises en place pour protéger les intérêts des chercheurs qui ont consacré des années à collecter des données avant de les partager ?
11. À quel moment une équipe de recherche devrait-elle rendre ses données accessibles à d’autres scientifiques ?
12. Existe-t-il des modèles de collaboration qui permettent à la fois un accès élargi aux données et une reconnaissance du travail des équipes ayant réalisé l’étude initiale ? -->
33 changes: 31 additions & 2 deletions livre/donnees_ecologiques.qmd
Original file line number Diff line number Diff line change
Expand Up @@ -137,7 +137,36 @@ Il est recommandé de sauver l'identification d'une espèce en utilisant une ré
4. [NCBI](https://www.ncbi.nlm.nih.gov/)
5. [BOLD](http://www.boldsystems.org/index.php/TaxBrowser_Home) (Projet code barre)

**Exemple:** [TSN - 28731](https://www.itis.gov/servlet/SingleRpt/SingleRpt?search_topic=TSN&search_value=28731#null)
**ASTUCE**
Certains outils permettent d'obtenir les codes d'espèces à partir du nom de l'espèce. Par exemple, le package `ritis` en R.

```r
# install.packages("ritis")
library("ritis")

# Recherche code TSN pour "Acer"
itis_acer <- itis_search(q = "nameWOInd:Acer") # nameWOInd est le champ de recherche pour le nom scientifique
head(itis_acer)

# Recherche code TSN pour "Castor canadensis"
itis_castor_canadensis <- itis_search(q = "nameWOInd:Castor\\ canadensis") # On échappe l'espace avec un double backslash
```

La documentation du package `ritis` est disponible <[https://docs.ropensci.org/ritis/index.html](https://docs.ropensci.org/ritis/index.html)>.

Le package `rgbif` est également très utile pour obtenir des informations sur les espèces.

```r
# install.packages("rgbif")
library("rgbif")

# Recherche d'informations sur l'espèce "Ursus americanus"
taxonKey <- name_backbone("Ursus americanus")
```

La documentation du package `rgbif` est disponible <[https://docs.ropensci.org/rgbif/index.html](https://docs.ropensci.org/rgbif/index.html)>.

> `ritis` est à prioriser puisqu'il s'agit une source de référence. GBIF est une base de données mondiale qui peut être plus lente à répondre et qui consomme les données de ITIS, WIKIDATA, etc.
### Les données spatiales

Expand All @@ -164,7 +193,7 @@ Ainsi, lorsque l'on entrepose des données spatiales, trois colonnes doivent êt

### L'absence de données

Parfois, une donnée est manquante lorsqu'elle a été perdue ou est inconnue. On privilégie l'ajout d'un `NA` (Not available) pour montrer que l'information est réellement absente.
Parfois, une donnée est manquante lorsqu'elle a été perdue ou est inconnue. On privilégie laisser la cellule vide (`NULL`) plutôt que d'entrer une valeur par défaut. Dans le cas où la donnée est manquante, on recommande d'en inscrire la raison dans un autre champ.

On évite d'entrer une valeur numérique puisque celle-ci peut être confondante et entrainer des erreurs lors de l'analyse des données. Par exemple, l'entrée d'un `0` dans une colonne numérique ne peut permettre la distinction avec les vrais 0 et influencer la moyenne. Cette pratique est donc à proscrire !

Expand Down

0 comments on commit fa5c444

Please sign in to comment.