diff --git a/bloc1/03_donnees1.Rmd b/bloc1/03_donnees1.Rmd
index 2e0388e..932cf85 100644
--- a/bloc1/03_donnees1.Rmd
+++ b/bloc1/03_donnees1.Rmd
@@ -370,6 +370,27 @@ Même si l'identifiant change (nouvelle classification), nous serons en mesure d
---
+# Les données taxonomiques
+
+Certains outils permettent d'obtenir les codes d'espèces à partir du nom de l'espèce. Par exemple, le package [`ritis`](https://docs.ropensci.org/ritis/index.html) en R.
+
+```r
+# install.packages("ritis")
+library("ritis")
+
+# Recherche code TSN pour "Acer"
+itis_acer <- itis_search(q = "nameWOInd:Acer")
+head(itis_acer)
+
+# Recherche code TSN pour "Castor canadensis"
+itis_castor_canadensis <- itis_search(q = "nameWOInd:Castor\\ canadensis")
+```
+
+--
+> Alors que l'accès aux codes peut être automatisé, il est important de ne pas y mettre trop de temps !
+
+---
+
# Les données spatiales
- **Ce qu'il est important de savoir:** des coordonnées spatiales sans système de projection ne veulent strictement rien dire.
@@ -394,7 +415,7 @@ Même si l'identifiant change (nouvelle classification), nous serons en mesure d
---
-# L'absence de données
+# L'absence de données
## On peut représenter l'absence de données de plusieurs façons:
@@ -407,13 +428,13 @@ Même si l'identifiant change (nouvelle classification), nous serons en mesure d
---
-# Le format des données
+# L'absence de données
## On peut représenter l'absence de données de plusieurs façons:
-- Laisser la cellule vide: montre que l'information n'a pas été saisie (un oublie)
+- Laisser la cellule vide (`NULL`): montre que l'information n'a pas été saisie. *Meilleure pratique*, peut être utilisée en combinaison avec un champ décrivant la raison de l'absence de données.
->- Mettre un `NA` (*Not Available*): Montre que l'information est réellement absente (car le NA est saisi par un humain).
+- Mettre un `NA` (*Not Available*): Montre que l'information est réellement absente (car le NA est saisi par un humain).
>- Mettre un `0` : **JAMAIS** (empêche la distinction entre un vrai d'un faux 0, influence la moyenne)
@@ -453,6 +474,25 @@ Si l'on ne choisit pas le type de données approprié, cela aura diverses consé
---
class: inverse, center, middle
+# Nettoyage et validation des données
+
+
+
+---
+
+# Nettoyage et validation des données
+
+Vérifiez pour la présence de :
+- Erreurs communes
+- Erreurs délétères pour le projet
+- La bonne structure de la donnée et du tableau
+
+
+> Un chapitre du livre de cours est consacré à cette étape cruciale du processus de gestion des données. Voir [*Nettoyage et validation*](https://econumuds.github.io/BIO500/validation.html).
+
+---
+class: inverse, center, middle
+
# Entreposer et archiver les données écologiques
@@ -550,7 +590,7 @@ class: inverse, center, middle
# Étape 2. Regrouper les variables dans des tables
1. Déterminer les tables/entités:
- - Qu'elles sont les unités d'échantillonnage? Autrement dit, sur quelles entités portent les mesures?
+ - Quelles sont les unités d'échantillonnage? Autrement dit, sur quelles entités portent les mesures?
2. Remplir les tables avec les variables identifiées.
À ce stade de la conceptualisation, une table est une entité possédant des attributs. Chaque attribut est une colonne.
@@ -1001,7 +1041,7 @@ Résumé des consignes :
# Évaluation formative #1
-[Grille d'évaluation](https://github.com/EcoNumUdS/BIO500/ressources/exercie_donnees_grille_de_correction.pdf)
+[Grille d'évaluation](https://github.com/EcoNumUdS/BIO500/blob/master/ressources/exercie_donnees_grille_de_correction.pdf)
Les questions questions devront êtres posées sur le forum de Moodle.
@@ -1016,18 +1056,54 @@ class: inverse, center, middle
# Discussion
-## 7 minutes pour résumer le point de vue de l'auteur et ses arguments
+## Is there a reproducibility crisis ?
-## 10 minutes de discussion
+1. Que décrit l'article sur l'état de la reproductibilité en science ?
+2. Est-ce que les chercheurs sondés ont une impression juste ?
+3. "We want to be discovering new things but not generating too many false leads." Il existe un lien évident entre la reproductibilité et l'innovation.
---
# Discussion
+## 10 minutes pour résumer les arguments et points saillants en équipe
+
+Les questions pour alimenter la discussion sont sur Moodle *Bloc1 > Questions pour discussion - cours #2*
+
+- Sur la reproductibilité des résultats scientifiques
+- Sur le partage des données
+- Sur les défis des études à long terme
+
+## 10 minutes de partage
+
+
+
+
+
diff --git a/livre/donnees_ecologiques.qmd b/livre/donnees_ecologiques.qmd
index 870cda7..7143c31 100644
--- a/livre/donnees_ecologiques.qmd
+++ b/livre/donnees_ecologiques.qmd
@@ -137,7 +137,36 @@ Il est recommandé de sauver l'identification d'une espèce en utilisant une ré
4. [NCBI](https://www.ncbi.nlm.nih.gov/)
5. [BOLD](http://www.boldsystems.org/index.php/TaxBrowser_Home) (Projet code barre)
-**Exemple:** [TSN - 28731](https://www.itis.gov/servlet/SingleRpt/SingleRpt?search_topic=TSN&search_value=28731#null)
+**ASTUCE**
+Certains outils permettent d'obtenir les codes d'espèces à partir du nom de l'espèce. Par exemple, le package `ritis` en R.
+
+```r
+# install.packages("ritis")
+library("ritis")
+
+# Recherche code TSN pour "Acer"
+itis_acer <- itis_search(q = "nameWOInd:Acer") # nameWOInd est le champ de recherche pour le nom scientifique
+head(itis_acer)
+
+# Recherche code TSN pour "Castor canadensis"
+itis_castor_canadensis <- itis_search(q = "nameWOInd:Castor\\ canadensis") # On échappe l'espace avec un double backslash
+```
+
+La documentation du package `ritis` est disponible <[https://docs.ropensci.org/ritis/index.html](https://docs.ropensci.org/ritis/index.html)>.
+
+Le package `rgbif` est également très utile pour obtenir des informations sur les espèces.
+
+```r
+# install.packages("rgbif")
+library("rgbif")
+
+# Recherche d'informations sur l'espèce "Ursus americanus"
+taxonKey <- name_backbone("Ursus americanus")
+```
+
+La documentation du package `rgbif` est disponible <[https://docs.ropensci.org/rgbif/index.html](https://docs.ropensci.org/rgbif/index.html)>.
+
+> `ritis` est à prioriser puisqu'il s'agit une source de référence. GBIF est une base de données mondiale qui peut être plus lente à répondre et qui consomme les données de ITIS, WIKIDATA, etc.
### Les données spatiales
@@ -164,7 +193,7 @@ Ainsi, lorsque l'on entrepose des données spatiales, trois colonnes doivent êt
### L'absence de données
-Parfois, une donnée est manquante lorsqu'elle a été perdue ou est inconnue. On privilégie l'ajout d'un `NA` (Not available) pour montrer que l'information est réellement absente.
+Parfois, une donnée est manquante lorsqu'elle a été perdue ou est inconnue. On privilégie laisser la cellule vide (`NULL`) plutôt que d'entrer une valeur par défaut. Dans le cas où la donnée est manquante, on recommande d'en inscrire la raison dans un autre champ.
On évite d'entrer une valeur numérique puisque celle-ci peut être confondante et entrainer des erreurs lors de l'analyse des données. Par exemple, l'entrée d'un `0` dans une colonne numérique ne peut permettre la distinction avec les vrais 0 et influencer la moyenne. Cette pratique est donc à proscrire !