teaching_nlp

NLP (python) Libraries
Analyses linguistiques du français
- Tokénisation
- Analyse lexicale (lemmatisation, morphologie flexionnelle et dérivationnelle mais pas compositionnelle..., CoNLL)
- Analyse syntaxique (constituants et dépendance)
- Reconnaissance d'entités nommées
Analyse de textes de genres différents
Multilinguisme (couverture, qualité et temps de traitemen)
Benchmark NLP libs

Modèle "sac de mots" (bag of words)
Vectorisation avec occurrences
Vectorisation avec TF-IDF
Matrice creuse
Partitionnement sur la base d'une représentation bow des documents avec la méthode des k-moyennes
Similarité entre documents
Partitionnement hiérarchique des documents sur la base de la matrice de similarités inter-documents
Partitionnement des documents sur la base de la matrice de similarités inter-documents avec la méthode des k-moyennes
Topic modeling with LDA's gensim
Partitionnement des documents sur la base de la matrice document-topic avec la méthode des k-moyennes

Plongement de mots (word embeddings avec word2vec approches skipgram et cbow, fasttext)
Charger un modèle existant à l'aide de gensim et réaliser des opérations de similarités
Visualiser les plongements lexicaux dans un graph en 2D
Visualiser les plongements lexicaux en 3D dynamique à l'aide du projector de tensorflow
Construire un modèle word2vec et fasttext avec gensim
Comparer et évaluer deux modèles
Construire une représentation continue de document
Partitionnement sur la base d'une représentation document-embeddings
L'approche TextRank pour le résumé automatique (Nicolas Dugué)

Allociné dataset
Utilisation d'une bibliothèque de haut niveau, ktrain
Entraînement (fine-tuning) de différents modèles fasttext, nbsvm, BERT et d'autres issus d'HuggingFace
Recherche de taux d'apprentissage (learning rate)
Comparaison de performance d'inférence
Data augmentation par adversarial learning et model ensembling

Name		Name	Last commit message	Last commit date
Latest commit History 127 Commits
M2-ATAL-2021-22		M2-ATAL-2021-22
M2-CN-2021-22		M2-CN-2021-22
data		data
01_Analyse_linguistique.ipynb		01_Analyse_linguistique.ipynb
02_Normalisation_des_textes.ipynb		02_Normalisation_des_textes.ipynb
03_Représentation_des_textes_à_l'aide_du_vocabulaire_ou_des_thèmes_.ipynb		03_Représentation_des_textes_à_l'aide_du_vocabulaire_ou_des_thèmes_.ipynb
04_représentation_vectorielle_continue.ipynb		04_représentation_vectorielle_continue.ipynb
05_Classification_de_textes.ipynb		05_Classification_de_textes.ipynb
06_biasandethics.ipynb		06_biasandethics.ipynb
README.md		README.md
performances spacy oct 2021.ods		performances spacy oct 2021.ods

Provide feedback