---
Date:2023-10-11
tags: dh, conference
---
Ouverture par Éric Montpetit, le seul centre de recherche consacré aux DH au Québec. Colloque dédié à la mémoire de Stéfan Sinclair. Centre qui fête ses dix ans.
72 chercheurs, dont trentaine dans notre Faculté.
Maude Bonnenfant, Défis et découvertes de la recherche avec les données massives pour l’étude des communautés de jeux vidéo
Libre Jeu, éditions Liber. Ouvrage aux PUM sur la socialisation dans les jeux vidéos.
Ce qui est sans doute commun à nous tous, la méthodologie : des outils communs, des corpus qui partagent des problématiques, etc.
Débuter par le début, quand ne connaissait vraiment rien, autour des années 2010. Les données massives dans le domaine du jeu vidéo avec la généralisation des réseaux sociaux mais aussi l’arrivée de jeux connectés. Un tournant quantitatif dans l’industrie du jeu vidéo que qualifie de data drive. Apparition de jeux comme services : un jeu que va entretenir pendant plusieurs années, collecte de données d’utilisateurs pour la production d’améliorations. Métriques d’affaires, mais aussi de balance. Métriques de communauté.
Game Analytics, paraît chez Routledge, parle un peu de communautés mais peu. Certains chercheurs aux US vont faire du traitement de données comportementale dans une vision sociologique ou psychologique. Souvent mobilisés par l’enrteprise et quittent l’université. 2012-2014, mon premier projet un travail sur le jeu Big Story Little Heroes, Vandal Games. Pour faire du travail sur les données communautaires, ne peut pas reproduire la situation en laboratoire. Besoin de faire affaire avec les entreprises privées. Petite société dont les fondateurs sortait de l’U et qui ont compris l’intérêt de la démarche. Jeu de capture de drapeau. Un des premiers jeux sur FB en temps réel.
Création d’une base de données MySQL pour monter une base sur 75 000 joueurs. Or, sémioticienne, issue des sciences sociales. Confronté au vocabulaire de l’informatique, quantitétaifs. Par ailleurs, travaillent avec une bdd qui n’a pas été collectée par nous. Outils d’analyse statistiques. Changement des conditions d’utilisation pour la recherche, mais aussi aperçu qu’accès à toutes les informations sur les joueurs dans FB. Ce qui m’a amené à m’intéresser aux études de la surveillance.
Calcul Canada, Alliance de recherche numérique du Canada. Serveur de calcul.
For Honor. Projet Ubisoft. Beaucoup de travail sur Reddit. Prise de contact avec les collègues en informatique. Mise en place d'une plateforme pour faire du traitement de données. Projet MITACS, enjeu de délai. Question des rapports toxiques mais pas ce qu’explorait.
2018-2019, Dead by Daylight. Un jeu de combat assymétrique. Ici travail sur la toxicité en jeu. Travail avec le scientifique des données qui disposait de nombreux trackeurs, parallèlement travail sur RedIt et SubRedit. Encodage manuel 11 000 codes pour éventuellement entraîner une IA. Possibilité de schématiser la toxicité et montrer son accroissement. Cependant, son interlocuteur conduit à gérer un laboratoire de gestion des données. Laboratoires qui ont explosé dans les labos.
Blizzard, imbrication entre jeu et politique. Voir comment naît un courant de protestation, qui le porte et comment c’est entretenu. API Twitter, Reddit, YouTube, pour quanti. Corpus quali de vidéos, textes et CP. L’idée était d’établir quel événement avait produit quoi. KH Coder, Mallet et Tableau.
Subreddit, animés par des bénévoles. 2005 à 2022, ensemble de la bdd versé sur Pushit. 3To compressé. 30To de données écrites. Utilisation de Zstandard, Python, Jupyter.
Andrea Ripoll, etc.
Claude Vivier, compositeur musical à l’initiative de la propagation des musiques nouvelles.
La semaine du neuf, un hommage à Claude Vivier. Pièce phare Pulau Dewata, 1977, une des plus jouée dans le monde et la plus enregistrée sur CD. Une pièce qui présente l’originalité d’avoir une instrumentation ouverte. Question de la comparaison des pièces. Pré-concert, facile, pratique et immersif pour les publics.
Exploration de la VR. Expérience musicologique pour amener à la connaissance de Vivier. Besoin de convaincre que la musique était au centre de l’expérience qu’allait proposer.
Deux pour travailler. Pas de studio. Aucune partition. Arrangements pas libres de droit. L’enjeu était de synchroniser car les pistes n’ont pas été conçues pour être mises ensemble. Impliquait de découper les pistes. NEM. 21 musiciens avec percussion, difficile à couper en raison des résonnances personnelles, utilisé comme référence. Arrangements qui présentaient parfois des erreurs. Choix nécessaires.
L’idée était d’imaginer le son sous la forme de statues dans le temple qui émettent le son, des sphères dont le son s’éloigne. Un plan de temple, travail sous la forme d’un diagramme de Venn.
Comment arriver à Bali en un clin d’œil ? Musique très inspirée des voyages faits à Bali. Identification d’un lieu. Génération d’un terrain à partir d’un site. Installation d’un prototype. Lac et lointains. Travail pour mêler le visuel et le sonore, trois statues dans le lieu.
En testant, choix particules. Pissenlit, étoiles, lucioles, etc. Ajouts divers. Question des positions. Souvent première utilisation de ce type de dispositifs VR.
ArcheoEchi: an immersive experience to improve access to cultural heritage in Southern Italy
Gianluca Grazioli
Idée d’appliquer des outils virtuels au patrimoine pas nouveau. Depuis nombreuses années, applications à l’archéologie. Reconstruction architecturales mais également accoustiques. Une manière de reconstituer les sphères sonores des sites.
2017 grant award, 2018 premiers prototypes, 2019 version interactive.
Cas study, le site archéologique d’une cathédrale Saint Albert, Montecorvino. Un site peu valorisé, dans la région de Foggia. Aucune promotion en dehors d’une campagne d’excavation. Édifice du 11e, abandonnée après le 16e. Fouille par l’Université de Foggia qui permettent de déterminer plan de l’édifce. Trois nefs et trois absises. Élévation déterminée par comparaison d’autres édifices de la même région et contemporaine. ex. Orgnissanti di Cuti
Un modèle architectural et un modèle accoustique. Deux modèles qui ont des caractéristiques différentes et un niveau de détail différent. Une fois que le modèle est produit et information sur les matériaux. Possible de créer l’Auralization, une carte d’identité de la manière dont l’édifice sonne. Possible de définir le niveau d’absorbition des matériaux. Taux de réverbération. Ici très bas, espace très réverbérant.
Principalement pierre de taille et platre. Volume c. 2828m3 absobsion area 80m2 très bas. Aussi temps de réverbération très long.
Volonté de redévelopper l’expérience. Contenu audio choisi en fonction du site et rapports avec l’espace. Cohérence avec l’époque de la cathédrale. Medieval cantica 13e. Exultet latin chant. Narrating voice.
Trois protides créés. Une monosource spécialisée, Multichannel audio format. Enregistrement son ambiant. Cantiga enregistré avec un groupe qui interprète de la musique médiévale avec des instruments répliques.
Chants issus d’un livre de pières de Paques. Demandé à un acteur familier avec la prononciation latine.
VR application Unity. Interactive (joystick) version et documentaire (pointeur). Wwise qui permet d’accorder différents contenus. Utilisateurs appréciaient, liberté de circulation.
Andrea Gozzi, S’orienter dans al VR : pour une analyse des expériences d’accoustique virtuelle
L’objet de sa recherche un espace de concert. Espace hypertexuel accoustique. Patrimoine culturel de l’humanité. Exemple Teartro del magie. Florence 2014.
Listen to the theater. Modèle 13 points d’écoute. Idem pour le Teatro de la Pergola. Possibilité explorer différentes positions.
LITT 3x3D ici pour étudie la pratique musicale de la salle. Recherche ubiquité entre les positions.
Analyse de ces contenus. Questionnaires accoustique. Ouvreuses les plus à même d’évaluer les espaces. Parmi les personnes interrogées seulement deux personnes connaissaient le projet accoustique de la salle. Personne qui se plaignait habituellement de l’accoustique de la salle trouvait le modèle irréaliste.
Réverbération très lié à l’espace.
Virthulab, laboratoire psychologie expérience VR. Florence.
L’effet d’immersion dans les différents moments de l’exécution par rapport fréquences cérébrales. Préférences différentes selon les publics.
A prouvé que rien ne peut se substituer à l’étude dans l’espace. Réactions et perspectives musicales différentes. Multiplier point de vue d’écoute pour améliorer la question espace. Intégrer expanded realities pour l’étude de la musicologie.
Dominic Forest
- analyse sémiotique de la textualité
- valider de nouvelles techno
- organisation transfert
Jean-Guy Meunier, Ismaël Briskri UQTR, David Valentine, Sara Maud.
Yvon Lamonde, Ludovic Chevalier.
Objectifs spécifiques, assurance qualité du corpus. Qualité des données et analyse.
- Analyses lexicométriques
- Analyses basées sur des approches inspirées par l’IA tant au niveau prédictif que descriptif, en croisant des approches tant classiques que récentes
Corpus représentatif de la pensée québécoise, revue Laval théologique et philosophique, Philosophique, Dialogues, etc. Monographies et mémoires et thèses.
Première exploration pour documenter les corpus. Voir si les informations faciles à utiliser avec les outils de la fouille de texte qui seront mobilisés.
Corpus multi-lingue, balisage XML. Définition de la nature des textes (philo ou théo).
Utilisation de Tree Tagger pour extraire les patrions syntaxiques des séquences de mot du corpus afin d’opérer un filtrage des patrons syntaxiques qui nous intéressent;
Extraction des syntagmes nominaux compris dans le corpus.
Second filtrage fonctionnel pour éliminer les mots vides. Utilisation de listes de mots vides fr et en auxquels ajouté mot-vides spécifiques au corpus.
Calcul score de spécificité pour les textes (TF-IDF)
- score de spécificité
- fréquence des termes et nb de textes
Réorganisation du corpus. Terme apparaîssant nombre élevé dans un pt nb doc remonte. Normal.
Ensuite essaye de regrouper les termes pour voir quels groupes thématiques émergent du corpus. Algorithme de regroupement sur les mots clés (clustering) : 1980-2000. Sommaire mais fait déjà apparaitre un axe lié à la logique formelle et termes relevant de la philosophie religieuse ou de la théologie.
Résultats préliminaires
Regarder les distributions de certains mots en lien avec la théologie en fonction des décennies.
Dieu 11 900 occurences, 827 documents soit 1 545 (53%). Fréquence absolue par décennie, forte utilisation de cette forme dans les périodes récentes là où s’attendrait à l’inverse car années 40 où philosophie québécoise marquée par le courant thomiste. Pondéré sur le nb article pour contrebalancer fait que pas mm nb art, idem.
Idem pour Christ. Distinction amoindrie en données normalisée.
Peut-être pas une revue de philosophie mais avant tt une revue de théologie ?
Thomas (Aquin) ? Là les données sont radicalement différente, forme beaucoup plus utilisée dans les années 40 et 60.
Regroupement des décennies sur la base de leurs contenus. Philogénétique. Ressort systématiquement même type de représenattion. 40 et 70 ensemble. Alors que depuis 80 à 2000 un regroupement autonome. Quelque chose semble s’être passé autour de 1970.
Permet identifier enjeux et tâches supplémentaires. Enjeu de validation et interprétation des résultats. Retour aux chercheurs. Poursuite des pré-traitement.
On sait que les modèles d’annotation automatique sont entraînés sur des corpus particuliers (comme la presse) ce qui peut entraîner des biais sur des corpus spécifiques comme des corpus scientifique ou du français québécois.
Choix de tree tagger car le plus performant au niveau de l’étiquettage morpho-syntaxique. Mais sans doute besoin de coordonner cet outil avec un outil de reconnaissance d’entités nomées NER.
Plans de cours et conférence, difficile d’accéder à une numérisation rétroactive.
Guilherme Garcia (U Laval) : « Fonology : une extension R pour l’analyse phonologique à partir de données écrites »
Vincent Arnaud, Kevin Bouchard et Gilles-Philippe Morin (UQAC) : « Extraction automatique de mots-clés d’un échantillon de mémoires et de thèses universitaires : un projet pilote »
Phonéticien mais s’occupe aussi de l’écrit. Un projet sur lequel a travaillé avec Kevin Bouchard. Se poser des questions concernant les catalogues de bibliothèques et les mots-clefs. L’idée est de voir comment cela fonctionne. Deux tendances : l’utilisation de vocabulaires contrôlés, de l’autre des folksonomie, il s’agit alors de vocabulaires qui ne sont plus contrôlés et proposés par des non-spécialistes. Chacun pouvant émerttre le tag qu’il souhaite. Peuvent évidemment varier en fonction du contexte émotionnel ou social.
Folksonomie terme apparu en 2007. Plusieurs publications sur le sujet. Steeve 2009.
Idée de voir si peut explorer les mots-clefs à partir du texte source. Une voie tierce en extraction automatique. Mais voie peu exploitée encore jusqu’à présent (Behnert et Lewandowski 2015).
Un projet pilote qui doit être considéré comme tel. Trouver les thèses et les mémoires, concevoir un prototype. Quelle évaluation faire des mots-clefs. Dépôt institutionnel. 1176 thèses collectées. Tous au format PDF. Difficultés liées au format.
Rvest, pdftools
Kterms, etc. Un mot-clef pas seulement une forme lexicale isolée mais peut-être multi-mot. Extraction qui n’implique pas seulement extraction de formes mais seulement des formes pertinentes.
Parser et modèles de textes. étiquettage et attribution lemme.
EPrints
Approche RAKE, recherche séquence de mots continus dans une même phrase. Terme complexe candidat, regarde combien de fois apparaît et co-occurent. = score RAKE du terme candidat complexe. Retenu les 18 le score plus élevé.
Autre stratégie Textrank pour retenir les termes les plus pertinents. WordCloud.
Comment évaluer les termes ?
choix des bigrammes, ou portée de l’extraction.
Mots qui ne sont pas dans le texte, pourrait être contourné par modèles documentaire. Parfois comparaison avec indexation manuelle. 30% accord inter-juge pour les films.
Avez-vous utilisé NER ?
K-Bert https://arxiv.org/abs/1909.07606
https://constellation.uqac.ca/cgi/oai2/
Sydney, Microsoft, Bing’s AI Chat : I want to be alive. Il est tentant d’anthropomorphiser.
ELIZA, bot construit dans Voyant
Alan Turing mérite crédit sur manière de tester si une machine peut parler.
Par la masse d’écrits que devenus interactif. Changement platonicien. Raison pour laquelle décidé de créer un outil dans Voyant.
Création de contenu et pas seulement production de contenus.
Femmes longtemps rendues invisibles dans l’histoire des technologies. Exemple Tolstoï et ses trois assistantes (la machine à écrire l’une d’entre elles). Souvent association des machines et des femmes, une des premières association socioculturelle des femmes comme des machines. Question de la force de travail que la technique peut remplacer.
ChatGPT, Alexa, etc. tâches genrées. Pas supposées d’être intelligent, seulement un moyen pour une fin. Prendre en charge des tâches clericales, domestiques, répétitives et ennuyeuses.
Haleberstam, corporalité ou esprit. IQ vs IQ
Dévalorisation travail
- Matériel
- lié à la machien
- Remplaçable et considéré sans signification
On the software and persistance of visual knowledge
Julien Schuh, L’Intelligence artificielle dans l’écosystème culturel : redéfinir la mémoire à l’ère numérique
Différents travaux menés depuis quelques années autour de l’utlisation d’outils issus de l’IA pour traiter de grandes masses de données issues des SHS. Question de savoir ce que ces outils faisaient à la mémoire collective.
Réfléchir à comment se positionne comme personne faisant des DH et utilisant ce genre d’outils.
Domaine de recherche assez large de l’intelligence collective, pas une mince histoire. Des tensions dans les disciplines sur ce que signifie mémoire collective. Fonction comparable mémoire humaine ? Mémoire à long terme ou court terme ? mémoire communicationnelle, versus culturelle ? Pratiques sociales de réactivation politiques, travail de certains acteurs pour créer des valeurs communes autour d’objets mémoriaux ? Objets politiques ?
Mémoire collective sans doute un peu tout ça. Considérer l’ensemble des dispositifs distribués qui ont des implications sur la mémorisation du passé. Réactivation de certaines formes dans le temps. Série de structures plus ou moins dynamiques... générateurs de futurs probables car conditionne manière dont va réagir.
Médias qui ont pour fonction de permettre la transmission à grande échelle, des mécanismes sociaux politiques liés à la représentation du passé des cadres d’action communs.
Digital Memory Studies, champ qui étudie mémorisation collective. À partir de ce champ que possible d’étudier les relations entre IA et mémoire collectif. Nouvel acteur dans la configuration de la mémoire collective. Ensemble des pratiques qui permettent de sélectionner, rendre actif, etc.
Tensions et usages variés. Sélection et classification de données passées. Génération de nouveaux objets. Souvent des processus de cognition intellectuelle. Entraîne des modèles en définissant des buts poursuivis pour la réalisation des opérations. Donc des mémoires d’intelligence collective. Des synthèses de corpus mais aussi d’actions pratiques possibles.
On peut donc considérer deux niveaux qui ont des implciations diff
- outils de traitement informatique qui transforme ces objets et leur compréhension collective, photo IA déjà prétraitée sur votre téléphone, classée intégrée dans le cloud, entraîne d’autres utilisation sur des serveurs, partages indexés par des algorithmes, etc. Un ensemble d’outil de contrôle du dicible et du visible.
- outils de génération des modèles destinés à interagir avec les humains à travers de chatBox qui synthétise dans un espace latent, nouveaux agents de mémoire. Forme de mémorisation qui ne relèvent pas de l’archive mais processus plus humains d’engrammation en vue de regénérer certains types de contenus.
Envisager l’effet de ces deux types d’outils sur nos mémoires collectives.
Intégration de l’IA dans tous ces outils qui consistent à mettre à disposition les traces du passé. Enchevêtrement énorme de tous ces outils. Peut l'observer très directement dans la manirèe dont les Google Doodle participent à des formes de remémoration fondé sur des outils algorithmiques. Exemple naissance de France Gall, figure iconique de la chanson française. Outils qui participent à la mémoire collective de manière massive car sur la page d’accueil mais aussi calculé en fonction d’un public cible.
Ensembles organisés qui se connectent à des structuration localisées des mémoires utilisés par Google pour construire sa marque. Archivage par Google qui le met en présence d’autres Doodle avec cartographie. Autres événements qui partagent des dates. Machine à produire des remémorations. Impliquent recherches préalables sur les dates des informations. Sans doute en exploitant les pratiques des utilisateurs. Proposition d’un certain type de mémoire collective.
Intéressant de voir comment l’IA allait s’insérer dans la création de ces mémoires collectives. Lien vers le site de Wikipédia, deux photos où les images sont indiquées retouchées par l’IA. "Cette illustration a été retouchée par une IA." Une extrapolation ?
https://fr.wikipedia.org/wiki/France_Gall#/media/Fichier:Gainsboug-Gall-1965-Italie.png
- colorisation
- mise en HD
- effacement de personnages derrière l’image
Page de Wikipédia qui présente une discussion sur l’utilisation de ce type d’images qui démontre deux positions diamétralement opposée. D’un côté une authenticité liée à l’archive, de l’autre côté idéalisation des lecteurs. En corrigeant l’image offre en fait une version plus réaliste de la réalité. Discussion qui porte sur une autre image qui a finalement été supprimée.
Nombreuses questions posées en terme de véracité, traçabilité, en particulier pour une image insérée dans Wilkipédia compte tenu de son utilisation et susceptible d’être utilisées pour alimenter des modèles d’IA...
Vrai serpent qui se mort la queue.
Sur l’autre aspect, celui des chat. Autre chose, outils en train de former de nouvelles formes de mémoire artificielle. Possiblité de représneter le passer autrement. Agents intéressants pour documenter la représentation du passé d’une époque. Mais risque de biais.
Possibilité de générer de fausses images. Réinséré dans Dalle la description de l4image. Reproduit choses proches. Dalle ne le dit pas. Mais dans ChatGPT explique que peut créer des chanteurs français des années 50. = mélanges. Création de nouvelles formes de mémoire synthétiques. Contextures.
Comme parler d’une iréalité. Comment retrouevr les corpus qui ont servi à les entrainer.
Génération de modèle et gouvernance de l’IA.
Narratif histoire des possibles.
Discussion = création d’une sorte de mémoire analogique, permet de fouiller une matière dans laquelle pas possible de naviguer. Une autre manière d’expérimenter le passé, beaucoup plus proche de l’expérience. Ce dont nous avons besoin, c’est de sources pour documenter tout cela.
L’absence d’accès au corpus, pose de nombreuses questions en termes de réprésentativité, de biais. Ce qui pose de nombreuses questions en terme de gouvernance politique. Risque de créer de métamémoire neutre. Humain médian... Sam Altman. Représenation moyenne de l’humanité qui pourrait avoir un impact énorme sur notre mémorisation. Développer une mémoire biaisée volontairement méchante ! pour dialoguer d’une autre manière avec ce passé.
Caroline Muller, L’histoir au temps des algorithmes. Une réflexion prospective sur l’introduction de l’intelligence artificelle en histoire au XXIe siècle
Introduction dans la journée d’une historienne de 2023. Fictif. Travaille dans université de taille moyenne, entrée dans la carrière il y a une 15aine année. Une fille car plus facile pour moi de dire je.
Vers 8H30 consulte sa boite mail, nombreux courriels d’étudiants inquiets dates examen. Compte rendu 6 mois de retard. Autres urgences, besoin de consulter un carton aux archives aux AD voisines université. Passe moment SIV des AN. Nouveau résultat. Photographie archives.
Transcription dictée vocale. Équilibre blancs. Recherche sur institution que ne connaît pas. Deux articles.
Traitement de texte. Plugin de facilitation écriture, dictionnaire synonyme. Celui-ci a changé, propose des phrases de textes. Analyse graphe qu‘elle a déjà écrit.
Nouveaux documents numérisés par les collègues.
Identifier tous les moments aucours desquels des interventions IA.
Projet mené avec F Clavert sur les pratiques numériques discrètes. CulturHist.
Le goût de l’archive à l’ère numérique. Celles qui ne sont pas pensées comme relevant des DH ou comme pratiques poussées bien que le résultat d’investigations du métier. Idée de défendre attention nécessaire à ces petits gestes dont ne mesure pas pleinement le caractère transformatif et dont il faudrait penser la pratique.
Recherche archive
Penser la requête dans un moteur de recherche comme un acte à part entière.
Collecte massive de photographies d’archives. Pratique qui s’est très largement développée.
Jaillant sur les archives.
Ctrl+F et recherche dans Gallica. Lien de coprésence dans panel de résultat. Corpus qui n’existe que parceque la recherche a été faite. Pas d’autres logique que la requête qui a été faite.
Modèle de rédaction fondé sur GPT qui nécessite de repenser notre modèle auctorial. Plusieurs revues qui ont considéré qu’un auteur ne pouvait pas être écrit par IA. Pose des questions plus importantes que le fait que doive interdire ou pas.
Discussions et désaccord avec FClavert. Préoccupation sur les coûts sociaux-environnement. Urgence de retisser des liens avec la communauté informatique pour toute une communauté SHS qui en était restée éloignée. Hypothèque à laquelle ne souscrit pas. Considère plutôt qu’un dialogue qui aurait dû avoir lieu plus tôt ou trop tard.
Pas une fatalité qu’un agent produise des images lisse. Jetté à la poubelle tous les systèmes experts. Est-ce adapté pour nous ?
La détection de thèses principales. Meunier
Modéliser tâche de lecture computationnelle. Détection des thèses principales dans les textes de haut niveau théorique.
Qu’est-ce que l’argumentation
Comment détecter thèse principale d’un texte
Comment modéliser thèse principale
Contribution à la lecture et analyse de texte assistées par ordinateur. Un champ du langage naturel qui dispose aujourd’hui de ses revues et de ses conférences.
Qu’est-ce que l’argumentation
- approche théorique, moyen de persuadé
- Épistémologique, idées
- consensualistes, moyen mettre accord
- communicationnelle (Sperberg et Mercier)
Approche communicationnelle, où acteurs s’investissent dans une communication pour collecter informations. Couvre les deux premières approches et couvre également consensualiste car moyen accord.
Arguments émanent du besoin de persuasion du lecteur. Articulation de raisons qui soutiennent des arguments et de raisons qui s’opposent.
Ainsi thèse princiaple importante.
Diverses parties du texte qui vont remplir des fonctions argumentatives de haut niveau. Sous-objectifs souvent introduits par des sous-titres. IMRD Introduction Méthodes Résultats Discussion. Dans ce contexte la thèse princiapel est une réponse à la question de recherche.
Certaines fonctions argumentatives fondées par des marqueurs matériels, mots, syntagmes, parfois dépendant du contexte pou pas.
Penn Discourse Tree Bank PDTB-3, inclue 53631 marqueurs de relation classés.
Comment identifier la thèse principale d’un article. D’abord dire que relation de similitude envers la thèse principale. Le titre et l’introduction entretient unre relation.
Thèse principale située à un endroit spécifique de la discussion.
Méthode : identifier ensemble de données pour permettre de tester nos hypothèses.
- Identifier corpus où donnée enregsitrées
- structurées les données textuelles
- traduire en ...
- analyse
AbstRCT (Mayer et al. 2020) corpus issus littérature médicale par PubMed. Décomposition en composantes argumentatives. Relations entre elles. Accord inter annotatieur très élevé.
Mais manque le texte. Veut générer les textes.
Décompose les phrases en espace vectoriel. Mesure de similarité cosinus maximal.
110 textes dont la discussion une thèse princiapel. 99 1, 9 2, 2 en contiennent 3.
Une tâche difficile. 1 thèse pour 41 phrases = au hasard peut en trouver 3... Ce que doit donc battre.
Sélection d’une mesure d’évaluation. Données très déséquilibrées. Cherche à déterminer si trouve bonnes réponses. top-K pour évlauer si les bonens réponses se trouvent parmi les k meilleures prédictions.
modèle fondé sur le titre
Modèle fondé sur l’introduction. Vecteur synthétique somme des vecteurs de chaque prhase introduction. Trouve 28 thèse princiaple poru F 0,24. MArche mieux
Modèle formé sur l’emplacement. Normalisés de 0 à 1. Se situent beaucoup à la fin. Choix des cas divisés par deux phrases de la fin arrondi... moins bien mais intéressant.
Modèle fondé sur les connecteurs de discours : PDTB-3. Appilcation individuelle pour leur capacité à identifier les thèses principales. Choix des connecteurs les plus précis. Rappel intéressant. Test de 1 à 25. La mesure de F qui montre que plus ajoute connecteurs, plus la performance s’améliore pour max à 9. As an alternative, beside, consecuently, even if...
Modèle ensembliste. Composée des modèles les plus performants en terme de F1. Ici fondé sur les meilleurs modèles. Trouve 50% thèse principale du premier coup.
Conclusion. Certaines structures entretiennent relation similitude envers la TP. énoncés de thèse principale tendent à être situés à un emplacement spécifique de la discussion. Certains marqueurs rhétoriques spécifqieus susceptibles d’être contenus par les énoncés de thèse principale.
Enfin la détection des thèses principales est une tâche difficile qui semble nécessiter une modélisation complexe et qui devra associer différents principes et méthodes.
Appliquer des modèles ensembliste, très malin. Ne pas confondre IA prédictive et générative. Ici différent, avoir un corpus d’entrainement à partir du quel pourrait développer thèse principale
Michael m’a un peu tordu le bras pour parler dans le cadre de ce colloque pour les 10 ans du CRIHN. Parler aujourd’hui d’un travail qui est principalement en cours d’élaboration. Profiter de l’occasion qui m’est donnée pour demander des conseils sur les orientations que je peux prendre.
Peut-être aussi l’occasion de réfléchir rétrospectivement à mon travail depuis plusieurs années. Carrière dont je peux en quelque sorte dire qu’elle a été marquée par une sorte de dissociation numérique.
Depuis mes premiers pas dans la recherche, je me suis toujours préoccupé de la manière de tirer le meilleur parti possible des technologies numériques. Dans le même temps, mes travaux en histoire de l’architecture, tout du moins ma thèse de doctorat (qui était un gros morceau), ne présentait aucun caractère numérique.
Signataire du manifeste des DH en 2010, souhaitait voir émerger nouveau profil de chercheurs hybride. En parallèle d’une formation académique classique, je me suis fortement engagé dans le domaine des humanités numériques. Participation à la constitution d’une communauté avec la création de l’association et d’une revue. Mais aussi participation à des grands projets de recherche collective qui plaçaient le numérique au centre de leur préoccupations.
Intéressant de constater à cette occasion les évolutions survenues dans le contexte de mon travail mais aussi les moyens désormais disponibles pour aborder les corpus.
Des évolutions qui interrogent le positionnement épistémique à adopter à l’égard de mon corpus.
-
Base de données et structuration de contenu
-
Transcription et acquisition du texte
-
Analyse du texte et des images
Sorte de dissociation numérique.
D’une part, toujours préoccupé de la matérialité des archives et possibiité de développer des approches numériques pour traiter les fonds.
Caractéristiques matérielles des fonds.
Présentation Conbavil. Leniaud au terme 30ans de travail. Proposant de faire cela automatiquement.
Sophie Raux
Renouveller de manière heuristique et épistomologique la connaissance de l’éclairage dans les espaces et la peinture.
Noyau dur de l’équipe qui a déjà travaillé ensemble pour une restitution du Pont Notre-Dame à Paris et de l’enseigne de Gersaint peinte par Watteau. Objet de musée très célèbre, voulu avancer sur des questions restées largement sans réponses. Le fait de devoir restituer nous a permis de formuler des hypothèes et régler un certain nombre de question. Décalage entre image idéalisée de l’enseigne et réalité de l’échoppe du marchand. Problème du positionnement de l’enseigne qui posait question. Hypothèse qui permet de rendre sensible le côté visible de cette enseigne qui rentre dans le domaine public et constitue aussi un travail pionnier.
Plusieurs déclinaisons de ce travail. Notamment possibilité d’expérimenter le dispositif numérique.
Transition avec la suite, dès le départ itéressés à réfléchir à l’ambiance lumineuse du pont de jour et de nuit. Travail avec une étudiante spécialisée sur l’élcairage urbain.
FabLight, projet financé par l’ANR. Équipe élargie, Larha, CAK, Lisic (signal et image de la côte d’Opale).
Mettre en tension les enjeux épistémologiques et pratique. Plusieurs types de simulation et restitutions numériques. Première de ces approches, produire une application de réalité augmentée avec des travaux en recherche création. Reconstituer la manière de prévoir les éclairages d'atelier : plusieurs stratégies et préconisations académique pour maîtreiser la lumière artistique. S’intéresser également aux éclairages à la torche, récits expérience Goethe, etc. Étude de l’éclairage lui-même dans ses représentations afin de mesurer les écarts entre les simulations et les peintures. Afin de mesurer le poids des théories artistiques, préciser portée rhétorique et symbolique de la lumière en peinture.
Mobilisation de la simulation d’éclairage relativement courante notamment dans le domaine de l’archéologie pour restituer éclairage architecture. Moins courant en revanche en peinture. Démarche qui implique une restitution en 3D de l’espace dans lequel est situé la peinture. Démarche qui s’applique principalement aux environnements. Part du présupposé que les peintres adaptent leur pratique au site.
Justin Underhill, pionnier de cette démarche. Recontextualisation de la Scène de Léonard de Vinci au couvent de la Gracie, très vite fenestrage a changé. Possible de voir son application qui permettent de retrouver les relations subtiles entre l’éclairage de la pièce et l’espace. Autre exemple sur une œuvre de Rubens, refusée par ses commanditaires au motif qu’il n‘avait pas suffisamment pris en compte les contraintes d’éclairages de la pièce et que des conflits apparaissaient à certaines périodes. Tableau au musée de Grenoble.
Deuxième approche qui consiste à s’intéresser à la présence de l’éclairage représenté dans les tableaux qui à la différence des fresques n’ont pas le même rapport à l’emplacement.
Strok qui a engagé nombreuses recherches sur le sujet où la lumière tient une place centrale. Charpentier de La Tour où la bougie tient une place spirituelle et sensible essentielle. La bougie que l’on voit peut-elle à elle seule expliquer les modulations de lumière que l’on voit. Pose que dans l’ensemble les effets de clair-osbur sont cohérent. Invalide plusieurs hypothèses sur sources multiples mais aussi utilisation d’apareil optique par le peintre.
Autre analyse, jeune fille à la perle. Ensemble cohérent même si l’informatique témoigne de variation minimes. Approches qui montre grande maîtrise de peintres sur les effets de lumière, et paradoxalement combien difficile pour nous à mesurer à l‘œil.
Notre enquête diffère. Mise en scène matériel, et processus matériel de l’atelier. Sorte de génétique de l’œuvre. Période où on relève une fascitation accrue pour l’ombre. Baxandall parle de sciophilie ? amour de l’ombre. Arrêt avec l’éclairage au gaz. Époque où connaissances s’accroissent. Débuts de la photométrie. Moment où les artistes s’emparent largement de la question.
Sujet de l’ombre et de l’éclairage qui obsède les cercles littéraires. Vogue des théâtres d’ombre, etc.
Clair obscur dans ses thèmes et ses formes plastiques tout à fait différent du caravagisme. Mythes païens, et game colorée qui s’élargit considérablement. Certains peintres intègrent par exemple en Angleterre les avancées de l’optique de Newton.
Problèmes complexes de géométrie pour les peintres qui doivent les représenter. Capacité de détecter écarts.
Du point de vue de la représentation plastique des ombres projetés, ombres sont-elles cohérentes. Comment rendre compte de ce qui est conforme à l’expérience sensible et relève. Comment détercter ces questions.
Légende de Dibutade (Pline). Thème particulièrement approprié au sujet. Dans la littérature que le prénom est ensuite arrivé. Quelques images qui montre engouement pour ce thème qui n’avait jamais suscité intérêt avant 70s. Grand intérêt en GB et Fr. En traçant ombre fixe image de l’amour absent. Principe de l’imago. Modelage en relief du visage. Approche qu’avons abordé à travers deux tableaux. Derby et Suvé (mais déjà publié).
Joseph Wright of Derby, à partir des années 1760, obtient de très grands succès à travers ses nocturnes. Grandes progression dans le traitement de la couleur. 75/80 voyage en Italie et probablement rencontré Suvé. Intérêt aigu pour les surfaces ombre. Utilisation de chambres noires décrites par sa nièce mais peut claire.
Jeune fille de Corinthe pas le plus spectaculaire ou intense. Mais une des premières peintures importantes produite après la fin du 18e. Antérieur au Suvé. Intérêt porté à l’ombre projeté dans un espace déterminé ce qui va lui poser des problèems importants auquel pas habitué. De plus tableau pour lequel possède une correspondance exprimant difficulté à aborder l’ombre.
Commanditaire Josiah Wadgwood, descendant d’une famille de potier (choix du thème). Vient de faire édifier une manufacture extraordinaire. Etruria, référence étrusque. Commence à produire des objets qui répondent et alimentent à la vogue néoclassique. Technique de biscuit sur fonds coloré. Entrepreneur qui se considère comme innovateur. Innovations dont souhaite qu’elles raisonnent avec le geste inaugural de dibuditate. Demande d’ailleurs présence four dans le tableau, présence d’un vase, etc.
Difficultés exprimées à propos de la question de l’ombre. La source littéraire n’est pas tout à fait Pline. Un poème publié en 1878 par un ami de Wedgwood, William Hailey. Dédie un passage au thème de Dibutade. Souligne que le jeune homme est endormi. Wright écrit pour dire que son poème qui l’a inspiré. Someil d’Endymion du capitole qui inspire la figure. L’a vu à Rome car dessiné dans un carnet. Mais tête qui pose problème car trop avachie pour les ombres.
Pour tester la cohérence des ombres par rapport à la source située derrière le rideau, implique de devoir reconstituer l’espace ce qui pose plusieurs problèmes car pas nécessairement de cohérence de l’espace. Deux points de vue. Doit-on en privilégier un ? Choix d’une solution médiane.
Créer des figures, insérer les drapés et passer aux textures. Ici poru ces tâches on externalise avec une inforgraphiste. Va maintenant montrer le décalage et évolution de la pensée sur l’œuvre. Écrit au poète que pas conscient des difficultés posées par l’ombre. Par ailleurs comme un angle avec le four, pas possible d’avoir sur le même plan l’ombre de la jeune femme et le jeune homme. Donc obligé de dessiner dans le vide.
Une application développée et achevée seulement depuis 48h. Activation de la lampe à huile qui génére une ombre difforme du jeune homme sur le mur et diffuse pour la jeune femme. Donc certain qu’une deuxième source qui permet d’obtenir une ombre bien nette du jeune homme mais trop intense. Ce qui est certain c’est qu’il a combiné les deux ombres, permet d’adoucir les deux ombres.
Possible de jouer avec l’application, faire tourner dans différents snes. Geste non solidaire du mur. Problème échelle.
Première lettre de 1782 et 83. Lumière la plus forte, jeune femme mais souhaite que soit l’inverse. Dit clairement qu’a compris la contradiction. Ajoute que pour ça besoin de tricher en ajoutant un éclairage qui vient de l’avant. Application qui permet de tester les différentes configurations de l’éclairage, rendre tangible les difficultés techniques rencontrées par l’artiste et les choix que doivent réaliser.
Suvée, grand peinte, deviendra dir académie de Fr à Rome. S’attaque à ce thème à plusierus reprises. 5 dessins mentionnés et 3 peintures dont seuelement conserve une grande peinture, esquisse et dessin à la pierre noire. Dessin que pourrait croire postérieur, reflète en réalité une version d’atelier qu’il a conservé pour lui. Nous montre une version disparue que nous nous proposons de restituer avant dans le processus.
Importance des ombres mais personne ne remarque que ne fonctionne pas. Même démarche, modélisation en 3D du tableau. Ici voit la mèche, ombre qui ne peut pas être dure, forcément adoucie, par ailleurs mur fuyant qui devrait créer une anamorphose de la tâte.
Point de lumière que voit et qui se trouve effacé dans la modélisation finale. Modélisation sans moyens. Mais permet de bien voir rationnalisation de l’ombre qui tend à une forme idéalisée conforme au portrait et à la silhouète de l’époque. Thème du deuil et de la mémoire. Pas hasard si peint 91 dans l’idée de le donner à la ville de Bruges. Quelque chose autour de cet imaginaire de la silhouète.
Les simulations d’éclairage ont permet de mettre en évidence des concordance et écarts. Proposer éléments. Apréhender double approche génétique, herméneutique et ... Autant étapes de créations.
Que gagne-t-on avec le numérique par rapport reconstitution matérielle. Comptexe mais avantage informatique possible de tester facilement. Agilité que n'a pas quand reproduit physiquement une scène.
Distinction informaticien ou pas. Travaille avec des spécialistes de l’image de synthèse et simulation éclairage ancien, sans doute un œil différent et capacité à distinguer choses différentes. Pas forcément même compétences visuelles.
Intérêt méthodologique de reconstituer une image en profondeur. Vs Midjourney, etc. PGDR.
Choix de tableau où nombre limité de personnages. Ne ferait sans doute pas tableau avec oiseau ou compairs. Ou même le planétaire. Techniquement pas nécessairement beaucoup de temps, mais besoin de temps pour réfléchir et reposer les choses. Mais dans des équipes ne travaille pas toujours au même rythme. Mais si à temps plein va assez vite. Recherche historique, modélisation du tableau pas si long, même si problèmes de géométries. 2 jours infographiste pour modéliser le tableau.
Depuis quelques années des modèles qui passent de 2D à 3D. Des tentatives pour accélérer le prototypage.
Des outils pour tester perspective, analyse chromatique, et conformité des couleurs. Mais lumière moins étudiée. Sans doute d’autres perspectives possible. Mais besoin d’une masse documentaire différente.
Question de la représentation des œuvres. Ici finalement traitées comme des images photographiques, alors que largement mis en évidence que processus de représentation, assemblage. Alors que considère l’image comme optiquement réaliste. Où comment intègre les tensions et déformations. Savoir si pas possibilité reconfigurer des multi-scènes pour essayer de comprendre de quelles multiplicité est faite le tableau.
Passage 2d à 3D à partir d’un tableau toujours délicat car une extrapolation. Mais dès lors que veut tester lumière obligé et fait ressortir cet aspect. Isolé plsuierus cas possible intéressant mais impose isoler un point de vue. Sans doute besoin de travailler là-dessus.
- Reconstitution espace et
- Approche génétique
- Anamorphose
- Automatisation, possible ? généralisation d’une approche génétique à d’autres quetsions ?
Deanna Fong, Anton Bourdreau Ninkov
Données depuis les années 80 sous formes analogue.
Analyse de réseau, une analyse des connexions entre des entités. Identifier des groupes et des structures de cluster, identfiier les positions des entités individuelles.
Créer une analyse de réseau de toutes les collaborations. Extraction de toutes les informations. Collaborations qui se chevauchent les unes et les autres.
Jamais construits mais conservés comme bon exemple architecture spéculative.
2022 travaillé avec étudiants dans les archives. 2023, Open invitation pour travailler sur un modèle collaboratif sur Minecraft.
Choose what you want to do... favorite tune.
Histoire pensée allégorique. Galloway. Algorithm pour décrire relation mais ne dit rien du hardware. Relations à l’infrastructure et précondition. Registre symbolique ou en code.
Réassembler le social Latour. Infrastructure le plus visible quand quelque chose en train d’être créer ou détruit. Quand fonctionne bien ennuyeux ou invisible.
Mods dans Minnecraft codés par amateurs et enfants. Souvent pb.
Vue stratégique ou tactique.
Abeilles, puis killing machine.
Pointe vers le kitch etc. Manière de gagner dans Minecraft pas tant de suivre les règles mais plier les règles pour faire plus de diamants. Un peu ce qui arrive dans le monde de la finance. Avez-vous eu cette réflexion avec les étudiants. Année suivante, reflexion accumulation et perte.
Bernier et Marta Boni
Comment mieux décrire les usages du numérique par une pratique muséologique.
Visite virtuelle de l’exposition juste en dessous.
Langage, mais aussi liens avec le graphisme. Approche la plus large possible du texte. Nouveaux processus traductionnels. Neves 2022.
Penser espace de travail numérique comme un texte que l’on peut traduire.
Savoir ce qu’est un espace de traduction et comment à l’ère de la traduction assistée par ordinateur fait pour intégrer dans nos activités des questions d’accessibilité pour élargir la définition de la traduction car on s’entend que son activité traditionnelle va disparaître.
Invisibilisation de la traduction. Literary review, tralation et lisibilité.
Manque de dataset
Parallèle avec l’exposition. Gestes, acteurs engagés et notamment l’attention apportée au public. Les deux systèmes comme des systèmes sémiotiques visant à transmettre un savoir proposent un discours qui est à la fois le résultat d’un travail scientifique et d’analyse et proposent un discours. Caractère subjectif.
Courant sémiologique et critique de l’exposition pourrait apporter un éclairage à la modélisation des éditions numériques. Difficultés pour le lecteur à pouvoir appréhender l’édition numérique. Comprendre comment elle est structurée, ce qu’elle propose, comment elle fonctionne. Cela est lié à la diversité des modèles.
Ce qui est standardisé le texte. Logique de codage qui est la même. Enveloppe donnée à la structure qui diffère en revanche. Outils de structuration, traduction informationnelle mode d’édition.
Codes sémiotiques de l’édition papier. Codes de mise en page, structuration apparat critique. Pas de code sémiotique commun pour l’édition numérique. Chaque édition numérique répond à un projet. Adaptabilité du médium au matériau traité ou au discours traité. Mais aussi ce qui complique l’apréhension du médium. Car requiert un apprentissage spécifique.
L’édition numérique comme système de signes et de communication. Parallèles existant entre langage. Voir ce que peut retenir de l’exposition muséale pour l’édition numérique.
édition numérique
- Documentation primaire, documentation liée à l’établissement du texte : témoins, etc.
- Documentation secondaire, documentation d’explication du texte de mise en contexte historique, culturelle, précision sur l’auteur
Typologie de documentation qui influe les modes de circulation proposées dans le corpus. Exposition et éditions. Courant de la sémiologie utilise l’exposition comme système de communication. L’espace de l’exposition forme le dispositif principal du musée. Retrouve les éléments classiques de la communication. Jean Davallon, exposition comme média.
Production d’un discours critique. Un message communiqué au lecteur.
Objets mis au service du discours. Démarche similaire.
Gestes de classement et de hiéarchisation. Retrouve les mêmes problématiques. Problème de l’ordonnancement des objets dans les éditions. Suppose des sélection.
- classement
- hiérarchisation
- didactisation
Mise en espace : mise ne place des parcours de visite et de lecture. L’éditeur doit organiser l’information selon des principes de visibilité pour que la masse informationnelle puisse être visible pour le lecteur. Une structure du langage spécifique à l’exposition et une structure spécifique à l’édition. Dans les deux cas des mises en espace.
Exposèmes compréhensible par le publics que dans certaines structures données. Plusieurs études des discours d’exposition. Desvallée, mise en valeur du bel objet, didactique, théâtral, associatif ou connotatif qui se fait par la combinaison et la juxtaposition d’objets. Sentiment de distanciation chez les visiteurs. Cf. Susan Pierce 1992 dans distinction de différents types d’exposition : croire, apprendre, admirer, comprendre.
Polysémie propre à chaque signe mise en avant dans la compréhension d’une exposition. Signification d’un objet qui peut radicalement changer selon la place donnée à un éléments dans le système. Exemple fable ésopéenne qui peut prendre selon la place qu’elle prend des sens différents. Édition dans l’ordre mais autres parcours qui ont un impact évident sur la compréhension du texte.
Réception espérée par l’éditeur qui répond à une trame narrative élaborée à dessein par un éditeur. Scénario en muséographie, de même en édition. Prépare minutieusement la réception. Didactisation. Mettre l’information à la portée de l’utilisateur.
Typologie parcours de lecture
Espace signalétique et édition numérique.
Sinalétique patrimoniale. Jacoby et Le Roy. Directionnelle et .
Question des formats. exemple papier A4, lettre US
Manière incarner le sens dans un contexte d’édition. Représentation des énonciation, des actes et des conrtaintes éditoriales. Cf. Souchier.
Éditer = modéliser. Au moment de la conception construire des gabarits qui participent à l’acte éditoriale. Déterminer les instructions programmatiques.
Fabriquer des livres avec Stylo.
Possibilité de prévoir les deux sorties différentes pour un même contenu ou des déclinaisons.
Essayer de parcourir de manière schématique ce que prévoit dans ce projet et de faire monter des questions. Question intégration IA génératives en SHS pose énormément de questions. Difficultés pour trouver les réponses et les étayer avec autre discours que c’est nulle et ne marche pas pour moi.
Ce qu’a entendu me fait beaucoup réfléchir sur l’évolution d’un dispositif socio-technique comme l’est la plateforme Isidore. Nouvelle mise à jour Isidore. Version de transition.
Pour diverses raisons obligés de repenser beaucoup d’aspects du dispositifs. Faute d’avoir pu mener à bien certaines choses, abouti à cette version de transition. Mais précisément en raison de cette version déclenché dispositif Isidore 2030.
Moteur de recherche avancée. Fonctionnalités de veille scientifique de type semi-réseau social. Bibliothèques de requêtes réexécutable. Visualiser évolution des résultats. Suivre des auteurs, etc.
Grande partie qui fonctionne déjà avec des IA. Partie réseau social pas du tout, pas essayé de détecter communautés émergentes, etc. Questions IA soulevée lors de la révision des interfaces utlisateurs. Notamment introduit bandeaux de suggestions de lecture.
IA conçues dans les années 2010. Vieillie, en partie atteintes de sénilité. 6 Millions de documents (suite nettoyage car 12M, nombreux documents disparus) et jeux de données de sciences humaines et sociales SHS signalées, enrichies et reliées entre eux. 10 000 sources de données collectées tous les jours du monde entier. Privilégie trois grandes langues académiques : français, anglais et espagnol.
400 000 utilisateurs / an. 4M requêtes.
Conception initiale du projet 2008-2009. Pour indexer et classer documents. Pour cela partis du principe que pouvait séparer les métadonnées et le document proprement dit pour ensuite produire de l’information. Pas choisi en 2009 de faire de l’indexation full text car à l’époque technologies disposnibles pour différentier les traitements. Choix qui aujourd’hui pèse lourd.
Paquet d’informations que va enrichir avec des concepts (subjects au sens de la LoC). Association d’une URI et de labels en plusieurs langues.
Double chaîne qui fonctionne en permanente pour chacun des document s’occupe des métadonnées et fabrique des enrichissements et un système de classification disciplinaire se basant sur le texte intégral. Cela définit deux pipelines qui définissent nos IA.
Objectif de relier des informations et des documents entre eux avec des concepts scientifiques.
- Enrichissement. Système regex.
- Classification : moteur d’entraîenement corpus de référence et algorithme supervisé
Système réentrainé à intervale régulier pour catégoriser les documents. Dispositif de catégorisation des documents complètement intégré dans le workflow de la plateforme. Car devait être intégré dans un dispositif qui tous les jours ingère des documents. Il fallait industrialiser ce classifieur. Mis beaucoup de temps pour ça. Mis beauxoup trop d’énergie dedans.
13 ans après. Un dispositif rigide, assez ancien. Éprouvé car bien industrialisé. Mais peu agile pour le faire évoluer car implique réindustrialisation. Adhérence complexe à maintenir pour rester en lien avec l’évolution des pratiques des chercheurs.
Projet Isidore 2030
- repenser les chaînes de traiteemnt
- mettre en œuvre de nouvelles fonctionnalités en réfléchrsant à l’apport et aux limites des IA dans le traitement des données SHS
- développer de nouvelles interfaces pour expliquer le fonctionnement...
- expliquer fonctionnement.
Huma-Num Lab pour étayer notre réflexion sur ces sujets.
Veut mieux traiter et enrichir les données. Veut faire de l’analyse de textes pour mieux rassembler les données complexes. Et besoin de certaines disciplines qui demandent fonctionnalités d’écriture assistée.
Besoins. Vu ce que ne voulait pas faire. Science ChatGPT Plugin.
Ce que veulent faire, utiliser sémantique des référentiels disponibles. Requestionner nos systèmes à l’ère des IA génératives. Plusieurs expériementations avec des petits classifiers, deepl learning. Keras.
Utiliser la richesse de nos collections pour aller voir à l’intérieur des documents pour en tenir compte.
Se rapprocher des LLM et Midle model de langue. Llama2 ou Bloom.
Postdoc pour voir comment pourra les adapter pour nos besoins.
https://bigscience.huggingface.co/blog/bloom
Travail qui s’appuie sur des processus itératifs. Travail initié à Montréal aevc le CRIHN et Stylo car des outils qui peuvent être des éléments pour permettre à des IA pour écrire pour le compte de gens qui l’auraient demandé. Intéressant voir environnement qui déborde dans d’autres outils.
- ML
- Deep learning (transformers)
- IA génératives
Pourquoi détour par l’exposition physique alors même que l’analyse de Davallon en partie issue de la sémiologie textuelle ? Introduction de l’expot ou artefact expositionnels, et attention à différentier.
Problème de la linéarité du texte / non linéarité de l’hypertexte
Mais réduction documentaire
Carl Therrien, Dany Guay-Bélanger et Samuel Poirier-Poulin (U de Montréal) : « Étude du paratexte publicitaire de jeu vidéo : tester et évaluer les limites du code »
À qui s’adresse le jeu vidéo ? Comment la publicité s’adresse au public. Corpus de magazines numérisés.
Corpus de 1981, Computer & video Games par exemple jusqu’en 2004.
Merveilles, jeux sur les grand-mères. Contrer l’idée que pour les white males. 6000 publicités annotées. Difficile de savoir à quel point a saturé le sujet. Mais pense que proche et possible évolution sur le public cible.
Protagoniste enfantin, code car manière de cibler un public spécifique. Personnages qui adoptent le style anco associé à Dysney. Répertoire conceptuelle de la visibilité (cuteness, kawai). Une forme en O selon le contexte visuel, pas la meme signification. Fantasme de puissance. Cadre diégétique de la demoiselle en détresse. Cherché à choisir des concepts qui parlent aux chercheurs dans le domaine.
Cadre de sexualisation.
Interface qui permet de visualiser les résultats. Travail en cours avec UX designer.
Base de ProQuest sur les archives du Web.
Deux personnes en charge du processus de fichage. Code belliciste, fantasme de puissance.
Section démographique. Masculin, ou féminin. Ethnicité majoritaire. Âge. Utilisation plateforme notion pour partager l’information au sein de l’équipe. Fonctionnement proche d’un wiki, facilite la mise à jour.
Test Kapa pour voir le niveau de concordance entre les encodeurs. Cible convergence sur plusieurs cadres.
Département statistiques pour faire des calculs. Test KPa. %de concordance.
Deux méthodes pour réparer niveau concordance plus faible. Rencontre en ligne et utilisation de l’interface. Sort les publicités par code. Repasse à travers sur l’ensemble des publicités. Permet de nuancer les résultats. Méthode de recherche texteulle dans tous les magazine, OCR.
Culturelibre.ca, notes de présentation en ligne sur son blog. Un blog pour chacune des choses qu’essaye d’apprendre.
En 2012 le législateur canadien a modifié la loi sur le droit d’auteur et y a introduit une série d’exception. Font sursautés le milieu culturel car peur que... Par contre le législateur a aussi édicté un nouveau droit de propriété. Reconnu diffusion internet et reconnu droit de représentation enchassé dans...
Combat entre les exceptions et les propriétés.
Toutes législations qui encadre le numérique fonctionnent de la même façon. Droit de propriété, une exclusion. Droit subjectif associé au droit d’auteur (identité). Toutes les autres choses, des interdictions. Mais tout le reste des exception : droit d’usage, pour déverrouiller œuvres pour accessiblité. Exceptions essentielles pour les liberté.
Cet équilibre qui se joue dans la loi sur le droit d’auteur. Réponse oui ET non. La loi elle dit les deux. Le problème pas la loi mais la façon dont on organise cette quetsion. En droit choisit souvent son école philosophique : le droit naturel qui transcende la dimension historique. Droit d’auteur souvent reconnu par les francophones ou les allemands comme un droit naturel. Clairement pas comme ça que la loi fonctionne car elle autorise toute sorte de chose pas dans ce cadre.
Droit positiviste. Regarde jurisprudence, compare les pays. Mais loi dit Oui et Non.
Il y aurait-il une troisième voie ? oui bien sûr le pluralisme juridique. Version montréalaise Guy Rocher, Freitag, etc. École qui utilise des concepts cybernétique. Gouvernance, gestion des risques. Analyse économique des droits.
Pour celles et cexu qui considère que droit inaliénable malheureusement pas comme ça qu’elle focntionne. La loi nous autorise d’autres choses.
Comment fait pour considérer droit d’auteur quand s’oriente dans un cadre pluraliste ? ou cybernétique ? Quatre dimensions à comprendre : les objets de droits, les interactions, les sujets de droit.
- Sujets qui sont soit les créateurs de droits soit les utilisateurs à inclure.
- De même les objets qui peuvent être des documents, des objets, etc. Tous ces objets qui peuvent
- Interactions : moment de mise à disposition ou d’interaction.
- Règles
À partir de ces quatre objets va rarrive à construire une méthode. Plusieurs institutions m’approchent pour savoir quoi faire. Au lieu de donner beaucoup d’argent aux avocats, ce qu’essaye de faire c’est redonner des outils aux professionnels de l’information ou les chercheurs en humanités numériques (car les paramètre de vos analyses constituent aussi une connaissance à considérer). Comment transformer en une méthode qui peut fonctionner.
S’assoir, faire un inventaire des corpus : déjà facile.
Puis liste les interactions possibles : ensemble de moments qui pourront concerner les objets.
Aucun avocat consulté mais peu prendre des mois car un exercice professionnel au lieu d’être un processus juridique. Puis fait un tableau pour déterminer si doit demander une autorisation ou pouvoir évoquer une exception. Ici que la balance tombe.
Demander la permission, poser la question et obtenir les droits, semble simple. Mais en pratique la transaction qui s’effectue à un prix raisonnable est une exception. En règle générale : silence, refus ou avarice...
Alors comment bascule dans l’exception. Pour invoquer une exception au Canada, suppose que pose une limite dans l’utilisation. Alors par exemple résolution. À nous de déterminer nos propres limites raisonnables dans l’utilisation des œuvres.
Cela prend pour commencer une politique. Sur le droit d’auteur, ou lignes directrices sur un site web. Une solution proposée par la Cour suprême du Canada.
L’autre l’élément juridique consiste à inscrire des métadonnées dans l’œuvre pour inscrire des décisions et les documenter. Nombreux champs dans les formats disponibles. Souvent triste de voir all right reserve. Ici qu’inscrit CC-BY. Doit bâtir de nouveaux langages documentaires pour bâtir des questions juridiques. Choix locaux.
Plusieurs projets en tête. Du point de vue Cinémathèque québécoise, long chantier pour numériser leurs collections. Commencé en se questionnant sur différents corpus situés dans leurs fonds. Possibilité de verser dans Wikidata. À qui appartient ces données. Existe-t-il droit d’auteur sur un jeu de données : non. Au Canada pas protégeable = une certification juridique. Il a fallu payer des avocats pour répondre. Publication rapport.
Prochaine étape les œuvres elles-mêmes. Mais ne vont pas commencer par les films. Nombreux types. Liste les types d’œuvres dans le fond et savoir ce que veulent en faire. Programme formation aux écoles sur le cinéma québécois. Capsules, etc. Détemrinera si demande permission ou peut demander exception.
Des questions de certification de vos corpus devraient apparaître dans vos PGDR mais également dans les jeux de données que vous versées. Des champs qui devraient expliciter la situation juridique de chacune des œuvres que vous avez mobilisé. Un travail encore très vierge.
Canada en train de mettre en œuvre un protocole où va devenir la norme.
agir volontaire, anticipé
Vol
Genette : L'immanence est le type d'objet dans lequel « consiste » l'œuvre : une consistance qui, avec Nelson Goodman, est définie comme « autographique » lorsque son unicité est matérielle (un tableau, une sculpture, une performance) ou comme « allographique » lorsque l'objet (un texte littéraire, une composition musicale, etc.) est idéal et ne peut se concevoir que par réduction de ses manifestations matérielles (livres, partitions, etc.
Mais le domaine même de l'art verbal n'est pas unifié du point de vue du statut ontologique des œuvres : un art allographique étant défini par l'identité syntaxique de l'œuvre à travers ses diverses instanciations (c'est-à-dire les exemplaires de l'œuvre), l'œuvre orale, caractérisée par l'absence d'identité stricte d'une performance à l'autre, échappe à cette définition syntaxique de l'identité de l'œuvre et nécessite le recours à des critères d'identité sémantique.
Ingénieur de recherche, Sorbone Université. Coordinateur scientifique de l’Obtic.
Laboratoire très actif dans le domaine des humanités numériques, la fouille textuelle et l’édition numérique. Grand support offert aux chercheurs SHS, fouille de texte, structuration et enrichissement sémantique de corpus.
Plusieurs développements dans le domaine des éditions numériques. Obvil, outils pour la préaparation et la structuration de textes.
Plusieurs développements réalisés dans le domaine de la fouille textuelle
- Elicom
- Ariane
- Tanagra
- Summarizer
- Obvie
Actuellement en train de rassembler ces développements au sein d’une même interface web Pandore.
Contexte, medical humanities project. Projet qui se propose de faire une détection précoce de la psychose chez des patients. Projet qui a reçu un soutien de la fondation de France. Débute en septembre.
Un travail exploratoire du corpus que va présenter aujourd’hui. Plusieurs équipes sont impliquées : Obtic, Inserm et CHU de Brest.
La détection précoce des maladies mentales est un enjeu de santé publique. L’objectif de ce type de projet est préventive. Ce projet cible la dimension affective du projet.
Psychose touche 1 à 3% de la population modale. Ensemble de symptomes de l’esprit qui sont caractérisés par une perte de contact avec la réalité. Symptomes comme le délire, la désorganisation notamment du discours.
Les travaux qui portent sur l’identification précoce de la psychose cible l’identification des anomalies langagières, à différents niveaux : prosodie, lexie, syntaxe, sémantique. Cependant peut de corpus de référence. Un corpus disponible SLAM, pas accessible.
Ensemble de travaux qui s’accordent sur différentes phases d’évolution. Phase à risque, non à risque, etc. Objectif est de réduire la phase à risque qui dure en général de 2 à 5 ans. L’idée est donc d’intervenir en amont pour proposer une prise en charge.
Analyse des traits lexicaux, analyse sémantique, etc. mais très peu de travaux relatifs à l’analyse du discours. Or, nous pensons que ce type d’analyses pourrait aider à mieux isoler les cas psychotique. Le problème devient dès lors un problème de catégorisation. On aimerait notamment aider le psychiatre à détecter les cas en les classifiant comme à risque, non à risque, etc.
Approche prépration des données, étiquetage et exploitation.
250 itw audio. Une base de données très rare (corpus de référence 41 enregistrements). Près de la moitié déjà disponible par l’analyse. Chaîne de traitement qui transcrit les fichiers audio en texte. Question réponse, dialogues libres entre les patients. Classes non-équilibrées ce qui pourrait présenter un biais.
Fréquence des disfluences verbales, hésitations, silences. Discours désorganisés, syntaxe brisée. Densité lexicale. Phrase plus courtes. Une perturbé des pronons à la première personne. Cf. Pennebaker 2011 The secret life of pronoun. Enfin, les émotions : stress, angoisse, violence, euphorie, joie, souffrance. Ensemble de catégories émotionnelles qui peuvent coocurer dans le même contexte.
Première exploration du vocabulaire. Patients qui parlent de maladie, de parents, de souvenirs.
Pré-traitement que va appliquer aux données. Une transcription manuel des enregistrement par une linguiste. Un travail d’anonymisation des données car il s’agit de données médicales. Explore moyen pour repérer les ER pour correction afin d’accélérer le travail.
Choix initial de conserver les fautes grammaticales et de ne pas corriger les erreurs linguistiques. Conservation des disfluences et des hésitations. Pour le moment pas gardé le silence, mais nécessaire.
Questions réponses. Pré-traitements. Calculs sur les réponses des patients. Calcul de la moyenne des phrases, des pronoms personnels. Moyenne des disfluences verbales et la densité lexicale. Surtout intéressé analyse subjective.
Longeur de phrase qui confirme l’hypothèse : les personnes témoins s’exprime avec des phrases plus longues. Stabilité des pronoms chez les témoins alors que plus grande fréquence des pronoms personnels chez les patients. Idem pour les disfluences verbales. Densité lexialce étonnante.
Étiquetage des données avec des modalités subjectives. On parle ici d’analyse des opinions, détection des sentiments, classification des émotions, sens detection, affects. Domaine en forte évolution depuis 20 ans. Ces travaux recoupe avec le domaine linguistique des modalités. Opinion mining. Idée de détecter le sentiment subjectif et le classifier en positif, neutre, négatif selon les cas.
Autres travaux qui s’intéressent à l’analyse de la source ou aux cibles. Ou encore analyse des aspects de cette cible. Parler d’un objet selon différents points de vue. Complexité du langage, imbrication des discours et des locuteurs dans un même texte. Qui parle, de quoi on parle. Négation qui peut inverser la polarité d’un sentiment ou d’un opinion. Sans même évoquer les difficultés posées par l’ironie dans le langage.
Besoin de dépasser limites de cette simple dichotomie positive/négative. Pluspart des travaux porté sur des textes très courts comme des corpus de tweet et pas la vraie vie. Besoin de dépasse cette limite pour aller dans plus de finesse dans la catégorisation.
Des travaux s’intéressent à une catégorisatio plus fine des émotions. Travaux de Paul Ekman 1971 : propose liste de 6 émotions. Robert Plutchik 1980 ajourte anticipation et trust. Orhony Clore, Collins 1980.
GoEmotions, LIWC, SentiWordNet, WordNet-Affect, SUBJ lexicon, Emotaix, Feel..
Ariane, notre propre ontologie linguistique utilisée pour notre travail. Ontologie de 80 classes étiquetées de manière positive ou négative.
Ajout de nouvelles catégories pour l’adapter à ce langage. Travail qui initialement a été conçu pour des corpus journalistiques. Adaptés pour des coprus littéraires. Ici nouveau type de corpus.
3 500 marqueurs observables (patterns), verbes, etc.
= 30 000 annotations pour l’ensemble du corpus. 134 textes. Précision et rappel montre que si les résultats ne sont pas superbes sont prometteurs. P: 92% R: 81%, F: 86% --> polysémie, nouveaux marqueurs, orthographe.
Catégories négatives plus fréquentes que positives.
Ariane, interface qui permet de visualier le résultat des annotations, terme recherche et les catégories sémantiques du corpus. Visualisations et statistiques à chaque étape du processus.
Classification supervisée de ces textes. Pré-traitement, étiquetage avec les catégories sémantique. Maintenant classification. Soutait pouvoir travailler en apprentissage profond, mais comme les données sont très limitées pour le moment pas possible. Cherche actuellement des solutions pour augmenter le corpus.
Recherche d’un modèle de classification classique. Utilisation CamenBert pour embeddings.
LazyPredict utilisée pour la classification pour comparer les scores. Cross validation pour déterminer les meilleurs modèles. Les sytèmes à base d’arbre importent beaucoup. LDA également.
https://pypi.org/project/lazypredict/
Technologies qui permettent de déterminer quelles sont les capables de déterminer la classification. Première exploration qui confirme nos hypothèses. Les émotions sont déterminantes, mais vient en second les pronoms puis d’autres paramètres. Mais pas le stress, la joie le contrôle mais des catégories que ne soupçonnait pas du tout.
Conclusion : premier travail exploratoire dans lequel a adopté une approche hybride, système symbolique à base de règle et système classification automatique. Nombreuses choses à affiner, améliorer la couverture des marqueurs pour mieux capturer les sentiments et les aspects subjectifs. Tester de manière séparer les émotions, etc. Voir tour de paroles, nombre de termes entre locuteurs joue un rôle ou pas. Analyse de stopword et des connecteurs discursifs car analyse du discours.
Pas de fil conducteur du début à la fin. Cohérence discursive qui est conforme selon les termes de Haliday mais pb. Comparaison des personnes pour les pronom. Données insuffisantes pour un système d’apprentissage, besoin d’enrichir. Pense prendre les couples, questions-réponses. Dans SLAM Inria, disent que les psychiatres arrivent à se familiariser avec le discours des patients et ne pas trop s’impliquer émotionnellement dans le langage. Peut-être quelque chose à traiter.
Sans doute tester des fenêtres glissantes, questions-réponses, etc. Visiblement qualité de l’entretien qui change entre le début et la fin. Dès que le patient fatigue, le discours commence à changer.
Objectif entraîner un modèle avec nos données étiquettées. Pensé créer des questionnaires avec les étudiants. Projet santé mentale avec les étudiants.
https://obtic.sorbonne-universite.fr/developpement/ariane/
Collègue INSERM qui travaillent sur l’analyse de la prosodie : silence et intonnation. Va essayer de croiser nos analyse avec analyse prosodique. Croisement avec données sur les patients.
CamemBERT 500 mots encodés. Pour travaillé, segmentation en phrases. Et représentation du texte comme la moyenne. Très bons résultats avec certains outils comme SVM? alors normalement pas bon. Hugging face, calcul. Conseille utiliser Radial, basial..
Première étape, donc utilisation de librairies prêtes à l’usage.
Application fascinante. Combien prend de temps pour faire l’annotation des label sur corpus pas très gros.
Utilisation outil Python, textolab pour l’étiquetage, outil à base de règles. Purement du pattern matching. Un système symbolique à base de marqueurs et de motifs. Liste de patrons symboliques que bascule sur le corpus. Fouille du contexte utilisée pour désambiguïser certains marqueurs. Approche dans le sens de Excom, marqueurs contextuels. Intéressant car approche hybride, ne peut pas partir de rien. En ajoutant des éléments de haut niveau peut arriver hybridité. Question savoir si possible quand passe grands texte, fait que doit tenir compte annotation et pas seulement inductive.
Ici une approche qui permet de savoir pourquoi cela a bien marché, ou pas, et améliorer.
Perspectives de recherche pour l’analyse socio-discursive. Intéressant car possibilité de travailler sur les métadonnées. Comme travaille 19e, façon dont va construire du pathologique. Ici enregistrement d’entretiens avec patients.
Question si comparaison avec discours entretien simple. Car le dispositif de l’entretien à considérer également. Position de patient. Par ailleurs, psychiatres savent qui vient. Souvent des jeunes.
Approche qu’a développé où quantification mais retour toujours nécessaire au texte pour donner à l’utilisateur le moyen d’explorer le texte, avoir close-reading et retour possible à une vision macro par rapport à l’ensemble du corpus. Dispositif de lecture assisté par ordinateur qui permet A/R avec le texte et circularité, possibilité de lire, interpréter et faire
Sur les catégories. Pense que peut trouver un moyen pour des utilisateurs de différents domaines qui viennent avec leur corpus avec des catégories particulières. Voir si cela rentre et voir si peut l’adapter par rapport à des catégories neutres ou objectives : descriptions, catégories, etc. Pense que peut définir une ontologie générique quitte à l’affiner. Possibilité d’adapter ce type d’outils à différents domaines. Après pour aller plus loin besoin de travailler plus en détail. Mais pense que faisable. // IEML
Corpus de différentes nature qui ont été traités. Donc des profils possibles.
Purdue univesity. Branch et Cove
Projet qui n’a rien à voir avec Vagi mais en parlera à la fin. Easter eggs cependant !
Penser à propos du temps, et nature de la réalité. Narrative drive. Notion de temporalité.
Nature du médium qui a facilité qu’une notion de la réalisté comme vraie.
Branch, time of the now. Britain, Representation, and Nineteenth-Century History. Inspiration de Benjamin. Logo d’après Beardleys. Chronologie, multiples chemins.
Séquence d’événements présentée comme factuelle. Cf. Google Knowledge Graph. Utilisant informations issues de Wikipedia. Une approche du savoir qui est très basique et qui entre en contradiction avec les approches accadémiques : critique, dispute. Chronologisation qui doit être questionnée.
Absence de mise à disposition textes renforce hégémonie de Wikipédia. Branch diversifie visions. Pas de limitation du nombre de caractères ou encore des entrées et des sujets. Plutôt que d’appliquer une rubrique sur des événements, chronologie pour reflèter notre représentation de la chronologie à long terme. Passé quelque chose qui est arrivé mais vu à travers nos yeux contemporains. Topics clusters qui auraient été différents à une autre époque.
Publications papiers statiques lorsque publiées.
COVE covecollective.org Open assemblée, assemblage plus que archive. Conçu pour rendre son contenu personnalisable. Modifier complètement auctorialité. Accueille contribution du public, et des étudiants. Constuisent un collectif d’utilisateurs académiques pour partager leur savoir. Question de la sustainabilité des contenus. Paywall.
Timeline JS pour échanger sur la chronologie.
Ne doit pas être contraints par algorithmes des moteurs de recherche.
5 ans, passés de 5M de mots à 13M. Même si doucement réalise accroissement comme un collectif.
Nines très bon pour financement. 4M en 10 ans. Mais tous les œufs mis dans une seule univeristé. Or, ne peut plus faire confiance à nos Universités. Changement politiques, retraites, etc. COVE d’une certaine manière essaye d’apprendre de cela. Pas lié à l’Université, notre propre organisation. Essayé de penser comme buisnessman non-profit. Utiliser les outils du diable pour le bon. Entrepreneurship Academy.
Dario Brancato, Concordia
Grand réseau d’amis, politiciens et prélats. Philosophes, poètes, etc.
Différents écrits, besoin de pouvoir relier les publications.
Paolo Celi.
XIII-XVe century 833 sonnets, XVI 2849 sonnets.
Courant du Bambisme. Bambi fonde Pétrarque comme modèle.
Cas parfait pour l’analyse de ce phénomène en raison du nombre de sonnet dont il est à l’origine.
NodeGoat, résidence et localisation. Classification. Possibilité de classifier les destinataires. Mais aussi la modalité utilisée pourl’envoi.
Jean-Guy Meunier, LANCI UQAM.
Projet d’analyse de textes des corpus philosophiques québécois. Problème de l’homogénéisation culturelle découlant de la mondialisation. Diversification, cherche à récupérer le patrimoine important qui signe la culture. On peu étudié la philosophie québécoise jusqu’à présent. Il existe bien sûr des études sur l’histoire culturelle au Québec Yvon Lamonde.
Essayer de savori quels sont les thèmes et les idées qui ont marqué les structures de la pensée québécoise : absolu, laïcité, justice sociale, la nation, l’autorité. Dès thèmes qui travaillent la pensée québécoise depuis plus de 100 ans. Il existe aussi un corpus d’auteurs en dehors de l’académie.
Deux volets :
- un volet contenu
- un volet informatique
Notion modèle issus de la théorie des sciences
- Modèle conceptuel...
- En découle un modèle formel qui déterminera un modèle mathématique, ou formel
- qui est la condition pour pouvoir construire des modèles computationnel et ultimement implémenté en un modèle matériel.
Question importante car souhaite travailler des textes de haut niveau théoriques qui posent des problèmes spécifiques à cause de leur nature. Quel type de traitement informatique va-t-on pouvoir appliquer à ces modèles conceptuels. Imprtant car modélisation qui va nous donner des concepts qui permettent de comprendre l‘objet sur lesquels va travailler.
Dans ce cadre, le modèle conceptuel pose des questions philosophiques importantes. Quelle est la nature du discours philosophique et de ce que l’on analyse. Des approches externaliste (institutions, etc.). Mais veut ici étudier les choses de manière internaliste. Quel est le discours de la philosophie. Alors discours pose la question du point de vue de la langage de la philosophie. Langage, mais textes un systèmes sémiotiques avec des propriétés entre elles. Doit donc avoir un regard sur le texte comme discours en regard du contenu conceptuel qui est présent.
De même du point de vue de l’analyse. Doit entre dans l’analyse de texte. Approche linguistique, sémantique, locgique qualitative
Dégager les thèses, les raisonnement en jeux et chaque chose ses propriétés particulières. Pas les institutions comme telles qui nous intéresse mais chercher l’originalité de la textualité philosophique qui sont en jeux peu importe le style et le genre. Quelle est la nature des énoncés, quels sont les structures sémantiques qui jouent entre elles. Quelles sont les thèses, les raisonnements.
Ne pas décrire la philosophie québécoise dans le temps mais savoir comment va pouvoir aller rechercher les éléments qui vont pouvoir recevoir un traitement computationnel.
Analyse des thèses, analyse des thèmes, analyse des topics. Trois notions réductrices les unes par rapport aux autres.
Quels seraient les thèmes dans les discours philosophiques. Un grand nombre, des hypothèses mais ne les connais pas. Dégager courants, etc.
De même pour les concepts, une opération mentale qui doit s’exprimer dans des représentations mentales. Doit se traduire pas des ontologies en informatique. Concepts importants comme concepts de laîcité qui ont marqué notre domaine culturel.
De même l’analyse des arguments une structure d’organisation du contenu de la thèse. En philosophie, pas nécessairement rhétorique, joue mais la structure de l’argumentation logique constamment à l’œuvre dans les textes ce qui pose des problèmes particuliers dans l’organisation du projet informatique.
Autres modèles formels computationnels qui vont prendre des formes classiques. Cf. présentation Dominic Forest, et des approches plus contemporaines basées sur les embedding, les transformers pour aller chercher soit sur les concepts, soit sur les arguments des contenus pertinents qui relèvent du domaine philosophique.
Exemple revue philo et théo : thèmes révélateur de l’influence de Gadamer et Heidegger et qui donne à cette revue une orientation particulière.
Lareau et Simard et etc. évolutions des thèmes dominants dans la revue philosophique.
Transferts des connaissances. Transfert de littératie dans le milieu des collègues et des université pour découvrir signature importante de notre culture.
Équipe interdisciplinaire
Attention épistémologique à la structuration philosophique du projet
Volonté croiser arguments, concepts et thèmes
Et volonté de travailler avec outils classiques ou contemporains.
Philosophe mort, doit donc décider dans ce texte anglais quelle entité porteuse d’un concept. Concevoir de quelle manière la langue naturelle est capable de porter des concepts. SI des émotions prosodie, entités nommées, etc. Mind comment s’exprime. Mental mais aussi des périphrases, des gloses, des paraphrases. La faculté par laquelle l’humain pense la généralité et une phrase reliée à la pratique de l’esprit.
De tout ce qu’a lu sur théorie du discours, concept, textualité, etc. l’ordinateur ne peut que travailler avec des modèles formels. Théorie de la computation qui considère que ne peut traiter des fonctions que si on est capable de les calculer. Raison pour laquelle doit aller chercher dans les millions des propriétés du monde littéraire, uniquement les propriétés qui pourront faire l’objet d’un traitement mathématique. Modèle simple, liste, comptages de mots. Les modèles mathématiques, pas les algorithmes mais les théories statistiques, topologiques. Une fois que choisi une de ces théories alors limité. Tous les modèles mathématiques n’ont pas la propriété de la calculabilité. Alors aller chercher des algorithmes pertinents. Concepts, mots et algorithme LDA qui permet de faire distribution mathématique des mots. Alors réclame structure informatique assez lourde. Chaque décision que prend dans un modèle affecte l’autre à un autre niveau.
Danger de faire une analyse uniquement à partir de l’outil en pensant que fait interprétation des concepts. Comprendre l’opération de réduction qui s’opère au point de vue informatique. SInon pas interprétable.
Effet Matthieu existe chaque fois qu’il existe des spirales vicieuses, etc.
Répartitions par pays et langues de publication des références. Système littéraire mondial 1850-2028 : 10 000 écrivains. 1111 écrivains qui représentent plus de 1% de la littérature critique. Genre et orientation politique.
Classées par rangs. Globalement femmes 18% mais nombre diminue au fur et à mesure que le nombre de références augmente.
Distribution continentale des écrivains. 80% auteurs européens, 20% restant européens. Liste des œuvres plus importantes idem. Europe et domination certains pays. Forte présence de Shakespear avec 7 titres.
15 écrivains sélectionnés. Diversité de genre et appartenance continentale. 5 langues d’expressions différentes. 5 femmes et 10 hommes.
identification des effets Matthieu et Mathilda. Modèle régression linéaire simple. Détermination coefficiant de corélation pour déterminer correspondance entre le ligne et la valeur réelle.
Références qui présentent une variation chronologique importante. Notamment pour les anniversaires de naissance ou de mort. 22 périodiques dédiés à Shakespear. Mais la reconnaissance réduite accordée à d’autres continents suggère effet Mathilda. Constater les différents biais qui soustentent le système littérraire monde.
Discussion
Changement de proquest > ebsco perte du genre
Considérer le genste d’écriture. Hybridation du geste d’écriture.
Deux exemples de poètes numériques. Gracia Beijani, Milene Tournier
Production des images et des contenus au fil du quotidien. Ode à la flannerie. Poursuite dans les pratiques de recyclages, etc.
Investissement des technologies numériques parce que déjà là. Constitutive de notre milieu. Outillage de l’écriture. cf. Pocket film. Fondre geste du filmeur au quotidien.
Stéphen Uraniums, Le désir textuel en images, 2019.
Thèse TAC technique comme anthropologiquement constituante
Pratique imédiate res au milieu des choses. Lyrisme moderne du retour au réel.
Usage technologies numériques permettent articuler temps et espace en même temps qu’habiter le monde. Rôle des technologies.
Question posture, livre pauvre début 20e. Refus industrialisation comme industrialisation qui refuse la singularité. Monstration extrême du fait que ne maîtrise pas les outils. En réalité mise en scène de la non maîtrise. Ethos du bricolage qui prétend sortir d’un système industriel.
La narration d’une thèse sans fin. Chemins parcours qui fondent la réalité de la recherche. Saisir les réalités de l’inscription. Comment le fait littéraire un acte d’écriture.
- Our writing tools write with us on our thoughts (Nietche)
- As we all know but do not admit, no human being writes any more. (Kittler)
Computers and typewriters. Femmes et machines à écrire. Savoir si écriture existe en dehors. Geste littéraire dans les réalités contemporaines. Cloisons poreuses sur les espaces recherche. Adoption d’outils, intérêts de recherche, rédaction, structuration. Travail en équipe, etc. Reconnaître le collectif de nos idées.
Ceci n’est pas une thèse sur l’Anthologie grecque. Même si coordonné ce projet.
Des images comme des aveux. Palimpsestes. Pérégrination d’une image à une autre qui témoigne pour moi de problématiques de la recherche. Dur de trouver un bon titre qui soit à la fois compact et suffisamment large, etc. Exemple « fabrique » qui n’utilise pas nécessairement le sens même du mot. Problème des belles images. Problème d’une essentialisation. Épaisseur, raccourci mais aussi un aveu. Mixte entre l’espace, paume de la main et espoir.
Je n’écris pas ma thèse, je la fais. Ensemble des gesticulations qui se retrouve dans ma thèse. La recherche donc faite par le dehors des frontières des sciences humaines. Ne se résume pas à des concepts mais comprend des réalités très triviales. Plan de cours, etc. déterminé par des conjonctures très concrètes.
Passage à la rédaction s’est fait par une recherche. Implémenter cette idée.
Tim Ingold, Thinking through making. Par la pratique que la pensée émerge. Plus le régime de la projection où la théorie arrive avant. Plusieurs travaux sur le sujet mais pas de modèle de recherche-création sans bipolarité. Défi de penser hors des cadre. Je ne serai ni auteur ni informaticienne. Mais je serai éditrice.
5 extensions comme les doigts de la main pour explorer ce que devient l’écriture : fabrique, machine, média, page, matière, etc.
Fabrique, beuacoup de décalage entre les traductions de Flusser. Aller vers artisanat prendre en compte les coulisses. Exprimer l’espace de travail du doctorat. Personnes qui travaillent avec moi et conférences et textes lus ou outils avec qui travaille. Choix réalités techniques de pratiques d’écriture et d’édition.
Machine, explore impact mécanisation de l’écriture.
Média et mediastudies, intermédialité et essentialisation. Flou sémantique de McLuhan ou répétition de Flusser.
Extensions en cours page et la matière
Comment ça s’édite un doctorat. Le code en amont qui structure la recherche plus que l’écriture proprement dit.
Grand projet d’infrastructure. Évolutions et nouvelles pistes.
Créer un accès unique à la documentation savante sur l’histoire de
Portail web
- SGBD PostGrel
- Application web sémantique open source "Cubic Web"
Plateforme de référentiels
- instance Wikiabse
Moteur IIIF collections
Portail qui offre un accès unique et simple. Manuscrits, éditions, œuvres, personnes et collectivités. Point d’entrée de recherch iconographique. Accès géographique.
Projet d’interopérabilité ayant aligné deux bases iconographiques en silos. Alignement qui permet de réunir ces bases. Interafaces réalisée de manière soignée.
12M€ PIA3, 17 équipes de recherche; Biblissima+ 2021-2029. 2 volets principaux :
- agrégation
- etc.
3 dir adjoints
- Volet A1 Grands mécanimes, volet qui concerne les données, intégration des collections ouvertes et bibliographie, établissement de liens avec l’édition, et développement des traductions pour toutes les traditions
- Volet B, appel à projet.
- Volet B, structure réunissant les équipes. Lieux d’animation et discussions de communauté de recherche. Aujourd’hui 71 0613 résultats.
API data.biblissima, interface SPARQL.
Dissémination données et PGDR.
Adhésion des communautés de recherche est centrale dans le maintien de ces infrastructures. Doit donc militer pour que ces dispositifs se pérennisent et ne se contententent pas d’être dans la consommation.
https://admission.umontreal.ca/cours-et-horaires/cours/har-3220/
Analyse de l'art aujourd'hui : contextualisation de diverses problématiques liées au post-colonialisme, aux politiques et aux fictions identitaires, au gender, à l'esthétique relationnelle, aux nouveaux médias ainsi qu'aux nouvelles narrativités.
HAR3510
Examen de l’art latino-américain au 20e et au 21e siècles. Dynamiques néolibérales, liens entre art et politique, narco-culture, mondialisation, etc. Art latino-américain au-delà de ses frontières géographiques traditionnelles.
OK
Des passages explicites dans le texte latin, des scènes violentes.
Démarre avec chanson, Que c’est bon d’être demoiselle...
Phénomène de la paraphrase et de la richesse que peut prendre le lexique de la sexualité et que pourra retrouver en latin. Le latin est une langue des les plus anciens exemples nous sont parvenus 3 BCE. Twitter du Vatican en latin. Une langue d’inscription, administrative et littéraire. Une langue de recherche aussi (ex. thèse de Jean Jaurès).
Le latin antique, un latin dont la plupart des textes antiques sont des inscriptions ou des graphitis. La plupart des textes littéraires nous sont parvenues par des copies de copies d’édition et qui peuvent donc avoir fait l’objet de corrections. Or, le corpus qui m’intéresse le plus les priapées, mais dont les exemplaires les plus anciens remontent au 14e siècle seulement. Les copies sont majoritairement médiévales et certains textes comme les commentaires des grammariens qui ont été beaucoup remélangés.
La lexicographie latine de la sexualité qui a beaucoup amusé au 18e siècle et au 19e. Plusieurs ouvrages en latins, et mais un lexique en français. Jeux auctoriaux. Mais surtout trois grands auteurs dont un seul connu depus les années 70.
Chez James N. Adams, vision restrictive de la sexualité pas de caresses, lascivité. Mais meilleure couverture chronologique. L’un des seul traduit dans d’autres langues.
Latin d’église ou de la chrétienté, n’est quasiment pas traité dans ces ouvrages. 5 à 10M latin classique. 70M mots pour la période plus tardive. En l’absence de texte numérisé, plus difficile à traiter.
Premier coprus HN, celui de Busa, un corpus latin. Mais les trois plus grand : Perseus et Open Greek and Latin, DigilibLT pour les textes chrtiens, le Corpus Corporum un agrégat de corpus. Auquel il faut ajouter des corpus thématiques ou d’auteur.
Aucune édition numérique critique de texte latin classique avant le 5e siècle. Pas d’édition œuvre complète. Surtout édition facsimilaires ou imprimées.
Langue complexe, riche en morphologie. 6 cas, plusieurs genres, 3 personnes, 7 modes verbaux, 6 temps. 4 voies, 3 degrés. En outre l’absence de catégorie. L’analyse d’un mot implique depouvoir analysertoues ces éléments pour comprnedre comment fonctionne dans la salle.
Lasla qui a libéré la semaine dernière un très gros corpus latin lemmatisé. 1,7M de mots. Mais que du latin...
Pourquoi constituer des corpus pour l’étude du lexique en diachronie
- catégorie lexicale thématique
- ou thème
Importante pour l’histoire. Cf. nourriture, etc.
Souvent constituer une base d’occurence. Usage non équivoque. ex. Baiser. Cas ambigus comme les colonnes. Cas plus compliqués pour les hapax ensemble coordoné de mots qui ont une valeur sexuelle.
Priape dieu protecteur des jardins. Place statue pour protéger les vergers. Souvent parle aux voleurs. Menace de viol en cas de vol de fruit du jardin. Ici aucun terme sexuel. Simplement terme pudique, mais plus pudique que.
Jeu d’émogi et en rassemblant des caractère décrit un phallus. Ou texte de Cicéron qui dit ce qu’il ne faut pas dire.
Bdd conferction. Répertorie ensemble des exemples à l’exception de l’épigraphie qui est mal gérée actuellement par les lemmatiseurs automatiques.
2513 extraits. Chacun des mots analysés annotés et catégorisés en fonction de l’origine dans la phrase.
Plusieurs sources poésie classique, poésie satirique, prose classique parfois pour critiquer adversaire.
Embedding lemma, lamma character-level RNN Embedding
S’intéresse également aux sociolecte, idiolecte et diachronie. Enrichir le modèle avec des métadonnées pour être plus performant.
Mais tellement que biaisé. Mauro, Gianluca, et Hilke Schellmann. 2023. « ‘There Is No Standard’: Investigation Finds AI Algorithms Objectify Women’s Bodies ». The Guardian, 8 février 2023, sect. Technology. https://www.theguardian.com/technology/2023/feb/08/biased-ai-algorithms-racy-women-bodies.
Système d’attention pour valider les filtrer et comprendre ce qui a poussé le modèle. Possibilité de valider le modèle. S’aperçoit que les mots qui portent le plus sexuel. Ponctuation qui prouve que non.
Conclusion, les paroles de la chanson de départ Colette Renard et Guy Breton. Peut-être temps que la textométrie qui s’est longtemps basée sur la recherche d’occurence cherche à explorer autrement. Car phénomènes plus complexes. Bi-grammes, etc. qui font que passe à côté. Ex. "à la manière des chiens", risque de passer à côté.
Important de s’approprier les outils du deep learning, les rendre exploitable par les êtres humains et être capables de les évaluer avec des systèmes de tests.
Voit-on différence entre sexe et viol. Dans son travail pris en compte ensemble du phénomène lié à la thématique sexuelle : viol, virginité, etc. Mais ne fait pas la différence. Toutefois des métadonnées qui permettent de repérer le phénomène. Possible analyser discours sur le viol mais avec le concept.
Exemple d’over fitting, réussi à modéliser un filtre de lecture. Exemple Borgès. On peut donc créer des modèles lecteurs qui vont comprendre les choses à travers le temps. Modéliser des manières de lire dans le temps.
Pas inventé mais réimporté en HN, cas pour les filtres sur Yelp (ex. c’est épicé, pas nécessairement une bonne note). Tellement baisé. Le système marche mais mes classes sont tellement mal représentées que cela créée des écarts trop violents pour que cela puisse être réutilisé par la suite.
Il nous reste l’inetrprétation.
Importance croissante des actes herméneutiques. Tous d’accord sur le fait qu’à une époque où les actes produits de plus en plus par les machines. ChatGPT qui écrit, machines qui font visualiser des paterns. Que nous reste-t-il en sciences humaines ?
Nos pouvons interpréter, le sens reste dans notre camp. La production de la lecture reste de notre côté. Borgès, bibliothèque de Babel. Parfaitement ce qui se passe. Si une machine qui écrit, on présuppose que pas d’interprétation de l’auteur et moi qui produit le sens.
Problématique car trois présupposés derière cette idée.
- monde fait de choses bien séparés, hommes et utilisateurs
- doive établir une séparation de choses dont la conservation est garante de leur définition
- enfin un présupposé qui fonde les deux premiers : entre les choses on cherche à trouver une hiérarchie entre les choses.
Quand dit il nous reste l’interprétation, c’est dire que moi je suis mieux. Me rassure. Beauté de l’inetrprétation difficile de dire quand il y en a ou pas. La question de Turing, est-ce que la machine pense. Un enjeu éthique et politique fondamental. Peut dire tranquilement que non car n’a pas de définition précise de l’interprétation.
Searle et chambre chinoise que critique.
Question qui dérive finalement de la blessurer narcissique avancée par Freud, nous ne sommes plus au centre de la terre, de notre propre âme. Nous ne sommes même pas les producteurs de notre propre pensée si ChatGPT la produit à notre place.
Si met entre parenthèse ce présupposé, se rend compte que les frontières entre les choses finalement assez floues. Et que finalement il n’y a pas.
Idée de Karen Barad, prendre au sérieur : My poshumanist account calls into quetsion the giveness of the different of categories of human and nonhumann examining the practice through which these diff.
Posons la question de comment fait émerger cette barrière.
Autre image de l’ENIAC. Idée que les femmes, Ester Gerston et Gloria Gordon Boltsky, cf. Jennifer Light, When compters were Women. Femmes hautement qualifiées, statisticiennes recrutées car les hommes à la guerre même si fortes. Automatiquement le travail devient moins important. Puis travail que peut attribuer aux machines.
Kathy Kleiman, Proving Ground, the Untold story of the six women...
Assimilées au côté des machines et des choses triviales. Se souvenir des deux hommes et pas des femmes. Dans l’émergence des frontières. Quand on dit c’est moi qui produit le sens en réalité fait émerger une série de frontière pouvant être représentées de cette manière :
- Homme et les machines
- hommes et les animaux
- hommes et femmes
- penseurs vs secrétaires
- grands intellectuels et petites mains
- Sens vs syntaxe
- Immatérialité vs matière
Ces frontières sont le résultat d’une action, elles ne sont pas là. Quand identifie les choses comme une machine ne constate pas une essence mais en train de la produire.
Le fait de tracer une frontière repose toujours sur des décisions morales, position éthique. Exemple herméneutique humaine ou contenu produits par les machines, immédiatement évident que cette distinction se situe dans les frontières;
Pour rendre plus clair mon propos. Voudrait prendre un exemple, même si démontré par Margaux tout à l’heure de manière parfaite. Émergence du sens, modèle du banc de poisson. Une série d’intraaction desquelles émerge la thésarde et la grande auteur.
Exemple de l’Anthologie GRecques. Exemple dynamique ou centre d’attraction qui fait émerger une pensée du sens. Exemple Anthologie Grecque que nous menons depuis longtemps.
Projet d’édition collaborative. Mathilde, etc. Grand nombre de personnes impliquées mais aussi de choses. Y compris l’ordinateur. Mon idée que les dynamiques qui entraînent l’émergence du sens font émerger le fait que je suis le professeur et Mathilde la petite main. Mais pas quelque chose qui est essentiel. Mais bien quelque chose qui émerge du fait de définir des frontières.
Qui interpèrete ? qui produit le sens ? Le sens émerge dans les attractions à la suite desquelles on stabilise les frontières entre intellect et petites mains. Ce que veut remettre en question.
Un recueil d’épigrammes. Une chose, une idée et finalement l’idée. Comme si d’une part quelque chose de matériel, texte inscrit et de l’autre l’idée le sens de cette chose matérielle dont toutes les autres inscriptions que des inscriptions partielles. Le phénomène et le noumène de l’autre côté.
Texte souvent déformé dans ma mémoire, etc. De l’autre le texte idéal, l’idée d’épigramme. Un modèle épistémologique de ce qu’est une épigramme et ce qui serait important.
L’autre modèle est plus compliqué à décrire car notre langage n’est pas fait pour le nommer. L’idée de Barad c’est de partir du milieu. Pour cela que parle d’intra-action c‘est que l’on part du milieu et qu’à partir du milieu que les autres choses apparaissent. Cette chose dont selon les contextes mouvants qu’on essaye de circonscire va faire émerger des choses mouvantes.
Je cherche une épigramme sur la mémoire. Que j’oublie, d’Asclépiade, sexuelle d’ailleurs. Ni texte, ni rien des actions seulement. Alors commence à voir que quelque chose que l’on peut nommer texte qui apparaît selon ce que l’on fait. Disons qu’une entité, un passage, change de terminologie. Passages plutôt que des entités. Alors idée abstraite épigramme, pas un texte finalement car plusieurs versions, traductions, etc. Des négociations avec des enjeux techniques des discours, des cafés, des attractions dans un contexte de laboratoire. Dans le projet des personnes qui deviennent des petites mains selon comment le projet s’agence. Réaffirme des modèles souvent sexistes, etc.
Questionner l’émergence de la frontière signifie un peu concrètrement en DH réinventer la roue. Beaucoup aimé le fait que plusierus projets présentés aujourd’hui se soient proposés de réinventer la roue. Alors que déjà quelque chose existe déjà. Emmanuel m’interrogeait pourquoi pas utilisé XML. Il avait sans doute raison mais en même temps une manière d’interroger frontière.
Utiliser l’outil peut parfois consister à ne pas poser la question des frontières. Voir comment inventer un outil permet de se concentrer sur la stabilisation des frontières.
Frontières floues, intraction qui font émerger des structrues de données, etc dont stabilité doit être interrogée. Collaboration et institutions.
Quand parle de frontière, c’est souvent avec des frontières dichotomiques. Kittler fait la même chose. Mais dans quelle mesure ne simplifie pas non plus avec cette frontière binaire.
Beaucoup parlé apprentissage profond et systèmes connexionnistes au cours de ces journées.
Production du sens : production de la frontière.
Question de ce que l’on saisit,
Intra-action // connexion
Herméneutique Gadamer, cerlce herméneutique
Ne dit pas que les machines ne pense pas. Par exemple quand dit que ChatGPT pas d’intentionalité. Mais en fait comme si déplace constamment les choses pour différentier. Dépendamment de comment on définit la conscience alors choses change.
Tononi ? essaye de donner une idée de la conscience. Pour lui quelque chose de continu. Bien sûr qui se développe On/Off. Selon lui peut le calculer dans des relations dans deux sens. Selon sa théorie des appareils techno très simples plus conscient qu’un gd modèle de langage car full world.
Une manirèe de définir la conscience. Mais travaillons sur l’idée de la langue qu’il y a derrière les modèles de langue. Au lieu de poser la question homme / machine. Travaillons sur pourquoi indentifions telle ou telle chose
HAR1075
Initiation à la recherche en histoire de l’art : bibliographie et recherche documentaire, travail d’archive et critique des sources, utilisation des ressources et des outils numériques, méthode historique et rédaction de notices d’œuvres.
Initiation aux méthodes de recherche en histoire de l'art et aux règles de la recherche scientifique. Études de cas à partir des éléments suivants : documents d'archives, provenance, datation, attribution, biographie d'artiste et examen scientifique.