date | tags |
---|---|
2013-12-10 |
cr, tei, édition critique, corpus |
Rmq : La réunion du comité directeur a eu lieu la veille au soir.
Le consortium a été labellisé en septembre 2011 avec une gestion confiée au centre d'histoire de la renaissance de Tours, qui est ensuite passée à la MSH Val-de-Loire que l'intervenante dirige (Marie Luce Demonet). Sa gouvernance peut à l'avenir évoluer vers un fonctionnement plus consensuel.
Il est intéressant de rappeler les objectifs du consortium car certains projets ne peuvent y être intégrés si toutes leurs ressources ne peuvent être disponibles en accès libre.
L'objectif du consortium est, autour d'un auteur, de plusieurs auteurs ou d'une thématique, de constituer des corpus en accès libre et la diffusion des données. Il rassemble des communautés de philosophes, historiens de l'art, etc. qui partagent l'objectif de donner des textes à lire. C'est la raison pour laquelle le consortium ne concerne pas, a priori, les bases de données. Il s'agit avant tout de disposer de textes et d'éditions en ligne, disponibles et lisibles en ligne avec un accès non réservé. Le partage des méthodes : n'étant pas forcément tous d'accords sur les méthodes d'édition ou de transcription, le consortium est le lieu pour les partager tout comme il permet également le partage d'outils. On y conduit également une harmonisation des métadonnées, plutôt qu'une standardisation (trop contraignante au vu de l'hétérogénéité des données), de même qu'il est moins abusif de parler de stabilisation que de pérennisation. Cet axe pourra permettre la mise en place d'un portail qui donne accès à tous ces corpus. Le travail conduit l'année dernière sur la mise au point d'un moissonneur est lié à cet objectif.
[Image : Le consortium Cahier, la TGIR Huma-Num] Ronde des corpus rassemblés dans le consortium. 23 projets distincts, 93 chercheurs et conservateurs, 39 ingénieurs et techniciens (pas équivalents temps plein). Beaucoup moins que les consortium Corpus écrits des linguistes qui se sont constitués à partir de fédérations de laboratoires, ce qui n'a jamais été le cas de nos communautés.
[image : Huma-Num Responsable CAHIER
Bureau (Caen, Paris, Grenoble, Lyon, Tours) // Comité de pilotage (1 membre par projet/laboratoire)
Assemblée générale Groupes de travail]
Marie-Luce Demonet est responsable du consortium, c'est elle qui a porté le projet au cours de sa constitution. Elle n'a en réalité pas de mandat, ni de limite de temps à ses fonctions, car il s'agit simplement d'une labellisation. Cependant, il semble logique que cet état de fait puisse être rediscuté à l'échéance de 3 à 4 ans (donc bientôt). Cela devrait dépendre de la TGIR HumaNUm qui pour le moment, compte-tenu des changements, aurait plutôt tendance à préférer que cela ne change pas. Toutefois, le fonctionnement pourrait être plus proche de celui d'une association, et l'on pourrait organiser des élections si la demande émerge. Chacun peut faire remonter des propositions pour fixer davantage le fonctionnement du consortium.
Le consortium dispose d'un Bureau (là encore désigné pour le moment par cooptation). Pour plus de praticité, le nombre de membre reste limité, aujourd'hui 5 membres. Le bureau s'est réuni seulement à deux reprises cette année.
Comité de pilotage : contrairement à d'autres consortium, le comité de pilotage reste composé d'un membre par projet, soit 23 membres. Mais tout le monde ne venant pas, généralement une douzaine de membres sont présents pour discuter. Il fait ses propositions à l'Assemblée générale une fois pas an.
Cette assemblée générale est appelée Atelier plutôt qu'AG, car on voulait qu'elle soit l'occasion de travail. Le programme de cette journée montre qu'on souhaite faire en sorte que les membres ne se déplacent pas uniquement pour le fonctionnement. Ainsi plusieurs présentations auront-elles lieu aujourd'hui, dont une présentation d'un projet étranger car il est important que l'on puisse disposer d'une vision internationale pour pouvoir replacer nos projets dans un contexte plus large.
L'intégration d'un projet dans le consortium se fait en deux étapes :
- l'envoi d'un descriptif du projet sur la volumétrie, dates de mise en ligne (le formulaire de Laurent Doucet de HumaNum en 2011)
- la présentation au comité de pilotage de juillet, deux autres tout à l'heure
Nouveaux entrants :
- SOCIORAMA (Reims / Liège)
- Rouen Flaubert
- Nice
- Item, Corpus hispaniques
Il est frappant que la diffusion des activités du consortium se fasse à partir des mêmes lieux, il y a notamment un grand vide dans le Sud-Ouest.
85 000 euros en entrées, entre subventions et reliquats des années précédentes. 33 000 euros distribués aux projets ayant demandé des subventions de 3 000 euros. 10 000 euros pour Philologic (moteur de recherche utilisé par les BVH) pour le développement 1 300 euros pour une stagiaire sur les recommandations aux auteurs 42 000 euros de fonctionnement [!! mais payent les missions pour les réunions] Beaucoup plus d'argent a été consacré aux formations par rapport à l'année dernière. C'est plutôt une bonne chose car les formations permettent aux uns et aux autres de se rencontrer sur leurs projets, et sont des lieux importants pour échanger et confronter ses méthodes.
L'année dernière aurait dû n'avoir que 65 000 euros de subventions. Une rallonge sur la fin de l'année. Bon de commande versé directement à Algone pour WebOai, et reliquat. Il est sans doute illusoire de penser que bénéficiera de la même somme cette année. Les arbitrages ne sont pas encore rendus au niveau ministériel.
Garde le principe de demandes de subvention de 3 000 euros par projet sur la base d'une lettre d'intention. Le consortium demande en retour l'établissement d'un bilan pour pouvoir disposer d'un renouvellement. Il faut donc justifier l'utilisation des crédits. DR8 qui a compris comment verser des subventions à des équipes d'accueil (plus difficiles que pour les UMR) et que ne soit pas versé au pot commun.
Gestion consortium 10 000 Formations 6 000 Financement des formations 9 000 Participation financement ANF 2 000 Missions coordination, comité de pilotage 5 000 Organisation AG 2014 6 500 Organisation d'atelier et de gr de travail 4 500 Cotisation TEI pour Cahier 4 000
Travail selon trois axes.
- Le premier porte sur le droit d'auteur pour les publiants et proposition de clauses pour les auteurs refusant mise à disposition de leurs texte en accès libres. Texte aujourd'hui prêt (diffusion fin janvier).
- Deuxième axe concerne des recommandations sur la constitution des corpus lors de récupération de textes provenant d'auteurs ou musées, (demandes autorisations).
- Troisième axe sur la diffusion des bases de données et droits.
Déjà eut deux réunions Une première réunion en petit comité avec Alexandre Gefen et Stephan Pouilleaux Une plus large récemment qui montre qu'il reste encore du travail notamment pour le champ date (un problème courant pour la bibliothéconomie).
Il est donc nécessaire de se mettre d'accord sur ce qu'est un auteur, ce qu'est une date, mais aussi sur la typologie des genres en vue d'une recherche par facettes efficace. Cf. son intervention à Rome.
Groupe qui va continuer, verra le calendrier tout à l'heure.
Poste budgétaire passé de 3 000 à 8 000 euros Deux sessions d'encodage de manuscrits d'auteurs Université d'été à Grenoble Et payement de missions pour des formations organisées soit par nous soit par d'autres.
Prévisions 2014
- XSLT niveau 1 et niveau 2
- Fonctions analytiques et édition électronique (Lyon première semaine de juillet 2014) Alexandre Eden ? partir de qui a besoin pour analyser les textes, l'édition étant plutôt une sortie. Présentation ordre inverse de ce qui avait été proposé à Grenoble. Beaucoup question de TXM, mais également chaîne éditoriale de Caen.
- Journée PhiloLogic (pour lequel a payé 10 000 euros de développement, important d'apprendre à la manipuler et le tester. Vincent Jollivet et Frédéric Glorieux allés à Chicago pour le tester)
- Encodage des manuscrits d'auteur (reconduction Elena Pierrazzo)
- TEI 2 (Renouvellement avec le consortium linguistique)
- DARIAH Copenhague, octobre 2013
- DARIAH Paris, novembre 2013
- Colloque "Humanités numériques et questions juridiques" (Labex OBVIL)
- Conférence TEI Rome 2013
- Article pour le dossier "Humanités numériques" de l'INSHS (article avec A. Gefen)
- Participation à la conférence des DH, Lausanne, 8-11 juillet 2014 (Alexis proposé un papier)
- Création d'une association francophone en Digital Humanities [sic]
{ Peu favorable à la création d'un consortium, disposer d'une structure qui permette de mieux travailler. Trouve que très gigogne (sans doute par rapport aux consortium, et autres). Agacée par la dimension revendicative "francophone". D'accord sur le fait que manque d'une reconnaissance métier, ou dans les formations. }
Calendrier qui implique Horizon 2020
- Les humanités numériques se placent dans
- Le Défi 1 (Excellence)
- Rubrique infrastructure
- Le Défi 3 (Défis sociétiaux)
- Rubrique "social inclusives" novatrices...
Reflective inclut patrimoine, mémoire, identité. Histoire de l'art, la littérature, la philosophie et les religions
Digital Digital expressions of culture and identity. Advanced search and modelling and preservation technologies Understanding and preservation of European Cultural heritage Development of new environments, applications, tools, and services for dh.
Un domaine d'application plutôt culture que recherche. Attendons de lire le texte complet demain.
Faut-il rassembler tous les corpus d'auteur ? Campagne d'information Inscription à la liste d'information Participation liste TEI Lien avec les MSH Faut-il produire une brochure ? Participation au programme Horizon 2020 (avec une extension du périmètre ?)
Discussion 5 ou 6 presses universitaires associées avec le Cléo ou Presses universitaires de Caen pour utiliser leur chaîne éditoriale basée sur TEI. En collaboration avec Open Edition.
Point d'actualité de la TGIR qui pilote les consortium, Nicolas Larousse. HumaNum est une très grande infrastructure de recherche issue de la fusion entre Adonis et Corpus. A pris la forme d'une UMR entre Condorcet, Aix-Marseille, et ?? (= 3 structures qui forment la tutelle).
Réunion du comité directeur en octobre. Validation du programme de travail. Dispositif d'animation des communautés autour des consortium. État des lieux, et remise en place des dispositifs numériques pour les adapter aux consortium et pas seulement. Construire une réponse nationale à grande échelle qui associe très étroitement les dispositifs de type disciplinaires que sont les consortium (même si évoluent vers choses plus interdisciplinaires et transversales, le cas de Cahier, un consortium données 2D 3D Nantes, Bordeaux, Marseille). Demande d'accompagnement de la mise en place d'une infrastructure interdisciplinaire, mais aussi de travailler avec le réseau des MSH car la chance de disposer d'un maillage du territoire qui peut servir de relais avec un certain nombre de structures.
Travail systématique d'information et de mobilisation du réseau national des MSH.
Exemple action actuelle : Mise en place de dispositifs de déports de données à l'échelle d'une MSH pour le stockage sécurisé de données. Mis en place à Aix et Dijon. = Permettre à des chercheurs hébergés dans une équipe au sein d'une MSH de bénéficier des services de la TGIR non pas en s'adressant directement à la TGIR mais à leur MSH. Ex. Travail avec la MICHA (?) pour avoir un interlocuteur en vue du moissonnage de données par Isidore. L'idée est de disposer de points de contacts afin de mailler le territoire. Déploiement en 2014 à l'échelle nationale. Il s'agit d'identifier des personnes capables d'interagir avec des chercheurs pour apporter une réponse très locale.
Pour 2014, le dispositif des consortium tel qu'il existe est conservé et va continuer à le développer puisque trois candidatures à la labellisation : un consortium de musicologie et d'ethnomusicologie (vocation disciplinaire mais potentiel patrimoine) ; un consortium autour du développement de données 2D et 3D ; un consortium en histoire des sciences et techniques, programme scientifique prêt, recherche d'un porteur. Continuera le développement. Espèrent atteindre à terme 12 à 14 consortium, nombre attendu par la tutelle.
Possibilité de disposer jusqu'à 30% en ressources propres pour 2014. Tente de desserrer l'étau pour pouvoir disposer de vacations. Les consortium ne sont qu'une des composantes de la TGIR, dès lors possible de décaler le besoin de vacations pour construire une infrastructure à l'échelle européenne. Au moins disposer d'un volant de vacations pour les 9 consortium.
Planning identique en 2014. Enveloppes financières, entre 40 et 60 K euros. Comité de pilotage qui décide finalement des enveloppes. Même dispositif que l'année dernière d'après l'examen des rapports d'activité. Sans doute la première année où pourra être en rythme de croisière.
L'objectif étant que la TGIR accompagne au maximum les consortium, en essayant d'alléger autant que possible le carcan administratif de sorte qu'il impacte le moins possible leur fonctionnement. Mais difficile à faire fonctionner car au total pas moins de 400 équipes engagées dans les 9 consortium et qu'un seul gestionnaire pour l'ensemble des consortium au niveau de la TGIR.
L'année dernière 87 000 euros, ce qui était exceptionnel. Le dispositif du consortium du point de vue du ministère, une enveloppe qui permet de faire de la coordination nationale. Les consortium étant là pour mettre en commun au sein des communautés des pratiques. Ces financements sont donc à mettre en commun avec des financements provenant d'ailleurs.
Réaffirmé par le ministère et l'Alliance Athena. Vraiment des dispositif pour mettre en commun et s'approprier des bonnes pratiques numériques. La dimension formation importante.
Certains consortium répondent à des appels d'offre. Le consortium Histoire-Géographie essaye de se positionner pour répondre au COL ?? 2020. La forme de la réponse pas encore déterminée. Un consortium de coordination sur la numérisation des corpus en Histoire-Géographie.
Utiliser les consortium comme un levier ou un tremplin. Plusieurs réunions points de contact CNRS. Ignorance des consortium au niveau des instances CNRS. Toujours pas de consortium histoire moderne ? Historien modernistes en train de s'organiser en dehors des consortium.
Questions web sem. Plutôt une vague de fonds, car que ce soit du côté des géographes, de cahiers, ou des travaux du pôle sciences et techniques avec pôle MSH Lorraine, sans doute une question très transversale à l'activité des consortium et à leur effort de mobilisation en termes d'investissement sur ces technologies. Une affaire d'appropriation par les disciplines qui ne se fera pas au même rythme. Ici un rôle de la TGIR à partir du moment où dans une micro-discipline, un besoin d'application des technologies du web sémantique, alors peut avoir un rôle moteur.
Nous sommes actuellement en train de remettre à plat tous les services de la grille. Or actuellement en train de relier l'ensemble à partir de méthodologies issues du web sémantique (mise en place d'URI, logique de LOD). DGLF (Délégation générale aux langues de France) qui fait des appels d'offre en ce sens avec soutien à DBPedia, peut constituer des opportunités intéressantes pour former une réponse. La TGIR HumaNum qui est actuellement en train de tisser des liens très forts avec le ministère de la Culture sur cette question du Web sémantique. Travail concret avec DGLF pour initier une culture du travail en commun. Bon espoir en 2014 de lancer des dispositifs pour relier sémanticPedia et Isidore, fabriquer des référencements sur les terminologies issues de la culture et de la recherche, etc.
Dariah. Les consortium sont bienvenus dans DARIAH. Malheureusement l'ERIC n'est toujours pas créé. Pour une fois, pas à cause de la France, mais du fait de la modification de la structure des ERIC par la Commission européenne, ce qui nécessite un ajustement des statuts. On a bon espoir que l'ERI soit créé au courant de 2014. Un appel à contribution lancé en 2014, ouvert à tous les acteurs dont les consortium. La France était parti sur des appels à contribution validés par la TGIR. Une année 2014 qui sera plutôt une année expérimentale qu'une année de croisière. HumaNum qui hébergera deux personnes faisant fonctionner la structure DARIAH.
Marie-Luce demande pourquoi les consortium ne sont pas invités aux réunions DARIAH au moins comme observateurs ? À mon avis, il y a une contribution entre le fait de labelliser des consortium et de dire que pas bons pour intégrer DARIAH. Pas les mêmes processus. Laurent Romary qui vous informe. Mais pour la labellisation, il semble que le niveau des consortium ne soit pas le bon niveau pour DARIAH. Rencontre avec les services juridiques du CNRS. Le CNRS ne pouvant contractualiser lui-même, une difficulté. Sinon, avec les universités, signature d'un accord cadre sur 5 ans avec un engagement. Le ministère considérant que les ERIC des animaux nouveaux, et qu'ont beaucoup de mal à maîtriser. Des projets pourront émaner des consortium, mais verra ensuite quel est le niveau de granularité des porteurs car les pays qui signent. Dès lors que fait quelque chose, nécessite une signature ministérielle. Marie-Luce : Impression que les hollandais et les Allemands ont pu s'emparer de DARIAH. R : Le cas de l'Allemagne particulier, profité de la préfiguration de DARIAH pour demander de l'argent et financer des projets. Pour le moment Allemagne pas engagée au-delà de 2016. En fait DARIAH-DE pour eux un moyen de financer des projets. Mais purement intellectuel, car des projets pour eux. DARIAH-DE actuellement 2M annuels. En France, il n'est pas prévu pour le moment que le ministère débloque un budget. Mais les ERIC devraient pouvoir déposer des projets à l'horizon 2020, sachant que le ministère pousse à ce que des infrastructures se positionnent dans l'horizon 2020. Chaque pays dispose d'un système différent. Les autrichiens qui n'ont pas encore mis en place les choses. Chez les hollandais, DARIAH n'existe pas mais porté par une seule structure qui est en même temps le CINES, la BNF et... Syndrome du petit pays qui veut être présent dans tous les projets européens, où disposent d'un représentant. Mais pas de budget pour ce faire.
Il y aura une information DARIAH le 23 janvier à la journée des consortium (Réunion des porteurs de projets et des membres de comité de pilotage)
A rencontré un petit problème, pour faire un état des lieux, besoin d'une mise à disposition ouverte des corpus, la plupart des membres ne le faisant pas à quelques petites exception près. Il était donc difficile de contacter séparément chaque projet, néanmoins fait circulé un questionnaire.
Est-ce que l'usage de la TEI constitue un rêve ou un cauchemar ? à vous de décider. Mais fera quelques propositions révolutionnaires, puis une présentation du travail mener.
Les corpus Cahier représentent chacun un partie signifiante du patrimoine, ayant ses particularités, mais aussi plusieurs traits en communs. Cela parce que matériellement des corpus constitués de la même espèce, livres écrits, textes manuscrits, or les objets que maîtrise bien du point de vue informatique depuis 30 ans. Il y a donc une expertise importante dont peu bénéficier. Ces objets ont une importance scientifique considérable et suscitent un intérêt de plus en plus croissant ne serait-ce qu'en termes de mise à disposition. On peut ainsi distinguer deux types d'intérêt les besoins scientifiques des spécialistes mais aussi l'intérêt plus générale du grand public.
À cet égard tout intérêt à utiliser la TEI. Quel est l'avantage d'employer la TEI à cet égard ? Cette réponse a trois axes :
- elle met l'accent sur la signification plutôt que l'apparence
- parce qu'elle est indépendante de tt envi ou plateforme informatique
- parce qu'elle a été produite pour et par la communauté scientifique qui reste aujourd'hui responsable de son évolution.
Soulignons quelques avantages de la TEI. Avec XML-TEI il est très facile de mettre en évidence les similarités entre ces différents corpus. De ce point de vue la TEI peut faciliter l'approche Big data. Pour ce faire, il faut disposer de corpus qui soient intégrables afin par exemple de pouvoir chercher tous les noms propres dans des corpus. Si ces corpus sont tous encodés de la même manière, cela n'est pas un problème.
Il est également possible de profiter de travaux d'autrui. Des travaux conduits ailleurs dans le monde sur l'utilisation de la TEI dont peut bénéficier, il en est de même des outils d'analyse, ou d'exploitation. Bien sûr il est toujours possible de personnaliser la TEI, mais c'est la partie intégrante qui me semble la plus intéressante pour votre consortium.
Évidemment la TEI présente un certain nombre d'inconvénients. Elle réclame un investissement scientifique et technique, mais qui s'avère utile. Certains n'ont pas encore compris l'avantage scientifique qui consiste à se focaliser sur les données plutôt que sur l'affichage de ces données, quand bien même cet avantage devient de plus en plus évident, il reste des gens à convaincre. Enfin, la TEI est un univers riche, qui fait que l'on peut se noyer dans la TEI. On n'est pas obligé de se servir de la totalité de la TEI, il convient au contraire de faire une sélection. D'où l'importance de mener à bien une personnalisation.
10 réponses sur 26. Pas idéal, mais pas mauvais. Seulement deux refus. Des questions qui portaient sur la taille des corpus, l'usage actuel du balisage, l'accessibilité des corpus, et une liste des défis et besoins identifiés dans la pratique.
La synthèse des résultats est en cours. La plupart des données ne sont pas disponibles. Sur la taille des corpus, grande variation. Certains très ambitieux,
Moyenne actuelle 31 286 envisagée 888 474 554, jusqu'à 10 000 000 000 !! L'utilisation de la TEI est encourageante. La moitié des corpus prétend être exprimée en TEI, sur les 10 corpus déclarés, 7 se déclarent personnalisés ce qui est très encourageant d'autant que tout le monde se sert de la version actuelle de la TEI (la version P5, ailleurs corpus hérités avec problèmes de compatibilité).
On peut appliquer la TEI dans plusieurs domaines. Demandé aux participants de noter les aspects selon leur degrés de priorité. Aspects linguistiques 4,4 Métadonnées 4,38 Structuration formelle 4,26 Aspects philologiques Aspects visuels Aspects sémantiques
Réponses qui montrent que tout le monde veut tout. Dans un projet normal doit au contraire prioriser, car pas le temps de tout noter.
4 des 10 corpus documentés avec un fichier ODD, une manière de documenter de manière formelle votre usage de la TEI. Une manière de documenter la manière dont vous vous êtes servi de la TEI. Néanmoins, la plupart des projets ne présentent pas une documentation ODD. Par ailleurs, jusqu'à présent, il est très difficile de disposer réellement de vos corpus. Pas d'adresse indiquée, pas d'explication des critères sur lesquels peut récupérer les données, plusieurs sites surlesquels peut télécharger des portions des corpus en TEI. Très peu sont actuellement disponibles en TEI, mais il me semble que c'est une politique à revoir et à réenvisager. Très encourageant d'entendre Marie-Luce dire qu'un des objectifs du consortium.
L'utilisation des outils. La plupart d'entre vous utilisent Oxygen, outil peu coûteux Nombreuses variations dans le stockage des données 3 sur 10 svn Peu en matière d'exploitation, beaucoup TXM 3, PHP 2, XTF 2. Apache Solr. Mais à chaque fois qu'utilise cet outil doit le reparamétriser pour son travail
- Gestion conjointe du texte et de l'image
- les mots-coupés en fin de ligne, fin de page
- les chevauchements interdits
- pb de droit sur les images des manuscrits au début
- réunion des compétences en ingénierie documentaire et en informatique dans un labo qui en est dépourvu
- fournir outillage info en adéquation avec la litteraties numér. des chercheurs.
- ....
- insuffisances par rapports au besoin et spé textes anciens.
- besoin compétences informatique XSL
- trouver interfaces conviviales pour les chercheurs
- gestion budgétaire de la part salariale
- être isolé en tant qu'ingénieur sur un projet (intérêt de consortium)
- anticiper les résultat pour faire un choix pertinent de balise
- et ... ce type de projet est chronophage.
Nouveaux genre de formation
- progression selon les stagiaires et adaptation aux projets
- montrer l'utilité et la rentabilité de l'utilisation de la TEI
- permettre à des littéraires non technophiles de se débrouiller avec des schémas basiques (tjs faire la jonction entre deux pans divisés des DH)
Des sujets spécifiques
- analyse des corpus linguistique
- question du balisage des variantes (apparat critique)
- harmonisation des métadonnées
Surtout
- plus que des formations, nécessaire de développer des outils communs (qui permette aux chercheurs de faire de la TEI sans TEI !)
- travailler sur l'interop et la mutualisation
- analyse des pratiques de documents XML produits et retour d'expérience pour uniformiser
- mise au point outil spécifique
L'avenir Se mettre d'accord ensemble sur l'identification d'un sous-ensemble de balises qui seraient utiles à tous les membres du consortium. N'empêche pas d'avoir sa personnalisation propre. Mais un usage minimal de la TEI sur lequel peut être sûr de se retrouver. Définition d'un ODD pour valider ensemble. Puis se met d'accord sur un modèle de traitement (processing model, cf. Sebastian Rahtz) associé avec ce sous-ensemble. Par exemple q et quote pour les éléments en ligne ou bloc. De cette manière pourrait beaucoup simplifier la vie des formateurs et des développeurs. Un projet actuellement en cours de discussion au sein du Council TEI qui cherche de l'argent pour mener à bien se projet à partir du EEBOL Early English Books Online. Sans doute l'un des groupes de travail que proposerait tout de suite.
La voie est tracée, mais boueuse !
TGIR HumaNum créé en cours d'année, bonne occasion de mettre à plat tous les services et d'en définir de nouveaux. Mise à plat pour identifier ce qui a changé et ce qui peut être utile. S'occupe au sein de la TGIR de l'archivage à long terme.
Définition Qu'est-ce qu'a mis en place Spécificités prévues pour la TEI
Les communautés consomment beaucoup de ressources pour fabriquer de la TEI. Plutôt chronophage et consommation intellectuelle. Souvent ne reste des projets que le produit final et non pas les données. Dans le pire des cas, le pdf et pas le XML.
La TEI est un bon candidat pour la pérennisation des données. Bien sûr aimerait des outils pour faire de la TEI sans TEI, les allemands s'y sont essayés, une prouesse technique mais pas ergonomique. Travail avec le CINES car une production importante de TEI dans la communauté, pour ne prendre qu'un exemple collaboration entre le Cléo et les Presses universitaires de France. Se pose donc la question des services à proposer et de la manière de les proposer compte-tenu de l'évolution du paysage actuel.
Une première manière de présenter les choses consiste à dire que l'on se préoccupe d'abord des données avant de leur affichage. Une manière de produire les données, du point de vue de la production, éviter de perdre des produits de numérisation par exemple stockage sur disque dur dans une armoire. Propose des outils logiciels pour travailler à plusieurs sur des données.
Une fois que ces données sont terminées, pas de mise à disposition d'outil de publication, par contre aidera à créer ces outils. Lorsque ces données sont créées, elles disposent un caractère patrimonial et sont donc candidates à faire l'objet d'un archivage pérenne en collaboration avec le CINES. Or, comme il s'agit d'archives publiques, à terme les données de la recherche sont susceptibles de rejoindre les archives nationales. Pour le moment les archives nationales pas prêtes mais une réflexion en cours sur les données de la recherche.
Les services associés aux données HumaNum
Stockage Grille --> hébergement web, grille de calcul Exposition --> prochainement Silo Signalement --> Isidore --> applications métiers Conservation --> Préservation à long terme
S'appuie pour la préservation à long terme sur collaboration avec centre de calcul de Villeurbanne et le CINES à Montpellier.
Exposition de données ... le Silo
- Permettra de disposer d'un identifiant pérenne
- Accès permanent à la ressource
- Accès à la description interopérable (triplestore)
Signalisation de données avec Isidore
L'archivage à long terme. En informatique le long terme est une notion difficile à définir. Ici parle de 20 à 30 ans voir 50 à 100 ans. Pourquoi est-il nécessaire de faire de l'archivage à long terme de données. D'abord pour répondre à l'effort considérable de numérisation des données réalisé ces dernières années. Les données numériques, faciles à conserver. Néanmoins, les données numériques sont difficiles à conserver.
Peut s'organiser pour le court terme. Mais pour le très long terme, plusieurs choses à envisagées : la question de leur dégradation du support, la question de l'obsolescence techniques des périphériques de lecture, l'obsolescence logicielle. Des temps très courts du point de vue informatique qui suppose de choisir des formats documentés permettant éventuellement de reconstruire un outil (c'est notamment le cas de la TEI). On peut également perdre des données, lorsque ne sait plus ce qu'étaient ces données. Sans documentation du contexte sur un projet, plus de possibilités de comprendre les données. Par exemple 3D en archéo, et insertion d'une photographie.
Deux organismes actuellement capables en France de mener à bien de l'archivage à long terme en France. La BNF avec sa plate-forme SPAR pour la Culture, et le Cines pour la recherche. L'archivage à long terme nécessite une infrastructures techniques, un centre de calcul avec les procédures adaptées, être capable de faire à distance de la réplication de données pour sécuriser les données en cas de désastre.
Beaucoup d'autres choses à mettre en place du point de vue humain. Des procédures pour garantir que les données sont toujours disponibles, qu'elles sont toujours lisibles, qu'elles n'ont pas changé de place. Tout cela est basé sur un modèle d'organisation OAIS, qui est plutôt qu'un modèle technique un modèle d'organisation humaine. Ce modèle suppose notamment de conduire une veille sur les formats. À titre d'exemple, il n'existe pas moins de 17 formats PDF, et il n'existe guère d'outils performants pour contrôler la validité d'un document PDF. De même comment vérifier la qualité d'une image lors d'une migration de TIFF à JPEG ?
Que propose HumaNum ? Un utilisateur propositionnel. Repère des communautés et des formats et aide le CINES pour prendre en compte les données et accueillir les données des projets. Par exemple, évolution des procédures pour prendre en compte les versions. De même évolution pour faire prendre en compte la notion de collections, au-delà de l'objet. De même actuellement en train de faire évoluer pour prendre en charge des nouveaux formats, or travaillent actuellement sur le format TEI.
TEI en XML, possibilité de stocker du XML avec le CINES. Néanmoins ne suffit peut-être pas à garantir la compréhension à long terme des données : le choix intellectuel des balises (opération longue et complexe très différente selon le type de documents traités). Peu de façons en outre de conduire des contrôles alors que la TEI à l'avantage de permettre une validation syntaxique.
Le projet d'archivage de la TEI qui propose pour un meilleur archivage de mettre au centre du dispositif le fichier ODD. L'avantage de documenter l'utilisation de la TEI, de générer un schéma, associer des formats de sortie/production, validation par rapport aux guidelines.
Un des rôle du TGIR notamment de promouvoir l'utilisation de fichiers ODD. À titre de documentation, sans doute intéressant aussi de pouvoir stocker les produits finis de sorte que dans 30 ans, on puisse se rendre compte de l'état de l'objet fini. Par exemple corpus sur St Augustin, plusieurs états d'utilisation des fichiers TEI qui peuvent mériter d'être sauvegardés et conservés.
Travail avec le CINES pour comprendre ce ODD et sauvegarder les données. Pour ce faire, va imposer un certain nombre de choses, recommandations fortes. Pour sauvegarder la TEI nous aidera mais moyennant respect certaines obligations. Une phase de faisabilité technique importante. Beaucoup de choses à prendre en compte comme les fichiers inclus, etc. Nombre de questions dans le processus de vérification et de stockage à régler. Savoir si ce que va imposer raisonnable pour les producteurs. Imposera la TEI P5. Pour faire cela, également produire des outils, pour cela coordonne des outils de la communauté. Sébastian Rahtz impliqué dans ce projet. Premiers tests pour valider Workflow début 2014. À partir de ce moment là, associera la communauté TEI pour voir ce qu'ils seront capables de faire. Déjà présenté le projet à Rome, beaucoup de retours, et de suggestions. Un processus évolutif.
Résultats attendus sauvegarder les ressources, dans un environnement intellectuel qui permettra de comprendre le résultat, améliorer la qualité des ressources produites. Tous les produits tendent vers cela avec la promotion des bonnes pratiques. En retour apporteront les outils développés et leur expérience.
Michel Bernard : Trouve assez déprimant bilan de Lou Car 20 ans qu'entend parler de la TEI comme d'un standard, or moins de 20% des corpus encodés en TEI, or sur un consortium très actif. En fait, gens effrayés par l'usine à gaz que représente la TEI. Pas vraiment possible de travailler sur un éditeur XML sans connaissances spéciales. En dehors de TXM peu d'outils. Philologic jusqu'à peu de temps ne traitait pas des corpus balisés en TEI. Pourquoi y a-t-il autant de boue dans le chemin ?
Lou : Je ne sais pas Mais de fait, un problème. Cependant savoir ce que les autres font en dehors de TEI. Dans la plupart des cas, pas de format ou PDF, par exemple numérisation en mode image. De ce point de vue des personnes qui ne sont pas encore dans l'optique de créer ce type de ressources. Le droit de ne pas le faire, mais se rendre compte dans ce cas que renoncent à des possibilités.
Thomas : Pour moi un des problèmes, l'absence d'outil conviviaux pour travailler en TEI. Est-ce que HumaNum a l'intention d'aider la constitution de tels outils qui nous permette de construire des matériaux en TEI sans que ne bouffe de la TEI avec ses chervons et cie. Comment va-t-on construire la matière de nos projets.
Nicolas : Regardez TExtGrid, une très belle réussite technique, mais personne ne l'utilise faute de convivialité. Une réponse possible que pas possible à cause de la personnalisation.
Emmanuelle : Cet outil existe presque avec le mode auteur de Oxygen qui permet en comprenant bien les besoins de définir un environnement de travail configurable et codable facilement. Demande simplement du temps à l'ingénieur pour le paramétrer en fonction de la petite communauté de personnes qui vont saisir. Annoncent pour bientôt une amélioration de la prise en charge fine des révisions. Mais doit construire une interface de saisie adaptée à un projet spécifique. Sans doute quelque chose d'intéressant à faire en formant paramétrisation du mode auteur.
Thomas : Suppose aussi qu'ait un laboratoire avec un mode auteur.
Marie-Luce : Ce qu'a fait avec Elena, s'appelle un ouvroir. Pour cela encourage à aller ou envoyer les ingénieurs dans ces formations pour cerner de près ces questions. Par ailleurs, aller voir de prés ces questions d'encodage un travail intellectuel qui a un intérêt, et pas une perte de temps. Pas un strict travail technique.
Thomas (DE) : Question de la relation entre les méta-données structurelles et les archives. Archiver dans un environnement différent, est-ce la bonne manière d'archiver du XML-TEI.
Lou : deux réponses à cette question, l'une consiste à archiver le PDF, l'autre à archiver la TEI avec ODD comme source.
Hyperbase, outil de recherche hypetextuel pour travailler sur le corpus. Outil de lexicométrie avec lequel souhaite parvenir à caractériser l'écriture de Giono.
Partenariat avec Franteq Souhaitait montrer des bases existantes pour montrer ce à quoi voulait parvenir. Sur le site du laboratoire, par le biais de l'équipe de recherche, accès à une page fournissant une série de bases littéraires librement téléchargeables y compris avec des textes encore soumis au droit d'auteur. C'est notamment ce qui pour Giono a jusqu'à présent freiné les projets. Mais le problème est en partie réglé pour Giono car il possible de distribuer les pages de manière aléatoire sans pouvoir reconstituer l'ordre, par ailleurs il n'est possible d'accéder qu'à une partie du texte seulement.
Ex de Hugo : importance de l'ampleur du corpus en nombre de formes et d'occurrences. Hyperbase créé en 1989 à Nice. Travaillent aujourd'hui sur des corpus dits lemmatisés. Utilisation de Cordial comme étiqueteur mais payant, lemmatisation aujourd'hui réalisée avec treetagger ?? gratuit. Consiste à ranger les formes uniques sous forme de dictionnaires, et étiquetage morpho-syntaxique.
UI avec horizontalement accès aux fonctions documentaires, et verticalement les fonctions statistiques. Recherche de concordance, de lemme, formes morpho-syntaxique, chaînes, listes de mots. Recherche d'une forme et présentation du concordancier avec un contexte réduit à une phrase. Possibilité de recherche de cooccurrences, deux mots définis dans une fenêtre de texte comme le paragraphe par exemple. Hyperbase, propose la visualisation des résultats sous forme d'histogrammes. Travail sur les écarts réduits pour rapporter les œuvres à la même longueur. Peut demander une comparaison entre ombre et lumière, pour obtenir la projection sur le même histogramme. Permet de montrer que ne sont pas précisément corrélés, alors que souvent les antonymes sont corrélés dans les textes.
Il est également possible de faire une recherche plus grammaticale, l'avantage étant que hyperbare traduit le texte sous quatre formes :
- lemmes
- formes
- codes
- ensembles de codes (ou encore les structures syntaxiques)
Marie-Luce : Le consortium a été constitué pour donner à lire les textes, les donner à lire en texte intégral. Si vous nous dites qu'il s'agit simplement de donner accès à des formes, alors relève des bases linguistiques car ne donne alors qu'accès à des contextes. S'est justement battu pour que ne fasse pas frantexte. Ce que cherche, c'est pouvoir faire les recherches sur le texte intégral, et de pouvoir lire le texte.
Michel Bernard : C'est un parti-pris qui exclue de fait les XXemistes.
Thomas : Une analyse littéraire et non pas une analyse linguistique. C'est un autre type d'accès qui distingue les consortium.
Marie-Luce : Sans doute pour les auteurs du XXe siècle, pas d'autres solutions que ce type d'accès par extraits. Aussi une question de contrat avec l'état. Lorsque l'on veut présenter des corpus au public, commencer par les ouvrir et y donner accès. Là où peut discuter avec les auteurs et les éditeurs. Un statut de membre associés est prévu pour de tels projets, car ne peut pas les exclure, ni les financer pour mise en valeur pour laquelle il y a trop de restrictions. Ne peut être considérés comme des diffuseurs illégaux de la littérature.
Lui a demandé de donner une présentation sur le projet de bibliothèque numérique. Voudrait caractériser le projet de la bibliothèque moins du point de vue éditorial qu'institutionnel.
Question des images Différents types de textes Les bases de données et l'exposition dans le web sémantique
clarifier un certain nombre de textes Quand parle d'image, parle des représentations numériques des livres ou des feuilles, mais comprend digitalisation dans un sens plus large comprenant l'ensemble du texte, production de métadonnées descriptives et production du texte en plein texte. Notion de texte et document que ne va pas poser ici, mais à prendre en compte. Cf. Katen et collectif Pedauque "le document à l'ère du numérique".
Début numérisation dans les années 80's Réunions plusieurs bibliothèques pour mettre en commun leurs efforts Bibliothèque d'état de Munich en charge responsabilité de ...
Projet de numérisation des 6000 manuscrits conservés dans les collections publiques Travail sur les collections locales risquait de faire passer à côté des œuvres majeures présentes à plusieurs endroits dans les collection. Choix automatique d'ouvrages pour numérisation pour représentativité. Projets spécifiques liés à des lieux ou des époques particulières. Bibliothèques pouvant se porter candidates pour les numériser.
Statistiques de l'activité 70 000 numérisées par nous, 70% de la littérature allemande numérisées par ce projet de numérisation. Deux facteurs cruciaux dans cet achèvement : financement à long terme et à des niveaux adéquats, et accords sur les standards de numérisation.
BIB Une version anglaise des Guidelines de numérisation que recommande pour d'autres projets. DFG Practical guidelines
Voudrait également un troisième facteur, la volonté des bibliothèques de recherche de publier leurs ressources sous licences libres CC, By-Sa comme indiqué en pied de page.
Au cours des trois à quatre dernières années, le contexte de la recherche a considérablement changé du fait du développement de l'accès aux ressources numériques. Volonté de généraliser le développement d'infrastructures numériques pour la recherche mais pour le moment, la question de savoir à qui doit revenir le soin de financer et la responsabilité de maintenir ces infrastructures n'est pas clairement tranchées.
85 TeraBytes de données Un vrai challenge pour des bibliothèques de recherche comme les nôtres. 3,2 Millions d'images dans les archives 900 manuscrits médiévaux 800 000 gravures En 10 ans, numérisés (140 nb pages moyen par ouvrage) 192 manuscrits ??? numérisés full text
Peut aujourd'hui espérer améliorations des techniques de production de texte plein, sans même parler du crowdsourcing, transcription en Chine, amélioration des techniques d'OCRisation.
Plusieurs techniques de conversion plusieurs inconvénients. 99,95% crowdsourcing, étendre encore qualité pour parvenir à des textes utilisables par la communauté des chercheurs. Enjeux qui réside entre la masse de données mises à disposition et la qualité des données proposées.
Qualité de l'OCR des textes de la période early modern, encore à améliorer. De même amélioration logiciels. Taux de reconnaissance rarement mieux que 86% à 99%. Bien qu'il s'agisse d'un bon résultat, pas suffisant pour la lecture ou l'édition. Bonne base pour effectuer recherche sur le matériau à la condition qu'un minimum de fiabilité soit atteint. Considère généralement 99% suffisant, mais dépend des usages. Plus le texte fragmenté, moins besoin de fiabilité. Cf. Google Books. Ex questions pertinentes à poser avec ce type de matériau.
Big Data, sans doute un facteur d'amélioration connaissance période early modern;
86% de fiabilité pour les documents typiques Comment établir fiabilité lorsque pas de mesure de contrôle automatisée.
Lecture de 500 lettres suffit pour se forger une idée ??? Développement d'un logiciel pour assister au contrôle qualité du texte (randomiser pour vérifier la numérisation, 10 minutes par livre)
Besoin de recherche pour savoir quels types de textes utilisent les chercheurs. Textes numérisés par OCR, mais également des textes transcrits.
Transcription souvent réalisée au Viet-Nam ou en Chine.
Quelques éléments vraiment importants pour produire une édition numériques
- doit penser à de nouvelles manifestations du contenu
- recherche réside dans la comparaison, ces aspects basiques doivent faire partie d'une édition numérique
- de même important de considérer les liens permanents et d'ajouter de la granularité à ces liens percalines. Important pour appeler les vues parallèles, possible de les appeler par des URLs. Utilisation de fichier XML pour la représentation des surfaces des livres.
- vues parallèles du texte, avec l'image.
Nouveau design qui permet à l'éditeur d'accéder à différentes versions du contenus.
Document -- Archive -- Disemination --
Iconclass pour le catalogue, s'est avéré de plus en plus intéressant pour indexer le contenu des images au sein de la collections. Un partenariat basé sur le fait que puissent obtenir toutes nos données, en échange multilinguisme basé sur leur interfaces.
Nouvel OPAC, constitue la bibliothèque. Intègre toutes ces ressources en un point central. Mise au point d'un sparql-endpoint, un connecteur qui transforme une base sql en un sparql-endpoint. Semble fonctionner mais pour le moment une simple preuve de concept.
Donnaient cours à 16H, donc se sont divisés ! Présentation d'un travail réalisé avec collègues au sein de la société Algone que le consortium a rémunéré pour le développement d'un moissonneur d'en-tête TEI en commun.
Le projet s'appelle WebOai, présentation rapide et factuelle. La présentation est en ligne.
Projet sur lequel travaille avec Frédéric Glorieux Objectif valoriser les contenus numériques des partenaires du consortium, à la fois sur le site portail de Cahier, mais aussi en déclarant les contenus aux moissonneurs OAI Isidore.
Déclarer des ressources XML et plus seulement des applications de consultations. Dimension communautaires qui adresse la diversité des pratiques d'encodage. Mise à plat de nos Header pour établir de bonnes pratiques. Pense ici à la définition d'un processing model
Un aggrégateur intermédiaire, qui agrège les données au niveau de la communauté pour les servir à des moissonneurs, au niveau intermédiaire une exploitation maximale. Un logiciel libre qui alimente un entrepôt OAI-PMH. En entrée ne peut prendre que des données encodées conformément à un modèle.
Une grande part d'ingénierie social puisqu'échange en continu avec un grand nombre de producteurs de fichiers. échanges avec Marie-Luce, Alexei BFM, Stéphanie, etc. Nombreux échanges sur le choix des balises, la manière de normaliser, etc.
Chaque projet reste spécifique et conserve sa logique documentaire. Ce sur quoi s'est mis d'accord c'est la définition d'un sous-ensemble commun de la TEI afin de définir une expression en Dublin Core.
Pour le moment partis sur RelaxNG et Schématron (qui permet une validation en ligne, avec interface web qui permet de disposer d'un message d'erreur).
Pour l'alimentation de la base, n'attend pas que chacun soumette ses fichiers un à un. Définition d'un protocole basé sur un sitemap : vous déclarez vos adresses web et vient moissonner.
Pour transformation des Header en notices OAI, utilise XSLT.
L'application côté OAI-PMH n'exploitent pas ces notices car un appauvrissement. Besoin d'exposition plus fine dans le cadre du.
PHP pour alimentation entrepôt.
Un wiki pour conserver la mémoire des décisions concernant les schémas Échantillon non-exhaustif Définition d'un schéma RelaxNG qu'il s'agit aujourd'hui de s'approprier.
Une réunion pour mise en commun. Premier prototype qui implémente un certain nombre de choses demandées. Prototype qui constitue un premier catalogue des corpus contenus dans le catalogue cahier. Regroupement des corpus par ensembles. Travail sur la répartition chronologique. Un échange long sur les dates, la logique consistant à retrouver Rabelais dans son siècle, etc. Alexei incitait à ajouter une date secondaire à la discrétion des producteurs pour fournir la date de l'édition.
Pour le moment une vue de travail sous forme tabulaire qui permet de disposer d'une première approche du corpus. En réalité le site propose des facettes (auteur, éditeur scientifique, facettes chronologiques). Il est ainsi possible de rentrer progressivement dans la profondeur du corpus. Bien évidemment discuter de ces interfaces pour trouver des solutions qui mettent bien en valeur vos production. Si vous devez faire émerger de nouvelles facettes, nous le signaler.
Nombreux TEI-header ne pointant vers aucun type de document. Donc impossible d'identifier de manière pérenne des ressources ou des manifestations. Savoir si l'on décide de publier des sources XML ou des applications de consultations. Le plus souvent ne récupère rien.
À la BFM une identification des fichiers, permet donc de pointer vers les fichiers. En tous les cas avoir une page qui permette de résoudre l'aiguillage, une solution efficace. En réalité, le plus bloquant pour nous c'est de disposer des données. Le modèle documentaire est là, le catalogue est là, le problème maintenant c'est de pouvoir exposer vos ressources afin que nous puissions les déclarer.
Lou : une remarque que fait tout le temps. S'agit-il uniquement de fournir un accès au document complet, ne serait-il pas possible d'avoir accès aux sous-parties du document XML ou à travers ses index.
Vincent : Du point de vue technique ne pense pas que nous pose particulièrement problème. Pour le moment avons prévu un fichier = une notice.
Lou : Un fichier c'est quoi ? Un document, un document complet.
Vincent : En avons discuté avec Stéphane, nous semble que de la responsabilité scientifique de l'éditeur que de définir sa granularité. Pas forcément pertinent de déclarer lettre à lettre une correspondance. En revanche lorsque certains éditeurs ont des fichiers TEI de type corpus avec fichiers très importants et lourds, alors besoin de le faire. Mais pour le moment pas encore été le cas.
Lou : Si fait balisage d'un texte juridique et identifiant au niveau de chaque paragraphe pourrait être très intéressant de pouvoir accéder directement au contenu sur la base du contenu indexé de ce paragraphe.
Vincent : Clairement pas prévu pour le moment dans le projet. Ne faisait pas parte du contrat, considère que la mise au point d'outils de fouille dans les contenus relèvent de la responsabilité des éditeurs proprement dits.
Marie-Luce : Oui pas le contrat. Le contrat consistait à moissonner seulement les header. Mais vrai que ce que tu as proposé ce matin, de pouvoir chercher tous les noms propres, tout à fait possible.
Vincent : Oui peut très bien travailler à la manière de déclarer les entités nommées, ou des catégories.
Emmanuelle : Orientation corpus d'auteurs. D'autres raisons qui font que peut avoir besoin d'autres niveaux de granularité, il y a des sous-ensembles qui justifient certains niveaux de granularité documentaires. Un cas de fichier de ce type à l'ENS. Mais pose de pb spécifiques, des fichiers trop important que ne peut pas forcément charger en DOM ou manipuler en SAX. Sort alors du périmètre défini initialement.
Moi : Auquel cas, il serait possible de fournir un sitemap listant les différents sous-éléments du corpus.
Vincent : Tout à fait c'est la logique : fournir un sitemap déclarant les ressources qu'ira ensuite crawler.
Calendrier (feuille de route) Voudraient absolument pouvoir disposer de fichiers. Réaliser une application sans fichiers exposés, se trouverait bloquer. Un rdv avec Stéphane Pouylleau car partie concernant l'entrepôt OAI pas encore tout à fait définie pour permettre une exploitation la plus fine possible par Isidore. Une livraison prévue pour le mois de mars. La facette des genres qui n'a de sens que dans le contexte de Cahier. Certaines facettes de recherche qui n'ont de sens que dans le contexte de Cahier. La raison pour laquelle précisait tout à l'heure que l'OAI seulement une expression du schéma. Ce Schéma devant être l'expression de vos besoins.
Aller consulter le schéma et l'interface et faites vos retours. Projet hébergé sur sourceforge, weboai.sourceforge.net/schema Tout n'est pas obligatoire. Aller lire la partie obligatoire, et la partie optionnelle. La partie obligatoire qui nécessite que soit absolument d'accord ensemble. D'un clic sur la balise accède aux guidelines, ne perd donc pas le lien avec la sémantique TEI. Le modèle est le même.
On propose sous les éléments l'interprétation dans une autre grammaire comme Dublin Core.
Lou : Comment pensez vous représenter les processing models ? C'est que de la prose, pas normalisé ?
Vincent : On avait fait des propositions à Rome avec Frédéric pour définir des processing (qu'appelait suggestions) de manière à mieux définir des éléments des guidelines, de manière à affiner la documentation. Pour ce faire avait proposé une typologie des éléments (type blob, inline, etc.)
Ici fait correspondre des champs avec des XPaths.
Emmanuelle : La seule chose qui vous manque ce sont des exemples qui seront pris dans les header du consortium
Vincent : On en a déjà pas mal, car plus de 200. Mais dans la documentation déjà un certain nombre d'exemples présents. Pour le TEI header minimal, ou lorsque de besoin. N'hésitez pas à faire remonter vos remarques si vous jugez que la documentation n'est pas encore explicite. Pour le moment en conformité avec un certain nombre de projets. Besoin de discuter avec Georges et Florane. Besoin de séance de travail pour finaliser les interfaces du portail afin de finaliser le développement. De notre côté travail à conduire sur OAI avec Pouylleau. Des réglages à faire pour se conformer aux spécifications d'Europeana et Gallica (mais réglages à faire).
Peut également aller voir le tableau de mapping
Voudrait inclure correspondance active et passive. Lettres de tiers. Des ambitions très larges. L'ouverture du chantier. Le cadre institutionnel, les moyens pour construire le site de consultation mais n'avons pas encore commencé à travailler. Idée de faire un index notionnel (plutôt que thématique) de la correspondance. L'idée est venue avant même l'achèvement du dernier volume (Tome 5) de la Pléïade. Cf. "Comment achever l'édition de la correspondance de Flaubert" où expliquait qu'un supplément qui aurait dû s'y trouver et que si à nouveau des lettres inédites, imaginer un supplément du supplément, et que si à nouveau supplément, alors support papier non pertinent. Il y a 6 ans achevait seulement le projet d'édition de Me Bovary. Depuis Bouvard et Pécuchet.
Mais sans y penser consciemment conditions de possibilités se sont mises en place à notre ainsu, et pouvons dire que l'idée faisait son chemin souverainement puisque dès 2000 proposait à une étudiante de constituer une base de données des entrées épistolaires. Regroupe les 4480 lettres publiées dans les deux volumes de la Pléïades. avec entrées qui s'imposent d'elles-mêmes : le destinataire, l'appellatif (cher ami, etc.), la date, formule finale, signature, incipit, et repérage dans l'édition de la Pléïade, et localisation dans les catalogues de vente à prix fixe ou aux enchères. À partir de ce tableau que va pouvoir engager la base de données. Opportunité avec ouverture grand réseau de recherche. Somme de 25 000 euros sur 3 ans. Rien à voir en terme de dimension financière avec l'échelle des réalisations ANR.
Partenariats institutionnels continués avec éditions précédentes. équipe de 100aine transcripteurs bénévoles de Bovary, 40 pour Pécuchet. Jean-Lou Trulard notre informaticien attitré. Corpus des œuvres souvent conservé en un seul lieu. Pour les lettres corpus dispersé, dispersé à l'image des destinataires, même si la chance d'avoir pu bénéficier d'un premier travail de regroupement. Premier problème, celui du repérage du corpus. Dans les instituions publiques pas très difficile, besoin d'établir des conventions. Institut (lieu particulier), Rouen, Bnf, BHVP, Arsenal, etc. Un travail de récupération et de retour au manuscrit autographe qui prendra du temps, la particularité d'un corpus épistolaire. Par ailleurs sans doute un corpus lacunaire car le destin de la correspondance.
Institutions privées, comme le musée des lettres et manuscrits qui a un statut privé. Les lettres dans des collections particulières (1/3 ou 1/4 imprimées). Plusieurs cas de figure, peut soit récupérer images lorsque propriétaires accueillants, fac-similé dans les catalogues de vente ou auprès des marchands, photocopies des autographes de mes prédécesseurs.
L'image d'une manuscrit s'impose moins dans le cadre d'une lettre que dans le cadre d'une œuvre. Manuscrit d'une œuvre lieu d'une élaboration intellectuelle et esthétique. Ne fera pas une édition génétique des lettres, en revanche servent à comprendre la genèse des œuvres. À quoi sert la production des fac-similé ? un intérêt émotionnel. Mais aussi certaines lettres qui valent pour leur scénographie (ex s'amuse à commenter les expressions qu'il utilise étant des lieux communs épistolaires. La disposition de cette lettre avec double rangée d'annotation difficile à faire passer en transcription.) Deuxième argument, les codes d'édition changent tous les 30 ans. Problème des graphies et de la ponctuation, etc. Aujourd'hui détractons toutes les normes mises en place, comme l'usage du tiret en double ponctuation "-.". À chaque fois que fait nouvelle édition, doit coller au matériau, alors utile pour l'avenir. Enfin offre la possibilité de corriger des erreurs. (ex "votre vieux débile" vs "votre vieux solide") Donner l'autographe, c'est donner la possibilité à ceux qui viendront après nous de corriger nos erreurs de déchiffrement.
Des disparités importantes dans la qualité des images (images numérisées, vs photocopies anciens éditeurs). Problèmes de droit d'éditeurs scientifiques, même si dans le domaine public. Donc ne va pas demander refaire édition pléiade car nous sera refusé. Fera donc une édition nouvelle, d'après les images, raison pour laquelle fera une édition diplomatique. Non pas fan de l'hyperdiplomatique, plutôt aide au déchiffrement du fac-similé : donc restitution intégrale mots-coupés en bout de ligne, et accents car n'apportent rien.
L'intérêt ajout en temps réel des lettres inédites. 5 à 10 par ans. Parfois apport important, par exemple peinture à ranger aux rang des arts secondaires. Autre avantage, affichage multiples, par exemple par type de signature, affichage par couple de lettre (envoyée/reçue). Autre partie qui nous rapprocherait : indexation thématique. Existence d'un index papier en Pléïade à adapter. Un index thématique par Charles Carlu qui date de 1968 : très courtes citations organisées en 6 niveaux. Lacunaire du fait de la publication de nouvelles lettres. Daté idéologiquement par les choix de catégories de classement. Remodelage index pas de difficultés particulières. Mais question du traitement de l'encodage de cette indexation. Plusieurs questions de méthodes se posent ainsi d'emblée : modalité d'annotation d'une même unité de contenu. Dialogue que doit pouvoir trouver sous-entrée relative à Me Bovary, et sous-entrée discours, etc. Baliser l'expression de façon qu'elle puisse se retrouver dans différentes entrées. "Dialogue trivial" retrouver trivial sous réalisme car critique de l'époque accuse Flaubert de trivialité. Besoin de déterminer l'amplitude et la granularité de l'indexation. Savoir si peut mettre des balises à l'intérieur de balises. Est-ce qu'il est souhaitable d'indexer, en plus des notions, des relations : celles de l'épistolier en relation à son propre discours, mais aussi entre les correspondants. Ces relata biens connus des historiens qui travaillent sur les égo-documents. Achat-vente, aide, amour, assisté à, le don, la parenté, le partage, la rencontre, etc. bref tout ce qui met en relation des correspondants.
Plusieurs difficultés au projet. Des transcripteurs volontaires. Avoir un cahier des charges suffisamment solide de sorte que dispose de fichiers homogènes. Disposer à terme d'une plate-forme de correspondance du 19e siècle. réfléchir à une interconnexion de ces correspondances, allant dans le sens même de la nature de la correspondance qui se prête bien à ces réseaux.
Christine : Travaille sur une correspondance littéraire et scientifique d'Ampère; N'a pas trouvé de Guidelines pour construire des header pour la correspondance. Tout à fait preneuse d'informations si des personnes qui ont travailler sur le sujet.
Un SIG mais arrêté en 2011 sans avoir produit une spécification.
Lou : Il existe deux ou trois projets qui ont suscité le même besoin. Un projet Flamand Calf, Van Gogh letters, proposition d'extensions (dans certains cas pense que pas nécessaires). C'est à discuter. Pense que la plupart des besoins peuvent être exprimés dans un schéma classique TEI. Ne croit pas qu'il y ait tellement de différence pour l'édition des correspondance et l'édition de brouillons d'auteurs. Peut s'imaginer l'addition de métadonnées de même pour d'autres types de documents.
Les informations spécifiques à l'épistolaire comme le lieu et la date sont enregistrable. Lieu déclaré de rédaction, lieu d'envoi. Un groupe de travail correspondancy, réunion en octobre 2013.
Item correspondance de Proust : Problème pour certaines lettres publiées dans le passé, noms censurés. Parfois récupère les lettres. Autre problème de balisage pour dire que manque.
Marie-Luce : il y a tout ce qu'il faut en TEI !
Lou : Non, il pourrait y avoir toutes les balises nécessaires en TEI ! mais, il faut proposer quelque chose de cohérent.
Nombreux points de convergeances, remercie pour les formations car important pour nourrir les projets.
Lorsqu'a adressé sa demande d'adhésion grand nombre de décisions pour donner pas en avant au projet, vient de recevoir financement ANR.
Fond sAlcides Giraldi qui vivait à Montevideo et côtoyé beaucoup de gens. Notamment côtoyé réfugiés républicains espagnols, etc. Fonds très importants. Collègues qui travaillent sur d'autres fonds.
Travail sur des manuscrits complexes, carnets écrits dans tous les sens, etc. Grande partie du classement qui a consisté à repérer les œuvres qui communique les unes avec les autres.
BQR Puis vacations Projet émergeant 2011-2012 pour la transcription des documents 2014 financement ANR jusqu'en 2017
Site SPIP Notices saisies sous Notix (logiciel libre). Plan de classement prévu par l'auteur. Volonté de respect de l'intentionnalité de l'auteur.
Demander un statut de membre correspondant ? Envisager une procédure d'intégration progressive (à l'exemple projet Chispa). Motiver cette demande par un courrier circonstancié.
Faire une présentation qui fasse état de la nature particulière de notre corpus. Le qualifier en regard aux corpus d'auteurs que le consortium se propose de réunir.
Expliquer ce que peut apporter. Un corpus manuscrit de grande ampleur (5 cours faisant l'objet d'une édition critique, 33 témoins transcrits diplomatiquement, parallélisation des versions) En termes de corpus déjà constitué et bien formé (Corpus TEI, Fichiers conformes TEI, Documentation ODD, métadonnées descriptives) Expérience cas particuliers alignement versions, texte/image Pluridisciplinarité du contenu (corpus de cours académique, architecture, droit et savoir professionel). [ne pas trop s'étendre car peu leur faire peur] Question de l'oralité et du passage à l'écrit ?
Ce que vient chercher : Mutualisation Maintient de l'édition vivante (ne se termine pas) Évolutions marginales pour garantir l'interopérabilité des contenus : OAI-PMH, maintenance, etc. sémantisation corpus Continuation de la publication avec découverte de nouveaux manuscrits et affinage de l'encodage et de l'indexation.
Objectifs : préserver éditer/diffuser échanger promouvoir (important car en Uruguay ne conserve pas car ne connaissent pas, conserve lorsque cela a un sens. Promotion pour annotation collaborative)
Discussion : Marie-Luce : très claire, voit bien le projet et la progression. Intéressant aussi car apporte contenu hispanique car contrairement aux apparences pas un consortium de francisants [argument valable pour l'inclusion de notre corpus]
Soutien MSH Lille, Item et MSH Tours
Il est possible de bénéfier d'Oxygen lorsque membres ANR, etc. Disposent d'un co-grille lundi pour bénéficier licences Oxygen
Demander un statut de membre correspondant ? Envisager une procédure d'intégration progressive (à l'exemple projet Chispa). Motiver cette demande par un courrier circonstancié.
Faire une présentation qui fasse état de la nature particulière de notre corpus. Le qualifier en regard aux corpus d'auteurs que le consortium se propose de réunir.
Expliquer ce que peut apporter Corpus en cours de constitution de grande ampleur Partage de compétence sur l'annotation et l'indexation sémantique d'un corpus complexe Développement d'expérimentations pour l'expression et la réutilisation de contenus exprimés en TEI. Mise au point d'outils de visualisation et de mashups
Ce que vient chercher : S'inscrire dans une communauté constitué Partage et mutualisation sur les bonnes pratiques Valorisation du corpus Participation à des formations et colloques
échanger avec d'autres porteurs de projets
Voir pour la création d'un consortium sur les données historiques avec Francesco