Digitizing Medieval Sources: L’édition en ligne de documents d’archives médiévaux 9782503584133, 2503584136

Cet ouvrage rassemble les communications présentées lors du colloque qui s'est tenu à Nancy, les 9 et 10 juin 2016,

195 60 2MB

French Pages 182 [184]

Report DMCA / Copyright

DOWNLOAD FILE

Polecaj historie

Digitizing Medieval Sources: L’édition en ligne de documents d’archives médiévaux
 9782503584133, 2503584136

Citation preview

Digitizing Medieval Sources – L’édition en ligne de documents d’archives médiévaux

ARTEM Atelier de Recherches sur les Textes Médiévaux

Volume 27 La collection est publiée à Nancy par le Centre de Recherche Universitaire Lorrain d’Histoire (Université de Lorraine, EA 3945)

Digitizing Medieval Sources – L’édition en ligne de documents d’archives médiévaux Challenges and Methodologies – Enjeux, méthodologie et défis

Édités par Christelle Balouzat-Loubet

F

© 2019, Brepols Publishers n.v., Turnhout, Belgium. All rights reserved. No part of this publication may be reproduced, stored in a retrieval system, or transmitted, in any form or by any means, electronic, mechanical, photocopying, recording, or otherwise without the prior permission of the publisher. D/2019/0095/59 ISBN 978-2-503-58413-3 eISBN 978-2-503-58414-0 DOI 10.1484/M.ARTEM-EB.5.117026 ISSN 1782-0286 eISSN 2565-9278 Printed in the EU on acid-free paper.

Christelle Balouzat-Loubet

Introduction

L’ensemble de la communauté historienne fait face depuis quelques années à un bouleversement épistémologique et méthodologique lié à l’introduction dans le champ de la recherche historique des Humanités numériques (Digital Humanities). Blogs et carnets de recherche, MOOCs, sites web, réseaux sociaux, bases de données fleurissent sur la toile, contribuant à la valorisation et la diffusion des savoirs scientifiques. En histoire médiévale, l’une des traductions de cette évolution est la multiplication des éditions en ligne d’actes et de documents d’archives, en particulier sous forme de bases de données. Les sources diplomatiques sont ainsi très présentes sur le web. La base de données Chartae galliae est consacrée aux actes écrits relatifs à la France (dans ses frontières actuelles) jusqu’à la fin du xiiie siècle1. Le site Chartae Burgundiae Medii Aevi (CBMA) donne accès au texte des chartes bourguignonnes mais aussi à des reproductions de cartulaires bourguignons2. Le projet Originaux 1121-1220, qui vise à mettre en ligne le texte et les photographies des chartes originales conservées en Lorraine3, fait suite à la publication de la base de données Originaux antérieurs à 1121, qui héberge les transcriptions de 5 000 chartes originales4. Le site caennais de recherche informatique et de publication des textes anciens, Scripta, prépare la publication électronique, également dans le cadre d’une base de données, d’un très large choix de chartes normandes, essentiellement des xe-xiiie siècles5. Dans les pays voisins, plusieurs projets sont actuellement en plein développement. Un laboratoire de Zürich a repris le projet des Plus anciens documents linguistiques de la France, en collaboration avec l’École nationale des Chartes et sous la direction de Martin Glessgen6. En Belgique, la Commission royale d’histoire prépare une nouvelle publication en ligne des chartes concernant le territoire belge actuel, dans le Thesaurus diplomaticus7. En Allemagne, la plupart des volumes d’éditions de



1 URL : (les liens suivants ont été consultés le 9 septembre 2019). 2 URL : http://www.cbma-project.eu/. 3 URL : http://www.cn-telma.fr/originaux2/. 4 URL : http://www.cn-telma.fr/originaux/. 5 URL : http://www.unicaen.fr/recherche/mrsh/document_numerique/projets/scripta. 6 URL : http://www.rose.uzh.ch/docling/. 7 URL : https://www.diplomata-belgica.be/about_fr.html Christelle Balouzat-Loubet  Université de Lorraine, CRULH, F-54000 Nancy, France

6

chr is te l l e b alo uz at- lo u b e t

diplômes est déjà en ligne sur le site des Monumenta Germaniae Historica8. Un projet européen, Monasterium.net9, propose le texte de 200 000 chartes d’Allemagne, d’Italie, de Hongrie, Autriche, Suisse, Slovénie, Slovaquie, République Tchèque, Serbie. Toutes ces réalisations sont utilement complétées par le programme SIGILLA (base de données des sceaux conservés en France), initié en 2013, qui vise à élaborer une base de données illustrée des empreintes, matrices, moulages et dessins des sceaux conservés dans les collections et archives françaises10. Par ailleurs, les éditions de sources comptables, quoiqu’encore assez rares, commencent à investir le net. En France, il faut signaler les projets castellanie.net11 – qui a pour vocation de mettre à disposition du public la documentation comptable locale des anciens États de Savoie – et GEMMA (Genèse médiévale d’une méthode administrative)12 – qui vise à la publication en ligne des principaux éléments des séries comptables actuellement conservées pour le Dauphiné, la Savoie, la Provence et le Venaissin. En Grande-Bretagne, le site du Gascon Rolls Project héberge les analyses de tous les Rolls gascons entre 1317 et 1468, ainsi que les transcriptions et traductions d’une sélection de rôles et d’entrées13. Un autre projet, The Henry III Fine Rolls Project14, présente des photographies et analyses des comptes d’Henri III (1216–1272). Le succès de ces éditions en ligne, qui se substituent de plus en plus souvent aux traditionnelles éditions sur support papier, montre que les médiévistes s’approprient désormais les outils numériques, ce qui ne va pas sans susciter de nombreuses et nouvelles questions heuristiques, comme en témoignent les multiples manifestations scientifiques organisées sur le thème des Humanités numériques. Éditer en ligne, ce n’est pas transposer le modèle de l’édition papier sur un support informatique. La démarche impose donc une réflexion approfondie pour permettre l’adéquation entre l’objectif scientifique à atteindre d’une part, les contraintes techniques, financières et juridiques imposées par l’usage de l’outil numérique d’autre part. Le présent ouvrage publie les communications prononcées lors d’un colloque organisé à Nancy en juin 2016 dans le cadre du programme ANR-FNR TRANSSCRIPT (coord. I. Guyot-Bachy et M. Margue). Cette rencontre, qui a permis de mesurer la richesse des réalisations dans le domaine de l’édition de bases de données en ligne, a également montré combien l’usage du numérique contribue aujourd’hui au renouvellement du paysage éditorial en Sciences Humaines et Sociales, et plus particulièrement en histoire médiévale.

8 9 10 11 12 13 14

URL : http://www.dmgh.de. URL : http://monasterium.net/mom/home. URL : http://www.sigilla.org/. URL : http://www.castellanie.net. URL : http://ressourcescomptables.huma-num.fr. URL : http://www.gasconrolls.org/fr/. URL : http://www.finerollshenry3.org.uk/home.html.

Jean-Philippe Genet

Le référencement

Cette présentation, dont les organisateurs du colloque que je remercie vivement pour leur invitation ont voulu faire une introduction, est quelque peu marginale par rapport au sujet principal de la rencontre, puisqu’elle n’est pas consacrée à l’édition des sources numériques stricto sensu, mais au développement des bases de données. Mais celles-ci ont aussi leurs éditeurs, et si une base de données n’est qu’une métasource1, elle comporte souvent dans l’une de ses composantes des éditions de sources. En l’occurrence, notre expérience découle de la création et du développement de quatre bases, Meditext (une bibliothèque de textes médiévaux numérisés en langues latine, française et anglaise, accessible à partir de la plateforme PALM développée sur Humanum par Mourad Aouini)2, Bib (livres possédés par des individus en Angleterre jusqu’en 1550)3, HP (les auteurs actifs dans le domaine des champs de l’histoire et du politique en Angleterre entre 1300 et 1600), en ligne4, et Studium (les étudiants et les maîtres des écoles et de l’université de Paris des origines à 1500)5, des bases qui sont toutes dédiées à la prosopographie et à la constitution de matériaux permettant une approche quantitative de l’histoire culturelle médiévale. C’est à partir du cas de la dernière de ces bases, Studium, que l’on se propose d’aborder ici un problème auquel les développements actuels de l’internet imposent de prêter attention et qui semble pourtant n’avoir que rarement été abordé en tant que tel, celui du référencement. La base Studium est conçue comme un répertoire biobibliographique : elle est destinée à centraliser toutes les informations disponibles sur les étudiants, les maîtres et d’une façon générale tous les suppôts des écoles parisiennes et les personnes qui interviennent dans leur histoire. Son moteur est le logiciel PROSOP, qui devait

1 J.-Ph. Genet, « Source, métasource, texte, histoire », in F. Bocchi et P. Denley (éd.), Storia & Multimedia, Atti del Settimo Congresso Internazionale, Association for History and Computing, Bologne, 1994, p. 3-17. 2 (les liens suivants ont été consultés le 26 janvier 2018). 3 Cette base, en cours de développement, n’est pas encore en ligne. 4 http://lamop-intranet.univ-paris1.fr/auteurs_anglais/. 5 http://lamop-vs3.univ-paris1.fr/studium/faces/index.xhtml. Jean-Philippe Genet  LAMOP (UMR 8589 CNRS/Université Paris 1 Panthéon-Sorbonne) Digitizing Medieval Sources – L’édition en ligne de documents d’archives médiévaux : Challenges and Methodologies – Enjeux, méthodologie et défis, éd. par Christelle Loubet, Turnhout, 2019 (Atelier de Recherches sur les Textes Médiévaux, 27), p. 7-22 © FHG10.1484/M.ARTEM-EB.5.117325

8

j e a n -p hi l i p p e g e n e t

initialement être disponible en dehors de la base, mais son développement n’a pu atteindre ce stade. La collecte des données disponibles, préalable à des dépouillements nouveaux, est encore loin d’être achevée, et seuls les individus dont la lettre initiale du prénom latin sous sa forme classique (ainsi trouverons-nous sous la forme AEGIDIUS Romanus Gilles de Rome dont il sera question plus loin, avec les « Egidius », « Gilles » et « Gilot ») est comprise entre A à F ont fait l’objet de fiches à peu près complètes. Pour les lettres suivantes, la collecte est encore très lacunaire, ce qui n’empêche que 13582 notices biobibliographiques sont en ligne et 6000 autres sont en cours de rédaction. C’est beaucoup, mais il faut se rappeler que près de la moitié des étudiants parisiens médiévaux sont prénommés « Johannes » et que le second prénom le plus répandu est « Guillelmus » : tout cela laisse prévoir que la population totale de la base sera comprise entre 30 et 40000 individus6. On considérera tour à tour trois types de référencement, le référencement interne (introduction d’une référence à l’intérieur de la base), le référencement externe (référence par un lien internet à un ensemble documentaire numérisé extérieur à la base) et la référence intégrée (intégration de la source à la structure de la base par l’intermédiaire d’une ontologie).

Le référencement interne Il y a référencement interne quand on associe à une information contenue dans la base une mention explicite de la source, primaire ou secondaire, dont elle est tirée. En principe, il s’agit là de l’une des règles de base du travail de l’historien critique, mais c’était chose impossible ou du moins très difficile jusqu’à une époque récente dans les bases de données heuristiques construites avec les systèmes de gestion de bases de données classiques (DBase, Access, 4D etc.). Dans une base comme Studium, dont les caractéristiques techniques ne seront pas détaillées ici mais dont il suffit de savoir que toutes les données sont transcrites automatiquement en langage XML à partir d’un enregistrement en langage naturel (donc non codé)7, les connaissances sont présentées dans la mesure du possible sous la forme d’un triplet information-commentaire-référence8. Dans l’écriture en langage naturel, la liberté du rédacteur est non pas limitée, mais orientée, les séquences biographiques et bibliographiques étant structurées en paragraphes, qui possèdent un numéro, et en sous-paragraphes, marqués par une lettre9 : l’information brute, en particulier,

6 J.-Ph. Genet et al., « General introduction to the Studium project », Medieval Prosopography, 31 (2016), p. 155-170 et J.-Ph. Genet, « Studium Parisiense, un répertoire informatisé des écoles et de l’université de Paris », Annali di Storia delle Università Italiane, XXI/1 (2017), p. 25-74. 7 La structure XML de la base est consultable dans J.-Ph. Genet, « Studium Parisiense… », art. cit., p. 46-53. 8 L’accumulation des commentaires et des références peut cependant faire obstacle à une prise de connaissance rapide des informations : un bouton permet de les masquer si on le souhaite. 9 Un livret contenant les règles de rédaction et la liste des paragraphes est disponible sur la page « Aide » de la base. Un exemple de rédaction d’une fiche bio-bibliographique (celle de Nicolas Oresme) est donné dans J.-Ph. Genet, « Studium Parisiense… », art. cit., p. 54-74.

le ré f é re nce me nt

premier élément du triplet, est plus ou moins formatée selon le numéro du paragraphe. Ainsi en 5b (l’université fréquentée), le nom de l’université est toujours en première position ; les relations interpersonnelles sont rédigées sous la forme « son père est untel » (3b, relations familiale), « son maître est » ou « son élève est » (3l, relations pédagogiques) etc. Cette écriture permet d’utiliser la ligne d’information pour des recherches qui peuvent être présentées sous forme de tables et exportées en format CSV et traitées directement sous Excel, ou par ANALYSE, une interface web s’appuyant sur R afin de mettre en œuvre des méthodes de statistiques descriptives d’analyses factorielles et de classification sur des tableaux de données envoyés par l’utilisateur à partir d’un navigateur web que met au point le PIREH sous la direction de Stéphane Lamassé10. Il sera également possible de faire directement des requêtes avec CLIO-XML, un logiciel également développé par le PIREH, qui permet de manipuler les fichiers XML et d’exporter les résultats soit vers des tableurs, soit vers des logiciels d’analyse lexicale (Lexico3, TXM, HYPERBASE). Le second élément du triplet est le commentaire : il est totalement libre, et c’est ici que sont introduites les citations extraites des sources, qui sont ainsi de facto numérisées. Par exemple, les commentaires du 5c contiennent la reproduction intégrale de la phrase qui, dans les registres des procureurs et des receveurs des nations dont nous avons conservé les registres, indique le montant de la bourse de l’étudiant, ou celle qui enregistre les contributions pour la joyeuse entrée et la cappa du recteur. Le niveau de la bourse est en effet une indication précieuse sur le statut social de l’étudiant. On pourra par exemple consulter les biobibliographies de quelques étudiants lorrains (il y en a pour le moment près de 130 dans la base, par exemple l’un des nombreux DESIDIRIUS du diocèse de Toul : DESIDIRIUS de Drovilla, DESIDIRIUS Mengini, DESIDIRIUS de Mericuria …) en demandant par la fonction recherche les fiches des étudiants originaires de Lorraine (région d’origine, correspondant au paragraphe 2a) ou des diocèses de Toul, Metz et Verdun (diocèse d’origine, paragraphe 2b). D’autres documents provenant notamment du Chartularium I-IV et de l’Auctarium I-VI (la source principale des fiches de Studium)11, sont intégralement reproduits quand cela a paru utile (voir par exemple la fiche de FRANCISCUS Ferrebouc). Et nous arrivons à la référence, troisième élément du triplet. Le principe que chaque information est pourvue d’une référence est globalement observé, même s’il n’a pas toujours été totalement respecté par les rédacteurs quand l’information était reprise de sources secondaires considérées comme fiables, telles que les notices

10 http://analyse.univ-paris1.fr/. 11 Pour le Chartularium, H. Denifle et É. Chatelain, Chartularium Universitatis Parisiensis, 4 vol., Paris, Delalain, 1889-1897 (désormais abrégé CUP) et pour l’Auctarium, les volumes I-III sont H. Denifle et E. Chatelain, Liber procuratorum nationis anglicanae (alemanniae) in Universitate Parisiensi, 2 vol., Paris, Delalain, 1894-1897 pour 1333-1466, continué par Ch. Samaran et E. A. Van Moé pour 1466-1492, Paris, H. Didier, 1935 ; le volume IV est Ch. Samaran et E. A. Van Moé, éds., Liber procuratorum nationis Picardiae in Universitate Parisiensi, H. Didier, Paris, 1938 (pour 14761484) ; le volume V est Ch. Samaran et E. A. Van Moé (éd.), Liber procuratorum nationis gallicanae (Franciae) in Universitate Parisiensi, Paris, H. Didier, 1938 et le VI, A. L. Gabriel et G. C. Boyce, Liber receptorum nationis anglicanae (alemanniae) in Universitate Parisiensi, Paris, 1964 (1424-1493).

9

10

j e a n -p hi l i p p e g e n e t

biographiques du Dizionario Biografico degli Italiani ou de l’Oxford Dictionary of National Biography, par exemple, qui sont référencées dans la rubrique « Bibliographie » de chaque fiche. Ces références renvoient de façon tout à fait classique à des éléments de bibliographie ou à des sources d’archive, mais elles peuvent aussi renvoyer à des sites du web : lorsque c’est le cas, on sort du cadre du référencement interne pour passer à ce que l’on peut appeler le référencement externe, puisqu’il ouvre dans la base une fenêtre qui la fait communiquer avec l’extérieur.

Le référencement externe et la mise en réseau Le référencement externe est potentiellement infini ! Un texte célèbre, au moins chez les géographes, de José Luis Borgès, raconte l’histoire de la carte de la Chine à l’échelle de 1 sur 1 : elle n’est rien d’autre que la Chine elle-même, comme si la meilleure image de la réalité ne pouvait être que la réalité elle-même, ou comme le dit de son côté Lewis Caroll, comme si la meilleure carte du pays n’était le pays luimême12. Les références peuvent être infinies mais elles sont souvent décevantes par leur généralité (voir les mots en bleu de Wikipedia) et il faut si l’on veut être efficace, essayer de les limiter à ce qui est réellement utile. On peut chercher une solution du côté de l’interopérabilité qui peut apparaître, du moins dans son principe, comme un bon moyen de contourner l’obstacle de la résistance du réel, mais les problèmes qu’elle pose sont encore loin d’être résolus et le référencement externe s’avère pour le moment un nid de problèmes plutôt épineux13, mais qu’il faut nécessairement affronter et essayer de démêler. On prendra ici l’exemple du référencement des manuscrits. Bien des bibliothèques ont une politique de numérisation extrêmement dynamique et nous permettent de disposer des versions numérisées de beaucoup d’incunables et d’un nombre rapidement croissant de manuscrits. Cette abondance relative n’est sans doute pas sans poser des problèmes aux éditeurs de sources numérisées, qui doivent en tous cas en tenir compte, puisque leurs lecteurs vont désormais avoir de plus en plus souvent accès en ligne aux manuscrits des textes qu’ils éditent et auront donc l’opportunité de valider ou non leur stemma ou leurs leçons. Il est évidemment très utile de pouvoir vérifier immédiatement un détail du texte ou évaluer la diffusion d’un texte en affichant d’un seul clic les textes des manuscrits à partir de la liste des œuvres. L’introduction de ces liens apparaît donc comme un complément indispensable aux listes de manuscrits fournies dans une édition ou un répertoire.

12 Les textes sont cités et discutés par G. Palsky, « Borges, Carrol et la carte au 1/1 », Cybergeo. Cartographie, Imagerie, Sig, 106 (1999) [en ligne], disponible sur (consulté le 26 janvier 2018) et J. L. Borges, L´auteur et autres textes, Paris, Gallimard, 3e édition, [1946] 1982, p. 199 et L. Carroll, Œuvres, tome 2, Paris, Laffont, 1989, p. 15-16. 13 Voir à ce propos M. Bonicel, « Hypertexte et manuscrits. Le défi de l’interopérabilité », Revue de la BNF, 42/3 (2013), [en ligne], disponible sur (consulté le 26 janvier 2018).

le ré f é re nce me nt

Mais les opérations de numérisation entreprises par les bibliothèques posent aussi de sérieux problèmes dans le cas de Studium, puisque nous avons pris le parti pour chaque universitaire qui est aussi un auteur de donner la liste de ses œuvres, et pour chacune de ces œuvres, de détailler une liste aussi complète que possible des manuscrits et des éditions anciennes (c’est-à-dire jusqu’à 1700) existant. Se pose donc le problème du référencement des manuscrits numérisés. Pour le moment, il y a 458 auteurs répertoriés pour les lettres de A (ABEL de Sancto Brioco) à Ge (GEORGIUS Bruxellensis) et beaucoup d’autres fiches biobibliographiques ont déjà été faites pour les lettres suivantes (par exemple, JOHANNES Saresberiensis ou NICOLAUS Oresme)14 : à terme, la base comptera plus de 1300 auteurs. Ces fiches génèrent plusieurs milliers de référence à des manuscrits. Ayant été jusqu’à présent le rédacteur de la grande majorité des notices concernant les auteurs, j’ai pu constater que ce travail de référencement était difficile et chronophage et j’ai voulu en tester la faisabilité sur le cas de l’un des maîtres parisiens les plus importants et pour lequel on dispose d’une bonne base d’informations, Gilles de Rome (AEGIDIUS Romanus, donc)15. Il fallait voir à son propos s’il était possible de mettre au point une méthodologie efficace. Avec celles d’Albertus Magnus, Bonaventura et Galterius Burley, la biobibliographie de Gilles est à ce jour l’une des plus volumineuses de Studium (408 000 caractères). Pour les impressions anciennes, le Gesamtkatalog s’avère ici un excellent outil de travail16, puisqu’il semble faire référence à toutes les numérisations d’incunables. Pour les manuscrits, c’est une toute autre affaire : tout d’abord, en dépit d’un gros travail de recensement d’une équipe de philosophes florentins qui avait entrepris le catalogage systématique des manuscrits contenant des œuvres de Gilles (mais sans prendre systématiquement en compte l’œuvre liturgique, ce qui augmenterait certainement le nombre des manuscrits) dont la publication a été malheureusement interrompue17, du travail d’Adolar Zumkeller pour l’Allemagne

14 Voir note 8 supra. 15 C’est l’« Egidius Columna » du Gesamtkatalog, Egidio Romano ou Giles of Rome : vingt formes sont recensées dans VIAF le fichier d’autorité international virtuel : le permalink est ID VIAF 23122119. L’appellation « Columna » ou « Colonna » qui est encore très répandue dans les catalogues est pourtant tout à fait fautive. On dispose depuis peu d’un excellent point de départ pour étudier Gilles de Rome : Ch. Briggs et P. S. Eardley (ed.), A Companion to Giles of Rome, LeydeBoston, Brill, 2016. 16 http://www.gesamtkatalogderwiegendrucke.de/. 17 B. Faes de Mottoni et C. Luna, Aegidii Romani. Opera Omnia I/1, Catalogo dei Manoscritti, Città = del = Vaticano, Biblioteca Apostolica Vaticana, Florence, L. S. Olchski, 1987 ; F. Del Punta et C. Luna, Aegidii Romani. Opera Omnia I, Catalogo dei Manoscritti 3* (Francia: Dipartimenti), Florence, L. S. Olchski, 1987 ; C. Luna, Aegidii Romani. Opera Omnia I, Catalogo dei Manoscritti 3** (Francia: Parigi), Florence, L. S. Olchski, 1988 ; F. Del Punta et C. Luna, Aegidii Romani. Opera Omnia I, Catalogo dei Manoscritti 2* (Italia: Firenze, Padova, Venezia), Florence, L. S. Olchski, 1989 ; B. Faes de Mottoni, Aegidii Romani. Opera Omnia I, Catalogo dei Manoscritti (293-372) 1/5*, Repubblica Federale di Germania (Monaco), Florence, L. S. Olchski, 1990 ; F. Del Punta et C. Luna, Aegidii Romani. Opera Omnia I, Catalogo dei Manoscritti (1000-1075). De Regimine Principum, 1/11, Città del VaticanoItalia, Florence, L. S. Olchski, 1993 ; F. Del Punta, B. Faes de Mottoni et C. Luna, Aegidii Romani. Opera Omnia. (152-238j). 1, Italia. 2, (Assisi-Venezia), Florence, L. S. Olchski, 1998.

11

12

j e a n -p hi l i p p e g e n e t

et l’Europe centrale18, et de recherches récentes sur le De regimine principum19, il n’existe pas de catalogue des manuscrits de Gilles de Rome, les listes existantes, y compris celles fournies par le site Mirabile20, au demeurant précieuses, étant loin d’être complètes. La liste des manuscrits que j’ai pu établir, et qui évolue sans cesse, n’est donc certainement pas exhaustive. En outre, il faut tenir compte des notices floues ou incertaines des catalogues de manuscrits, et des œuvres dont l’attribution à Gilles de Rome est plus ou moins contestée (par exemple, le De erroribus philosophorum ou les hymnes, l’Hymnus ad faciem Salvatoris ou le Patris sapientia). Le travail se fait pour le moment sur une liste de 1235 manuscrits contenant une ou plusieurs des 97 œuvres généralement attribuées à Gilles de Rome (sur les 1300 recensés aujourd’hui). Encore faut-il passer de cette liste aux manuscrits numérisés : or, il n’existe à ce jour aucun catalogue systématique des manuscrits numérisés. Marc Smith et Dominique Stutzmann ont établi une sorte de guide dans Ménestrel21 : mais la dernière mise à jour remonte à mars 2016 et beaucoup de liens ne fonctionnaient déjà plus en juillet 2017 (notamment pour la France). Ceci n’est nullement une critique, mais un simple constat qui vaut pour toutes les entreprises du même genre, notamment les trois sites qui ont la même ambition de répertorier des accès aux manuscrits numérisés : en effet, les bibliothèques changent sans cesse les adresses sans trop se soucier des utilisateurs. Les trois sites qui doivent être utilisés en complément à Ménestrel sont DMMap, un projet mené par le Sexy Codicology Team, où l’on accède aux bibliothèques à partir d’une carte22, Medieval Manuscripts on the Net, développé par Siân Echard à l’Université de British Columbia23, et enfin la liste créée par Albrecht Diem, de l’Université de Syracuse, dans le cadre du projet Early Medieval Monasticism24. L’utilisation de certaines entreprises de recensements nationaux est également indispensable, surtout quand elles sont associées à la numérisation des catalogues, comme c’est le cas pour l’Allemagne25 et pour l’Autriche26. Sont utiles aussi, à un moindre degré, les sites pour l’Italie27 ou pour les États-Unis28. Certaines collections qui donnent dans un même ensemble accès à plusieurs bibliothèques, comme la Bibliothèque virtuelle des manuscrits médiévaux mise en ligne par l’Institut de Recherche et d’Histoire des

18 A. Zumkeller, Manuskripte von Werken der Autoren des Augustiner-Eremitenordens in mitteleuropäischen Bibliotheken, (Cassiciacum, 20) Würzbourg, 1966. 19 Ch. Briggs, Giles of Rome’s De Regimine Principum. Reading and Writing Politics at Court and University, c. 1275-c. 1525, Cambridge, Cambridge University Press, 1999 et N.-L. Perret, Les traductions françaises du De Regimine principum de Gilles de Rome. Parcours matériel, culturel et intellectuel d’un discours sur l’éducation, Leyde-Boston, Brill, 2011. 20 Disponible sur le site de la Società Internazionale per lo Studio del Medioevo Latino et de la Fondazione Ezio Franceschini ONLUS di Firenze http://sip.mirabileweb.it/. 21 http://www.menestrel.fr/spip.php?rubrique1274&lang = fr. 22 http://digitizedmedievalmanuscripts.org/app/. 23 http://faculty.arts.ubc.ca/sechard/512digms.htm. 24 http://www.earlymedievalmonasticism.org/listoflinks.html. 25 http://www.manuscripta-mediaevalia.de/#|4. 26 http://manuscripta.at/m1/digitalisate.php. 27 http://www.internetculturale.it/opencms/opencms/it/. 28 http://www.digital-scriptorium.org/.

le ré f é re nce me nt

Textes de Paris29, rendent également de grands services, mais dans bien des cas, il faut avoir recours directement aux sites des bibliothèques elles-mêmes, qui réservent bien des surprises, la plupart du temps mauvaises. Ainsi, les cotes des manuscrits disparaissent malencontreusement sur les descriptifs des manuscrits numérisés de la Bibliothèque nationale de Vienne (qui est loin d’être la seule dans ce cas)30, et il faut parfois chercher longtemps sur certains sites qui mettent en valeur tout sauf leurs manuscrits pour découvrir que certains d’entre eux ont bien été numérisés. Mais il y a heureusement quelques sites exemplaires, à commencer par celui de la Bibliothèque Vaticane à Rome31 et celui de la Bibliothèque nationale de France à Paris32. Ce tour d’horizon un peu désabusé permet de mieux comprendre à quel point il est difficile de tenir à jour une liste de manuscrits numérisés. Celle qui avait été présentée à Nancy en juin 2016 contenait 135 liens : elle en comporte aujourd’hui, un an après, 230, soit presqu’un doublement en un an. La table 1 montre que dans l’état actuel de nos connaissances sur les manuscrits de Gilles de Rome, une veille efficace devrait porter sur 252 bibliothèques, dont au moins 45 ont commencé à numériser des manuscrits de Gilles. En effet, si le rythme de progression est rapide, il est aléatoire, chaque bibliothèque ayant sa propre politique, qui ne fait pas forcément la part belle aux manuscrits latins et à la scolastique : la British Library a ainsi choisi de numériser massivement ses exceptionnelles collections de manuscrits orientaux, arabes, indiens et chinois, et ses dossiers photographiques ; quant aux bibliothèques allemandes, elles privilégient plutôt leurs manuscrits germaniques : il faudra sans doute attendre longtemps avant de disposer de la numérisation de tous les manuscrits de Gilles de Rome. Mais même incomplète, la numérisation rend d’immenses services. On peut prendre le cas du De regimine principum, qui est à proprement parler le premier véritable texte politique du Moyen Âge dans la mesure où c’est le premier qui se fonde sur le texte des œuvres d’Aristote, y compris la Politique récemment redécouverte, pour proposer à un large public une analyse de ce qu’est le « gouvernement », un concept tout aussi récent. Le texte a eu un immense succès, puisqu’il en existe 424 manuscrits, sous une forme ou sous une autre, allant du manuscrit enluminé destiné à un prince aux extraits sous forme de proverbes ou d’aphorismes griffonnés dans un recueil personnel, pour 41 versions en 10 langues. Et le texte a connu au moins neuf éditions imprimées avant 1600. Il s’agit donc d’un véritable océan documentaire, et il est donc extrêmement utile de disposer de 64 manuscrits numérisés qui permettent de préciser les enjeux de cette diffusion, notamment dans la perspective de la laïcisation de la culture savante à la fin du Moyen Âge. Il n’en est que plus regrettable que l’on

29  : elle donne accès à de nombreuses bibliothèques françaises à Paris (hors Bibliothèque nationale de France) et de province. 30 https://www.onb.ac.at/digitale-bibliothek-kataloge/. 31 http://digi.vatlib.it/mss/. 32 Du moins une fois que l’on a compris qu’il faut se rendre sur l’onglet « Archives et manuscrits » pour atteindre le catalogue des manuscrits numérisés (). Le site est d’une très grande richesse, mais les adresses n’ont pas la simplicité de celles de la Bibliothèque Vaticane où l’on retrouve la cote.

13

14

j e a n -p hi l i p p e g e n e t

Figure 1 : Les bibliothèques et la numérisation des manuscrits de Gilles de Rome

Pays

Nombre de Bibliothèques Bibliothèques

Allemagne

49

Australie Autriche

1 18

Belgique Danemark Espagne

5 1 12

États-Unis

11

France

37

dont : Bonn UB Dresden LB Greifswald Geistliches Ministerium Greifswald UB Heidelberg UB Leipzig UB Lüneburg München SBB Naumburg Zeitz Melbourne Victoria St.L. dont : Klagenfurt UB Lilienfeld StiftsB. Wien ÖNB

dont : Madrid BN dont : Baltimore, John Hopkins Berkeley New York, Columbia UL San Marino, Huntington dont : Amiens BM Besançon BM Bordeaux BM Charleville-Mézières Chartres Le Mans Paris B. Arsenal Paris BnF Reims Rennes Saint-Omer Toulouse

Nombre de Nombre de manuscrits manuscrits d’Aegidius numérisés 291 1 5 2

37 1 1 2

1 1 14 7 84 1 2 1 56 1 4 24 22 8 51 20 18 1 1 2 1 217 2 3 10 1 1 1 11 88 6 1 1 8

1 1 5 4 20 1 1 1 6 1 4 1

15 15 5 1 1 2 1 75 2 1 10 1 1 1 1 43 2 1 1 6

le ré f é re nce me nt

Pays

Nombre de Bibliothèques Bibliothèques

Grande-Bretagne 26

Hongrie Italie

4 63

Pays-Bas

2

Pologne

7

Portugal Russie Suède Suisse

1 2 1 3

Troyes dont : Cambridge Corpus Christi College London, BL Oxford Balliol College dont : Assisi, BC Bologna, Coll. di Spagna Firenze, BML dont : Leiden, BU dont : Kraków, BU Jagiel. Wroclaw, BU

Genève, BU Tchéquie U. Sud-Africaine Vatican

7 1 1

15

Nombre de Nombre de manuscrits manuscrits d’Aegidius numérisés 12 120 3

5 7 3

30 5 4 241

1 3

6 5 27 18 4 1 2 9 9 1 20 1 132

12 1 3 8 1 3 1 2

1 1

69

ne dispose pas d’une édition moderne : du moins les textes latin et français (dans la traduction d’Henri de Gauchi) du De regimine sont-ils disponibles sur le site de PALM33, dans un format spécialement préparé pour les traitements textométriques sous TXM34, Lexico335 ou Hyperbase36. En tous cas, au terme de cette expérience et dans l’état actuel des choses, il paraît très difficile d’envisager un référencement externe systématique des manuscrits, sans compter qu’il faudrait faire la même chose pour les incunables et pour les éditions, voire pour les textes bruts numérisés en vue d’un traitement textométrique. Le 33 PALM, . PALM est développé par Mourad Aouini et supervisé par un groupe de travail où il est associé à Laura Albiero, Christopher Fletcher, Aude Mairey et moi-même. 34 http://textometrie.ens-lyon.fr/. 35 http://www.lexi-co.com/. 36 http://ancilla.unice.fr/.

16

j e a n -p hi l i p p e g e n e t

problème principal que pose cette situation est celui de la mise à jour et de la veille qu’elle impose : d’où l’intérêt des sites dédiés à un seul auteur, pour lequel le suivi est à peu près assuré et vers lesquels on peut renvoyer, comme c’est le cas pour un Albert le Grand ou un Maître Eckhart. La solution générale à ce problème doit être cherchée dans un catalogage collectif entrepris par les bibliothèques elles-mêmes dans un cadre collaboratif international, par exemple sous l’égide d’Europeana37 ou du Consortium of European Research Libraries38 : en attendant, la perte de temps pour les chercheurs reste un obstacle que beaucoup se refuseront à franchir.

Le référencement intégré Ce que l’on propose ici d’appeler référencement intégré est tout autre chose. Depuis quelques années, les bases de données connaissent une véritable révolution qui est loin de s’être encore complètement matérialisée dans le domaine des sciences de l’homme, celle des ontologies. Jusqu’ici, la structure des bases de données reposait sur la variable, un concept qui, s’il est loin d’être aussi simple qu’il n’y paraît, est censé rester maîtrisable par le chercheur du fait de son statut d’expert dans son domaine d’activité. Si l’on revient à l’exemple de Studium, la différenciation des grades dans la variable « études » se présente comme une liste où il revient à l’expert d’établir – ou non – une différenciation entre les éléments d’une liste et la réalité qu’ils recouvrent. Par exemple, pour ce qui est du titre de « bachelier ès arts », nous avons accepté une équivalence entre déterminants et sous-déterminants et considéré que bien qu’ils n’aient pas formellement accédé à la maîtrise, les licenciés en décret ou en théologie pouvaient entrer dans la catégorie générale des « maîtres » à la différence des licenciés ès arts qui en sont au contraire exclus. Si le référencement interne ou le référencement externe peuvent renvoyer à des sources, éventuellement numérisées à l’appui de ces choix, la source n’est pas présente dans la base : elle ne se substitue pas au concept qui, en l’interprétant, devient l’élément structurant de la base. C’est précisément ce travail de conceptualisation des variables qui donne toute sa valeur à une base de données et lui confère sa plus ou moins grande efficacité heuristique. Mais, même si elles sont hiérarchisées ou arrangées dans une suite logique, les variables sont une liste, et la structure d’une telle base de données n’est qu’une structure de liste, qui revient à la liste des choix du concepteur de la base. Les bases de données relationnelles permettent tout au plus de complexifier cette structure en établissant un lien entre deux listes ou plus : par exemple, dans le cas de Studium, on peut établir une relation entre des auteurs décrits par une suite de variables biographiques et une suite de textes décrits par une série de variables documentaires (titre, manuscrits, éditions), linguistiques (langue du texte, langues de ses traductions), formels (prose ou vers, genre) ou liées aux contenus. On peut cependant dépasser ce stade qui est celui des bases de données relationnelles en ayant recours aux ontologies.

37 http://www.europeana.eu/portal/fr/. 38 https://www.cerl.org/.

le ré f é re nce me nt

Je dois à Matthieu Bonicel, qui a fait sous ma direction sa thèse de l’École des chartes en 2006 puis sa thèse de doctorat et qui est aujourd’hui chargé de la numérisation à la Bibliothèque nationale de France39, et à Stéphane Lamassé, qui a été l’initiateur d’une coopération avec Cédric Du Mouza, de l’équipe ISID (ingénierie des systèmes d’information et de développement)40, dirigée par Jacky Akoka au sein du CEDRIC41, un laboratoire du CNAM, qui a abouti à l’élaboration d’un projet d’ANR, DAPHNE, qui a été accepté et débutera ses travaux en avril 2018, d’avoir pu un peu approfondir mes connaissances sur ce que les informaticiens appellent une ontologie. Selon les définitions courantes, une ontologie est un ensemble structuré des connaissances qui exprime une conceptualisation d’un domaine du réel qui constitue un « mondecible » que l’on cherche à représenter. Ces connaissances sont représentées par des mots qui constituent un langage utilisable par une communauté d’experts ayant un objectif de recherche pour décrire et analyser ce monde-cible ; mais ces éléments de langage sont associés à une spécification formelle qui permet à la machine d’opérer sur eux des traitements automatiques. L’ontologie se présente à la fois comme un réseau sémantique, dans lequel les noms prennent sens les uns par rapport aux autres (par exemple, par la formalisation de relations de hiérarchie ou d’équivalence) et comme un réseau fonctionnel permettant de reproduire les relations entre les entités décrites et leurs effets : une ingénierie ontologique (IO) permet de la mettre en œuvre42. Dans l’état actuel des choses – mais cela est susceptible d’évoluer – seuls des informaticiens expérimentés sont à même de le faire, puisqu’il faut pouvoir maîtriser des formats (comme OWL [Ontology Web Language]43, par exemple) ou manier des logiciels d’ingénierie ontologique complexes (comme Protégé44). Encore une fois, on se prend à rêver à la vieille formule d’Emmanuel Leroy-Ladurie, l’historien sera informaticien ou ne sera pas … qu’il conviendrait comme toujours de pondérer de la façon suivante, l’historien doit surtout être capable de parler aux informaticiens, ce qui n’est pas si simple, comme en témoignent les lignes qui suivent ! Dans le cas d’une base comme Studium, que dire en l’occurrence à l’informaticien ? La première difficulté est que si l’on définit les écoles et l’université de Paris comme monde-cible « scolaire », il faut admettre que les données collectées dans la base appartiennent en fait à plusieurs mondes qui interagissent. La base est prosopographique, mais certains individus n’ont qu’un rapport épisodique (mais qui peut s’avérer déterminant en certaines circonstances) avec le monde scolaire : passe encore

39 Arts et gens du spectacle à Avignon à la fin du Moyen Âge (1450-1550), une approche numérique, thèse soutenue à Paris 1 Panthéon-Sorbonne en novembre 2015. 40 http://cedric.cnam.fr/isid/. 41 https://cedric.cnam.fr/. 42 Tout ce qui précède est inspiré par O. Chourabi, Un cadre ontologique générique de modélisation, de capitalisation et de partage de connaissances Métiers situées en ingénierie système, thèse de doctorat, Paris-Tunis, 2009, spécialement p. 61-81, [en ligne], disponible sur (consulté le 26 janvier 2018). 43 https://www.w3.org/OWL/. 44 , utilisé par Mathieu Bonicel ; Olfa Chourabi présente un tableau d’ensemble des environnements les plus répandus pour la construction d’ontologies p. 69.

17

18

j e a n -p hi l i p p e g e n e t

pour les maîtres (et les maîtresses) d’école, les parcheminiers, les stationnaires, ou les libraires qui prêtent serment devant les autorités universitaires, mais on trouve aussi les sergents à pied ou à cheval qui répriment les désordres estudiantins, les avocats qui plaident les causes de l’université ou de ses suppôts au Châtelet ou au Parlement de Paris, les bourgeois de Paris ou leurs épouses qui logent maîtres et étudiant, sans parler des « visiteurs », une catégorie qui comprend aussi bien les cardinaux ou les légats pontificaux qui s’adressent à l’Université ou la sermonnent, les Princes en visite à Paris, et toutes sortes de gens de passage, intellectuels désireux de nouer des contacts pour des raisons variées ou simples relations familiales des maîtres et des étudiants. Une catégorie fort intéressante et particulièrement hétérogène est constituée par les rebouteux, les barbiers, les guérisseuses et toutes les personnes qui sont poursuivies pour exercice illégale de la médecine par la Faculté de médecine qui protège le monopole de ses gradués. Et les étudiants ou les maîtres n’ont pas un horizon borné par leur seul séjour aux écoles : beaucoup – en tous cas une grande majorité des gradués – deviennent des ecclésiastiques, souvent de haut rang, et ont en tant qu’abbés d’un monastère ou évêques d’un diocèse des responsabilités de toutes sortes qui n’ont plus rien à voir avec l’univers scolaire ; d’autres font des carrières juridiques ou politiques – il y a même quelques cas de militaires ! D’autres encore ont des démêlés avec la justice, qu’ils soient eux-mêmes criminels ou victimes de crimes ou de purges politiques. Il n’est donc pas envisageable de construire ce que l’on appelle une ontologie générale pour représenter l’ensemble des informations contenues dans Studium. En revanche, il paraît possible d’envisager la construction d’« ontologies de domaine » selon la typologie décrite par Olfa Chourabi. Dans les fiches bio-bibliographiques de Studium, on repère ainsi quatre ensembles (on parle aussi de sous-ontologies emboîtées) dont plusieurs sont susceptibles de s’appuyer directement sur des sources numérisées : le premier décrira le fonctionnement du système médiéval d’études, tel qu’il est mis en pratique à Paris, et portera sur des domaines strictement scolaires, comme la définition des contenus de l’enseignement, la répartition des étudiants et des maîtres dans des groupements institutionnels (nations, facultés, collèges etc.), l’organisation des cursus, des examens et de l’octroi des grades. D’autres ontologies de domaine sont envisageables : par exemple pour le système des carrières ecclésiastiques, tant régulières que séculières, pour l’implantation dans la topographie et l’implication dans la vie de la cité de Paris des institutions et des individus mentionnés dans Studium, ou encore pour l’analyse du mode de production des textes universitaires. Nous nous concentrerons ici sur le cas de l’ontologie du domaine scolaire, car c’est dans ce cadre qu’intervient la possibilité d’intégrer les sources à l’ontologie. Si nos données sur les maîtres et les étudiants sont très lacunaires, nous disposons en revanche pour la plupart des universités de collections de statuts extrêmement riches. À Paris, la plupart des statuts de l’Université ou de ses principales composantes, les nations (française, picarde, normande et anglo-allemande) et les facultés (arts, décret, médecine et théologie) ont été rassemblées dans leur cartulaire factice par Heinrich Denifle et Émile Chatelain45, et l’on dispose aussi d’un grand nombre de 45 CUP, op. cit. supra note 10.

le ré f é re nce me nt

statuts pour les collèges parisiens : il n’y en a pas moins de soixante-quinze, dont certains sont, il est vrai, très petits46. Par ailleurs, d’autres institutions entretiennent avec l’université des rapports étroits qui sont, sinon codifiés formellement par des statuts, du moins codifiables par l’historien sous forme de règles explicites : non seulement la cathédrale Notre-Dame de Paris et son chapitre, mais encore les couvents des quatre principaux ordres mendiants et celui des Trinitaires (les Mathurins), certains des principaux monastères parisiens, comme les abbayes bénédictines de Saint-Denis et de Saint-Germain des Prés, le prieuré clunisien de Saint-Martin des Champs, les abbayes de chanoines réguliers de Sainte-Geneviève, de Saint-Victor ou du Val-des-Écoliers, ainsi que les principales collégiales parisiennes (Saint Honoré, Saint Germain l’Auxerrois, Saint Marcel …). Le chancelier de la cathédrale Notre-Dame de Paris est aussi celui de l’université et l’abbé et le chancelier de Sainte-Geneviève jouent pour leur part un rôle très important dans le fonctionnement de l’université : certains des examens se passent à Sainte Geneviève ou au cloître de Notre-Dame. Le conservateur des privilèges apostoliques de l’université de Paris, en règle générale un évêque, a une cour indépendante, et il existe aussi un conservateur des privilèges royaux. Les étudiants et les maîtres sont pour la plupart des clercs, et dépendent donc de ce fait de la cour de justice de l’évêque de Paris. Et cette liste des institutions qui sont liées à l’université et aux écoles est loin d’être exhaustive … En ce qui concerne l’université stricto sensu, les textes sont souvent très fragmentaires : ainsi, lors d’une réunion de telle nation ou de telle faculté, on décidera de changer une procédure d’examen, ou le montant d’une taxe et le statut consistera en un simple phrase, enregistrée dans un registre. Si l’on veut utiliser les statuts pour construire une ontologie, il faut donc choisir l’une des rares rédactions systématiques, à partir de laquelle on va pouvoir effectuer deux opérations distinctes. La première est le développement ce qu’Olfa Chourabi appelle dans sa typologie des ontologies de tâches propres au domaine scolaire que l’on entend explorer, par exemple pour le système des examens et de l’octroi des grades, ou pour les règles d’appartenance aux nations et de participation à leurs activités47. La seconde opération concerne plus particulièrement l’historien, puisqu’il faut rendre l’ontologie de tâche dynamique en l’enrichissant de qualifications en fonction de la chronologie antérieure ou postérieure, la variable temps étant évidemment cruciale pour étudier les trajectoires individuelles. Par exemple, si l’on prend le cas de la Faculté des Arts, ses premiers statuts remontent

46 Voir T. Kouamé, « L’édition des sources médiévales des collèges parisiens. Bilan et perspectives », in A. Sohn et J. Verger (éd.), Die universitären Kollegien im Europa des Mittelalters und der Renaissance/ Les collèges universitaires en Europe au Moyen Âge et à la Renaissance, (Aufbrüche. Interkulturelle Perspektiven auf Geschichte, Politik und Religion, 2), Bochum, Winkler, 2011, p. 39-55, [en ligne], disponible sur (consulté le 26 janvier 2018). Thierry Kouamé est l’un des principaux animateurs du Gabriel Project, lancé au Medieval Institute de l’université Notre Dame (Indiana) par William Courtenay et Kent Emery en 2007, qui se propose de donner une nouvelle édition des statuts des collèges parisiens à partir des transcriptions faites par le chanoine Astrik Gabriel. 47 O. Chourabi, op. cit., p. 64.

19

20

j e a n -p hi l i p p e g e n e t

à 1255 et ils ont sans cesse été modifiés tout au long du Moyen Âge48. C’est pourquoi notre choix s’est porté dans un premier temps sur la plus systématique peut-être de toutes ces rédactions statutaires et la dernière de ce type pour la période étudiée, celle des statuts donnés à l’université de Paris par le cardinal d’Estouteville le 1er juin 1452 dans le cadre d’une reformatio qu’il présente comme son œuvre personnelle, menée sous le patronage du pape Nicolas V, bien qu’il ait été constamment associé dans son entreprise à des commissaires royaux49. L’enrichissement dynamique de l’ontologie devra se faire de façon rétrospective par recours aux statuts anciens, ces statuta antiqua dont le cardinal fait d’ailleurs très souvent mention. Les statuts sont présentés par le cardinal faculté par faculté, en commençant par la plus prestigieuse d’entre elles, la faculté de théologie, que nous prendrons pour exemple, puisqu’il ne saurait être question de résumer ici ce texte beaucoup trop long50. Les premiers paragraphes sont consacrés aux nécessaires bonnes mœurs (ne pas boire, se modérer aux repas, ne pas faire de grandes fêtes après la promotion aux grades) et à la tenue vestimentaire des maîtres et des étudiants dans les circonstances officielles51. Viennent ensuite les exigences en matière de durée des études : quatre ans pour la lecture de la Bible, avant de passer à celle du Liber Sententiarum de Pierre Lombard. En tout, les étudiants doivent avoir passé six ans avant d’entamer leur premier cours et devenir ainsi cursor, la dispense de la sixième année ne pouvant être qu’exceptionnelle. Ils doivent prouver par des cédules de leurs maîtres qu’ils ont bien suivi ces enseignements pendant le temps réglementaire, et prêter un serment devant la faculté sur ce point. Le statut n’entend cependant pas déroger aux privilèges dont jouissent en la matière les étudiants appartenant aux ordres mendiants. Le bachelier cursor participera en tant que répondant (respondens) à des questions disputées sous l’autorité d’un maître, mais il ne peut choisir ce maître ni dans son collège, ni dans sa nation, mais doit accepter celui qui sera choisi par la Faculté. Des règles particulières sont cependant prévues pour les ordres mendiants et pour les Cisterciens du collège Saint Bernard, qui doivent chaque année présenter l’un des leurs comme bachelier biblique. Le statut règle ensuite le mode de présentation du cours (par oral, de mémoire, ou en lisant un manuscrit) et évoque la nécessité de prononcer des sermons – les dispenses sont ici spécialement prohibées – et la périodicité des cours, qui doivent avoir lieu de quinze jours en quinze jours au moins, sauf empêchements liés aux nécessités de la vie académique. Le statut s’intéresse ensuite à la Faculté de droit 48 CUP, I, p. 277-279 ; pour le cardinal, voir sa fiche bio-bibliographique in Studium, GUILLELMUS de Estoutevilla 2 et pour ses statuts, J. Verger, « Les universités françaises au xve siècle : crise et tentatives de réforme », Cahiers d’Histoire, XXI, 1976, p. 43-66, réimprimé in Id., Les universités françaises au Moyen Âge, Leyde, Brill, 1995, p. 228-252 ; Id., « La réforme du Cardinal d’Estouteville (1452) : l’université de Paris entre Moyen Âge et temps modernes », in Les universités en Europe 14501814, (Bulletin de l’association des historiens modernistes des universités françaises) Paris, PUPS, 2013. 49 CUP, IV, p. 714-734. Pour un autre exemple, voir le travail de Mathieu Bonicel avec l’ontologie FRBRoo proposée par le groupe international CIDOC CRM pour analyser l’entrée avignonnaise de César Borgia en 1498 : M. Bonicel, op. cit., p. 145 sq. 50 Ibid., p. 715-718. 51 Sur ces aspects, voir désormais A. Destemberg, L’honneur des universitaires au Moyen Âge : étude d’imaginaire social, Paris, PUF, 2015.

le ré f é re nce me nt

puis52, de façon étonnamment brève, à la Faculté de médecine53, avant de passer pour terminer à la Faculté des arts, dont le statut est de loin le plus détaillé et contient d’importantes innovations dans le domaine de la pédagogie54. C’est d’ailleurs par la Faculté des arts, principal point d’entrée des étudiants dans l’institution universitaire, que devra commencer la construction de l’ontologie. Les statuts de 1453 devraient donc nous permettre de construire dans de bonnes conditions une ontologie de domaine, dynamisée au plan chronologique par l’intégration des références aux statuts anciens55. Si l’on parvient à rendre cette construction satisfaisante, on pourra ensuite passer au développement d’ontologies de tâches, en fonction des principales actions réglées par les statuts : examens, enseignements, sermons et disputes etc. Ces ontologies seront ensuite utilisées pour structurer puis pour analyser les données opérationnelles : c’est à ce moment-là, et à ce moment seulement, que l’on pourra juger de l’intérêt de cette stratégie. Une base de données comme Studium compte aujourd’hui près de 20 000 biobibliographies structurées établies à partir de sources référencées (la référence interne par laquelle nous avons débuté) et nous espérons qu’elle en comptera bientôt le double. Nous travaillons en outre dans le cadre du réseau international Heloise56 à créer une interopérabilité avec d’autres bases, comme le Repertorium Academicum Germanicum (RAG) qui devrait quant à lui concerner plus de 200 000 individus57, ASFE (Bologne)58 ou Onomasticon (Pérouse)59 : autant dire que l’on se trouve en présence de masses de données60, et que l’on entre ici dans le domaine de ce que les informaticiens appellent le data mining, où il s’agit d’enrichir l’information à partir des apports tirés de l’exploration de grandes masses de données. La confrontation des ontologies construites par intégration des sources aux données opérationnelles, c’est-à-dire à la réalité des faits tels que les archives permettent de les établir, devraient en effet permettre deux séries d’enrichissements décisifs. La première tient au fait que dans le cas que nous venons de décrire, c’est la norme statutaire qui est rendue opérationnelle, et l’on peut donc mesurer automatiquement l’écart de chaque situation à cette norme : par exemple, le délai entre les dates auxquelles deux grades ont été obtenus par une même personne est-il conforme à la norme,

52 53 54 55

56 57 58 59 60

CUP, IV, p. 718-722. CUP, IV, p. 723. CUP, IV, p. 724-722. On peut aussi envisager d’utiliser l’ontologie dans une démarche comparative, en l’étendant géographiquement aux statuts d’autres universités dont les structures sont proches ; voir, pour un essai dans ce sens, G. Leff, Paris and Oxford Universities in the Thirteenth and Fourteenth Centuries, Londres, Wiley, 1968. Voir la présentation du réseau par Emmanuelle Picard sur . Le répertoire est dirigé par Rainer Christoph Schwinges et Christian Hesse à l’université de Berne (). Réalisée par Carla Frova, Stefania Zucchini et Marco Menzeghi, Onomasticon. Prosopografia dell’università di Perugia porte sur l’université de Pérouse (). Le projet ASFE est développé par Gian Paolo Brizzi, Andrea Daltri et Maria Teresa Guerrini à l’université de Bologne (). Voir M. Bonicel, op. cit., p. 1-7, « L’historien face à la masse brute ».

21

22

j e a n -p hi l i p p e g e n e t

et s’il s’en écarte, quelle est l’importance de l’écart ? La seconde est la possibilité de calculer les valeurs moyennes pour chaque évènement : en reprenant l’exemple précédent, quel est l’écart moyen entre les dates d’obtention des deux grades ? Des données isolées – par exemple la date de l’obtention d’un grade – peuvent ainsi être associées à des trajectoires virtuelles aussi bien à partir de la norme statutaire intégrée à l’ontologie de domaine (virtualité de norme), qu’à partir de la probabilité statistique (virtualité de probabilité), calculée en fonction des milliers de parcours réels enregistrés. Leur masse devient la condition même de la fécondité des sources et elle devrait permettre à l’historien d’ajouter à la panoplie interprétative dont il dispose, une arme supplémentaire, l’exploration du virtuel. Le référencement interne permet d’associer toute information historique à sa source ; le référencement externe permet d’ouvrir la base de données sur le monde ; le référencement intégré, c’est-à-dire l’intégration d’une source aux ontologies générales et plus particulièrement aux ontologies de domaine et aux ontologies de tâche, ouvre la porte à un source-mining qui permet de mieux interroger les sources et d’accroître leur qualité en les dotant d’une double dimension virtuelle (norme et probabilité) dont l’exploitation systématique était jusqu’ici hors de la portée des historiens. On le voit, s’il paraît a priori un peu rébarbatif et si toutes les questions qu’il pose sont encore loin d’être résolues, le problème du référencement n’est pas sans intérêt pour les concepteurs et les éditeurs de bases de données.

Els De Paermentier

Juggling (Meta)Data A User’s Assessment of Online Medieval Charter Editions

In 1681, when the Maurist monk Jean Mabillon wrote his comments on Daniel van Papenbroeck’s introduction to the second volume of the Acta Sanctorum,1 in which the latter discussed some guidelines to distinguish true from false Merovingian diplomata,2 he could not know that centuries later scholars would still rely on his methodological principles for the study of medieval acta. Contrary to the Bollandist van Papenbroeck, who was more of a specialist in medieval hagiography with only little knowledge of diplomatics, Jean Mabillon developed, in his six volumes entitled De re diplomatica3 (1681), a set of rules for establishing the authenticity of pre-1200 charters preserved in the original and in copy, as well as a series of critical editions and a palaeographical atlas. Moreover, some volumes were respectively devoted to the textual tradition (minute, notitia, cartulary) and material preservation of charters, to their internal (text, dictamen) and external features (script, writing support, seals), to the administrative context in which they were produced and the (chancery) people who were involved in their realization. Mabillon had thus laid the foundation for

1 D. Papebroch, ‘Propylaeum antiquarium circa veri ac falsi discrimen in vetustis membranis’, in Acta Sanctorum aprilis, t. II, Antwerp, 1675, p. i-xxxi. 2 Without applying any form of historical criticism, van Papenbroeck classified almost all preeleventh-century diplomata as falsa. B. Barret-Kriegel, Jean Mabillon, Paris: P.U.F. (Les historiens de la Monarchie, I), 1988; O. Hurel (ed.), Le moine et l’historien Dom Mabillon, Œuvres choisies, précédées d’une biographie par Dom Henri Leclercq, Paris: Robert Laffont, 2007. 3 J. Mabillon, De Re Diplomatica Libri Sex, Paris, 1681. A digitized form of this monumental work was created at Humboldt University in Berlin in cooperation with the Staatsbibliothek, and is available online at . All URLs quoted in this chapter have been accessed in July 2019. Els De Paermentier  Ghent University Digitizing Medieval Sources – L’édition en ligne de documents d’archives médiévaux : Challenges and Methodologies – Enjeux, méthodologie et défis, éd. par Christelle Loubet, Turnhout, 2019 (Atelier de Recherches sur les Textes Médiévaux, 27), p. 23-36 © FHG10.1484/M.ARTEM-EB.5.117326

24

e l s d e pa e r m e n t i e r

the further development of medieval diplomatics as an academic discipline, and had therefore a large impact on the work of next generation diplomatists such as René Tassin and Charles Toustain,4 Léopold Delisle,5 Theodor von Sickel,6 Julius Ficker7 and Heinrich Brunner,8 who in the eighteenth and nineteenth centuries built on and refined the methodology and principles of their founder. Along with their studies and those of other scholars who were associated respectively with the École des Chartes in Paris and the Austrian Institute of Historical Research in Vienna, diplomatics as a research discipline gradually obtained a new functionality. Apart from focusing on large series of editions and detecting falsifications, the research scope and methodology gradually widened to the study of the specific diplomatic jargon, to the dating and localization of undated charters, and to the origins, development and organization of chanceries and scriptoria.9 However, as these research themes persisted throughout the twentieth century, they were further developed in recent decades with three new tendencies. A first trend implied an increasing socio-cultural approach of medieval documentary sources, as products of organizational systems, as well as instruments for wielding and legitimizing power, for shaping political bodies and corporate identities.10 As a consequence, studies on medieval documentary sources were no longer limited to the acts issued by the highest aristocratic and ecclesiastical sections of society (kings, bishops or the pope), but widened their scope to include the organization and early development

4 Ch. F. Toustain and R. P. Tassin, Nouveau traité de Diplomatique, Paris, 1750-1765. 5 L. Delisle, Catalogue des actes de Philippe Auguste, Paris: Durand, 1856, and, from the same author, Mémoire sur les actes d’Innocent III, Paris: Durand, 1857. 6 Th. von Sickel, Beiträge zur Diplomatik, 8 vols, Vienna, 1861-1882; Acta Regum et Imperatorum Karolinorum digesta et enerrata, 2 vols, Vienna, 1867-1868. In 1879 and 1893 he published the first and second volume of his Diplomatum regum et imperatorum Germaniae (Hannover, 1879-1893), which covered the reigns from Conrad I to Otto III (911-1002 AD). From 1873 onwards, von Sickel also coordinated the Diplomata section of the Monumenta Germaniae Historica. 7 J. Ficker, Beiträge zur Urkundenlehre, 2 vols, Innsbruck, 1877-1878; repr. 1966. 8 H. Brunner, Zur Rechtsge­schichte des Römischen und Germanischen Urkunde, Berlin: Weidmann, 1880, repr. 1961. 9 In the decades following the pioneering work of the nineteenth-century diplomatists, such as Leopold Delisle and Theodor von Sickel, a series of manuals of medieval diplomatics covering these new topics were published. A. Giry, Manuel de diplomatique: diplômes et chartes, chronologie technique, éléments critiques et parties constitutives de la teneur des chartes, les chancelleries, les actes privés, Paris: Hachette, 1894 ; A. de Boüard, Manuel de diplomatique française et pontificale, Paris: Picard, 1929-1952; H. Bresslau, Handbuch der urkundenlehre für Deutschland und Italien, Leipzig: Veit, 1889, and more recently, O. Guyotjeannin, J. Pycke and B.-M. Tock, Diplomatique médiévale, Turnhout: Brepols, 1993, p. 16-24. 10 Many studies published from the 1980s onwards are indebted to the influential work of M. Clanchy, From Memory to Written Record: England 1066-1307, London: Arnold, 1979 [second edition Oxford: Blackwell, 1996].

ju ggli ng ( me ta) data

of administrations in the service of territorial princes,11 local feudal lords,12 and urban administrations.13 In addition, a second trend in diplomatic research has begun to concentrate on the role of administrations (royal, ecclesiastical, princely, local, …) as ‘archive managers’ rather than ‘archive creators’, by studying the way in which persons and institutions created and used both separate and compound documents (lists, drafts, accounts, registers, cartularies, …) as memoranda for managing their fiscal and domain administration, but also for organizing their archival memory as a strategy for manipulating their future remembrance.14 Finally, from the 1980s onwards, new technological innovations heralded a new ‘digital era’ for medieval diplomatics – along with many other academic disciplines within the humanities. Henceforth, a massive corpus of medieval ‘charter data’ became digitally available worldwide and paved the way for new research opportunities both in the field of heuristics and in-depth analyses.

From Analogue to Digital Diplomatics In 2008, a team of Canadian information technologists published the results of a large-scale web-based survey taken among humanists in order to understand their needs with respect to information and communication technology, and to design

11 Among other works, see the volumes Landesherrliche Kanzleien im Spätmittelalter, München: ArbeoGesellschaft, 1984; K. Fianu and J. Guth, Écrit et pouvoir dans les chancelleries médiévales: espace français, espace anglais, Louvain-la-Neuve: Fédération internationale des instituts d’études médiévales, 1997 ; Th. de Hemptinne and J.-M. Duvosquel (ed.), Chancelleries princières et Scriptoria dans les anciens Pays-Bas, xe-xve siècles, Bruxelles : Commission royale d’Histoire, 2010; O. Mattéoni and G. Castelnuovo, ‘De part et d’autre des Alpes’ (II): chancelleries et chanceliers des princes à la fin du Moyen Âge, Chambéry: Université de Savoie, 2011. 12 Among other works, see J.-F. Nieus, ‘Des seigneurs sans chancellerie? Pratiques de l’écrit documentaire chez les comtes et les barons du nord de la France aux xiie-xiiie siècles’, Bulletin de la Commission royale d’histoire, 176:2 (2010), p. 285-311, and, from the same author, ‘Et hoc per meas litteras significo. Les débuts de la diplomatique féodale dans le nord de la France (fin xiie-milieu xiiie siècle)’, in Le vassal, le fief et l’écrit. Pratiques d’écriture et enjeux documentaires dans le champ de la féodalité (xiexve siècles), J.-F. Nieus (ed.), Turnhout: Brepols, 2007, p. 71-95. 13 Among other volumes, see La diplomatique urbaine en Europe au Moyen Âge, W. Prevenier and Th. de Hemptinne (ed.), Leuven: Garant, 2000, and Writing and the Administration of Medieval Towns, M. Mostert and A. Adamska (ed.), Turnhout: Brepols, 2014. 14 Among many other works, of special note are: P. Geary, Phantoms of Remembrance. Memory and Oblivion at the End of the First Millennium, Princeton: University Press, 1994, especially Chapter III: ‘Archival Memory and the Destruction of the Past’, p. 81-114; P. Chastang, ‘Cartulaires, cartularisation et scripturalité médiévale : la structuration d’un nouveau champ de recherche’, Cahiers de civilisation médiévale, 193 (2006), p. 21-31; A. J. Kosto and A. Winroth, Charters, Cartularies, and Archives: The Preservation and Transmission of Documents in the Medieval West, Toronto: Pontifical Institute of Medieval Studies, 2002; O. Guyotjeannin and L. Morelle, ‘Tradition et réception de l’acte médiéval : jalons pour un bilan des recherches’, Archiv für Diplomatik, Schriftgeschichte, Siegelund Wappenkunde, 53 (2007), p. 367-403; Les archives princières, xie-xve siècles, X. Hélary et al. (ed.), Arras: Presses Universitaires d’Artois, 2016.

25

26

e l s d e pa e r m e n t i e r

a humanities workbench that would meet these needs.15 Building on an earlier study of E. G. Toms and N. Flora, they distinguished five components which were essential to the humanist’s work: access to primary sources; presentation of text; text analysis and tools; access to secondary sources; and tools for communication and collaboration.16 As for the research field of digital diplomatics, scholars from both technological and the humanities backgrounds have extensively debated the usefulness as well as the (technical) limitations of digital charter editions and corpora during the last two decades, and this has resulted in numerous publications.17 However, many of these meetings concentrated either on the presentation of new, separate online edition projects18 or were devoted to technical (web-based) solutions with regard to data or time-modeling and text mining, managing meta-data,19 software tools for the representation of text, image and metadata, ontologies, analytic tools and the like,20 or the durability of digital data carriers.21 In the shortest time, ‘digital diplomatics’ had become a playground for IT-specialists and data-analysts who had made themselves familiar with the basics of medieval diplomatics, trying to find answers to the needs of the modern diplomatist. At the same time, many medievalists

15 E.G. Toms and H. L. O’Brien, ‘Understanding the Information and Communication Technology Needs of the e-Humanist’, Journal of Documentation, 64:1 (2008), p. 102-130. 16 E.G. Toms and N. Flora, ‘From Physical to Digital Humanities Library: Designing the Humanities Scholar’s Workbench’, in Mind Technologies: Humanities Computing and the Canadian Academic Community, R. Siemens and D. Moorman (ed.), Calgary: University Press, 2005, p. 91-116. 17 See, among other publications, G. Vogeler, ‘Digital Diplomatics: What Could the Computer Change in the Study of Medieval Documents?’, Initial: A Review of Medieval Studies, 2 (2014), p. 163185; Digitale Diplomatik: Neue Technologien in der Historischen Arbeit mit Urkunden, G. Vogeler (ed.), Köln: Böhlau, 2009; Digital diplomatics: The Computer as a Tool for the Diplomatist?, A. Ambrosio, S. Barret and G. Vogeler (ed.), Köln: Böhlau, 2014. 18 Some examples: C. Gejrot, ‘Swedish Charters Online: the Digitization of Diplomatarium Suecanum’, in Digitale Diplomatik (2009), p. 146-154, and, in the same volume, J. Burgers and R. Hoekstra, ‘The Registers of the Counts of Holland, 1316-1345: a Digital Edition’, p. 56-69. 19 M. Gervers, ‘Managing Meta-data in a Research Collection of Medieval Latin Charters’, in Digitale Diplomatik (2009), p. 271-282; and, in the same volume, H. Stoyan and S. Schmidt, ‘Textmining in Beständen digitalisierter Urkunden’, p. 318-324; G. De Tré and J. Deploige, ‘Time Modelling in Digital Humanities. Challenges Posted by the Development of a Database of Medieval Charters’, Information Technology, 58:2 (2016), p. 97-103. 20 Some examples: G. Tilahun, M. Gervers and A. Feuerverger, ‘Statistical Methods for Applying Chronology to Undated English Medieval Documents’, in Digital Diplomatics (2014), p. 211-224, and, in the same volume, A. Ivanovs and A. Varfolomeyev, ‘Some Approaches to the Semantic Publication of Charter Corpora: the Case of the Diplomatic Edition of Old Russian Charters’, p. 149168; P. Bertrand and Ch. Jacobs, ‘Digital Humanities et critique historique documentaire: ‘digital’ ou ‘critical’ turn?’, in Les historiens et l’informatique - un métier à réinventer, J.-Ph. Genet and A. Zorzi (ed.), Rome (Collection de l’École Française de Rome, 444), 2011, p. 125-139. 21 E.g. P. Buonora, ‘Long Lasting Digital Charters. Storage, Formats, Interoperability’, in Digitale Diplomatik (2009), p. 222-237; or G. Vogeler, ‘Von Nutz und Frommen Digitaler Urkundeneditionen’, Archiv für Diplomatik, 52 (2006), p. 449-466. The programme of the most recent conference on Digital Diplomatics, held in Paris in 2013, also included several sections dealing with the use of digital diplomatics for digitally conceived archives, as well as digital charter corpora as web archives. The programme of this conference is available at .

ju ggli ng ( me ta) data

retrained to gain basic knowledge of IT and web tools for digital scholarly editions.22 Since then, many workshops,23 communities24 and training networks25 have been set up to merge both fields of academic expertise. Rather neglected in all this is the role of the interested user, – particularly one who has little or no technological or even diplomatic background, – in the development of digital charter editions, as well as other ‘stakeholders’ such as archivists, librarians, and academic students. To what extent do current charter edition projects meet their specific needs and requests? What kind of data are digital charter corpora offering and to what extent do these data sets enable scholars to find answers to more complex research questions? By means of a survey of current online charter editions, this paper aims to bring some answers to these questions, but mainly from a user’s point of view. Since most German charter projects, along with other digitized charter collections from Central-European archives, have been assessed by Patrick Sahle and Georg Vogeler in 2014,26 this contribution will instead include Belgian, French, English and Dutch online charter databases. On the one hand, it will discuss some of the basic principles that determine the architecture of ‘a charter edition record’. On the other hand, it will assess the cross-record research opportunities both at the level of full text and metadata, by starting first from the ‘traditional’ definitions of the problem in diplomatics, and subsequently from more complex research questions, which can only be managed by a computer-based analysis.

22 According to Patrick Sahle, ‘scholarly digital editions’ of historical documents distinguish themselves from ‘digitized editions’ in that they “are guided by a digital paradigm in their theory, method and practice”. P. Sahle, ‘What is a Scholarly Digital Edition?’, in Digital Scholarly Editing. Theories and Practices, M. J. Driscoll and E. Pierazzo (ed.), Cambridge: Open Book Publishers, 2016, p. 19-39 (citation: p. 28). 23 In particular, the ‘Digital Diplomatics’ series of conferences organized by Georg Vogeler in 2007 (Munich: Historical Research with Medieval Charters in a Digital World), 2011 (Naples: Digital Diplomatics: the Computer as a Tool for the Diplomatist?) and 2013 (Paris: What is Diplomatics in the Digital Environment?). Furthermore, the European Society for Textual Scholarship (ESTS), in collaboration with the Dutch Huygens Institute, has also organized conferences, workshops and colloquia on a regular basis, with thematic focuses on topics involving Digital Humanities. URL: . 24 Among others, see Digital Medievalist – ; and the ISCH COST Action IS1005 network programme, ‘Medieval Europe – Medieval Cultures and Technological Resources’, which ran from 2011 to 2015 and had the specific aim of developing a European Virtual Centre for Medieval Studies (VCMS). URL: . 25 Especially worth mentioning are the Digital Scholarly Editions Initial Training Network (DiXiT, ), funded by the Marie Curie Actions within the European Commission’s Eleventh Framework Programme (2013-2017), as well as the journals published and activities organized by the German Institut für Dokumentologie und Editorik (URL: ), founded in 2006. 26 P. Sahle and G. Vogeler, ‘Urkundenforschung und Edition im Digitalen Zeitalter’, Historisches Forum 7 (2005), p. 333-378.

27

28

e l s d e pa e r m e n t i e r

Grounds and Principles When designing an online charter edition, historians and technicians assume some basic principles: (1) the architecture of the edition corpus should be transparent and open to addition and changes; (2) the data sets should be searchable from various angles; (3) the database should be linked to, but independent from, its printed version; (4) it should permit a long-life use in its standardized formats and architecture; (5) and finally, the data structure should be elaborated with a view to interoperability.27 However, in recent decades there has also been a renewed diplomatic concern in the development of digital record-keeping systems for documents expressed by archival scientists.28 Parallel to the postmodern assumption that medieval charters reflect social constructions of power and therefore need to be approached as multi-interpretable rather than objective traces from the past, archives are similarly being considered no longer as “passive storehouses of old stuff, but active sites where social power is negotiated, contested, confirmed”.29 As a consequence, electronic records of archival documents now need to meet four criteria in order to be considered trustworthy: authenticity, reliability, integrity and usability.30 One of the advocates, amongst other archival scientists, for the application of diplomatic principles to the creation of electronic records for all kinds of documentary sources was Luciana Duranti, who in 1989 published her first article in a series which would later be collected in the volume ‘New uses for an old science’,31 and in which she pleaded for the use of traditional diplomatic criticism as an analytical tool (or: ‘attributes’) for electronic record-keeping.32 However, contrary to traditional print editions, electronic records benefitted from the fact that they could represent facts and content data separately from context and metadata. One of Duranti’s pet notions was the design of electronic records which would at the same time allow an evaluation

27 P. Sahle, ‘Vom Editorischen Fachwissen zur Digitalen Edition: der Editionsprozeß zwischen Quellenbeschreibung und Benutzeroberfläche’, FUNDUS: Forum für Geschichte und ihre Quellen, 2 (2003), p. 76-102 (p. 82-83). 28 ‘Renewed’, because in the 1960s the academic fields of (medieval) diplomatics and archival sciences split up and developed as separate research disciplines which were no longer exclusively associated with the historical sciences. L. Duranti, ‘Diplomatics: New Uses for an Old Science’, Archivaria, 28 (1989), p. 7-27 (p. 8). 29 J. M. Schwartz and T. Cook, ‘Archives, Records and Power: The making of Modern Memory’, Archival Science, 2 (2002), p. 1-19 (p. 1). 30 C. Williams, ‘Diplomatic Attitudes: From Mabillon to Metadata’, Journal of the Society of Archivists, 26 (2005), p. 1-24 (p. 18); H. MacNeil, Trusting records: Legal, Historical and Diplomatic Perspectives, London: Kluwer Academic, 2000. 31 L. Duranti, Diplomatics: New Uses for An Old Science, London: Scarecrow Press, 1998. The series of articles were realized within the framework of the InterPARES project (International Research on Permanent Authentic Records in Electronic Systems), which was launched in 1999 and is currently running its fourth phase. Further details about this project are available at . 32 The archival theory was further elaborated by other archivists, such as Caroline Williams, who published a very good synthesis of the further application of diplomatic knowledge and techniques for present-day standardizations of record systems in 2005. Williams, ‘From Mabillon to metadata’ (see note 30).

ju ggli ng ( me ta) data

of both the content and context of archival documents, or the relationships between records – which she called the ‘archival bond’ – at the level of their content, context and structure.33 The attributes (or: information categories) of such records would rely on a set of ‘traditional diplomatic’ basic questions to be applied to charters as elaborated by Leonard Boyle: who are the main actors involved; what kind of juridical action was established; how and in what form was the negotium drafted; why was the document created; who else was involved in the action; where and finally when did the action and/or delivery of the document take place?34 In considering the ‘archival bond’ or the relationships between documents, Duranti translated these questions into modern sets of metadata, which respectively connected with (1) the medium of the document; (2) the physical and intellectual form; (3) the performed action; (4) the persons or actors involved; (5) the context in which the record was created, and finally (6) the content of the message.35 As such, a record would be able to provide both metadata related to the document itself, as well as metadata of the electronic system in which it is registered. As a result, the records in medieval charter editions would enable scholars to approach and query the data both at the level of the medieval single document, the archival context or record aggregate of which it is a part, and the electronic record-keeping system in which it is preserved.36

Definition and Thematic Focus of Online Medieval Charter Editions When evaluating online medieval charter editions, it immediately becomes clear that initial choices had to be made with respect to the finality of the edition project.37 Depending on the amount of funding and the time schedule of each project granted, some editors strive for comprehensiveness and include complete archival sources for

33 L. Duranti, ‘Concepts and Principles for the Management of Electronic Records, or Records Management is Archival Diplomatics’, Records Management Journal, 9 (1999), p. 153-175. According to Paul Bertrand and Christophe Jacobs, the ontologies which constitute the data model of records should allow scholars to interpret the source documents on four levels: the ‘infra’-documentary level; the ‘intra’-documentary level; the ‘inter’-documentary level; and the ‘supra’-documentary level. P. Bertrand and C. Jacobs, ‘Digital Humanities et critique historique documentaire’, art. cit., p. 129-131. 34 C. Williams, ‘From Mabillon to Metadata’, art. cit., p. 14-15, referring to L. E. Boyle, ‘Diplomatics’, in Medieval Studies, an Introduction, J. M. Powell (ed.), New York: Syracuse University Press, 1992. 35 Ibid., p. 15, referring to L. Duranti, ‘Concepts and principles’, art. cit., p. 156. 36 Ibid., p. 17, referring to H. MacNeil, Trusting records, p. 21, 96. 37 J. Kemper and G. Vogeler, ‘Das ideale Urkundendigitalisierungsprojekt. Eine Einleitung’, in Digitale Urkundenpräsentationen. Laufende Projekte und aktuelle Entwicklungen (Schriften des Instituts für Dokumentologie und Editorik, 6), J. Kemper and G. Vogeler (ed.), Norderstedt: Books on Demand (Schriften des Instituts für Dokumentologie und Editorik, 6), 2011, p. vii-xi; P. Sahle and G. Vogeler, ‘Urkundenforschung und Urkundenedition im Digitalen Zeitalter’, in Geschichte und Neue Medien in Forschung, Archiven, Bibliotheken und Museen (Historisches Forum. Schriftenreihe von Clio-online, 7:1), D. Burkhardt, R. Hohls and V. Ziegeldorf (ed.), Berlin, 2005, p. 333-382 (p. 371-373).

29

30

e l s d e pa e r m e n t i e r

a defined area and period, as is the case with the Dutch Cartago38 project Digitaal Oorkondenboek Groningen, Drenthe en Oost-Friesland, which covers most of the pre-1600 charters preserved in the archives of Groningen, Drenthe and the Niedersächsisches Landesarchiv Standort Aurich, as well as some digitized paper editions such as the Oorkondenboek van Groningen en Drenthe; the TELMA-project Chartae Galliae,39 dedicated to pre-1300 charters produced within the area of present-day France; or Diplomata Belgica,40 a recently launched project which aims to cover all charters issued by or bestowed on persons or institutions situated within the area of present-day Belgium up to 1250. A second delineation of digital charter corpora focuses on the tradition of medieval charters, such as, for instance, the TELMA-database Les Chartes originales conservées en France,41 which aims at gathering all original charters preserved in France and dated up to 1121. Recently this project was extended by including original charters to 1220 kept in the Lorraine archives.42 A third option is the choice for a thematic grouping of charters according to their typology. Where Diplomata Belgica, among many other diplomatic corpora, mainly starts from single formal acta (including notitiae), or, as is the case with another TELMA-database entitled Enquêtes menées sous les derniers capétiens,43 which contains single inquiries set up by the last Capetian kings, Philip III and IV, other projects start from the compiled manuscripts in which the acta are (partly) copied, such as registers or cartularia. Good examples of the latter point of view are the Registers of the Counts of Holland in the Hainaut period (1299-1345),44 the TELMA-edition of the thirteenth-century Cartulary of the Seigneurie of Nesle,45 or Chartae Burgundiae,46 which covers the charters of about 350 cartularies from medieval and early modern Burgundy. Furthermore, several charter editions opt for a project definition related to the institution to which the documents are related, such as, for instance, the TELMA edition project Les ordonnances de l’Hôtel du roi;47 to the author by whom they were promulgated, such as the French project Les actes royaux, which gathers all editions of the acts of the The initial choices to be made by editors of medieval documents, as well as the need to justify these to the reader, is also emphasized in the guidelines elaborated by the Commission Internationale de Diplomatique. O. Guyotjeannin and F. Vielliard, ‘Introduction’, in Conseils pour l’édition des textes médiévaux, 2 vols, Paris: École nationale des chartes, 2001, I, p. 9-18, p. 18. 38 URL: . 39 URL: . TELMA stands for ‘Traitement électronique des manuscrits et des archives’. 40 Diplomata Belgica. The Diplomatic Sources from the Medieval Southern Low Countries, Th. de Hemptinne et al. (ed.), Brussels: Royal Historical Commission, since 2015. URL: . 41 URL: (‘Les chartes originales antérieures à 1121 conservées en France’). 42 URL: (‘Les chartes originales (1121-1220) conservées en France’). 43 URL: . 44 URL: . 45 URL: . 46 URL: . 47 URL: .

ju ggli ng ( me ta) data

French kings Philip III and Philip (IV) the Fair,48 or the English Anglo-Saxon Charters project, which is basically a digitized edition of the Regesta Regum Anglorum (period 900-1066);49 or to the religious order they belonged to, as is illustrated by the Charcis project, which covers twelfth-century Cistercian charters from France.50 Although most of the aforementioned scholarly editions offer a valuable contribution to the online accessibility of large European charter collections, they still mainly consist of national projects. However, the exemplary portal Monasterium, a collaborative virtual archive of more than 1.900 fonds from 170 central European archives providing data consisting of more than six hundred thousand charters, and which is well known among diplomatists, illustrates that sustainable cross-border edition projects can actually succeed, but only if they are backed by large European funding programs.51

Text, Metadata and Search Options Nowadays, most digital charter corpora offer more or less the same basic data categories per charter record, ones that correspond to the basic set of questions elaborated by Boyle and refined by Duranti. Apart from a unique identification number, each record thus represents content and metadata with regard to (1) the main actors involved (author, beneficiary, and sometimes also the disposer); (2) the dating of the charter, if known; (3) a regesta, or summary of the content and the juridical action; (4) a full text of the charter; (5) information concerning the textual tradition and the archival repository of the document (original, copy) – sometimes in the more extended form of a critical apparatus and a photograph of the original where appropriate; and (6) bibliographical references to the paper edition or secondary literature in which the actual charter is mentioned.52 Furthermore, some editions offer additional sets of indexed metadata, which enables scholars to easily browse the database ‘by association’. For example, in the Digitaal Oorkondenboek NoordBrabant, each charter record is supplied with a set of key words or ‘tags’ (persons or institutions involved, toponyms referring to the location of an institution or the principality, seigneurie or diocese over which the authors held jurisdiction, …) at the bottom, by means of which one can scroll through an automatically generated index of charters that share the same key word.53 The online edition of the Registers of

48 URL: . 49 URL: . 50 B.-M. Tock, ‘Le projet CHARCIS – Chartes Cisterciennes du xiie Siècle’, Bulletin du Centre d’Études Médiévales d’Auxerre (BuCeMA), 17:2 (2013), online available at ; DOI: 10.4000/cem.13189. 51 URL: . 52 This was illustrated by means of a record from Diplomata Belgica: DiBe ID 15467. Most of these traditional information categories are equally represented in printed editions of medieval documents. Conseils pour l’édition des textes médiévaux, II, p. 101-130. 53 Example: charter ID nr. 1212.12.24 (na 1211.12.24), available online at .

31

32

e l s d e pa e r m e n t i e r

the Counts of Holland (Registers van de Hollandse grafelijkheid) offers a similar search option for personal names, but also adds thematic tags with respect to the typology of the charter (‘keur’), the content (‘stadsrecht’, ‘belening’, ‘verkoop’), due dates and datings (‘Sint Nicolaasdag’), and even to land measures (‘voorling’, ‘morgen’) or dorsal and marginal notes (‘archiefkist’).54 Next to these ‘para-textual’ metadata, a similar system for the full text is provided by the Anglo Saxon Charters project, where the main textual elements such as protocol formulas (invocation, proem, curse and dating clauses), but also dispositive verbs, bounds and promulgation places are tagged and indexed.55 Another example of marked-up full text is to be found in the Documents of Early England Data Set, or DEEDS-project, where scholars can choose to highlight any text clause of their choice in the full text of the edition, and where one can simultaneously see a picture of the printed cartulary edition from which the source text was scanned.56 Additionally, also non-indexed information categories or metadata relative to the authenticity of the document and the nature or the language of the charter are provided by several databases, among which Diplomata Belgica and Les chartes originales. Furthermore, some online editions, among which the Dutch Cartago project and the French Les chartes originales, offer detailed information regarding the materiality and extrinsic features of the charter, such as the measurements or even thickness of the original parchment; possible deterioration; watermarks; the colour, measures, production material and depiction on the seal; marginal and dorsal notes. Although all of the cited online charter editions offer various kinds of information per single charter, they often fail to do so for one particular but problematic textual element: dating. Although temporal information is expressed either vaguely or very precisely in medieval charter texts, thus allowing several interpretations,57 they are often represented to the user as normalized metadata, either in the form of a conversion to modern calendar standards, or as the date mentioned in the charter text.58 However, Diplomata Belgica (DiBe) illustrates a more sophisticated way of representing datings, enabling scholars to conduct more in-depth research on medieval forgeries. In DiBe, each charter record displays three types of dating: (1) the preferential scholarly dating, or the date which is most appropriate and authoritative according to historians; (2) any other scholarly dating, or all possible dates assigned by different scholars over time to the same charter, for example converted dates according to style, conjectures, approximate dates, or termini post or ante quem; and (3) the unconverted date 54 Example for the key word ‘stadsrecht’ (‘town privilege’): charter ID KE 17, available online at . 55 Example: charter ID S2, available online at . 56 Example: charter document 00090042, available online at . 57 In Diplomata Belgica, a distinction is made between the following types of interpretations for date specifications: ‘datation mentioned in the document’; ‘accurate conjecture’; ‘impossible date’; ‘terminus ante quem’; ‘terminus post quem’, ‘several possible dates’; convert to ‘new style’; ‘approximation’. G. De Tré and J. Deploige, ‘Time Modelling in Digital Humanities’, art. cit., p. 98. 58 This is in contrast to, for example, the Cartago database, which explicitly mentions that it is not possible to search for charters on the basis of converted dates, but only by the date which is mentioned in the charter text. See .

ju ggli ng ( me ta) data

mentioned in the charter text.59 When scholars, for instance, would like to examine early twelfth-century cultural practices of forgery of pre-1100 diplomata, they can easily extract their information by searching the acta in which the text mentions a dating before 1100 (‘Date in the charter’), but which scholars since have identified as a falsum or a dubious document dated after 1100 (‘Scholarly dating’).

Juggling Metadata: New Perspectives for Research Despite the fact that most charter records offer abundant sorts of (meta-)data to scholars, they sometimes show divergent ways of making them searchable and analyzable. In what follows, I will discuss, from a user’s point of view, the most efficient and advantageous options and analytic tools for digital diplomatic research, thereby taking into account both the traditional research angles of Mabillon, and modern, more socio-cultural approaches to medieval charters. The opportunities and advantages of digital charter editions for research can be situated on two levels. (1) At the level of heuristics,60 it is obvious that scholars save considerable time in the collecting of their source corpus. To give just one example: in Diplomata Belgica, when gathering the charters promulgated by successive rulers (e.g. the Counts of Flanders) for a specific period of time (e.g. the years 1190-1250) and bestowed on recipients of a specific type (e.g. Cistercian abbeys) in several counties in order to examine patterns of patronage activities among princes, now only one query action is sufficient to select the more than 300 charters needed, whether they are preserved in the original or not, and no matter in which archives, domestic or abroad, they are kept.61 Moreover, as the DEEDS database shows, when you end up with a selection that is too broad, the search engine will guide you towards refining your selection.62 (2) Additionally, advanced search engines for full text and metadata, as well as the analytic tools which are available today, also enable scholars to analyze their sources in greater detail and subject them to many more complex research questions and definitions of a problem than could otherwise be answered ‘manually’, that is, without the help of the computer. For example, over the course of the last two decades, many studies have illustrated the opportunities of using word statistics as a quantitative methodological approach to uncover in charter texts either general editorial customs

59 This was illustrated by means of DiBe ID 4034. G. De Tré and J. Deploige, ‘Time Modelling in Digital Humanities’, art. cit. 60 G. Vogeler, ‘Vom Nutz und Frommen’, art. cit., p. 451-454; E. De Paermentier, ‘Diplomata Belgica: Analysing Medieval Charter Texts (dictamen) through a Quantitative Approach. The case of Flanders and Hainaut (1191-1244)’, in Digital Diplomatics (2014), p. 169-186 (p. 175-176). 61 The same is true, among other combined research queries, of query terms seeking to research the production practices of chirographs within a specific region and time span. 62 This was demonstrated by inserting the words ‘in memoriam’ in the text field, combined with the time span determined by the years ‘1100’ and ‘1350’. The results list contained about 1,189 charters, but could be refined with the help of additional selection criteria in the column on the left-hand side of the screen.

33

34

e l s d e pa e r m e n t i e r

applied within a large region or a long period of time,63 or formularies which are characteristic for a well-defined chancery or scriptorium.64 Some other exemplary tools: within the framework of the DEEDS-project, an analytic tool was developed to help scholars in applying a statistically valid date to charters of uncertain chronological origin but before the end of the thirteenth century on the basis of word-patterns or ‘shingles’.65 As regards the geolocalization of the persons or institutions which occur in medieval charters, several digital charter corpora already provide direct links to Google maps to visualize the results of a query. The English Chartex project initially even aimed to go further by elaborating a ‘virtual workbench’ which in the future might enable scholars to find connections and relations between people, events, times and places occurring in charter texts, in order to facilitate prosopographical research and to discover social patterns of change in communities.66 Moreover, the Prosopography of Anglo-Saxon England, or PASE database, which contains structured information of all the recorded inhabitants of Anglo-Saxon England from the late sixth to the eleventh century, is a marvellous example of how personal names occurring in various types of sources (charters, but also Domesday Book, as well as contemporary narrative sources) can be interlinked with a specialized prosopographical database, thus enabling scholars to contextualize the actors from their source texts in a much more profound and interdisciplinary way.67 Furthermore, large comparative analyses of (meta-)data in relation to both textual, para-textual and material aspects of charters and documents, including also marginal and dorsal notes, handwriting, writing support, seals, and the like, will help to better understand the dissemination of documentary practices in different sections of society, the extent to which people had access to forms of pragmatic literacy, and the ways authors of different kinds (persons, institutions, communities) used charters to legitimize their power and establish their own (corporate) political and social identity.

63 As developed, for example, in E. De Paermentier, ‘Sources of (Mutual) Inspiration: some Observations on the Circulation of Repetitive Text Formulas in Charters from the Medieval Low Countries (Twelfth and Thirteenth Centuries)’, in Ruling the Script in the Middle Ages: Formal Aspects of Written Communication (Books, Charters, and Inscriptions), S. Barret, D. Stutzmann and G. Vogeler (ed.), Turnhout: Brepols (Utrecht Studies in Medieval Literacy, 35), 2016, p. 167-195. 64 Examples: B.-M. Tock, ‘L’apport des bases de données de chartes pour a recherche des mots et des formules’, in Digitale Diplomatik (2009), p. 283-293, and, from the same author, Une chancellerie épiscopale au xiie siècle. Le cas d’Arras, Louvain-la-Neuve: Publications de l’Institut d’Etudes Médiévales, 1991, p. 24-25; E. De Paermentier, ‘Le dictamen de la chancellerie comtale de Flandre et de Hainaut. Méthode d’analyse assistée par ordinateur, résultats et potentialités’, Bibliothèque de l’École des Chartes, 169 (2011), p. 385-425. 65 M. Gervers, Dating undated charters, Woodbridge: Boydell Press, 2000, and, from the same author, together with G. Tilahun and A. Feuerverger, the more recent article ‘Dating Medieval English Charters’, Annals of Applied Statistics, 6:4 (2012), p. 1615-1640. See also M. Gervers and M. Margolin, ‘New Methods for the Analysis of Digitized Medieval Latin Charters’, Historisches Forum: Geschichte im Netz: Praxis, Chancen, Visionen, 10 (2007). 66 For a survey of the conference papers in which these ChartEx tools were discussed, see . 67 This was illustrated by means of the name Osmund. ‘Osmund 2’, Prosopography of Anglo-Saxon England, .

ju ggli ng ( me ta) data

This way, a well-thought-out architecture of a digital charter edition, which provides access to metadata with regard to both the content and context of the document, can also become attractive to scholars from adjoining branches, such as codicologists (e.g. the link between the single original document and its copied version in a cartulary), archaeologists (e.g. the physical localization of persons, properties and events), socio-cultural anthropologists (e.g. for mapping variations in cultural customs and performances in different regions and communities), and linguists (e.g. the use of stylometry68 on charter texts to attribute authorship to medieval authors or scribes).

Impressions and Considerations By way of a conclusion, I would like to end with some overall reflections and desiderata both editors and scholars deal with when designing and using digital charter corpora – though such a thing is not at all easy to do, for every scholar, whether historian, linguist, archivist or simply the lay person interested in medieval history, approaches a charter collection with different questions in mind. Specialists in the field of digital scholarly editing have discussed the fundamental criteria and search strategies which charter editions should meet in depth, but they also concluded that an ideal online charter edition does not exist. Since every granted project is restricted in time and funding, editors and project developers are compelled to make arbitrary choices. Yet, even in spite of all these restrictions, the projects cited in this paper, among many other high-quality charter editions, all testify to the broad variety of their source information, to the creativity which scholars can apply when cross-examining the available content and data, and to their impact on the way medieval sources are consulted and analyzed today. However, as many charter editions tend to show more uniform information modelling systems, or ontologies, as well as encoding standards, such as TEI or the refined Charters Encoding Initiative,69 one can wonder why, apart from the Monasterium project, there is still no greater cross-border interoperability between the existing textual corpora of charters. This is the case even though medievalists are perfectly able and willing to be involved in the preparatory stage of such projects, for instance by mapping the information categories and common denominators in different relational databases in order to develop cross-database search engines according to their own needs.70 A second impression is that, in addition to the many fruitful

68 As applied by Mike Kestemont to many Latin and Middle Dutch literary texts. Among other publications, see M. Kestemont, S. Moens, and J. Deploige, ‘Collaborative Authorship in the Twelfth Century. A Stylometric Study of Hildegard of Bingen and Guibert of Gembloux’, Digital Scholarship in the Humanities, 30:2 (2015), p. 199-224. 69 URL: . G. Vogeler, ‘Towards a Standard of Encoding Medieval Charters with XML’, in Literary and Linguistic Computing, 20:3 (2005), p. 269-280. 70 A good example are the Short Term Scientific Missions provided by the COST (European Cooperation for Science and Technology) framework. For instance, in 2012, I was granted a STSM for a research stay of one month at the Institut de Recherche et d’Histoire des Textes (IRHT) in Paris,

35

36

e l s d e pa e r m e n t i e r

scholarly meetings among diplomatists, computer scientists and other types of users, the exchange of knowledge and best practices is being increasingly ‘stored’ and shared in Virtual Research Environments. The Co:op project for instance, a young spin-off of the larger ICARUS project which stands for Community as opportunity - the creative archives and users’ network, recently launched the Recognition and Enrichment of Archival Documents (READ) community.71 In the near future, by bringing together scholars and scientists, archivists and volunteers, it aims to revolutionize access to archival documents with the support of cutting-edge technology. A third idea is that, although many charter edition projects show a considerable concern for linking metadata both with regard to intrinsic and extrinsic features of the same document, there is still only limited attention paid to the ‘achival bond’ or relationship between documents of a different typology but which belong to the same archival dossier (draft versions, letters, financial documents). Furthermore, in this light it would also be advisable to provide links with archival inventories in which these documents are registered or listed. Finally, I will end with a plea in favour of an intensified dialogue between the IT specialist and IT-trained historian as producers on the one hand, and the technically inexperienced scholar or user as final recipient and beneficiary of online charter editions on the other hand. In this respect, basic user statistics can, for instance, already provide indispensable information about the use of the developed search engines (simple search or advanced search), the frequency with which the database is consulted, the most popular combined queries, the respective profiles that visit the charter edition (students, scholars, archivists, …), and the like.72 As long as all parties involved keep in mind that no matter how sophisticated the search engines are designed to be, computers cannot provide ‘black box answers’73 to definitions of a problem. They do, however, offer vital support to scholars in interpreting the outcome of their queries.

with the aim of examining the possibilities for a possible interoperability between Belgian and French medieval Latin source databases, e.g. Diplomata Belgica and the TELMA-databases. 71 For the respective websites, see the URLs and . 72 This was demonstrated by A. Kuczera and T. Schrade in their talk ‘From Charter Data to Charter Presentation: Thinking about Web Usability in the Regesta Imperii Online’ on the occasion of the Digital Diplomatics conference held in Paris in 2013. See also note 21. 73 P. Stokes, ‘Computer-Aided Palaeography, Present and Future’, in Codicology and Palaeography in the Digital Age/Kodikologie und Paläographie im digitalen Zeitalter, M. Rehbein, P. Sahle and T. Schassan (ed.), Norderstedt: Books on demand, 2009, p. 309-329 (p. 320-323, 330-331).

Georg Vogeler

Digital Edition of Archival Material – Machine Access to the Content On the Role of Semantic Web Technologies in Digital Scholarly Editions

The Problem Archives preserve written artifacts created to record the activities of humans, to give evidence of what people did. That is why they are of particular interest for historians: The scholars are interested in what people did in the past; therefore they use archival material as sources for their study. However, historians have learned that you cannot just rephrase what you read in the sources, but you create interpretations of them. The development of scholarly historiography brought two important methodological questions to the foreground: how can we best extract the facts the sources and how can we report the relationship between the historian’s interpretation and the source? Medieval studies in the pre-digital era have developed four major methods to achieve this: 1. Create critical editions that represent a. the source text under a historical reflection and b. core factual interpretations considered “unquestionable”, like conversions of named dates, identification of persons etc. 2. Extract basic historical facts from the source in archival descriptions, calendars, researchers notes, or similar forms 3. Cite parts of source text in the historian’s interpretations 4. Add formalized references to the source (e.g. in footnotes) In methods 1 and 2, historians ease the work based on the “content” of the sources: If experts create them with methods following scholarly standards, they can establish “facts” by the application of thorough source criticism and by adding contextual information; and they make it easier to reference them by adding unique and abbreviated identifications and by conveying a reliable form of the text.

Georg Vogeler  Universität Graz Digitizing Medieval Sources – L’édition en ligne de documents d’archives médiévaux : Challenges and Methodologies – Enjeux, méthodologie et défis, éd. par Christelle Loubet, Turnhout, 2019 (Atelier de Recherches sur les Textes Médiévaux, 27), p. 37-56 © FHG10.1484/M.ARTEM-EB.5.117327

38

geo rg vo ge l e r

How do these methods change when using modern information technology, when the historical work becomes “digital”? Certainly, nothing has to change at all. Digital publications can copy the established methods: for instance with PDF pages that look identical to the printed page. Calendars and scholarly editions published online can repeat the well-established layout features to distinguish interpretation from original text. Nevertheless, several digital methods have been added: With the advent of the WWW the possibility to follow references immediately by clicking on a hyperlink in a text changed expectations on the side of the readers: quotations and references could be realized as hyperlinks to the original texts; page numbers could be linked to images of the manuscript. Scholarly editors were attracted by the possibility of collecting contextual material for the edited text and referencing this material as a hypertext. But the major impact of digital methods on historical research was not triggered by hypertext. Already in the 1970s historians had started to record the facts they needed for their interpretation into databases. They added thus to the second method a new form that allowed them searching faster, reorganizing the material immediately, and counting occurrences of facts in large corpora which are interesting to their research. Usually, historians extract data from sources in a procedure directed by specific research questions, and encode it in a way that helps answering exactly these questions. New historical insights come from the procedures applied to analyze this data: apart from counting occurrences, you can plot information on a map and create a historical-geographical information system, usually abbreviated as GIS or H-GIS, or you can display the network of persons mentioned in a source collection. A good example of this approach is the software application “nodegoat”.1 The application allows the creation of complex data structures based on tables referencing each other. Users define their own data model, and the software produces useful access to this data: structured search, display of locations on a map, relationships between persons as a network graph, and, of course, combinations thereof. In the 1980s an alternative approach became prominent which was much closer to the first method enumerated above: the concept of source-oriented databases. It was promoted by Manfred Thaller, with a database system called kleio that was dedicated to historical research. The major argument in favour of this approach was that the software should be aware of the distinction between source text and facts extracted from the same, and of their relationship.2 Further developments in historical computing – and the digital humanities in general – have taken up this approach only reluctantly. Most technologies developed in the DH focus on text, considering it as a flat representation of information. This

1 P. van Bree and G. Kessels, Nodegoat: a web-based data management, network analysis & visualisation environment (2013), URL: (accessed January 27, 2018). 2 M. Thaller, ‘Gibt es eine fachspezifische Datenverarbeitung in den historischen Wissenschaften? Quellenbanktechniken in der Geschichtswissenschaft’, in Geschichtswissenschaft und elektronische Datenverarbeitung, K. H. Kaufhold and J. Schneider (ed.), Wiesbaden: Harrassowitz, 1988, p. 45-83; Id., ‘The Historical Workstation Project’, in Histoire et Informatique, Actes du Ve congrès “History & Computing” 4-7 septembre 1990 à Montpellier, J. Smets (éd.), Montpellier: Ass. for History and Computing 1992, p. 251-260; Id., Kleio. A Database System, St Katharinen: Scripta Mercaturae, 1993.

digital edition of archival material – machine access to the content

approach is partially framed by the pre-digital perception of data as text. Even statistical data could only be conveyed as tables, and published on flat surfaces like book pages. This idea of identity between text and data is in particular problematic for historical research, as it can be difficult to represent historical language with standardized strings. On the contrary, historical spelling can vary a lot. Another locus communis in the reflection on historical “data” is the shift of concepts: the geographical extension of the political entity called Regnum Franciae can vary even in short periods. Finally, historians understand many texts only through context. The shilling, for example, contained thirty denarii for the people living in Bavaria and Austria, but onlytwelve denarii elsewehere in Europe. Interpretation thus starts at reading the source text, the very basic level of source study. This points us to the very core of historical research and the role of editing archival documents: historical research tries to build a mental model of what people in history did, what they thought and felt, how they interacted. It strives for understanding how this forms historical events and phenomena over the longue durée. Historians try bringing this into meaningful relationship with the discourse contemporary to the historian – both the contemporary cultural discourse and the current academic research. The main means to build this model of the past are the artefacts created by the people in the past, in particular the documents in the archives. In other words, historians can satisfy their research interest only by interpretation of the sources. That is nothing new, but leads to a specific necessity for the digital representation of the medieval sources: they are not “historical” data, neither in the sense that the bits were created several hundreds of years ago, nor that they are an immediate record of the information the usual historian is interested in. Thus – leaving aside researchers like archeologists or codicologists, who are mainly interested in the artefacts themselves –historians have to go through several steps when working with the archival documents: they have to consider the interest of the people in the past in creating a written documentat at all. They have to consider what verbal expression the people in the past gave to the acts they documented. Finally, they have to consider the motivations of those who preserved the records, and how that affected the organizational choices involved.3 Scholarly editors are experts in creating data that represent many of these considerations. Palaeographers transcribe highly abbreviated or damaged writings. Diplomatists identify the persons who drafted a charter text and who wrote it down. Philologists highlight citations and references to other texts. Scholarly editions done by historians go usually a step further and try to build a representation of the document more suited to historical research questions by identifying persons and places named in the texts and summarizing the legal core of a document in abstracts. Analytical indices, prosopographies, and calendars are typical results of this type of scholarly activity. They start to build historical data on a new level, which is representation of the historical “facts”, of historical “information” represented in the archival document, of the “content” of the documents. Although one could build a taxonomy on the three words “fact”, “information”, and “content”:

3 A. Esch, ‘Überlieferungs-chance und Überlieferungs-zufall als methodisches Problem des Historikers’, in Historische Zeitschrift 240 (1985), p. 529-570.

39

40

geo rg vo ge l e r

e.g. use “fact” for information agreed on by a large number of scholars, “information” for any interpretation of an historical source, I will use them as synonyms in the following to distinguish between source and information extracted. Thus, each of the three denotes the parts of the mental model of the activities of people in the past that historians create when they study historical sources. Technologies

Returning to the initial distinction between source oriented and research oriented digital methods, it is precisely this area of “facts”, “information”, or “content” where historical researchers adopted very early the computer as a tool for their work. They could easily reuse the tools created for management of current information: spreadsheets or relational database management systems. Recent technological developments have added widespread technologies like JSON as a data format for object encapsulation. However, using them for representations of historical facts does not achieve what kleio aimed for: linking the factual data extracted from the source as close as possible to the source itself. Digital Humanities research has developed two methods to support this link: XML to add annotations to text, and RDF to represent associative connections of information in a network. XML is a technology that has become a natural part of scholarly editing. In particular, the encoding scheme proposed by the Text Encoding Initiative is widely used for scholarly editions.4 It offers a substantial set of textual annotations helping to represent palaeographical observations, to link transcriptions to images, and to identify some specific linguistic elements like names, references, numbers, citations etc. With the last major change, the TEI – the so-called “TEI-P5” published in 2007 – introduced methods to add structured information on persons, places, organizations, and events. The TEI also introduced a rich set of methods to describe manuscripts. This covers a good part of data types interesting for historical research: historians can identify persons, describe them with normalized names, and add descriptive properties. They can normalize geographical information given in the text, add coordinates, and even associate political entities to a given timeframe. They can describe events and their position in time. There are generic methods to encode relationships between all of these descriptive elements. However, when it comes to more project-specific modelling of historical data, the TEI is cumbersome, as it focuses on processing of text. The standard only recently introduced a generaic vocabulary for the description of objects.5 You can encode measurements of currency and commodities, but you cannot describe the currency or the commodity itself. The only way to identify them is text entered into an XML

4 (accessed January 27, 2018). 5 Building on the considerations of TEI SIG Ontologies: Minutes from the meeting in Rome October 3, 2013, URL: (accessed January 27, 2018) and Ø. Eide and C. E. Ore, ‘TEI and cultural heritage ontologies’, in Literary and Linguistics Computing 24/2 (2009), p. 161-172 the version 3.5 of the TEI Guidelines published January 29th, 2019 a model for object descriptions: http://www.tei-c.org/Vault/P5/3.5.0/doc/tei-p5-doc/en/html/ ref-object.html (accessed February 6th, 2019).

digital edition of archival material – machine access to the content

attribute. In the standard tag set there is no formal mechanism to ensure that this text is consistent, or give context on it e.g. by giving alternative terms or describing the relationship of one unit of measurement to another. The same is true for relationships: you can relate every place, person, event etc. to other objects, but you can only add a textual description as a type-attribute. The only formal mechanism to establish a stable taxonomy for these texts comes through customization of the TEI.6 If a typology is needed, e.g. of transactions recorded in charters or rights associated with people or with a territory, the TEI offers only concepts for a taxonomy, i.e. a hierarchical description. To achieve a level of XML/TEI encoding better fitting to historical facts, substantial technical knowledge is necessary. When it comes to linking to other resources, the TEI relies on general web standards. Links in attributes like ref or target are considered URIs.7 This aligns with the major technology to publish factual data proposed by the W3C: the “Resource Description Framework” (RDF), defined in 2004.8 In the following, I will try to demonstrate that RDF is a technology very well adapted to the historian’s approach to archival documents, discuss its potentials and its risks, and give some practical advice for its application, in particular, a proposal for how scholarly editors can integrate it efficiently in their digital work. I will use two examples – charters and accounts – where I have some personal experience in the context of two projects: monasterium.net9 and the MEDEA collaborative.10 What is RDF?

In 2001 Tim Berners-Lee, the inventor of the WWW, together with James Hendler and Ora Lassila, expressed a vision for the further development of the internet.11 They described an extension of the current “web of documents” to a “web of data“; from a web of information only understandable to human readers to a web of information understandable to machines as well. The set of technologies, the W3C developed in the following years to build this web of data, for a long time traded under the name of the “semantic web”, although in 2013 the W3C renamed its own activities in the field into “web of data”.12 The basic technology for this web is RDF



6 See the contribution ‘Why the TEI May not be as Limited as You Think: Advanced TEI Customisation and Use’ by James Cummings at the ESTS conference 2016 in Antwerp, forthcoming and his contribution ‘A World of Difference: Myths and misconceptions about the TEI’ to the DH 2017, URL: (accessed January 27, 2018). 7 (accessed January 27, 2018). 8 (accessed January 27, 2018). 9 (accessed January 27, 2018). 10 (accessed January 27, 2018) and the preceding activities on the encoding of accounts documented at (accessed January 27, 2018). 11 T. Berners-Lee, J. Hendler and O. Lassila, ‘The SemanticWeb’, in Scientific American 284/5 (2001), p. 34-43. 12 (accessed January 27, 2018) as the page for the semantic web activities, which is replaced by (accessed January 27, 2018) with the rebranding of the activities as “W3C Data activitiy”.

41

42

geo rg vo ge l e r

(„Resource Description Framework“). The data model realized in RDF is based on a very simple data structure: two nodes connected by an edge. This forms a „triple“of three entities, which is the term very often used in the context of RDF. This structure can easily be memorized and mentally handled as simple sentences in the form of “subject predicate object”. The second basic principle is that each position of the triple can be filled with a URI, a name unique in the whole internet. At the object position of the triples you can put also numbers or text, subsumed as under term of ‘literals’. With this, you can create statements about an existing web page, and you can represent abstract data structures when you build a URI, e.g. for an historical person, a place, or an historical event, and even abstract concepts like rights, social status etc. Therefore, the data structure separates the formal representation of the concept from natural language. With an expression like http://viaf.org/viaf/89643029/ http://xmlns.com/foaf/0.1/name “Carolus magnus”, “Carolus rex”, “Carolus imperator”, “Karl der Große”.

variant names for the same person become possible. Two typical problems of information representation in historical text become thus obsolete: orthographic variance and multiple names for the same concept. The W3C added SPARQL to the set of semantic web technologies.13 SPARQL is a query language that allows not only querying a local database, but also any database via the internet that offers a SPARQL conformant endpoint. With the reuse of URIs in different databases a query over all information on the entity is possible, aggregating all RDF/SPARQL conformant online resources to a giant global database. The technological problems in maintaining the infrastructure for querying data via SPARQL endpoints are not solved yet, although solutions are proposed.14 Finally, the W3C standardized a method to describe data in a more thorough way: the web ontology language OWL offers a vocabulary to express description logic (or first order logic) in a way that allows computers to make inferences from the data.15 There are several software products around, which make use of these “reasoners” to create new triples that logically syllogise from given assertions in RDF.16

13 The W3C SPARQL Working Group: SPARQL 1.1 Overview, W3C Recommendation 21 March 2013, URL: (accessed January 27, 2018). 14 R. Verborgh et al., ‘Querying Datasets on the Web with High Availability’, in The Semantic Web – ISWC 2014: 13th International Semantic Web Conference, Riva Del Garda, Italy, October 19-23, 2014. Proceedings, Part I, P. Mika et al., (éd.), Cham: Springer International Publishing, 2014, p. 180-196; C. Buil-Aranda and al., ‘SPARQL Web-Querying Infrastructure: Ready for Action?’, in The Semantic Web – ISWC 2013, Lecture Notes in Computer Science (presented at the International Semantic Web Conference, Springer, Berlin, Heidelberg, 2013, p. 277-293. 15 (accessed January 27, 2018). D. Allemang and J. Hendler, Semantic web for the working ontologist. Modeling in RDF, RDFS and OWL, San Francisco, Oxford: Morgan Kaufmann/Elsevier, 2008. 16 See the list in . The W3C has published a list of OWL compatible reasoners at (accessed January 27, 2018).

digital edition of archival material – machine access to the content

Potentials and Risks

The potential of this technology for historical research lies in three characteristics: 1. The technologies support re-use of data. In particular, controlled vocabularies on persons, places, bibliography, and core terminology of research domains are published in RDF and re-used in other projects. Examples for this are the Getty Thesaurus of Geographic Names,17 biographical databases like the Deutsche Biographie,18 or generic controlled vocabularies created by national libraries like the French Rameau.19 2. Identification of objects, individuals, concepts, etc. via a URI unique in the whole WWW support contextualization of information. By using common URIs in different web resources, researchers can aggregate information from different sources. 3. The W3C Simple Knowledge Organisation System (SKOS)20 and the more complex ontology descriptions language OWL (Web Ontology Language) support the machine-readable representation of basic concepts of information organization. They can express generic relations, hierarchies, class entailments, even some first order logic definitions of concepts. This helps in particular to extend search concepts on more abstract or more generic levels, like allowing the search for the region Lorraine to include documents related to the city of Nancy, as the Getty Thesaurus on Geographical names states “tgn:7008412 gvp:broaderPartitive tgn:7024272.”, which is the RDF representation of the Sentence “Nancy is part of the historical region Lorraine”. Therefore, the semantic web technologies seem well fitted to the needs of historians for the representation of historical data. They offer a flexible enough modelling environment to cover many types of historical research, while they are still strict enough to draw conclusions and they still support interconnection with other data published on the web. The major risk arises from a basic assumption introduced to the representation of data by science: in this context, data published online is usually a direct reflection of the world; it is often measured by instruments, or at least just recorded while using technical tools. From a historical point of view, this cannot be accepted. The categories assigned to the data points are a result of human culture and can thus 17 , e.g. the entry on Nancy () can be accessed as RDF data via , or (accessed January 27, 2018). 18 , e.g. the entry on Charles the Bold () can be accessed as RDF data via (accessed January 27, 2018). 19 e.g. the entry on pontifical documents: () with links to bibliography, images, and to other terms based on (accessed January 27, 2018). 20 (accessed January 27, 2018).

43

44

geo rg vo ge l e r

change.21 This concept shift often happens unnoticed even by contemporaries. The historian’s conceptualizations of “historical facts” can change as well. Additionally, they are the result of hermeneutical interpretation, thus including an individual set of contextual knowledge, and very often just one deliberate selection of interpretation of a known range of possible interpretations. The risks are therefore to treat published “historical data” as given and immutable. Solutions for the representation of concept shift and provenance tracking are necessary. The use of semantic web technologies in scholarly editions has to deal in particular with the second risk: the editor extracts the “facts” from the source. How can the relationship between their interpretation of source content as “facts” be modelled and encoded?

Applications for Digital Scholarly Edition From Extended Index to Representation of Facts

Historians are using already RDF for their research. A survey on the use of semantic web for historical research by Albert Meroño-Peñuela and his colleagues documents quite a number of resources explicitly using RDF.22 Several scholarly editions can be added to this list. The most prominent use of Semantic Web technologies in digital scholarly editing is the extension of indices. Gautier Poupeau had already described this approach in 2006,23 and the digital edition of the Fine Rolls of King Henry III, created 2005–2011, made extensive use of these technologies in its back end.24 A good example of the use of RDF in scholarly editions is the Teutsche Academie der Bau-, Bild- und Mahlerey-Künste, by Joachim von Sandrart, edited by Thomas Kirchner, Alessandro Nova, Carsten Blüm, Anna Schreurs, and Thorsten Wübbena in 2008–2012.25 The text refers to many artists and artistic objects, which are identified and described in the index. The index to this text is thus a resource on its own, which consequently can be downloaded from the site as an RDF dataset.26 A resource which makes heavily

21 K.H. Veltmann, ‘Towards a Semantic Web for Culture’, in Journal of Digital Information 4/4 (2004), URL: (accessed January 29, 2018). 22 A. Meroño-Peñuela et al., ‘Semantic technologies for historical research. A survey’, in Semantic Web 6 (2015), p. 539-564. 23 G. Poupeau, ‘De l’index nominum à l’ontologie. Comment mettre en lumière les réseaux sociaux dans les corpus historiques numériques ?’, in Digital Humanities 2006. The First ADHO International Conference: Conference Abstracts, Paris : Université Paris-Sorbonne, 2006, p. 161-164. 24 A. Ciula, P. Spence and J. M. Veira, ‘Expressing complex associations in medieval historical documents. The Henry III Fine Rolls Project’, in Literary and Linguistic Computing 23 (2008), p. 311325. The data can be found at (accessed January 29, 2018). 25 J. von Sandrart, Teutsche Academie der Bau-, Bild- und Mahlerey-Künste, Nürnberg 1675/1679/1680, T. Kirchner et al., (ed.), 2008-2012, URL: (accessed January 29, 2018). 26 and single expressions via the REST API of the project at , so returns the RDF data for Philipp Melanchthon for example (accessed January 29, 2018).

digital edition of archival material – machine access to the content

use of this approach is the Système Modulaire de la Gestion d’information Historique (SyMoGIH), developed by Francesco Beretta and his team.27 External Resources

A crucial activity in this index-oriented approach is very often already carried out even without the use of explicit semantic web technologies: reference to external databases identifying persons or places that occur in the index of the digital edition by referring to controlled vocabularies like those offered by the Bibliothèque Nationale de France.28 This can not only link to external information but also include this data directly in the edition. The digital edition of the works and papers of Carl Maria von Weber29 makes extensive use of this possibility, as you can display information from Wikipedia, the descriptions in the thesaurus of the Deutsche Bibliothek (the “Gemeinsame Normdatei” = Common norm data), or the German biography portal30 to each index entry. This solution stores the URI of the external resource together with each index entry. Identification

Of course, archival documents very often refer to persons no external database covers: local officials, noblemen with no bibliographic record, etc. Considering the role of the scholarly edition in the method of creation of historical knowledge sketched out above, the editors have to accept their role: the information they can identify in the archival document edited is meant to become part of the general fact base for historical research. The consequence is that the digital scholarly edition might create the first URI for the individual identified. The archival document proves the existence of a person carrying the name mentioned and the activity recorded in the document. The semantic web is not a hierarchical endeavour where new resources have to accommodate to centralised reference lists. On the contrary, every data resource published in the semantic web has the same factual value. The Semantic Web publishes data under two major assumptions: the so-called AAA-slogan (Anyone can say Anything about Any topic) and the consequential open world assumption. Both are based on the idea that there cannot be complete information on the web. Trust in the reliability of data is a part of the Semantic Web stack that is

27 (accessed January 30, 2018) ; F. Beretta, P. Vernus, ‘Le projet SyMoGIH et la modélisation de l’information: une opération scientifique au service de l’histoire’, in Les Carnets du LARHRA 1(2012), 81-107; F. Beretta et al., ‘Reconstituer les évolutions des espaces forestiers de l’Avesnois aux xive- xviiie siècles. Approches méthodologiques’, Bulletin du centre d’études médiévales d’Auxerre|BUCEMA, Hors-série 9 (2016), URL: (accessed January 30, 2018). 28 (accessed January 30, 2018). 29 Carl Maria von Weber Gesamtausgabe. Digitale Edition, G. Allroggen et al., (ed.), Detmold/ Paderborn, 2011, URL: (accessed January 30, 2018). 30 e.g. on the composer Georg Joseph Vogler, URL: (accessed January 30, 2018).

45

46

geo rg vo ge l e r

considered by the W3C,31 but addressed with technical solutions only in terms of communication between technical systems. The relationship between data and real world, which is the core interest of researchers working with the data, lies beyond these solutions. Credibility of the people publishing data e.g. by the application of established historical research methods, can contribute to this kind of trust. Therefore, information extracted from documents in a scholarly edition is of particular worth to the pool of data in the semantic web. It already carries a double justification for trust: it is based on archival evidence, and responsible scholars created it. The consequence of this identification activity goes beyond establishing facts in an analytical index. It is a core part of scholarly editions, at least for historians. The pre-digital form of publication of charters can demonstrate this easily: a brief description of the content usually precedes the text of each document. The legal exceptions granted by Charlemagne to the abbey of Hersfeld in 775 can serve as an example. You can find at least four scholarly representations of it on web: 1. An image with a short description put online by the Archives in monasterium.net.32 2. The text as it has been printed in the MGH edition by Engelbert Mühlbacher in 1906 at the dMGH website.33 3. The extended abstract created by the Regesta imperii, also created by Engelbert Mühlbacher and published in 1908.34 4. The database entry in the project “The making of Charlemagne’s Europe” created by the team around Alice Rio and Janet L. Nelson in 2014.35 They all can be considered a scholarly representation of the same charter, and it would make sense to link between the four by using a common identifier. As there is currently no authority on which URI should be used, a suggestion for good practice is to publish machine readable concordances. The German Wikipedia suggests a format to publish this kind of concordances called “BEACON”.36 Using full blown Semantic Web technologies the file could use the SKOS vocabulary with the property skos:exactMatch. SKOS additionally offers properties to express less-clear relationships, like skos:closeMatch. The most restrictive statement of identity can be made by

31 Tim Berners Lee, ‘Semantic Web’, in: XML2000 (2000), slide 10, URL: (accessed January 30, 2018). ; W3C Ufficio Italiano, Representing Knowledge in the Semantic Web 2005, slide 7, URL: (accessed January 30, 2018) ; Steve Bratt, Semantic Web, and Other Technologies to Watch, 2007, slide 24, URL: (accessed January 30, 2018). 32 . The information is identical to the homepage of the archive at (accessed January 30, 2018). 33 (accessed January 30, 2018). 34 (accessed January 30, 2018). 35 , in The Making of Charlemagne’s Europe, A. Rio, J. L. Nelson and J. Bradley (ed.), London, 2011-2015, URL: (accessed January 30, 2018). 36 (accessed January 30, 2018).

digital edition of archival material – machine access to the content

using owl:sameAs, which would trigger a full replacement of one URI with the other in a semantic-web-aware database. A refer­ence list like the “Abbildungsverzeichnis europäischer Herrscherurkunden”37 offers this kind of information on charters issued by European sovereigns before 1200. It lists bibliographic records where you can find images to each of the charters. The majority of the entries refer to printed facsimiles, but some add links to online representations as well. Some of them are digitized prints, some dedicated charter databases, some images put online by archives. The reference list is continuously adding links to scholarly editions, calendars and archival homepages. At (accessed January 30, 2018) you can find a RDF based reference list that can serve as a concordance of the different references. A single entry looks similar to the following:

         

This states that the entry in the “Abbildungsverzeichnis” refers to the same charters as the entries in the Regesta imperii (), the MGH () and the Chartes originales antérieures à 1121 conservées en France (). The digitised facsimiles of Lot/Lauers Diplomata Karolinorum () and the database entry in the Diplomata-Nachträge at MGH () are probably the same as the charter in Regesta Imperii, MGH and Chartes Originales. This restriction in confidence comes from the unclear status of these entries. A more precise vocabulary for the description of the relationship between these digital representations exists only in a draft form at present.38 Nevertheless, the RDF file can be used by the ARTEM project, monasterium.net, the Regesta Imperii, or the dMGH to refer to each other. Similar lists, if offered by

37 Abbildungsverzeichnis der europäischen Kaiser- und Königsurkunden, I. Fees (ed.), München: LudwigMaximilians-Universität, 1994-2017, URL: (accessed January 30, 2018). 38 See G. Vogeler, ‘Versioning charters’, in Versioning Cultural Objects, R. Bleier and V. das Gupta (ed.), forthcoming, for an in depth analysis of the multiple forms a digital representation of a charter can take. See (accessed January 30, 2018) for the current state of this vocabulary.

47

48

geo rg vo ge l e r

other digital resources, could easily be written by hand and merged with the current list. In fact, RDF database software usually handles this kind of merging quite easily. SKOS

Simple semantic web technologies go beyond identification and building a concordance. In the example above, I used the SKOS vocabulary. The W3C has suggested it for the formalization of simple knowledge, i.e. the kind of knowledge which comes easy in taxonomies. It offers a standard to describe concepts and relationships between them. The relationships can be identifications like those described above and hierarchical relations to broader or narrower terms. This kind of description is in particularly useful when the scholarly edition is dealing with a richer index. The “Schuld- und Rechnungsbücher des Deutschen Ordens”, a scholarly edition by Jürgen Sarnowsky, Cordelia Heß, and Christina Link39 have such rich indices for the commodities, occupations, other objects and facets recorded in the account books.40 Their hierarchical structure allows, for example, searching for different wine types in a common category.41 You can easily represent information like this in SKOS (the sample code uses the Turtle/N3 notation of RDF that is even easier to read compared to the XML version as it has a syntax similar to standard sentences): schuredo:0023.A.0007 a skos:Concept  ; skos:broader schuredo:0023.A ; skos:prefLabel "Rheinwein"@de . schuredo:0023.A a skos:Concept  ; skos:broader schuredo:0023 ; skos:prefLabel "Wein"@de  ; skos:prefLabel "wine"@en. schuredo:0023 a skos:Concept  ; skos:prefLabel "Lebensmittel"@de, "groceries"@en .

Again, this type of description offers an identification for the object or concept beyond its name in a specific language. Many controlled vocabularies published by research institutions use SKOS to describe their data.42 The vocabulary is simple enough to create this kind of resource even without deep technical knowledge. Interestingly, in historical research the possibility has not become that well-known. 39 Die mittelalterlichen Schuld- und Rechnungsbücher des Deutschen Ordens um 1400. Eine synoptische Edition im Internet, J. Sarnowsky, C. Hess and C. Link (ed.), Hamburg: University of Hamburg, 2008, URL: (accessed January 30, 2018). There are print editions of the account books as well: Schuldbücher und Rechnungen der Großschäffer und Lieger des Deutschen Ordens in Preußen, Bd. 1: Großschäfferei Königsberg I (Ordensfoliant 141), C. Hess, C. Link and J. Sarnowsky (ed.), Köln, Weimar, Wien: Böhlau, 2008, and Schuldbücher und Rechnungen der Großschäffer und Lieger des Deutschen Ordens in Preußen, Bd. 3: Großschäfferei Marienburg, C. Link and J. Sarnowsky (ed.), Köln, Weimar, Wien: Böhlau, 2008. 40 (accessed January 30, 2018). 41 (accessed January 30, 2018). 42 e.g. the thesauruses of the Getty Research institute on works of art, materials and techniques applied in arts, artists, and place names: (accessed January 30, 2018).

digital edition of archival material – machine access to the content

This might be caused by reservations on the part of professional historians towards the building of large centralised databases that do not relay the historical context of the specific information.43 Scholarly editing is in a different position: the context of the information extracted by the editor is clear and can be referenced immediately. It would therefore make much sense for subject indices to scholarly editions to be published as RDF/SKOS resources. The documentation properties like skos:historyNote and skos:scopeNote can serve to describe the scope of the term defined,44 and the publication together with a scholarly edition helps to build aggregated resources being aware of the context. However, again it becomes obvious that the core problem in this digital representation of historical “facts” is their relationship to the source and the activity of interpretation. Modelling

Finally, this kind of extended analytical index still does not cover the full range of historical information the editor can extract: what is the relationship between Henry III and the people mentioned in the fine rolls? Which amount was paid for what kind of offence? Rolls and registers are in particular rich resources of individual historical information. In fact, they can be considered as a database avant-la-lettre. The REM website shows the results of several experiments in extracting data from late medieval accounts.45 During the MEDEA project and its follow-up, the Mellon foundation funded DEPCHA project, a common data model was drafted which could be applied to accounting material.46 However, the core term in the accounting ontology proposed in the MEDEA project has much in common with the data model John Bradley developed for the Making of Charlemagne’s Europe project and the People of Scotland project: the transaction.47 The transfer of goods, rights, money, or services recorded in accounts are legal transactions as they were recorded in medieval charters. Thus, texts like an entry in the accounts of the argentier of Charles the Bold « A Hennequin Didier et pluseurs autres archiers de corps de mondit seigneur en nombre de trente six, la somme de 155 £ 2 s. … »48 can use the same RDF vocabulary as the receipt issued by the representative of the Roman church on April 18th, 1256 for the payment of 32 shillings for outstanding taxes from the abbey of Klosterneuburg in Austria: 43 A good example how a large database can come into existence, which keeps this reference to sources, is the History of Work Information System that gives its taxonomy of occupations together with source references and images extracted from the sources: (accessed January 30, 2018). 44 (accessed January 30, 2018). 45 (accessed January 30, 2018). 46 (accessed January 30, 2018). On DEPCHA see http://gams.uni-graz.at/context:depcha (access February 6, 2019) 47 See on the ontology: J. Bradley and M. Pasin, ‘Factoid-based Prosopography and Computer Ontologies. Towards an integrated approach’, in Digital Scholarship in the Humanities 30/1 (2015), p. 86-97 and the ontology itself at (accessed January 30, 2018). 48 Comptes de l’argentier de Charles le téméraire, duc de Bourgougne, vol. ii, ed. Greve/Lebailly, 2002, p. 90, n. 333.

49

50

geo rg vo ge l e r

“Universitati vestre tenore presencium innotescat, nos a venerabilibus patribus preposito et conventu Newnburgensis Monasterii Patawiensis diocesis pro censu octo annorum proximo preteritorum, in quo dictum monasterium Romane ecclesie tenebatur, XXXII. sol. breves wienn. monete pro octo bitanciis aureis pro domini Pape camera recepisse)”:49 ex:initiates [a ex:transaction; ex:of 155 £ 2 s.; ex:to “Hennequin Didier et pluseurs autres archiers de corps de mondit seigneur”]. ex:iniates [a ex:transaction; ex:of “XXXII sol. Breves. Wienn. Monete”; ex:to dbpedia:Latin_church].50 A common data model can thus bring together facts from very different types of sources. RDF, RDFs and OWL offer technologies for a formal description of data models. Convert TEI into a Database

As observed above, the TEI offers good methods to create index-like references from names occurring in a text to external resources, by using URIs in ref-attribute. This link method is available for a rich set of annotations.51 However, as stated above, the facts documented in a source text are not merely single index entries. Accounts, for example, describe economic activities. In the experiments and digital scholarly editions of late medieval and early modern accounts I made, I tried to add a generic database layer to the transcription of the text. The transcription in TEI links to an RDF data model via the ana-attribute. The attribute was selected because it can be applied globally and the version 3.2.0 of the TEI specifications defines it as the indication of “interpretations of the element on which the ana attribute appears”,52 thus pointing the user directly to the relationship between source and interpretation in historical research introduced in the beginning of this chapter. Using standard XSLT this information can be extracted and transformed into RDF.53

49 H. Zeibig, Urkundenbuch des Stiftes Klosterneuburg, Wien: Hof- und Staatsdruckerei, 1857, p. 8, n. 10, online at (accessed January 30, 2018). 50 This is pseudo code is close to the Turtle/N3 syntax of RDF. 51 (accessed January 30, 2018). 52 (accessed January 30, 2018). 53 See G. Vogeler, ‘Digitale Edition von Wirtschafts- und Rechnungsbüchern’, in Wirtschafts- und Rechnungsbücher des Mittelalters und der Frühen Neuzeit, G. Gleba and N. Petersen (ed.), Göttingen: V&R, 2015, p. 307-328; Id., ‘Warum werden mittelalterliche und frühneuzeitliche Rechnungsbücher eigentlich nicht digital ediert?’, in Grenzen und Möglichkeiten der Digital Humanities, C. Baum and T. Stäcker (ed.), Wolfenbüttel: Forschungsverbund Marbach Weimar Wolfenbüttel, 2015, URL: (accessed January 30, 2018); Id., ‘The Content of Accounts and Registers in their Digital Edition. XML/TEI, Spreadsheets, and Semantic Web Technologies’, in Konzeptionelle Überlegungen zur Edition von Rechnungen und Amtsbüchern

digital edition of archival material – machine access to the content

The method can be transferred to other archival documents: the city of Basel created a series of “Urfehdebücher” (oath of truce records) in the sixteenth century. In cooperation with the Department for History at the University of Basel, we created a digital resource in the same manner as for the city accounts.54 We developed a data model from the cases described in the text and identified the segments of the text referring to the data model with the same XML/TEI annotation method. Annotating the transcription with this data model allowed the extraction of RDF data handled in a triple store. The current web application offers the full RDF for download.55 Currently the web application makes use of the database only in a reduced manner: the user can select all entries related to several types of annotation (offences, persons and their roles, gender, type of punishment) and put them into a local data basket to export them for further analysis. However, the data supports further types of query: in an experiment, Christopher Pollin created a graph based visualisation, as shown in Figure 2. It shows all cases in which the city administration threatens further punishment. The light green node in the centre represents this category. Every dark small node represents a case reported in the ‘Urfehdebuch’. Their connection to the nodes representing male (large dark node) and female (large light node) offenders in this forced-atlas-graph allows a first, instantaneous interpretation: the degree and centrality of the gender nodes moves the node for female offenders to the outer part of the graph. The Basel officials applied threats of punishment much more often to male offenders, and alcohol abuse was a problem recorded mostly for men. Further research would have to test this impression in relationship to the distribution of gender in the whole data set. How to Create the Link between Text and Fact

The two examples from Basel municipal archives show a possible method for annotating historical data in scholarly editing beyond the preparation of classical analytical indices. But is it a sound method? What alternatives are there? If you follow the recommendations of the W3C, you can approach the problem of provenance tracking in scholarly editions by two ways: 1. You can consider the factual representation of the document as an annotation, added to the source by the editor. 2. You can consider the factual representation of the document as an interpretation, extracted from the source by the editor.

des späten Mittelalters, J. Sarnowksy (ed.), Göttingen: V&R unipress, 2016, p. 13-41 and the project description of Jahrrechnungen der Stadt Basel 1535 bis 1610 – digital S. Burghartz et al., (ed.), Basel/ Graz, 2015, at for a more detailed description of the method (accessed January 30, 2018). 54 Urfehdebücher der Stadt Basel – digitale Edition, S. Burghartz, S. Calvi and G. Vogeler (ed.), Basel/Graz, 2017, URL: (accessed January 30, 2018). 55 for the information extracted from the Urfehdebuch, and for the categories used for annotation (accessed January 30, 2018).

51

52

geo rg vo ge l e r

Figure 2 : Graph based visualisation of cases in which the city administration threatens further punishment to male and female offenders from the Urfehdebuch X der Stadt Basel, 1563-1569 (Christopher Pollin)

The semantic web community has developed vocabularies to express both approaches: the annotation way is covered by the Open Annotation proposal.56 56 Elaborated by the Open Annotation Community Group (URL: , accessed January 30, 2018) and published as a W3C recommendation in 2017, see and R. Sanderson, P. Ciccarese and B. Young, Web Annotation Data Model, W3C Recommendation 23 February 2017, URL: (accessed January 30, 2018).

digital edition of archival material – machine access to the content

The second is approached by the W3C PROV family of documents, where “PROV” refers to the “provenance”.57 Both – and all similar approaches created by other communities like the modelling activities of the international committee for documentation in museums (CIDOC),58 are highly abstract solutions to be handled by dedicated software. All of them have the advantage to be expressed with methods of the semantic web. But with this, they create an overhead in scholarly editing, where the transcription and its annotation should be in the core, and where technologies like the TEI have laid already good ground. The approach taken in the projects cited above in fact is close to another proposal by the W3C for serializing RDF data, the so-called “RDFa”.59 Following this proposal, RDF data is embedded in a textual document by adding some attributes to standard HTML. Many of the digital editions published by the German Historical Institutes embed metadata in their documents this way.60 The TEI, on the other hand, lacks an established method to identify the predicate position in the markup.61 All existing solutions62 rely on knowledge about the structure of the XML. Still, knowledge about the target data model can ease the interpretation of a generic markup in any attribute designed to contain URIs.

57 to which Y. Gil and S. Miles, PROV Model Primer, W3C working group notes, 30.4.2013 () is a good introduction (accessed January 30, 2018). 58 for provenance and for interpretation (accessed January 30, 2018). 59 (accessed January 30, 2018). 60 (accessed January 30, 2018). 61 See my contribution to the TEI conference 2016 in Vienna under the title „Encoding Text About Things”, slides available at (accessed January 30, 2018). 62 ODD/XSLT-based approach: CLAROS (, S. Rahtz, Realistic targets in TEI to RDF (2011), URL: (accessed January 30, 2018); the approach based on tei:taxonomy, @ana and XSLT: Symogih (, F. Beretta, ‘The symogih.org project and TEI. Encoding structured historical data in XML texts’, in Text Encoding Initiative Conference and Members’ Meeting 2015. Connect, Animate, Innovate, Oct 2015, Lyon, France (2015), URL: (accessed January 30, 2018), Jahrrechnungen der Stadt Basel 1535-1610 (, accessed January 30, 2018), G. Vogeler, ‘The Content of Accounts and Registers in their Digital Edition. XML/TEI, Spreadsheets, and Semantic Web Technologies’, in Konzeptionelle Überlegungen zur Edition von Rechnungen und Amtsbüchern des späten Mittelalters, J. Sarnowksy (ed.), Göttingen: V&R, 2016, p. 13-41; tei:span, RDFa/XSLT based: M. O. Jewell, ‘Semantic Screenplays: Preparing TEI for Linked Data’, paper at the DH2010 (, accessed January 30, 2018), 2010; approach based on tei:relation, XPath and @xml:id: Sharing Ancient Wisdoms project (, accessed January 30, 2018), A. Jordanous, A. Stanley and C. Tupman, ‘Contemporary transformation of ancient documents for recording and retrieving maximum information: when one form of markup is not enough’, in Proceedings of Balisage: The Markup Conference 2012. Balisage Series on Markup Technologies, vol. 8 (2012). doi:10.4242/ BalisageVol8.Jordanous01).

53

54

geo rg vo ge l e r

Let us consider a markup of the receipt for the abbey of Klosterneuburg (1256, April 18) like following: Omnibus Christi fidelibus presentes literas inspecturis Petrus de Pontecorvo Capelle domini pape clericus apostolice sedis nuncius salutem in Domino. Universitati vestre tenore presencium innotescat, nos a venerabilibus patribus preposito et conventu Newnburgensis Monasterii Patawiensis diocesis pro censu octo annorum proximo preteritorum, in quo dictum monasterium Romane ecclesie tenebatur, XXXII. sol. breves wienn. monete pro octo bitanciis aureis pro domini Pape camera recepisse, conputatis pro quolibet denario aureo L. den. monete supradicte, salvo tamen, si dictum monasterium ad censum huiusmodi persolvendum pro majori vel minori tempore teneatur, ut pro ipso romane ecclesie satisfaciat, sicut fuerit faciendum. In cuius rei testimonium presentes literas nostri sigilli munimine fecimus roborari. Dat. XIV. Kal. Maii in eodem Monasterio Anno gracie M°CC°LVI°. Pontificatus domini Alexandri pape IIII.ti anno secundo. You can create this markup with the default online editor available in monasterium. net. It includes some references to the accounting ontology drafted by the MEDEA project: bk:entry, bk:from, bk:to, bk:what, bk:amount, bk:when. From the accounting ontology we can deduce, that a bk:entry represents the written form of a transaction between bk:from and bk:to. In the transaction a monetary amount (bk:amount) is transferred at specific date (bk:when), and in exchange a “bk:what” is returned. Based on this information you can create an RDF like this: Charter:u1256-04-18   bk:transfers [   a bk:amount  ;    bk:hasText “XXXII. sol. breves wienn. Monete”  ;  ]   bk:from dnb:2078067-9 ;   bk:to bnf: 11875629  ;   bk:what ex:tax ;   bk:when “1256-04-18” .

Like RDFa this can make use of the hierarchical XML structure: the element annotated as bk:entry contains the elements to describe the properties of the entry. But while RDFa only considers this entailment structure to express the relationship of something in the subject position of the RDF statement, you can use the XML structure as well to point to other related mark-up. The W3C has designed the XPath language to express these relationships: the entailment used in the example can be coded by a reference to all descendant XML elements. You can address ancestor elements (like the cei:tenor element would be to all mark-up included) or siblings

digital edition of archival material – machine access to the content

(like cei:index, cei:measure or cei:date would be to cei:orgname). If the schema for the RDF structure is strict enough we can force the analysis XSLT program by using XPath to look for those required positions in a statement missing in the descendant group of XML elements in the descendants of the closest ancestor. Consider an XML encoding like following:63

        Iacopo di messer Giannozzo Pandolfini in proprio: I panni di lana 1473 e i drappi di seta 1474-1476       

Panni fini di nostra rangione per mandare a Napoli deono dare, a dì .xxviiii. d’aghosto, f. trenta s. xvi° d. viii, e sono per tintura di .x. panni di grana e .i.° verde; posto Girolamo Ciai e conp. tintori debbino avere in questo c. 20, f. 30.16.8

  



The merchant keeping the ledger is recorded in the title (Iacopo di messer Giannozzo Pandolfini). The main body contains several entries. Each represents a transaction in which Iacopo is envolved. An XPath selector ./ancestor::*/descendant::*[@ ana=”bk:between”][1] points from every entry to this mark-up in the title. With this, you can convert the encoded text above into the following RDF statements: P1473:n. 1 a bk:Transfer  ;   bk:transfers [   a bk:MonetaryValue  ;   bk:quantity 920;    bk:unit “d.” .   ] ;   bk:from P1473:org_15 ;      bk:to http://siusa.archivi.beniculturali.it/?Chiave=47480&TipoPag=prodente ;   bk:when>1473-08-28 .

The only necessary information additional to the referenced bookkeeping ontology is some normalization of textual data: references to URIs and transformation of measurements and dates into machine-readable data. For this, the markup scheme of the TEI has well established methods: the attributes quantity, unit for tei:measure, ref for tei:orgName and tei:placeName, when for tei:date. Using this default markup 63 The text of the example is taken from the PhD thesis of V. Schwarz-Ricci, Gli affari mercantili e cambiari di Iacopo di messer Giannozzo Pandolfini proprio (1473-1502), Napoli: Università Federico II, 2009.

55

56

geo rg vo ge l e r

together with an annotation linking to an external ontology embeds data structures into the text of scholarly editions. This enables a competent XSLT programmer to extract the historical data from the encoded text. In the whole process, the digital humanities experts decide on the formal model they consider best fitting to the provenance / interpretation problem instead of being constraint to what default XML schemes offer or how the source text structures and labels the information. The editors have done their work: they created a digital representation of the source by scholarly standards including their interpretation of the facts which could be extracted from the archival documents in a way that the data representing these facts can be shared via the semantic web and still retraced to the source supporting their interpretation.

Conclusion Scholarly editing plays a crucial role in the process of historical interpretation of archival documents. This does not change with the application of digital methods. The last decade has added the “web of data” (or “semantic web”) to the tool set of historians working with archival sources. It offers the possibility to publish the “factual” data scholarly editors can find in their texts. Semantic web technologies based on RDF help to identify objects, sources and concepts over the whole internet and link between resources referring to the same objects, people, places, or concepts. Using RDF to represent the factual content of the documents helps integrate external knowledge and export the factual knowledge proved by edited source. This starts with classical indexing of persons, places, and subjects, but RDF goes beyond as it offers methods for a formal description of data structures. RDF representations can create a database of the facts extracted from an archival document, and integrate these facts into the common knowledge available by aggregating RDF data over the WWW. The core question in the application of RDF to scholarly editions is the link between the primary representation of the source – usually as transcribed text – and the facts extracted by the editor. This link plays a double role: 1. It allows the historian to check if the interpretation offered by the editor is reliable. 2. It distinguishes scholarly data from data from other sources, as it serves as proof of existence of the fact relayed. At the current state of research there is still much to do to realise the full potential of semantic web technologies by creating easy to use tools to interact with the network of information. Scholarly editors should nevertheless consider a much wider application of RDF and other semantic web technologies to their work in the digital realm as they are considering it currently. Doing this, they will provide the reliable data for future research, not only as high-quality transcriptions but also as highly reliable and fully source-documented factual statements – including the possibility to doubt the interpretation of the editor. The current scholarly edition of archival documents can become a source of information for the future machines.

Eliana Magnani

Des chartae au Corpus La plateforme des CBMA – Chartae/Corpus Burgundiae Medii Aevi

Les CBMA sont une plateforme documentaire électronique fondée sur la numérisation de documents diplomatiques édités et de manuscrits (cartulaires) relatifs à la Bourgogne médiévale. Le corpus évolue actuellement vers l’incorporation d’autres types documentaires. À la fin de l’année 2004, lorsque le programme démarre, la formule aujourd’hui consacrée des Digital Humanities venait juste d’éclore1. Le projet s’inscrivait toutefois dans le sillage d’une série d’initiatives qui, depuis la fin des années 1960, visaient à intégrer l’informatique dans l’atelier du médiéviste2, et que les évolutions technologiques ainsi que le développement d’Internet au tournant du xxie siècle ont définitivement institué dans l’habitus de l’historien3. En revenant sur l’expérience des CBMA et sur ses accomplissements, sans taire ses difficultés,

1 Le terme Digital Humanities serait apparu en 2004 à la place de Humanities Computing dans S. Schreibman, R. Siemens, J. Unsworth (éd.), A Companion to Digital Humanities, Oxford, 2004, URL : (consulté le 30 mai 2017). Sur la constitution de ce champ disciplinaire on peut se rapporter à M. K. Gold, « The Digital Humanities Moment », Debates in the Digital Humanities, éd. M. K. Gold, Minneapolis-London, 2012, p. ix-xvi et L. F. Klein, M. K. Gold, « Digital Humanities: The Expanded Field », Debates in the Digital Humanities, éd. M. K. Gold, L. F. Klein, Minneapolis-London, 2016, les deux volumes sont disponibles en ligne dans (consulté le 30 mai 2017). 2 En France, dans le domaine de l’histoire médiévale et de la diplomatique en particulier, il faut citer des projets notables comme la création en 1966 à l’université de Nancy II du « Centre de recherches et d’applications linguistiques (C.R.A.L.) » qui aboutira en 2010 à la publication en ligne des « Chartes originales antérieures à 1121 conservées en France », ou la parution de la revue « Le médiéviste et l’ordinateur » entre 1979 et 2006. Cf.  et (consultés le 30 mai 2017). Pour une synthèse raisonnée de ce moment historiographique, voir N. Perreaux, L’écriture du monde. Dynamique, perception, catégorisation du mundus au Moyen Âge (viième-xiiième siècles). Recherches à partir de bases de données numérisées, Thèse Université de Bourgogne, Dijon, 2014, p. 100-113. 3 N. Delalande, J. Vincent (éd.), Le métier d’historien à l’ère numérique : nouveaux outils, nouvelle épistémologie ?, Revue d’histoire moderne et contemporaine – supplément, n°58-4bis (2011/5) ; F. Clavert, J. Daniel, H. Fleckinger, M. Grandjean, F. Idmhand, « Histoire et humanités



Eliana Magnani  LAMOP (UMR 8589 CNRS) Digitizing Medieval Sources – L’édition en ligne de documents d’archives médiévaux : Challenges and Methodologies – Enjeux, méthodologie et défis, éd. par Christelle Loubet, Turnhout, 2019 (Atelier de Recherches sur les Textes Médiévaux, 27), p. 57-67 © FHG10.1484/M.ARTEM-EB.5.117328

58

e l i a n a m agn an i

cet article entend contribuer à la réflexion sur le processus de la publication en ligne et de la multiplication de la numérisation des documents médiévaux ainsi que sur leurs enjeux pour la recherche. Il s’agira dans un premier temps de rappeler l’histoire et le contexte institutionnel du projet, ensuite de détailler ses choix techniques et épistémologiques, de même que ses dernières évolutions.

Un peu d’histoire institutionnelle Le programme des CBMA est le fruit d’une double conjoncture favorable : la mise en place de projets numériques nationaux successifs et de compétences professionnelles décisives. L’idée de numériser des documents diplomatiques bourguignons m’a été proposée par Benoît-Michel Tock en 2004, en m’invitant à participer au projet intitulé « Chartes et pouvoir au Moyen Âge » (2004-2007) qu’il mettait en place dans le cadre de l’ACO (Appel à Contrat d’Objectifs) « Réseau des Maisons des Sciences de l’Homme - Terrains, technique, théories ». Réunissant différents partenaires nationaux, ce projet entendait numériser des actes édités antérieurs à 1300, et il a été poursuivi ensuite au cours de deux projets thématiques « Corpus » de l’ANR (Agence Nationale de la Recherche), ESPACHAR (« Les espaces de la charte » - 2007-2011) et CHARCIS (« Chartes cisterciennes du xiie siècle » - 2013-2016), qui se tournait vers la transcription d’actes inédits4. Le début de cette entreprise collective, qui a abouti à la réalisation de la base de données Chartae Galliae5, coïncidait avec l’arrivée de Marie-José Gasse-Grandjean dans l’équipe de l’UMR Artehis à Dijon, où j’étais moi-même affectée depuis cinq ans en tant que chercheure au CNRS, et au sein de laquelle le programme s’est développé jusqu’en 20146. Ingénieure au CNRS, ayant travaillé auparavant à Nancy au sein de l’Artem (Atelier de recherche sur les textes médiévaux) dans l’important projet des « Chartes originales antérieures à 1121 conservées en France », M.-J. Gasse-Grandjean, forte de cette expérience et consacrant une grande partie de son temps de travail aux CBMA, a pu donner l’élan nécessaire à ce programme depuis ses débuts et jusqu’en 20147.

numériques : nouveaux terrains de dialogue entre les archives et la recherche », La Gazette des Archives, Association des archivistes français, 2017, Meta/morphoses. Les archives, bouillons de culture numérique, 245 (1), p. 121-134 . 4 B.-M. Tock, « Chartes et pouvoir au Moyen Âge », Bulletin du centre d’études médiévales d’Auxerre | BUCEMA, 9, 2005, p. 173-177, disponible en ligne sur  ; DOI : 10.4000/ cem.747; Id., « Le projet CHARCIS – Chartes cisterciennes du xiie siècle », Bulletin du centre d’études médiévales d’Auxerre | BUCEMA, 17.2 (2013), disponible en ligne sur  ; DOI : 10.4000/cem.13189 (consultés le 30 mai 2017). 5 URL : (consulté le 30 mai 2017). 6 UMR 5594, puis 6298, Artehis (Archéologie, terre, histoire, sociétés - CNRS - Université de Bourgogne - Ministère de la Culture). Cf. E. Magnani et M.-J. Gasse-Grandjean, « CBMA - Chartae Burgundiae Medii Aevi. Les débuts du projet », Bulletin du centre d’études médiévales d’Auxerre | BUCEMA, 9 (2005), p. 178-179, disponible sur  ; DOI : 10.4000/cem.751 (consulté le 30 mai 2017). 7 Voir les différents articles, études et comptes rendus des journées d’études rassemblés dans la « Collection CBMA », disponible en ligne sur (consulté le 30 mai 2017).

D e s c hartae au Co rpu s

Au long de cette période le projet a rassemblé un réseau de collaborateurs extérieurs, a accueilli des post-doctorants8 et a employé temporairement entre 2008 et 2010 plusieurs étudiants9, dont deux, Nicolas Perreaux et Coraline Rey, ont inscrit leurs recherches en master puis en doctorat dans le cadre des CBMA et sont devenus des piliers du programme10. Grâce à ce travail d’équipe, auquel il faut également associer les personnels administratifs et techniques, parallèlement aux projets collectifs, les CBMA ont pu constituer leur propre plateforme documentaire et développer leurs propres projets avec le soutien financier de la Région Bourgogne, du CNRS et de l’université de Bourgogne. Ces apports ont été décisifs, car à l’intérieur d’un laboratoire transpériode et pluridisciplinaire à dominante archéologique, le projet n’a jamais bénéficié de crédits récurrents de l’unité, plutôt polarisés par les chantiers de fouille. Cette tension s’est manifestée notamment lors du tarissement progressif des sources régionales de financement complémentaire à partir de 2011 et du changement de la politique interne qui, à l’inverse des années précédentes, devenait défavorable à notre projet. Le changement de ma propre affectation et l’accueil du programme des CBMA par une équipe d’historiens médiévistes à partir de 2015, le Lamop11, a permis de retrouver un cadre propice à des nouveaux projets, mais dépendant, du point de vue des ressources humaines, de contrats de très courte durée dans le contexte déplorable de précarisation croissante des emplois dans le domaine de la recherche12. Coraline Rey assume depuis, par intermittence, les tâches d’ingénieure d’études et de webmaster des CBMA.



8 Isabelle Rosé a bénéficié d’un post-doctorat CNRS (2006-2007), tandis que Marlène Helias-Baron a travaillé comme ingénieure de recherche dans le cadre de l’ANR CHARCIS (2013-2014). 9 Lucie Hoornaert, Benjamin Lefèvre, Philippe Pons, Naomi Russo. 10 C. Rey, L’entreprise archivistique de Jean de Cirey, abbé de Cîteaux (1476-1501). Le dossier documentaire de la seigneurie de Villars en Côte-d’Or, mémoire de Master 2 sous la direction de E. Magnani et M.-J. Gasse-Grandjean, Université de Bourgogne, Dijon, 2009, disponible en ligne sur et sa thèse en cours Archives et bibliothèque à Cîteaux, de l’original au « recueil » : scripturalité et visualité dans une entreprise d’écriture au Moyen Âge (xiie siècle – début du xvie siècle), présentation sur  ; N. Perreaux, L’eau, l’écrit et la société. Étude statistique sur les champs sémantiques dans les bases de données [CBMA], Mémoire de Master 2 sous la direction d’E. Magnani, Université de Bourgogne, Dijon, 2010, résumé disponible en ligne sur et sa thèse L’écriture du monde, op. cit., présentée dans les articles « L’écriture du monde (I). Les chartes et les édifices comme vecteurs de la dynamique sociale dans l’Europe médiévale (viie-milieu du xive siècle) », Bulletin du centre d’études médiévales d’Auxerre | BUCEMA, 19.2 (2015), disponible en ligne sur  ; DOI : 10.4000/cem.14264 et « L’écriture du monde (II). L’écriture comme facteur de régionalisation et de spiritualisation du mundus : études lexicales et sémantiques », Bulletin du centre d’études médiévales d’Auxerre | BUCEMA, 20.1 (2016), disponible en ligne sur  ; DOI : 10.4000/cem.14452 (liens consultés le 30 mai 2017). 11 UMR 8589, Lamop (Laboratoire de Médiévistique occidentale de Paris - CNRS - Université Paris 1 Panthéon-Sorbonne). 12 Depuis 2015, en plus de l’appui du Lamop, les CBMA ont reçu le soutien du Consortium Cosme (2016 et 2018) et du Labex haStec (2017, 2018 et 2019).

59

60

e l i a n a m agn an i

En dehors de toute situation particulière à tel ou tel projet, ce bref rappel permet de dégager trois points significatifs dans la conduite d’un programme « numérique », et qui relèvent, au dernier ressort, des capacités institutionnelles de financement : le rôle incitatif de la politique nationale de la recherche avec des subventions ciblées, comme celles des appels à projet de l’ANR « Corpus et outils de la recherche en SHS » en 2006, 2007 et 2008, puis en 2011 et 2012 ; l’assise des laboratoires pouvant assurer (ou pas) la continuité sur la longue durée ; la centralité des ressources humaines.

Principes Le cadre institutionnel général posé, la structure du programme des CBMA découle de ses orientations éthiques et épistémologiques. Prenant acte du fait que les documents médiévaux sont par essence libres de droits et que le projet est financé par l’argent public, tous les acquis du programme sont mis à disposition librement sur Internet presque immédiatement. Plus encore, tout est pensé pour faciliter la consultation, l’utilisation et l’appropriation des textes, des données et des métadonnées tout au long du processus de leur traitement. Cela a une incidence importante sur les choix techniques, car les CBMA se caractérisent par la pluralité des formats électroniques de la publication des documents, et par l’attachement aux formats simples à la portée de tous13. Ainsi, les différentes éditions de recueils d’actes ou de cartulaires qui ont été saisies manuellement par un prestataire extérieur (Wordpro, à Pondichéry), contiennent un balisage minimal fondé sur des couleurs (page, numéro, date, texte, etc.) et ont été livrées en format .doc. Les fichiers ont été ensuite ramenés au format basique .txt où les différents champs sont distingués par des simples tabulations ou des paragraphes réguliers. Dans les deux cas, les textes et les premières métadonnées issues des éditions sont aisément exportables vers des tableurs et des bases de données. Nous avons choisi d’utiliser comme outil de travail un logiciel propriétaire, mais éprouvé et de coût modique, FileMakerPro (FMP), très souple pour les opérations d’export et import. Le renseignement de chaque unité documentaire (bénéficiaire, date, diocèse, analyse, référence de l’édition, etc.) se fait sur cette base qui, depuis 2015, est régulièrement convertie en format .csv et publiée. Tous ces formats sont téléchargeables sur le site des CBMA, de même que les versions .pdf des éditions quand elles existent. Il nous semble que l’accès aux formats électroniques de base est une « bonne pratique », indispensable et aussi importante, peut-être davantage que le libre accès aux encodages dont les objectifs

13 M.-J. Gasse-Grandjean, « Les Chartae Burgundiae Medii Aevi (CBMA) et le numérique », in L’apport des technologies numériques à la diplomatique médiévale, actes de la table ronde organisée par l’Institut historique allemand (R. Große) et l’École nationale des chartes (O. Canteaut), 4e journée des sciences humaines et sociales de l’IHA et 7e rencontre de la Gallia Pontificia, 20 mai 2011, in Francia, 40 (2013), p. 255-263 ; E. Magnani, M.-J. Gasse-Grandjean, N. Perreaux, et C. Rey, « Chartae Burgundiae Medii Aevi (CBMA). Du parchemin à l’écran », in La Lettre de l’INSHS, 22, mars 2013, p. 27-30, disponible en ligne sur (consulté le 30 mai 2017).

D e s c hartae au Co rpu s

sont toujours particuliers, laissant peu de marge de manœuvre aux réappropriations et aux transformations. Les CBMA ne sont pas pour autant réfractaires au balisage, et une bonne partie des chartes a été encodée en XML en vue de leur interrogation par un logiciel de fouille de texte, Philologic14. Sur ce point se situe l’engagement épistémologique de l’équipe. En effet, il nous est très vite apparu que la mutation de la recherche historique engendrée par la numérisation en masse de documents médiévaux ne se situait pas dans les bases de données traditionnelles à l’interrogation de type indiciaire, mais dans les méthodes d’analyses lexicales structurales15. L’impulsion d’Alain Guerreau et la participation de l’équipe des CBMA à l’ANR OMNIA (Outils et Méthodes Numériques pour l’Interrogation et l’Analyse des textes médiolatins - 2008-2013)16 ont été déterminantes pour les orientations scientifiques du projet. Dans cette perspective, au printemps 2017, ce sont plus de 27 000 chartes déjà enregistrées ainsi que leurs métadonnées, qui ont été harmonisées, lemmatisées et converties dans le format propre à être importé par le logiciel TXM (Textométrie)17, grâce aux algorithmes écrits par Nicolas Perreaux, qui avait déjà œuvré de la sorte pour leur conversion sur Philologic en 2010. La simplicité a été aussi le principe directeur d’un volet supplémentaire de la plateforme des CBMA, la publication, à partir de 2009, de la reproduction en mode image de cartulaires, en collaboration avec les Archives départementales de la Côte d’Or à Dijon18. Présentement, plus de 40 manuscrits sont disponibles en format FlipBook et des nouvelles mises en ligne sont en cours de préparation. Ce format a été retenu alors en raison de sa flexibilité d’adaptation, de sa compatibilité avec des nombreux navigateurs et systèmes d’exploitation ainsi que pour son ergonomie de consultation, incluant une option de téléchargement au format .pdf19. L’intégration

14 (consulté le 30 mai 2017). 15 A. Guerreau, « Textes anciens en série », Bulletin du centre d’études médiévales d’Auxerre | BUCEMA, Collection CBMA, Les outils, disponible en ligne sur  ; DOI : 10.4000/ cem.12177 (consulté le 30 mai 2017). 16 B. Bon, « OMNIA – Outils et Méthodes Numériques pour l’Interrogation et l’Analyse des textes médiolatins », Bulletin du centre d’études médiévales d’Auxerre | BUCEMA, 13 (2009), p. 291-292, disponible en ligne sur  ; DOI : 10.4000/cem.11086; Id., « OMNIA: outils et méthodes numériques pour l’interrogation et l’analyse des textes médiolatins (2) », Bulletin du centre d’études médiévales d’Auxerre | BUCEMA, 14 (2010), p. 251-252, disponible en ligne sur  ; DOI : 10.4000/cem.11566 ; Id., « OMNIA : outils et méthodes numériques pour l’interrogation et l’analyse des textes médiolatins (3) », Bulletin du centre d’études médiévales d’Auxerre | BUCEMA, 15, 2011, disponible en ligne sur  ; DOI : 10.4000/cem.12015 (consultés le 30 mai 2017). 17 (consulté le 30 mai 2017). Le corpus lemmatisé et formaté est téléchargeable ici : (consulté le 22 février 2018). 18 Dirigées par Gérard Moyse jusqu’en 2013, et ensuite par Édouard Bouyé. Les photographies sont réalisées par Frédéric Petot. Les flipbooks ont été mis en place par M.-J. Gasse-Grandjean et N. Perreaux, et publiés également par C. Rey et A. Dumontet, ingénieur d’études CNRS à l’UMR Artehis. 19 Depuis, pour profiter des évolutions techniques les plus récentes en matière de mise en ligne et de visualisation de manuscrits, le basculement vers le système iiif (International Image Interoperability Framework) est actuellement testé en vue de son implémentation au cours de l’année 2019.

61

62

e l i a n a m agn an i

des manuscrits dans la plateforme des CBMA répond à la nécessité d’une approche globale de la production documentaire, y compris dans ses aspects graphiques et visuels. Les textes, en effet, ne sont pas des structures désincarnées, mais constitutifs d’artefacts sensibles qui ont été produits, compris, manipulés et utilisés en tant que tels20. L’équipe des CBMA est bien consciente que son travail, en donnant des nouveaux supports et des possibilités différentes de « lecture »21, ajoute d’autres opérations dans la série d’opérations que les documents subissent depuis leur création22. Cela nous oblige à ne pas perdre de vue l’incidence de notre propre pratique de re-production et d’enregistrement dans la longue chaîne de transformations et de réactualisations des documents que les procédés numériques ne cessent d’intensifier.

Mise en ligne et interrogation La publication sur Internet est la principale différence entre nos projets informatiques actuels et ceux de nos devanciers du dernier tiers du xxe siècle. L’expérience des CBMA dans ce domaine est probablement assez exemplaire des cheminements empruntés par d’autres projets numériques, et il me semble utile de revenir rétrospectivement sur ce processus afin de mettre certaines des difficultés rencontrées en perspective. C’est seulement depuis l’été 2014 que les CBMA ont un site propre, hébergé par la TGIR Huma-Num du CNRS. En 2006, les CBMA étaient simplement signalées par une page de présentation à l’intérieur du site internet du laboratoire23, mais la question de la mise à disposition de tous les acquis du projet s’était posée très tôt24. À partir de septembre 2007 et jusqu’en juin 2014, toujours à l’intérieur de ce site collectif dont la configuration, l’hébergement et donc les adresses URL ont changé au moins trois fois au cours de cette période, les CBMA ont déployé une plateforme documentaire qui n’a pas cessé de s’étendre et d’évoluer25. En plus des fichiers .doc et

20 P. Rück, « Die Urkunde als Kunstwerk », in Kaiserin Theophanu. Begegnung des Ostens und Westens um die Wende des ersten Jahrtausends. Gedenkschrift des Kölner Schnütgen-Museums zum 1000. Todesjahr der Kaiserin, V. A. von Euw et P. Shreiner (éd.), t. II, Cologne, 1991, p. 311-333 ; Graphische Symbole in mittelalterlichen Urkunden. Beiträge zur diplomatischen Semiotik, P. Rück (éd.), Sigmaringen, 1996. 21 F. Moretti, Graphes, cartes et arbres. Modèles abstraits pour une autre histoire de la littérature, trad. E. Dobenesque, Paris, 2008 (Graphs, maps, trees : abstract models for a literary history, Londres-New York, 2005). 22 L. Kuchenbuch, « Source ou document ? Contribution à l’histoire d’une évidence méthodologique », in Hypothèses 2003. Travaux de l’École doctorale d’histoire de l’Université Paris I Panthéon-Sorbonne, Paris, 2004, p. 287-315. 23 (capture du 16 novembre 2006, consulté le 30 mai 2017). 24 Le parcours que je reformule ici peut être reconstitué en grande partie par les comptes rendus des journées d’études des CBMA réunies annuellement entre 2007 et 2014, disponibles en ligne sur (consulté le 30 mai 2017). 25 (capture du 21 mai 2007, consulté le 30 mai 2017).

D e s c hartae au Co rpu s

.txt, la base de données sur FMP était aussi proposée en forme de tableau HTML26, mais ce dernier format était devenu ingérable avec les milliers de chartes engrangées et n’était plus disponible à partir de 2009. Comme l’accès à la base FMP était soumis à une demande d’autorisation auprès de l’équipe, cela signifiait que les métadonnées n’étaient pas joignables directement. Ce verrou est tombé en 2015, au même moment où l’export de la base en .csv vint en quelque sorte remplacer l’ancien tableau HTML de 2007. La version lemmatisée des CBMA sous TXM, publiée en juin 2017, a réglé encore plus fortement le problème, car les métadonnées sont entièrement accessibles et manipulables sous ce format27. Parallèlement à ces mises en ligne, l’équipe s’est engagée dans deux autres développements en vue d’une interrogation experte des textes : d’une part l’interrogation sur Philologic, et d’autre part un site pour les CBMA dédié aussi à l’édition électronique, comprenant un système d’interrogation ad hoc de la base des données28. Disons d’emblée que si le premier projet, malgré un parcours parfois caillouteux, est abouti, le deuxième est resté inachevé. La volonté de proposer l’interrogation des chartes avec un logiciel de fouille de textes comme Philologic s’écartait des standards habituels des bases des données historiennes, et les CBMA demeurent encore aujourd’hui la seule plateforme de documents diplomatiques à offrir ce type d’interrogation. Dès 2006, à l’initiative d’Alain Guerreau, à partir des fichiers .doc et de leur balisage couleur, une version expérimentale des CBMA était mise en ligne par le concepteur du logiciel, Mark Olsen, sur les serveurs de l’université de Chicago. Il fallait toutefois convertir ces essais en une application prenant en compte les enrichissements en métadonnées des CBMA, ce qui nous a conduit à formuler en 2008 le projet d’installer la base et le logiciel d’analyse sur un serveur propre. Une fois les crédits demandés et obtenus auprès de l’université de Bourgogne, via la MSH (préciput ANR), le matériel a été acquis en 2009. Toutefois il a été impossible de trouver de la place dans un local adéquat pour l’installer (en fait, réfrigéré et pourvu d’une connexion Internet) dans toute l’université de Bourgogne, qui, bien entendu, en est pourvue. Aucun des services informatiques de l’université n’a voulu accueillir ce serveur, ni le service général, ni ceux de l’UFR Sciences de la Terre qui loge le laboratoire, ni ceux de la MSH de Dijon. Le serveur est finalement installé dans une salle du laboratoire, grâce à l’opiniâtreté de l’équipe et les compétences informatiques d’un doctorant29. 26 (capture du 17 septembre 2008, consulté le 30 mai 2017). 27 Actuellement (février 2019), l’équipe étudie aussi l’évolution de la base de travail FMP vers SQLite et son interrogation en ligne avec CQP-Web. 28 Au même moment, en vue de la diffusion et de la valorisation du programme, les CBMA se sont appuyés sur une autre plateforme collective, OpenEdition (), avec une collection publiant des articles de différentes ordres sur Revues.org, au sein du site de la revue BUCEMA () et un blog sur Hypothèses.org () (liens consultés le 30 mai 2017). 29 Nicolas Perreaux a adapté le programme, avec l’aide de Mark Olsen, Alain Guerreau et le suivi de Marie-José Gasse-Grandjean. Il s’est occupé également de l’installation de l’application dans les serveurs du TGE ADONIS.

63

64

e l i a n a m agn an i

À l’été 2010, le serveur marche parfaitement et une journée d’études se tient début 2012 pour discuter des recherches effectuées avec cet outil30. Mais la salle en question étant réquisitionnée pour d’autres usages sans autre proposition de relocalisation convenable nous oblige à abandonner le serveur propre et à envisager une solution externe. Et en effet, à partir de septembre 2012 l’application Philologic des CBMA est hébergée sur les serveurs du Très Grand Équipement ADONIS à l’IN2P3 de Lyon, avec l’aide à l’installation de Gérald Foliot. Cet hébergement providentiel perdure dans le cadre de la refonte du TGE ADONIS à l’intérieur du TGIR Huma-Num en 2013. Il décharge l’équipe d’une série de contraintes techniques et de manutention, mais il a l’inconvénient de l’écarter de l’administration du serveur. Une conséquence fâcheuse de cet éloignement géographique est qu’il a depuis été techniquement impossible de mettre à jour l’application avec les nouvelles incorporations de chartes31. Quoi qu’il en soit, les 13 379 actes interrogeables avec Philologic, dont les 5 000 chartes de l’abbaye de Cluny, permettent déjà des recherches fécondes, en attendant la publication du corpus complet sous Philologic4 en 2019. Le deuxième projet, qu’on avait intitulé provisoirement « CBMA on-line », comptait élaborer une application ad hoc pour convertir pour le web la base de données de travail sur FMP et proposer une interrogation avancée, le tout sur un site propre pour les CBMA. Ce projet nous situe dans le contexte de l’institutionnalisation des Humanités Numériques, telle qu’elle se met place dans le domaine des sciences humaines et sociales, à l’initiative du Département devenu Institut des sciences humaines et sociales du CNRS. Il convient de le rappeler brièvement. À juste titre, le CNRS a compris les besoins et le rôle que des infrastructures collectives devaient jouer pour accompagner et développer les recherches dans leur volet numérique. En 2005, une UPS (Unité Propre de Service n° 2916) intitulée « Accès unique aux documents numériques en sciences humaines et sociales » (ADONIS) est créée. Sous l’égide de ce qui devient en 2007 le Très Grand Équipement ADONIS (Accès unifié aux Données et documents NumérIques des Sciences humaines et sociales), commencent à être créés également, à partir de 2005, des Centres de ressources numériques (CRN), adossés à des laboratoires ayant déjà un savoir-faire dans différents types d’objets (écrits, sonores, visuels, SIG, 3D …). En 2010, il existait une dizaine de CRN32. Dans le domaine de l’histoire médiévale le CRN référent est TELMA (Traitement électronique des manuscrits et des archives), porté entre 2006 et 2010 conjointement par l’École nationale des Chartes (EnC) et l’Institut de

30 Compte-rendu dans E. Magnani et M.-J. Gasse-Grandjean, « CBMA. Chartae Burgundiae Medii Aevi. VI. Les chartes bourguignonnes sous PhiloLogic », Bulletin du centre d’études médiévales d’Auxerre | BUCEMA, Collection CBMA, Les journées d’études, disponible en ligne sur (consulté le 30 mai 2017). 31 Depuis la rédaction de cet article, cette difficulté a été contournée grâce au travail de Pierre Brochard, ingénieur d’études au CNRS, rattaché au Lamop depuis juin 2017. Une version à jour des CBMA sous Philologic4 paraîtra courant 2019. 32 Voir le diaporama de S. Pouyllau et R. Walter, La politique du TGE pour les centres de ressources dans le cadre des infrastructures nationales, disponible en ligne sur (consulté le 30 mai 2017).

D e s c hartae au Co rpu s

Recherche et d’Histoire des Textes (IRHT, unité de recherche propre du CNRS), et qui depuis 2010 est seul à abriter ce CRN33. Pour compléter ce tableau, notons la création en 2011 de la TGIR (Très grande infrastructure de recherche) Corpus-IR pour la mise en place de consortiums, qui a fusionné en 2013 avec le TGE ADONIS pour devenir la TGIR Huma-Num34. Dans toutes ces initiatives, on perçoit l’objectif d’œuvrer à la fédération des ressources humaines et techniques. Dans ce contexte, porteurs d’une application dédiée aux documents diplomatiques, c’est tout naturellement que nous nous sommes tournés en 2007 vers l’EnC. Nous avons alors élaboré conjointement un cahier des charges, passé une convention, puis reçu un devis et versé des crédits. Malgré toute la bonne volonté et l’engagement des responsables des services informatiques de l’EnC à l’époque, sans les personnels nécessaires pour mener leurs propres projets, prioritaires par rapport à ceux des extérieurs comme le nôtre, la réalisation du produit attendu pour 2008 puis pour 2009, n’a pas vu le jour. Un mémoire de stage soutenu en septembre 2011 a cependant engagé la réflexion pour la conversion XML/TEI de la base des CBMA, et sur cet acquis une application de conversion a été élaborée35, mais on était loin du site et de l’interrogation experte que l’on avait imaginé. En fait, les CRN recevaient des subventions mais n’étaient pas dotés de postes pérennes supplémentaires pour assurer leur mission. On était donc toujours sur le modèle de fonctionnement basé sur des emplois précaires et des contrats de courte durée. Dans ce cadre les avancées ne peuvent se faire qu’au coup par coup. Ces incidents de parcours, qui peuvent paraître anecdotiques, sont à l’inverse révélateurs d’un mouvement de fond : celui de la création d’un champ académique en voie de structuration, dont on n’est pas toujours conscient de participer à son délinéament, tout comme, pour reprendre les formules de Thomas Kuhn, de vivre une période de « crise » de la « science normale » qui prélude une « révolution scientifique »36. Même si les changements semblent s’opérer très vite en vue de la course effrénée de l’informatique, on travaille encore sur des paradigmes éprouvés qui laissent peu de marge aux nouvelles manières de faire. Ce décalage qu’on ressent au niveau institutionnel – on accorde les moyens pour l’acquisition du matériel nécessaire mais pas pour son installation et sa mise en marche ; on constitue des plateformes collectives sans les effectifs humains suffisants –, mais aussi dans la résistance et le scepticisme de nombreux chercheurs, sont autant d’indices d’une pratique qui n’est pas reconnue ni comprise pleinement. 33 (consulté le 30 mai 2017). 34 Cf. le rapport d’activité 2013-1015 de la TGIR Huma-Num disponible en ligne sur (consulté le 30 mai 2017). 35 S. Della Bartolomea, Analyse et modélisation XML/TEI pour l’édition électronique des Chartae Burgundiae Medii Aevi, Mémoire de stage sous la direction de F. Clavaud, Master 2 « Technologies numériques appliquées à l’histoire », École nationale des Chartes, Année 2010-2011. 36 Th. Kuhn, La structure des révolutions scientifiques, trad. L. Meyer, Paris, 1983 [The Structure of Scientific Revolutions, Chicago, 1962, 2e éd. revue et augmentée 1970, trad. franç. 1972]. Voir N. Perreaux, « De l’accumulation à l’exploitation ? Expériences et propositions pour l’indexation et l’utilisation des bases de données diplomatiques », in Digital diplomatics. The computer as a tool for the diplomatist?, A. Ambrosio, S. Barret, G. Vogeler (éd.), Köln-Weimar-Wien, 2014 (Archiv für Diplomatik. Schriftgeschichte Siegel- und Wappenkunde, Beiheft 14), p. 187-210.

65

66

e l i a n a m agn an i

Corpus En fait, l’intérêt d’un programme numérique en SHS réside dans son potentiel explicatif ou heuristique. La possibilité d’interroger une masse inédite de documents médiévaux ne peut être véritablement rénovatrice pour la recherche que si l’on utilise les méthodes adaptées à cette forme et à cette échelle d’analyse, mais aussi que si l’on accepte le décentrement que ces approches – sémantiques, statistiques, spatiales … – impliquent par rapport à nos méthodes traditionnelles, et que, comme tout scientifique, l’on se donne le droit à l’expérience. Pour traiter des textes en série on n’est pas dépourvu, en sciences humaines et sociales, de précédents théoriques et techniques importants, comme les réflexions, depuis les années 1950, de la linguistique de corpus (Corpus Linguistic). De ces recherches émerge l’idée qu’à partir des usages linguistiques attestés, repérés et réunis en corpus, on peut aussi bien vérifier une hypothèse afin de la valider, la réfuter ou l’améliorer (on parle alors d’approche « corpus-based »), que l’explorer sans a priori pour faire émerger du corpus lui-même des hypothèses sur le langage (approche dite « corpus-driven »)37. Ce dernier cas revient à admettre que le sens se situe à l’échelle du corpus lui-même, et pas dans celle du mot, de la phrase ou du texte isolés. C’est dans cette direction, nouvelle pour les historiens médiévistes, que nous pensons que les documents numérisés et réunis « en corpus » par les CBMA peuvent être utiles pour la recherche, en tant que terrain propice aux expériences nouvelles. Alors qu’avec les actes réunis par les CBMA on a déjà pu montrer que la cohérence de la production documentaire bourguignonne, ses flux chronologiques et spatiaux, correspondaient à des dynamiques sociales différenciées38, il nous semble que nous ne pouvons pas nous contenter des seuls textes diplomatiques, en particulier dans une région également prolifique en matière de production de textes narratifs, théologiques et normatifs, propres à resserrer, voire à transformer, les interprétations. Dans cette perspective, nous nous sommes engagés dans la constitution d’un corpus hétérogène et structuré de documents latins médiévaux bourguignons de tous genres entre le ve et le xve siècle. Cet engagement se traduit dans le titre même du projet où dans l’acronyme CBMA, les Chartae deviennent Corpus39. Depuis l’automne 2016 l’équipe est en train de réunir un sous-corpus de textes hagiographiques, estimés à 380 unités, et d’autres types documentaires suivront à moyen terme40. L’objectif est de pouvoir interroger tous les textes ensemble, mais aussi par sous-groupe typologique.

37 Les références bibliographiques étant très nombreuses, nous nous limitons à citer ici E. TogniniBonelli, Corpus Linguistics at Work, Amsterdam, 2001 (Studies in Corpus Linguistics, 6) et pour la France, la revue Corpus () et les travaux de D. Mayaffre (par exemple, « Les corpus réflexifs : entre architextualité et hypertextualité », Corpus, 1, 2002, p. 51-69, disponible en ligne sur (consulté le 30 mai 2017). 38 N. Perreaux, L’écriture du monde. op. cit. 39 E. Magnani, « Qu’est-ce qu’un corpus ? »,. Les carnets de l’IRHT, 2 octobre 2017, disponible en ligne sur < https://irht.hypotheses.org/3187 > (consulté le 10 février 2019). 40 E. Magnani, « Un corpus structuré et hétérogène de textes latins médiévaux (Bourgogne, ve-xve siècle) », Bulletin du CERCOR, 41 (2017), p. 59-65. Ce projet, en plus du soutien du Lamop, a reçu le soutien du Consortium Cosme (2016 et 2018) et du Labex haStec (2017, 2018 et 2019).

D e s c hartae au Co rpu s

Une première évolution importante dans la base de données a été l’adaptation, par Coraline Rey, des séries de métadonnées qui avaient été pensées pour les chartes pour qu’elles puissent correspondre aussi aux vies de saints, complétés par l’implémentation de nouveaux champs permettant de prendre en compte les particularités de cette typologie documentaire. Le site internet des CBMA a été aussi repensé afin de répondre à ces nouvelles incorporations. Un changement significatif réside dans la granularité plus fine de présentation, et le passage d’un affichage par « édition » à celle par « texte ». En fait, les « éditions » de chartes, auxquelles on accède toujours en tant que telles dans la plateforme, sont le plus souvent des recueils construits par les éditeurs à partir des actes relatifs à une institution productrice/réceptrice (monastère, église cathédrale …), ce qui est un critère parmi d’autres possibles pour assembler ce qu’on pourrait désigner comme des « proto-corpus ». Le fait qu’aucune édition parmi celles numérisées par les CBMA ne corresponde à la transcription d’un cartulaire médiéval présent dans la plateforme en mode image (FlipBook) est à ce titre évocateur du procédé de « re-fabrication » réalisé par les éditions modernes. Cette disjonction, dont on ne mesure pas toujours la portée, résulte des opérations de réactualisation subies par les documents dans le temps. En adoptant la notion de « texte », qui ne va pas forcément de soi, nous avons voulu indiquer une unité documentaire, qu’elle soit une charte, une vie de saint ou autre, et que l’on pourra mettre en relation les unes par rapport aux autres en raison de leur rattachement à une institution ou de n’importe quel autre critère, y compris ceux qu’une analyse corpus-driven pourra rendre explicites et que nos préconceptions ne sauraient pas envisager. Pour interroger ces documents, les CBMA proposeront les textes lemmatisés dans un format propre à importer le corpus dans l’application de fouille de texte Textométrie (TXM) que chacun peut facilement installer directement dans son propre ordinateur. Les textes seront aussi renseignés avec des données de géolocalisation, en vue de soumettre le corpus à des exploitations spatiales41. Avec ces transformations décisives, les CBMA entendent continuer à proposer des ressources raisonnées et structurées, aptes aux réappropriations, pour une recherche ouverte et attentive aux expériences et aux méthodes propres aux analyses de la masse de documents numérisés42.

41 Sont renseignées, selon les systèmes de projection Lambert 93 et WGS 84 - EPSG 4326, les coordonnées du lieu auquel est rattaché le saint, les coordonnées du lieu de rédaction d’un texte, et les coordonnées de l’institution promotrice. Sur les avancées du corpus hagiographique voir E. Magnani, « Les CBMA en corpus structuré. Atelier 2. Le corpus hagiographique bourguignon. Débats et recherches  », Bulletin du centre d’études médiévales d’Auxerre, BUCEMA, Collection CBMA, Les journées d’études, disponible en ligne dans < http://journals.openedition.org/cem/15493 > (consulté le 10 février 2019). Par ailleurs, en 2018, en collaboration avec le CESCM de Poitiers, l’équipe a mis en place un corpus de plus de 1400 inscriptions épigraphiques (cf. E. Magnani, E. Ingrand-Varenne, « Le corpus épigraphique bourguignon (viiie-xve siècle). Des catalogues aux applications numériques », Bulletin du centre d’études médiévales d’Auxerre, BUCEMA, Collection CBMA, Les journées d’études, disponible en ligne dans (consulté le 10 février 2019). 42 Je remercie Nicolas Perreaux, Coraline Rey et Daniel Russo pour leurs relectures de cet article et leurs suggestions d’améliorations.

67

Antonella Ambrosio

Digital Critical Editions of Medieval Documents on Monasterium.Net The Digital Edition of the Documents of the Abbey S. Maria Della Grotta

The paper discusses the first collaborative critical edition to have originated on the Monasterium.net portal, the edition of medieval documents from the abbey of S. Maria della Grotta situated in southern Italy. This edition was designed to exploit the potential of the MOM-CA collaborative environment, contributing to its development and improvement with regard to digital editions. Monasterium.net is a portal which until now has been renowned for the large number of facsimiles of medieval documents, and data related to them, as well as for the digital editions of the documents extracted from printed editions. The focus on these types of representations can be explained by the nature of its formation and the special imprinting of the network of the member institutions: the portal is mainly fed by archives and other institutions preserving documents. There interest was to publish online images and existing metadata. So the majority of the metadata is typical archival description enhanced by some data from digitized printed editions. The need to produce new editions of the documents was certainly no priority for the network. This is therefore the first experimentation of a digital scholarly edition in a context destined to ensure the preservation and the usability of the documents for a large audience.1



1 The platform Monasterium.net: (accessed 17 February 2017). For the project and its developments refer to the bibliography at (accessed 17 February 2017). In Italian: T. Aigner, ‘Monasterium.Net-Documenti Europei online’, Archivi, 5.2 (2010), p. 123-128; A. Ambrosio, ‘Il progetto Monasterium in Italia: le prime esperienze a Napoli’, Archivi, 5.2 (2010), p. 129-145; M. R. Falcone, ‘Il portale Monasterium.net. Documenti in rete e archivi digitali’, in Manuscript Digitization and on Line Accessibility. What’s Going on? International Workshop, Roma, Biblioteca Vallicelliana, 23 ottobre 2014 (Digitalia, 2), E. Caldelli, M. Maniaci and S. Zamponi (ed.), 2014, p. 67-77 [online], URL: (accessed 17 February 2017). Antonella Ambrosio  Università degli Studi di Napoli Federico II Digitizing Medieval Sources – L’édition en ligne de documents d’archives médiévaux : Challenges and Methodologies – Enjeux, méthodologie et défis, éd. par Christelle Loubet, Turnhout, 2019 (Atelier de Recherches sur les Textes Médiévaux, 27), p. 69-84 © FHG10.1484/M.ARTEM-EB.5.117329

70

a n to n e l l a am b ro s i o

If the term ‘digital edition’ is defined, as it often is, as a combination of various types of representations of text where the digital approach can be employed in various ways, then there are a large number of digital editions on Monasterium. However, if a digital edition is regarded specifically as a critical edition of largely unpublished medieval documents which takes on a digital form through the MOM-CA collaborative environment, available on the portal, I would argue that digital editions of this type are still lacking on Monasterium.net. Therefore The digital edition of the parchments from the abbey of S. Maria della Grotta in Vitulano can be considered a prototype. After a scholarly debate lasting over thirty years which originated independently within various disciplines, progress is also being made in the field of medieval diplomatic documents. This is largely due to the work of scholars such as Manfred Thaller, Patrick Sahle, and Georg Vogeler who have been involved to varying degrees in the Monasterium project. According to these scholars, edition methodology has changed with digital technologies; the very concept of edition has been transformed and the digital edition is, or definitely should be, something bigger and better than the traditional one. In this paper I will try to place the edition of documents from the abbey of S. Maria della Grotta within the context of the theoretical advances mentioned above, with the aim of showing how they can represent a further source of evidence for this progress.2



2 For the conceptual wealth of the digital edition of documents see especially the articles of: S. Aumann et al., ‘From Digital Archive to Digital Edition’, Historical Social Research, 24.1 (1999), p. 101-144; I. H. Kropač and H. Boshof, ‘Digitale Edition eines umfangreichen Quellenkorpus: Vorgehensweise und Probleme bei der Aufbereitung, Strukturierung und Kategorisierung des Quellenmaterials’, Geschichte und Informatik, 11 (2000), p. 93-112; P. Sahle, ‘Vom editorischen Fachwissen zur digitalen Edition. Der Editionsprozeß zwischen Quellenbeschreibung und Benutzeroberfläche’, in Quellen und Quellenedition im neuen Medienzeitalter (Fundus, 2), S. Jenks and F. Schmieder (ed.), 2000, p. 75-102, URL: (accessed 17 February 2017); G. Vogeler, ‘Vom Nutz und Frommen digitaler Urkundeneditionen’, Archiv für Diplomatik 52 (2006), p. 443-466; M. Ansani, ‘Edizione digitale di fonti diplomatiche: esperienze, modelli testuali, priorità’, Reti Medievali – Rivista, 7.2 (2006), URL: (accessed 17 February 2017); P. Sahle, ‘Digitales Archiv – Digitale Edition. Anmerkungen zur Begriffsklaerung’, in Literatur und Literaturwissenschaft auf dem Weg zu den neuen Medien. Eine Standortsbestimmung, M. Stolz, L. M. Gisi and J. Loop (ed.), Zürich: germanistik.ch, 2007, p. 64-84; P. Sahle, ‘Die disziplinierte Edition – Eine (kleine) Wissenschaftsgeschichte’, in Editionswissenschaftliche Kolloquien 2005/2007. Methodik – Amtsbücher – Digitale Edition – Projekte, M. Thumser and J. Tandecki (ed.), Publikationen des Deutsch-Polnischen Gesprächskreises für Quellenedition, 4, Toruń: Tow. Naukowe w Toruniu, 2008, p. 35-52; Id., Digitale Editionsformen: zum Umgang mit der Überlieferung unter den Bedingungen des Medienwandels, 3 vols, Schriften des Instituts für Dokumentologie und Editorik, 7-9, Norderstedt: BoD, 2013; Id., ‘What Is a Scholarly Digital Edition (SDE)?’, in Digital Scholarly Editing. Theory, Practice and Future Perspectives, M. Driscoll and E. Pierazzo, Digital Humanities Series, 4, Cambridge: Open Book Publishers, 2016, p. 19-39. We have also to bear in mind the concept of digital edition for literary texts and the related infinite debate. For a good synthesis see E. Vanhoutte, ‘Defining Electronic Editions: A Historical and Functional Perspective’, in Text and Genre in Reconstruction. Effects of Digitalization on Ideas, Behaviours, Products and Institutions, W. McCarty, Digital Humanities Series, 1, Cambridge: Open Book Publisher, 2010, p. 119-144.

Digital Critical Editions of Medieval Documents on Monasterium.Net

It should be emphasized that the work on this edition is still being developed while I am writing this article. The important final phases of checking and publication still need to be done. Consequently, the actual data and observations that I shall present here regard the work that has been carried out so far.

Mom-ca on Monasterium.net. Using an Already Existing Infrastructure The edition of documents dating to the first half of the thirteenth century from the abbey of S. Maria della Grotta in Vitulano near Benevento, southern Italy. It stems from the efforts of several researchers, doctoral students, and graduates, some of whom also come from other universities such as the University of Graz and La Sapienza University in Rome: Antonella Ambrosio, Maria Rosaria Falcone, Paola Massa, Vera Isabell Schwarz-Ricci, Maria Elisabetta Vendemia, Georg Vogeler. One digital humanist has also taken part in the work specifically related to MOM-CA: Hans Clausen for the University of Graz.3 We could make use of Monasterium.net, a powerful portal in terms of the critical mass of data and the quality of photographs of the documents available on it. It currently contains over 600,000 documents, mainly in single units, on parchment and of a legal nature. The striking potential of the resource had not escaped the attention of Benoît Tock.



3 The research group came into being in occasion of a workshop organized at the beginning of 2015 within the project activities of ENArC (European Network on Archival Cooperation, EU, Culture Programme 2007-2013): ‘Towards a digital edition of the charters of the abbey S. Maria della Grotta with Monasterium.Net’ (Italy, Università degli Studi di Napoli Federico II, Dipartimento di Studi Umanistici, 16-17 February 2015). For further information on the ENArC project see: M. R. Falcone, ‘Il Progetto ENArC. Attività didattiche innovative e creazione di archivi digitali’, in Digital Humanities: progetti italiani ed esperienze di convergenza multidisciplinare. Atti del convegno annuale dell’Associazione per l’Informatica Umanistica e la Cultura Digitale (AIUCD) Firenze, 13-14 dicembre 2012 (Quaderni DigiLab, 3), F. Ciotti 2014, p. 235-246, URL: (accessed 17 February 2017). The activities are continued within the project (co:op – community as opportunity. the creative archives’ and users’ network (EU, Creative Europe 2014-2020)) and thanks to the funds for the internationalization of research of the University of Naples Federico II. The first results of the editorial work were presented in various international venues: A. Ambrosio, ‘Digital Critical Editions of Medieval Documents on Monasterium.Net’, in occasion of L’édition en ligne de documents d’archives médiévaux: enjeux, méthodologie et défis, Colloque international – Centre de Recherche Universitaire Lorrain d’Histoire (CRULH) de Nancy, Nancy, 9-10 June 2016; Southern Italy in the Norman and Staufen Periods, III: Documents and Digital Technologies, Session of the Leeds International Medieval Congress, Institute for Medieval Studies of Leeds, Leeds, 4-7 July 2016 (moderator: A. Ambrosio; papers: A. Di Lorenzo, P. Massa, V. I. Schwarz-Ricci); A. Ambrosio, ‘La marcatura e le forme dei documenti privati medievali nell’Italia meridionale. L’edizione digitale delle carte dell’abbazia di S. Maria in Gruptis di Vitulano’, in occasion of La edición diplomática del documento notarial y concejil en la era digital / The Scholarly Edition of Notarial and Municipal Charters in the Digital Age, University of Oviedo and DiXiT, Avilés 10-11 October 2016.

71

72

a n to n e l l a am b ro s i o

In 2011, speaking in Naples, he argued in his key note speech at the conference on Digital Diplomatics that Monasterium was one of the most significant resources in terms of the number of photographic reproductions on the web that would be of use in the study of diplomatic.4 Since 2011 the number of documents available has increased by over 50%. Moreover, the portal also has an unique feature with respect to other portals in that these documents come from a wide geographical range, i.e. as many as fourteen European countries. Clearly, a project as ambitious and demanding as this one can come into existence and can continue to exist only if it is fed by an intense collaborative effort of the institutions involved. Indeed, these institutions have to commit themselves to experimentation and research in order to ensure that their goals – the usability of the documents – move with the times. Moreover, they have to search for investments to realize their projects. All this can be achieved by a large institutional network active in the archival sector which bases its activities on the sharing of practices. As a matter of fact, Monasterium.net originated from a widespread collaborative initiative on the part of institutions (160 universities, research centres and archives) from thirty European countries, Canada and the United States. They are headed by ICARUS, the International Centre for Archival Research whose headquarters are in Vienna.5 This explains the imposing number of photographs of documents that can be consulted, modified and saved from a workstation, and can be printed out free of charge. The images have a reasonable expectation of a long-term online existence, because they are hosted on a portal managed by a supranational institution, ICARUS. We were fascinated by the idea of being able to use MOM-CA, a collaborative archive designed and constantly updated by the Cologne Center and an ICARUS workgroup, coordinated by Georg Vogeler, whose members include Stephan Makowski of the Cologne Center for eHumanities directed by Patrick Sahle.6 One of the most interesting aspects of this collaborative archive is the fact that each user, besides using the data, can become an editor from a remote workstation. The software is based on the eXist-Database7 relying on XQuery and lot of JavaScript for the frontend. In particular, there is an editing tool in MOM-CA called EditMOM, implemented for medieval documents (also used subsequently for later historical documents) which was initially designed by Benjamin Burkard. The current versions (VdUEdit and EditMOM3) were developed by Daniel Ebner (VdUEdit) and Jochen Graf (EditMOM3), the image annotation tool by André Streicher. EditMOM is an XML editor, available online, in which it is possible to insert data related to the documents such as descriptions, information, regesta and even critical editions. It is also possible to apply a mark-up to the inserted data that makes it possible to codify 4 B-M. Tock, ‘La diplomatique numérique, une diplomatique magique?’, in Digital Diplomatics. The Computer as a Tool for the Diplomatist? (Archiv für Diplomatik, Beiheft, 14), A. Ambrosio, S. Barret and G. Vogeler (ed.), Cologne: Böhlau, 2014, p. 15-21. 5 (accessed 17 February 2017). 6 (accessed 17 February 2017). 7 (accessed 17 February 2017).

Digital Critical Editions of Medieval Documents on Monasterium.Net

information related to XML, as meta-language. As encoding standard the online editors use the schema provided by the Charter Encoding Initiative (CEI), which is a TEI-P4 dialect dedicated to diplomatics research Encoding can be done using EditMOM rapidly and intuitively.8 We were clearly aware that some scholars working in the field of Digital Humanities were puzzled about the reason for the lack of digital editions and the curious contrast with the lively theoretical debate regarding digital editions themselves. Francesca Tomasi, for example, has recently argued that this discrepancy is due to the paucity of user-friendly applications, the complexity of mark-up languages (XML/TEI or CEI), the difficulty of interpreting the text using these languages or, possibly, all three reasons.9 However, this awareness did not discourage us in our work. We were convinced that the availability of an existing technical infrastructure would ensure the removal of the first two obstacles. EditMOM3 in MOM-CA appeared to be an user-friendly application that could describe our documents intuitively using XML, although most of the editors were not particularly familiar with it. In particular, I myself felt that, given these premises, the third cause that was hindering many critical editions, in other words the difficulty of creating an interpretative edition using XML, was not an insurmountable problem.

The Transcription (and Interpretation), the Production of a Digital Text in MOM-CA To make myself clearer, I would like to begin from the basic level of creating a digital edition. For this level we made use of EditMOM3, an extremely practical tool on Monasterium.net that provides an effective and user-friendly editing environment. It shows the photograph in the upper section and the writing environment. All the contents that are written are automatically saved in real time. It contains various sections within it arranged for the text related to the transcription and all the information that the editor requires to present the documents in printed form, such



8 For the technical background see (accessed 17 February 2017); moreover B. Burkard, ‘Wiki goes Humanities. Kollaborative Erschließung mittelalterlicher Urkunden’, in Wikis Im Social Web – Wikiposium 2005/06, J. Stockinger and H. Leitner (ed.), Vienna: Österreichische Computer Gesellschaft, 2007, p. 130-144; B. Burkard, G. Vogeler and S. Gruner, ‘Informatics for Historians: Tools for Medieval Document XML Markup, and their Impact on the History-Sciences’, Journal of Universal Computer Science, 14.2 (2008), p. 193-210, URL: http://www.jucs.org/jucs_14_2/ informatics_for_historians_tools/jucs_14_2_0193_0210_burkard.pdf (accessed 17 February 2017); B. Burkard, ‘EditMOM - ein spezialisiertes Werkzeug zur kollaborativen Urkunden-Erschließung’, in: Digitale Diplomatik. Neue Technologien in der historischen Arbeit mit Urkunden (Archiv für Diplomatik. Beihefte, 12), G. Vogeler (ed.), Cologne: Böhlau, 2009, p. 255-270. For CEI: (accessed 17 February 2017). 9 F. Tomasi, ‘L’ecdotica e le tecnologie. Tra applicazioni, principi e un esperimento’, Anuario Lope de Vega, 20 (2014), p. 84-98, URL: (accessed 17 February 2017).

73

74

a n to n e l l a am b ro s i o

Figure 3 : EditMOM3 – Photograph and editing environment (Edition by Vera Isabell SchwarzRicci)

as the identification number, the place and date of issuing, the regesta (abstracts), the tradition of the document, bibliographical information, the state of preservation etc. All the information entered in these fields, including the transcription, is codified by the editor in XML according to the CEI standard. By selecting the XML button in the editor it is then possible to inspect (and subsequently download) the XML file which is automatically generated by the editor and can be reused for various purposes. The first aspect to underline is that we have produced our digital edition by using photos of the documents. Although they are high resolution images, they are obviously not the original documents. Digital facsimiles should not be considered wholly objective, faithful replicas of the actual documents. As Elena Pierazzo and Melissa Terras have correctly argued, they are ‘models’ of the documents which can respond to certain specific research questions but not to all of them. Certain features, such as the perception of the dimension of the pages, the texture of the surface and the smell are hard, if not impossible, to convey.10 Some members of the group, especially those based in Naples where the documents are kept, or in Rome which is fairly close to Naples, felt the need to carry out a second in situ inspection

10 E. Pierazzo, Digital Scholarly Editing: Theories, Models and Methods, Farnham, Surrey: Routledge, 2016, p. 93-102. Prepublication of 2014 at , p. 102112 (accessed 17 February 2017). M. M. Terras, ‘Artefacts and Errors: Acknowledging Issues of Representation in the Digital: Imaging of Ancient Texts’, in Kodikologie und Paläographie im digitalen Zeitalter - Codicology and Palaeography in the Digital Age, vol. 2, F. Fischer, C. Fritze, and G. Vogeler (ed.), Schriften des Instituts für Dokumentologie und Editorik, 3, Norderstedt: BoD, 2011, p. 43-61, URL: (accessed 17 February 2017).

Digital Critical Editions of Medieval Documents on Monasterium.Net

Figure 4 : EditMOM3 – XML visualization (Ed. by V. Schwarz-Ricci)

after the virtual inspection. This has led to additional work on top of traditional research procedures. Besides checking the dimensions of the documents which is not possible in the editing environment, there were few cases where this autopsy was necessary. Generally, the inspection was done to supplement the description formulated on the basis of the photos or to get more in-depth descriptions which depended on the personal decision of each editor. The positive aspect lies in the fact that the photos were invaluable for some of the editors living outside Italy who, for various reasons, due partly to the lack of funding, could not inspect the original documents, and they were available out of opening hours of the archives. In cases of absolute necessity, the members of the group who lived closest to the places where the original documents are kept were prepared to act on behalf of their colleagues abroad to carry out essential checks of the documents. As for the transcription and the mark-up of the text these tasks can be carried out very easily using only the photo. In EditMOM3 the photo can be moved and zoomed when needed. Encoding using EditMOM3 is extremely simple and intuitive, based on a few basic steps: selection using the cursor, clicking on an item in the drop-down menu, the possibility of enhancing and defining the encoding in several tabs placed to the right. EditMOM3 is designed to deal with the description of various phenomena: the mark-up for representing the text (start of a new line, graphically dissimilar characters, abbreviations, spaces left blank, gaps, standard symbols, corrections, palaeographic or historical/philological phenomena, etc.); the mark-up required for indexing the names of people, places, and matters of interest; the mark-up required for representing diplomatic analysis (parts of the document, text, dispositio, formulae, etc.).

75

76

a n to n e l l a am b ro s i o

Figure 5 : EditMOM3 – Photograph visualization

Figure 6 : EditMOM3 – Photograph visualization

In our case, a few minor problems did crop up, regarding the encoding of the diplomatic analysis of the documents, which we had already foreseen during the preparatory stage of the edition. The diplomatic structure of the documents under consideration – mainly private documents – have several features which, before our edition, were hard to encode in EditMOM. This happened because the standard CEI was created using as examples North European and North Italian charters. Private documents are harder to insert in a coherent structure such as that imposed by XML codification, for which public documents are, by their very nature, more suitable. Moreover, the private documents of southern Italy have distinctive features that require small modifications to several configurations of the tool. An example should

Digital Critical Editions of Medieval Documents on Monasterium.Net

Figure 7 : EditMOM3 – Text selection and drop-down menu (Ed. by V. Schwarz-Ricci)

Figure 8 : EditMOM3 – Refined encoding (Ed. by V. Schwarz-Ricci)

help to clarify this point: The documents of our edition belong to some Italian areas defined by the diplomatists ‘of Lombard tradition’. In these zones a judge was required to check the validity of the document while a notary was a minor figure who lacked publica fides (public trust). This phenomenon can be expressed with CEI-mark-up, but the encoding was not available within the editor because the drop-down-list contains only the more frequent charter features. Therefore we had to ask the question how to manage these cases. Should we use a specific encoding (a new element ‘JudgeSubscription’) or adapt the existing generic element ‘Subscriptio’ by adding an attribute ‘type’ for notarial signatures, too? This has made it necessary to carry out several alterations to the drop-down menu and, even now, some phenomena are not

77

78

a n to n e l l a am b ro s i o

Figure 9 : EditMOM3 – Refined encoding (Ed. by V. Schwarz-Ricci)

described perfectly in the section devoted to the procedures for the authentication of the document, and we are therefore currently working on this. Above all, we learned that a generic tool is likely to have unnecessary characteristics and functions for a specific project and at the same time likely to lack essential features. How important is the flexibility of the tool in this respect? Would it be worthwile to create a specific tool for each project? With regard to this point, I would like to emphasize that the collaboration with the workgroup involved in developing the software has been invaluable as well as mutually beneficial. For our part, practical research needs have created a testing procedure, providing the input to refine and modify the mark-up, while their technical support has enabled various obstacles that we have encountered along the way to be overcome. Furthermore, with regard the encoding, it may be interesting to examine an aspect that emerged during the experience of several members of the group who had previously been completely unfamiliar with the codification of medieval documents. The transition from standard types of description aimed at recording the phenomena in the document, such as the conventional symbols used in traditional editions and reassuring footnotes, to the codification procedure was not an entirely painless process. For some of us, this transition involved a complex mental effort to learn about a new, more succinct and flexible way of describing and interpreting the text through codification. The conventional signs and footnotes, indispensible features of printed editions and especially editions without illustrations, become superfluous in a digital environment, especially where there are images. Images can describe certain phenomena very well, and the above-mentioned conventional symbols can be replaced by a simpler codification procedure for communicating to the computer how to describe the same phenomena with fewer words, but with a clearly specified terminology which has to be agreed upon by the scientific community. This is a recently felt need. The Vocabulaire Internationale

Digital Critical Editions of Medieval Documents on Monasterium.Net

de Diplomatique already represents a step forward in this direction and there is now access to it in a digital environment using the techniques of the Semantic web, thanks to the work of Georg Vogeler.11 Apart from inevitable problems that have strengthened and improved the group, we have learned about codification the hard way. Despite proving to be occasionally problematic and tiring, it still represents a significant advance for ecdotic procedure. Even though the concept is fairly well recognized it seems useful to add a simple example for this advance which has only become possible thanks to the digital critical edition. Let’s assume that I need to integrate some gaps in the text we are editing, caused by different types of damage in the writing support. In a traditional edition I would formulate this as follows: adv[e]rsusqu[e] (a) (a) With a fading of the ink that renders the first letter barely visible, maybe an e; with an ink stain that covers the second letter. In a traditional edition I have to tackle at least three problems in one single, long footnote with a describing text: I have to respect the custom of a maximum of one footnote per word; I have to identify the two different damages separately because there is only one conventional sign, the square brackets; I have to express the different grades of certainty of my interpretation. So with the transcription of the text and the text of the footnote I provide a somewhat overabundant critical apparatus compared with the relatively simple phenomenon to represent. In the editing environment of MOM-CA I am able to describe the same phenomenon in an intuitive way with a lean mark-up. This mark-up results even more precise compared with the traditional description as it allows to specify the level of certainty of the interpretation, too: adve rsusque Lastly, there are two tools for our edition that have contributed or will contribute to the creation of a digital text within MOM-CA. In an unusual way, they have inevitably modified ecdotic procedure and ensured greater access to the data of the edition. Firstly, the Annotation tool makes it possible to mark parts of the images and link them to elements of the markup, making comparisons and modifying the parts of the extracted images, sharing them with other editors and eventually publishing them on the portal; secondly, the Geo-tool (currently in development at the Cologne Center for eHumanities) for the geo-localization of the places and topical data of the documents on a map.

11 G. Vogeler, ‘Von der Terminologie zur Ontologie. Das »Vocabulaire international de la diplomatique« als Ressource des Semantic Web’, Francia, 40 (2013), p. 281-297, and G. Vogeler, ‘Terminologie der Diplomatik’ (Online version of the Vocabulaire Internationale de Diplomatique, 2011), URL : (accessed 17 February 2017).

79

80

a n to n e l l a am b ro s i o

Producing Critical Editions of Medieval Documents in a MOM-CA Collection Another positive aspect of our work was the possibility to produce our digital texts within a collection, a virtual environment with numerous opportunities.12 To give a clearer idea, a collection in MOM-CA is a virtual archive in which the editor, from a remote workstation, can insert the documents that need to be edited, choosing them from the whole set of documents in Monasterium.net according to personal criteria which may regard history, diplomatics, archival science, or palaeography. A collection differs significantly from an archive which is also represented in the portal. In the ‘archive’ part of monasterium, the documents are found as they are preserved in the actual place where they are kept. They are organized in the original fond structure. Each document in an archival fond is usually accompanied by photographs of the document and information related to it. A collection – on the other hand – can be made by using photographs of documents that exist on Monasterium, or can be created without photographs, or alternatively can consist of documents that are specially uploaded on the portal for the purpose or even of documents from other collections. In our case the documents are already published in MOM-CA as part of the archival fonds of the Biblioteca della Società Napoletana di Storia Patria in Naples. For the workflow they are divided in to one collection per editor. They will be assembled into a single collection called ‘l’archivio virtuale dell’abbazia di S. Maria della Grotta’ (‘The virtual archive of the abbey of S. Maria della Grotta’) which is already online.13 In short time, the virtual archive can be compared to a mosaic made up of: a) photos of documents and minimal data from the twelfth century taken from a printed publication of a work of mine, added by students during previous teaching activities, which will be available soon on-line; b) the digital edition of the documents from the first half of the thirteenth century which are still unpublished; c) photos and data of various type for the remaining rest of the documents. In this way the surviving antique parchment fonds of the monastic archive of S. Maria della Grotta will be reconstructed entirely. The part of the collection of S. Maria della Grotta regarding the twelfth century (a) originated from a previous project undertaken several years ago involving the reconstruction, using digital technology, of the archive from this abbey which is actually scattered in many different series of the parchment fonds of the library of the Società Napoletana di Storia Patria. This painstaking work involves analysing various types of documents, examined using palaeography and diplomatics, designed to identify similarities with those that definitely belonged to the abbey, and on the recording of toponyms and names of people involved in legal and documentary activities who are present in documents that can be securely attributed to the abbey. This has made it

12 (accessed 17 February 2017). 13 (accessed 17 February 2017).

Digital Critical Editions of Medieval Documents on Monasterium.Net

possible to attribute to the archive as many as sixty-eight instrumenta non pertinentia from the eleventh to the mid-thirteenth century, largely unpublished documents which had never been ascribed to the old monastic archive by previous studies and inventories.14 As part of a short-term plan, we will add printed editions and their digital processing of the parchments of the twelfth century, after an agreement with the publisher (a); digital editions dating to the first half of the thirteenth century (b); and, after a continuation of the census for the whole documentation to the eighteenth century, significant data for the documentation of this later period (c). The technical flexibility and the simplicity of using the collection has therefore enabled (and will continue to enable) a group of people with different training and skills to work in different places at different times to ‘give visibility to documents that are hard to consult, unity to fragmentary and scattered evidence, publicity to unpublished and little-known material, in order to present the work as soon as possible and to improve the final product as far as possible’.15 This is particularly important for documentary evidence from southern Italy which is often broken up and scattered. In reality the collection we are referring to, and the previous attempts that have ended up in a collection of the Neapolitan monastery of SS. Pietro e Sebastiano, belong to the Italian context as well as an international scientific and cultural context. The underlying aim is to find an easy way of improving visibility and access, through online digital archives, for parchment documents from Italy (especially the south). These documents are scattered in many state archives, libraries, religious and private archives (often very small in size), or have been broken up and destroyed over time, and often hastily inventoried and described; our goal is also to use digital technologies to enhance, publish and study these documents to involve a wider public made up of experts (scholars, archivists and librarians, and others), students of various levels, and also private citizens. In a sense, the collection of S. Maria della Grotta is also part of a public history project involving universities in the cooperative project, the citizens of Vitulano and other online platforms run by ICARUS. So far we had occasion to highlight the positive aspects of the infrastructure MOM-CA but, of course, at the moment there are also critical ones. This is why I would briefly like to describe several obstacles we experienced in the collaborative environment as a group working generally at a distance from one another. MOM-CA currently has good opportunities for sharing contents which involves having documents shared with other editors in one’s own account and being able to make modifications simultaneously. However, it immediately became apparent that other forms of communication were also required. It proved necessary to meet in workshops and keep in contact through Skype, Facebook, and email. Many shared online materials proved to be indispensable work tools, including a Google file containing an user’s 14 A. Ambrosio, Le pergamene dell’abbazia di S. Maria della Grotta di Vitulano (BN). Secc. XI-XII, Fonti per la storia del Mezzogiorno medievale, 21, Salerno: Laveglia & Carlone, 2013. 15 Id., ‘Il progetto Monasterium in Italia’, p. 145. At the base of this research project on the virtual archive on Monasterium.net is my monograph: Antonella Ambrosio, Il monastero femminile domenicano dei SS. Pietro e Sebastiano di Napoli. Regesti dei documenti (secoli XIV - XV), Documenti per la storia degli Ordini mendicanti nel Mezzogiorno, 1, Salerno: Carlone, 2003.

81

82

a n to n e l l a am b ro s i o

manual, which was gradually supplemented by contributions from all the other group members as the number of case studies led to new discussions and prompted new decisions to be taken. What is still missing is the social aspect of MOM-CA and a repository function, represented by a forum or other virtual environments in which to communicate, discuss issues and exchange work materials. We hope that these needs are taken into account by the MOM-CA development team in the very near future.

A Glimpse at the near Future What do we expect for the immediate future of our edition? Why is our edition different, something more? Lastly, I would like to draw some, even though incomplete, conclusions regarding our experiences hoping that they can be useful for the reader. Creating a digital edition with the help of MOM-CA has involved having tools that are effective and intuitive to use and which require neither specific training in mark-up languages (EditMOM3) nor image processing, and that allow linking images to the documentary text (Annotation tool). The use of these tools has led to methodological changes, in particular adapting the criteria of traditional editions to the mark-up language. The need for a well-defined, commonly agreed terminology, where the editor generally makes ‘a notification’ rather than a ‘description’, has inevitably led to a new way of interpreting documents. By using a formal language geared towards a dialogue between resources and the exchange of data, we shall be able to make the edition accessible due to semantic research, available on a long-term basis and interoperable. We have been able to configure the edition in a hypertext format, incorporating links to other resources, currently Zotero for the bibliography and Du Cange online for the terms used in the documents.16 We shall be able to add media as well as images of the documents and, in the future, we shall also be able to include a map of the topical data (Geo tool). We shall produce various text formats, as well as the text available in MOM-CA. Of these various text formats, a crucial role for the current recognition of a scientific publication is played by a text with a typographic layout similar to the print layout of traditional editions, a text provided with an ISBN code number and compatible with open source publication. This text will be automatically generated by a tool which will soon be available and on which we are currently working in conjunction with the University of Graz. Producing an edition with the assistance of MOM-CA required the use of a collection that can help the editor to adopt a lateral thinking approach: why proceed (and publish) only in chronological order? Why only according to an archive or a

16 ; (both accessed 17 February 2017). For example, in case of Zotero we added an attribute “key” with the link to the element cei:bibl which includes the bibliograpical citations. The link refers to the relative bibliographical entry in the collaborative library of our research group: (accessed 17 February 2017).

Digital Critical Editions of Medieval Documents on Monasterium.Net

series? Why exclusively on the basis of geographic or institutional criterion? Why should we carry out the census first, then produce the edition and lastly publish the results? Why not publish partial data? Ideally, it could even free the traditional edition from current descriptive boundaries which organize online information about the documents, whether in inventories, or collections of facsmiles or in regesta, as separate, heterogeneous resources. It is important to overcome these limitations and even propose all-encompassing ‘meta editions’.17 Lastly, compiling a digital edition using MOM-CA implied setting up an environment for collaborative work which has transformed the concept of individual scientific and editorial responsibility so that the group shares this responsibility. It has led to a significant enlargement, in time and in space, of the editorial team, diversifying contributions according to expertise. Due to the already existing community that gravitates around the Monasterium portal, which is well-established in terms of objectives and practices, the digital edition has involved forms of interdisciplinary collaboration as is the case now; in the future, it could even include various institutions (universities and archives) that still rarely collaborate in shared publishing initiatives, as part of wide-ranging transversal and transnational communities.18 Lastly, it could involve the participation of the end user in various forms such as crowdsourcing which, despite the inevitable problems of quality control, could prove effective for long-term projects regarding documentation of a highly varied nature, as is the case in Italy. To conclude, I hope it is clear that the technological advances created by Monasterium and MOM-CA have had an extremely positive impact on our ecdotic practice. As regards the specific issue of edition methodology, a particularly important change has involved the codification procedure and the quality and type of interpretative data that we have been able to add as a result of this new procedure, and, in particular, the use of the collection and everything that stems from this. We obviously expect further, significant changes once the work has been completed. Only then can we be sure that the edition methodology followed for centuries, which is also used in MOM-CA and on Monasterium, is not repudiated by the digital environment. It would be simplistic to suggest that the methodology is only enhanced. I hope that our edition, once accomplished, will encourage the use of the platform Monasterium and of MOM-CA so that more tangible results can inspire a discussion on the question if a transformation of methodology really happens, if it is unavoidable and how it reveals itself. Of course this necessity goes beyond the

17 T. Kölzer, ‘Konstanz und Wandel. Zur Entwicklung der Editionstechnik mittelalterlicher Urkunden’, in Urkunden und ihre Erforschung. Zum Gedenken an Heinrich Appelt, W. Maleczek (ed.), Veröffentlichungen des Instituts für Österreichische Geschichtsforschung, Vienna: Böhlau, 2014, p. 33-52; G. Vogeler, ‘Digital Diplomatics. What could the Computer Change in the Study of Medieval Documents?’, Initial, 2 (2014), p. 163-185. 18 These conclusions rely on some of the concepts of a digital edition of documents developed in the essays cited in Footnote 2 of this article. Regarding vast working communities and research see: A. Ambrosio, ‘Transnational Virtual Learning Communities and Historical Documents’, in Innovación didáctica al servicio del docente y profesional en Ciencias Documentales, É. López Gómez (ed.), Lima: REDEM, 2014, p. 29-39.

83

84

a n to n e l l a am b ro s i o

specific infrastructure employed by us and discussed in this essay. We need editions of charters to evaluate this. Only by drawing from a considerable number of results we will be able to test if the digital technologies can produce digital editions of medieval documents that offer a decisive improvement and step forward in a new, exciting direction.19

19 I wish to thank Vera Isabell Schwarz-Ricci and Georg Vogeler for the careful reading of this article and for the suggestions provided. For the critical edition in print published some months ago see: I documenti dell’abbazia di S. Maria della Grotta di Vitulano (BN) 1200-1250, A. Ambrosio, V.  Isabell Schwarz-Ricci, Georg Vogeler (ed.), Salerno: Laveglia&Carlone, 2018; for the critical edition online see now : http://monasterium.net/mom/SMG1200-1250/collection (accessed 31 December 2018).

Laura Gili-Thébaudeau & Timothy Salemme

Le projet « transfrontalier » TRANSSCRIPT Une base de données plurilingue pour les actes des ducs de Lorraine et des comtes de Luxembourg (xiiie-xive siècle)*

Le projet TRANSSCRIPT Lancé entre l’automne 2014 et le printemps 2015, le projet international ANR-FNR TRANSSCRIPT, Writing and Governance. Cultural Transfers between France and the Empire (thirtheenth-sixteenth centuries) trouve son origine dans la collaboration de deux laboratoires de recherche universitaires : d’une part, l’Atelier de Diplomatique du CRULH (Centre de Recherche universitaire lorrain d’Histoire), basé à l’Université de Lorraine et héritier de l’ancien Centre de Médiévistique Jean-Schneider de Nancy (CMJS), réputé pour son savoir-faire dans les champs de la diplomatique et des humanités numériques ; d’autre part, l’Institut d’histoire de l’Université du Luxembourg, porteur de compétences dans les domaines de l’analyse de la Lotharingie médiévale, de l’édition des actes des comtes de Luxembourg et de la cartographie1. Ce double engagement franco-luxembourgeois justifierait à lui seul le



* Bien que cette contribution constitue un état de lieux de la base de données TRANSSCRIPT en juin 2016, lorsque se tint le colloque dont ce volume recueille les actes, il n’a pas semblé utile aux auteurs d’en modifier le texte au moment de la correction du dernier jeu d’épreuves, les données techniques étant globalement inchangées. Nous nous limitons à signaler que la base a été présentée et officiellement mise en ligne lors des 20èmes Journées Lotharingiennes, « Relire l’histoire des ‘principautés territoriales’ aux xiiie-xive siècles (Lotharingie – Empire – France). Gouvernance – Pratiques de l’écrit – Codifications », tenues à Luxembourg les 24-26 octobre 2018, et est depuis lors accessible à l’adresse . Les auteurs tiennent à remercier Michel Margue, Jean-Daniel Mougeot et Hérold Pettiau d’avoir relu à plusieurs reprises ce texte ainsi que pour les nombreux conseils fournis durant sa rédaction. Tous les liens internet donnés dans les notes de bas-de-page ont été consultés pour la dernière fois le 08/02/2019. 1 Le projet TRANSSCRIPT, codirigé par Isabelle Guyot-Bachy (Université de Lorraine) et Michel Margue (Université du Luxembourg), bénéficie d’un financement quadriennal de la part de l’Agence Nationale de la Recherche française (ANR) et de son homologue luxembourgeois, le Fonds National Laura Gili-Thébaudeau CRULH Timothy Salemme IPSE Digitizing Medieval Sources – L’édition en ligne de documents d’archives médiévaux : Challenges and Methodologies – Enjeux, méthodologie et défis, éd. par Christelle Loubet, Turnhout, 2019 (Atelier de Recherches sur les Textes Médiévaux, 27), p. 85-105 © FHG10.1484/M.ARTEM-EB.5.117330

86

l aur a gi l i -th é b au d e au & t i m ot h y s al e mme

recours au terme « transfrontalier » pour définir TRANSSCRIPT. Toutefois, dans le cas de ce projet, ce qualificatif s’applique aussi, voire surtout, aux sources qui en constituent l’objet d’étude. Son objectif principal est en effet d’étudier les pratiques de l’écriture administrative de l’époque médiévale tardive en combinant deux champs de recherche : la gouvernance des principautés territoriales médiévales et les transferts culturels (TRANS-) entre des espaces qui se trouvent de part et d’autre d’une frontière linguistique. Pour analyser dans cette perspective le développement de la scripturalité (-SCRIPT), nous avons d’abord délimité l’espace géopolitique de notre recherche : un espace situé au cœur de celui de l’ancienne Lotharingie, recouvrant aujourd’hui une bonne partie de l’actuelle « Grande Région », et dont le caractère d’ « Entre-Deux » culturel et politique, entre Francia et Germania, Regnum et Imperium au Moyen Âge est désormais devenu un topos de l’historiographie régionale. Longtemps perçu comme une faiblesse au regard des historiographies nationales, ce même caractère a par la suite largement contribué au renouvellement de la réflexion épistémologique sur les espaces-frontières, qui, depuis quelques décennies, insiste sur la perméabilité réelle de celles-ci au détriment de leur étanchéité présumée :

de la Recherche (FNR). Parmi les membres de l’Atelier de Diplomatique du CRULH impliqués dans sa réalisation, participent Christelle Balouzat-Loubet, Jean-Christophe Blanchard, Laura Gili-Thébaudeau, Denis Remy, Francis Carton et Mathias Bouyer. L’équipe luxembourgeoise est constituée par Michel Pauly, Hérold Pettiau, Timothy Salemme, Jean-Daniel Mougeot, Anna Jagosova et David Kirt. L’Atelier de Diplomatique du CRULH assure aujourd’hui en particulier le maintien de la base de données Chartes originales antérieures à 1121 conservées en France – consultable depuis 2010 à l’adresse  –, qui contient l’édition d’environ 5 000 chartes originales antérieures à 1121 repérées tout au long d’un travail de recherche pluri-décennal dans les dépôts d’archives départementales de France, de même qu’aux Archives Nationales et à la Bibliothèque nationale de France. Le début de l’entreprise scientifique remonte à 1966, lorsque le doyen Jean Schneider créa à Nancy un Centre de Recherches et d’Applications Linguistiques (CRAL), dont l’un des axes de recherche prioritaires concernait le recensement et traitement numérique des textes diplomatiques en original conservés dans l’Est de la France ; par la suite, à la fin des années 1970, la recherche fut étendue à l’ensemble de l’espace français. Au lendemain de la disparition du CRAL en 1983, l’entreprise fut poursuivie d’abord par l’équipe de l’Atelier de Recherche et d’Histoire des Textes Médiévaux (ARTeM), puis, de 2009 à 2013, par celle du Centre de Médiévistique Jean-Schneider (CMJS). Signalons en outre qu’en 2011 une deuxième étape du projet Chartes originales en France, prenant en compte cette fois-ci les actes originaux de la période 1121-1220, a été lancée par les membres de l’ancien CMJS, dont les efforts se sont avant tout concentrés sur le matériel conservé dans les dépôts d’archives lorrains ; cf. à ce propos . Pour un court rappel de l’historique du projet Chartes originales en France, voir B.-M. Tock (éd.), La diplomatique française du Haut Moyen Âge. Inventaire des chartes originales antérieures à 1121 conservées en France, t. 1, Turnhout, 2001, p. xi-xiii, ainsi que la bibliographie qui y se trouve citée dans les notes de bas-de-page. L’Institut d’histoire de l’Université du Luxembourg, dont les thèmes de recherches portent sur la Lotharingie (voir à ce sujet les descriptifs des différents projets Lothar et Editio, disponibles à l’adresse et sur la dynastie des Luxembourg, a été porteur du projet de recherche GR-Atlas, qui s’est conclu en 2009 avec la mise en ligne d’un atlas digital de la Grande Région – le Grand-Duché de Luxembourg, la région Wallonie, la région Lorraine, la Sarre et la Rhénanie-Palatinat – rassemblant des cartes qui visualisent des données provenant des sciences humaines – y compris de l’histoire –, sociales et naturelles ; cf. le descriptif du projet, disponible à l’adresse .

l e p ro j e t « t r an s fro ntali e r » t ransscri pt

une porosité qui, en ce qui concerne l’écrit documentaire, se manifeste par exemple dans l’espace lotharingien, entre autres, sous la forme d’un véritable melting pot linguistique, dans lequel le recours au latin diminue dès le milieu du xiiie siècle au profit des diverses langues vernaculaires2. S’insérant dans ce contexte à la fois géo-historique et historiographique assez complexe, le projet TRANSSCRIPT vise plus particulièrement à comparer deux principautés territoriales lotharingiennes au Moyen Âge central et tardif, le duché de Lorraine et le comté, puis duché (1354) de Luxembourg, en se focalisant aussi sur les interrelations entre le prince et sa famille, la noblesse, les officiers, les villes et les monastères. Pour ce faire, les membres des deux équipes se sont attelés aux pratiques de l’écriture en partant du principe que le document écrit est à la fois une manifestation de la gouvernance princière et un outil à disposition du prince pour réaliser celle-ci. Motivé par des contraintes de temps et en moyens humains à disposition, le choix de limiter la recherche à ces deux principautés ne doit toutefois pas être interprété comme une limite. Au contraire, l’un des buts de ce projet est celui de construire des modèles et outils d’analyse et d’interprétation des documents écrits susceptibles de devenir eux-mêmes des bases utiles au développement d’autres recherches. Parmi les résultats attendus dans le cadre de TRANSSCRIPT, nous citons ici quatre desiderata : 1. Le repérage, la transcription et l’encodage dans une base de données en ligne des chartes princières de la période comprise entre le milieu du xiiie et le milieu du xive siècle ; 2. L’étude de l’évolution politique des principautés territoriales sur le long terme (du xiiie au xvie siècle), en focalisant l’attention sur les mécanismes institutionnels



2 Voir à titre d’exemple : H. Thomas, Zwischen Regnum und Imperium. Die Fürstentümer Bar und Lothringen zur Zeit Kaiser Karls IV., Bonn, 1973 ; Les Pays de l’Entre-Deux au Moyen Âge : questions d’histoire des territoires d’Empire entre Meuse, Rhône et Rhin. Actes du 113e congrès national des sociétés savantes, Paris, 1990 ; M. Parisse, L’époque médiévale : Austrasie, Lotharingie, Lorraine (G. Cabourdin (éd.), Encyclopédie illustrée de la Lorraine/Histoire de la Lorraine, Nancy, 1990). Y compris en archéologie : M. Bur (éd.), Les peuplements castraux dans les Pays de l’Entre-Deux. Alsace, Bourgogne, Champagne, Franche-Comté, Lorraine, Luxembourg, Rhénanie-Palatinat, Sarre. Actes du colloque de Nancy, 1er-3 octobre 1992, Nancy, 1993 ; L. Dauphant, Le royaume des quatre rivières : l’espace politique français, 1380-1515, Seyssel, 2012. Du côté allemand, il convient de mentionner l’important projet Sonderforschungbereich 235 : Zwischen Maas und Rhein : Beziehungen, Begegnungen und Konflikte in einem europäischen Kernraum von der Spätantike bis zum 19. Jahrhundert, mené à l’Université de Trèves de 1987 à 2002 (cf. le descriptif du projet, disponible à l’adresse ). Du côté luxembourgeois, outre la série des publications des actes des colloque Journées Lotharingiennes (cf. la liste disponible à l’adresse ), citons également : M. Margue (éd.), Ermesinde et l’affranchissement de la ville de Luxembourg. Études sur la femme, le pouvoir et la ville au xiiie siècle (plus particulièrement les contributions de M. de Waha, « La marche impériale de Namur-Luxembourg. Vicissitudes d’un concept géo-politique de 1150 à 1300 », p. 91-159, et de M. Parisse, « Thiébaut, comte de Bar et de Luxembourg », p. 161-177) ; M. Gaillard et al., (éd.), De la mer du Nord à la Méditerranée. Francia Media. Une région au cœur de l’Europe (c. 840-c. 1050), Luxembourg, 2011 ; M. Margue, « Du comté à l’empire : origines et épanouissement du Luxembourg », in G. Trausch (éd.), Histoire du Luxembourg. Le destin européen d’un « petit pays », Toulouse, 2013, p. 67-147.

87

88

l aur a gi l i -th é b au d e au & t i m ot h y s al e mme

des deux structures proto-étatiques (Lorraine et Luxembourg) et sur les acteurs qui y sont impliqués (noblesse, élites religieuses, bourgeoisie urbaine). 3. En lien avec l’objectif précédent, une attention particulière est aussi donnée à l’adoption d’une perspective comparative entre les deux principautés territoriales. 4. Enfin, la synthèse et transposition sur le plan cartographique des données historiques et politiques-institutionnelles ainsi collectées, de manière à vérifier comment les échanges entre principautés territoriales se positionnent par rapport à leurs frontières respectives. La thématique du présent volume portant sur l’édition en ligne des documents d’archives médiévaux, nous allons concentrer notre attention sur le premier volet de TRANSSCRIPT, qui concerne la réalisation d’une base de données de chartes princières. En cours de développement par le pôle informatique de l’IRHT (Institut de Recherche d’Histoire de Textes, laboratoire du CNRS basé à Orléans et Paris), qui a récemment réalisé une refonte de la plate-forme TELMA (Traitement ÉLectronique des Manuscrits et des Archives)3 destinée à la publication en ligne de sources archivistiques et manuscrites, la base de données TRANSSCRIPT, tout en étant déjà en ligne, n’est pour l’instant pas encore accessible au public4. Néanmoins, il nous semble utile d’en fournir aujourd’hui un aperçu, ce qui permettra de montrer aux chercheurs sa richesse et sa complexité. Avant cela, nous estimons important de préciser les critères adoptés, ainsi que quelques enjeux et défis que nous rencontrons autant dans la réalisation du travail archivistique et diplomatique indispensable pour alimenter cet outil – comme on le verra, parfois susceptibles d’avoir des retombées sur le plan informatique – que dans la conception de ce dernier.

3 P. Bertrand, « Telma. Naissance d’un centre de Digital humanities en France », IRHT, Hypothèses [en ligne], (2007) disponible à l’adresse . 4 Le site web de l’IRHT est accessible à l’adresse . Pour la plate-forme TELMA, cf.  : « L’objectif de TELMA est de mettre en ligne à la disposition de la communauté scientifique des corpus de sources primaires et les instruments de recherche nécessaires à leur exploitation. De ce fait, TELMA intègre deux types de corpus : des répertoires de ressources et des éditions critiques de sources manuscrites associées ou non à des images numérisées des documents. TELMA est une plate-forme de services (de l’aide et conseil jusqu’à la réalisation entière du corpus) et de diffusion (avec respect des normes et standards, interopérabilité entre les corpus et archivage pérenne des données). TELMA est piloté par un conseil scientifique qui décide de la conduite du projet et des corpus à éditer, et par un conseil technique qui valide les choix technologiques. Un service opérateur à l’Institut de recherche et d’histoire des textes (CNRS-UPR 841) est chargé de la mise en œuvre des projets ». Parmi les nombreuses bases de données hébergées dans TELMA, nous citons ici à simple titre d’exemple, à côté de Chartes originales antérieures à 1121 conservées en France et Chartes originales (1121-1220) conservées en France dessus mentionnées (note 1), les bases Actes royaux, Cartulaire de Nesle et Chartae Galliae, disponibles aux adresses : , et .

l e p ro j e t « t r an s fro ntali e r » t ransscri pt

La constitution d’un corpus pour la base de données TRANSSCRIPT : défis et enjeux, entre sciences auxiliaires et humanités numériques Définition diplomatique du corpus documentaire

Définissons au préalable ce que nous entendons par « charte princière » dans le cadre de ce projet : un acte – autant en original que sous forme de copie – dans lequel le prince et/ou les membres de sa famille étroite paraissent comme auteur(s) et/ou disposant(s)5. Deux raisons justifient l’adoption d’un choix si restreint. La première, qui tient au but du projet de recherche : analyser le rôle de l’écrit dans l’exercice du pouvoir princier et plus particulièrement l’usage de l’écrit par et au nom du comte et/ou du duc. En outre et surtout, d’un point de vue diplomatique, nous pouvons supposer que la plupart des documents ainsi sélectionnés aient été produits au sein d’une proto-chancellerie ou d’une chancellerie princière. Évidemment, cela n’exclut pas que certains de ces actes – comme ceux qui ont été donnés par les princes en faveur des établissements religieux, des traités de paix, des accords ou alliances, etc. – aient pu être écrits par les destinataires, ou encore par les scribes ou chanceliers au service d’une autre autorité princière impliquée dans l’action juridique : dans ces cas, nous avons toutefois décidé de retenir ces documents – facilement détectables grâce à des analyses paléographiques, linguistiques et de formulaire – et d’encoder leurs transcriptions dans la base de données. De plus, il nous a semblé utile de retenir pour l’édition les actes qui, tout en étant passés entre des acteurs tiers, ont été scellés par le prince, puisque l’on retient que cette fonction de validation constitue l’un des nombreux exemples par lesquels une forme de gouvernance princière est exercée. Le recours aux critères de sélection des actes princiers par auteur, disposant et sigillant, n’empêche pas de nous intéresser à des chartes dans lesquelles le prince est bénéficiaire et/ ou destinataire, ou encore il est mentionné en passant, voire représenté par ses officiers : ces chartes, bien qu’elles ne soient pas éditées, sont en effet retenues et utilisées dans le cadre des études plus proprement ‘historiques’ menées dans le cadre du projet. Concrètement, nous estimons qu’une fois la base de données de TRANSSCRIPT complétée, elle comptera dans son ensemble environ un millier de transcriptions d’actes princiers, couvrant, pour le duché de Lorraine, la période comprise entre le début du règne de Ferry III (1251) et la fin de celui de Raoul (1346) ; pour le comté de Luxembourg celle entre l’ascension au pouvoir de Henri V en 1247 et la mort de



5 Pour les définitions de ‘auteur de l’acte écrit’ (ou plus simplement ‘auteur’) et de ‘auteur de l’acte juridique’ (ou ‘disposant’), ainsi que pour celles de ‘bénéficiaire’ et de ‘destinataire’ qui suivent, nous renvoyons à O. Guyotjeannin, J. Pycke et B-M. Tock, Diplomatique médiévale, Turnhout, 1993, p. 25-26 ; M. Milagros Cárcel Ortí (éd.), Vocabulaire international de la diplomatique, Valence, 1997, p. 23-24.

89

90

l aur a gi l i -th é b au d e au & t i m ot h y s al e mme

Jean de l’Aveugle (1346)6. Le choix du terminus post quem s’impose car c’est dès le milieu du xiiie siècle que, dans les deux principautés, on commence à apercevoir, à côté de l’essor des structures proto-étatiques, un début de chancelleries et une augmentation et diversification du recours à l’écrit documentaire7. Le terminus ante





6 Soulignons qu’une partie des chartes princières a déjà fait l’objet d’éditions ou regestes dans le cadre d’entreprises plus ou moins récentes. Pour le Luxembourg nous disposons des travaux de plusieurs érudits des xixe et xxe siècles, parmi lesquels rappelons au moins Camille Wampach, qui a édité entre 1935 et 1955 les chartes médiévales concernant le Luxembourg jusqu’à la fin du règne de Henri VII en 1311 ; cette initiative a été poursuivie depuis 1997 par les membres du CLUDEM (Centre Luxembourgeois de documentation et d’études médiévales) et par l’Université de Luxembourg dans le cadre des projets LOTHAR et EDITIO, qui ont mené à la publication sous format papier des chartes princières du règne de Jean l’Aveugle (1310-1346) conservées en original à Luxembourg et à Bruxelles ; cf. C. Wampach (éd.), Urkunden- und Quellenbuch zur Geschichte der altluxemburgischen Territorien bis zur burgundischen Zeit, t. I-X, Luxembourg, 1935-1955 ; A. Estgen, M. Pauly et J. Schroeder (éd.), Urkunden- und Quellenbuch zur Geschichte der altluxemburgischen Territorien. Die Urkunden Graf Johanns des Blinden (1310-1346), t. XI/1 : Die Urkunden aus Luxemburger Archivbestände, Luxembourg, 1997 ; A. Estgen et al., (éd.), Urkunden- und Quellenbuch zur Geschichte der altluxemburgischen Territorien. Die Urkunden Graf Johanns des Blinden (1310-1346), t. XI/2 : Die Urkunden aus den Archives Générales du Royaume, Brüssel, Luxembourg, 2009. Pour la Lorraine, à côté des ouvrages des érudits modernes, citons ici surtout les travaux menés par l’équipe de l’Atelier de Diplomatique du CRULH dans le projet EVADULOR (État virtuel des archives ducales lorraines) et dans son héritier AMPLORR-ORTOLANG, qui ont permis de rassembler sous format numérique les transcriptions de plusieurs centaines d’actes concernant la Lorraine durant la période de Ferry III (1251-1303) ; cf. à ce propos les bases de données disponibles aux adresses et . Nombre d’actes princiers – du côté luxembourgeois, la plupart des originaux et l’intégralité des copies de la période de Jean l’Aveugle ; du côté lorrain, plusieurs centaines de chartes remontant à l’époque de Ferry III et la presque totalité de celles produites durant les règnes de ses successeurs – demeurent toutefois encore inédits aux archives, leur repérage étant facilité seulement de façon assez partielle par les catalogues et inventaires. Parmi ces derniers, citons au moins, pour le corpus luxembourgeois, A. Verkooren, Inventaire des chartes et cartulaires du Luxembourg (comté, puis duché), Bruxelles, 1915 ; pour le corpus lorrain (en ordre de règne) : H. Lepage, Opinion de Dom Calmet sur l’emprisonnement de Ferry III et catalogue des actes du règne de ce prince, Nancy, 1876 (extrait des Mémoires de la Société d’archéologie lorraine et du Musée historique lorraine) ; J. de Pange, Catalogue des actes de Ferri III, duc de Lorraine (1251-1303), Paris, 1930 ; A-M. Marionnet, Catalogue des actes de Thiébaut II, duc de Lorraine (13031312), Nancy, 1947 (copie dactylographiée du diplôme d’études supérieures soutenu devant la Faculté des Lettres de Nancy) ; J. Bridot, Catalogue des actes de Ferry IV (1312-1329), Nancy, 1949 (copie dactylographiée du diplôme d’études supérieures soutenu devant la Faculté des Lettres de Nancy) ; H. Levallois, Catalogue des actes de Raoul, duc de Lorraine, 1329 à 1346, Nancy, 1902. 7 Pour le cas du développement d’une chancellerie au service des comtes de Luxembourg (mieux étudié, du moins jusqu’à présent, par rapport à celui du duché de Lorraine), voir : N. Van Werveke, « Étude sur les chartes luxembourgeoises du Moyen-Âge », in Publications de la Section historique de l’Institut Grand-Ducal de Luxembourg, 41 (1890), p. 81-102, ainsi que M. Margue, « Politique monastique et pouvoir souverain : Henri V, sire souverain, fondateur de la principauté territoriale luxembourgeoise ? », in Le Luxembourg en Lotharingie/Luxembourg im Lotharingischen Raum. Mélanges Paul Margue/Festschrift Paul Margue, Luxembourg, 1993, p. 400-432 (ici p. 418-432). Pour un aperçu plus global sur la mise en place des chancelleries dans les principautés de l’espace lotharingien, on renvoie aux contributions contenues dans T. de Hemptinne et J-M. Duvosquel (éd.), Chancelleries princières et scriptoria dans les anciens Pays-Bas, xe-xve siècle/Vorstelijke kanselarijen en scriptoria in de Lage Landen 10de-15de eeuw, in Bulletin de la Comission royale d’histoire, t. 176/2

l e p ro j e t « t r an s fro ntali e r » t ransscri pt

quem, quant à lui, a été fixé sur la base de la concomitance de la fin des règnes de Raoul et de Jean l’Aveugle, les deux étant décédés sur le champ de bataille de Crécy8. Le caractère plurilingue du corpus et ses enjeux dans l’indexation informatique des noms de lieux et de personnes

L’ensemble documentaire en cours d’édition et d’encodage se caractérise dans nos régions par le recours à trois langues de rédaction des actes : principalement le français et le latin, plus rarement l’allemand. À titre d’exemple, penchons-nous rapidement sur la chronologie du phénomène de l’alternance ou concomitance de ces trois langues dans les chartes princières luxembourgeoises, qui a d’ailleurs jusqu’à présent fait l’objet d’un nombre plus élevé d’études par rapport à celles des ducs de Lorraine9. En Luxembourg, le monopole du latin pendant le Moyen Âge

(2010). Des études récentes ont en outre portées sur les chancelleries des comtés de Hainaut et de Flandre : V. van Camp, De oorkonden en de kanselarij van de graven van Henegouwen, Holland en Zeeland: schriftelijke communicatie tijdens een personele unie: Henegouwen, 1280-1345, t. I-II, Hilversum, 2011 ; A. Stuckens, Les hommes de l’écrit. Agents princiers, pratiques documentaires et développement administratif dans le comté de Flandre (1244-1305), thèse doctorale sous la direction de J-F. Nieus soutenue à l’Université de Namur, 2016. Dans une perspective comparative, cf. aussi : G. Castelnuovo et O. Mattéoni (éd.), ‘De part et d’autre des Alpes’. Chancelleries et chanceliers des princes à la fin du Moyen Âge. Actes de la table ronde de Chambéry, 5 et 6 octobre 2006, Chambéry, 2011. Concernant le développement des principautés territoriales dans l’espace lotharingien, voir en dernier lieu : M. Margue et M. Pauly, « The territorial principalities in Lotharingia », in G. A. Loud et J. Schenk (éd.), The Origins of the German Principalities, 1100-1350. Essays by German Historians, Londres-New York, 2017, p. 220-239. Au sujet des nombreuses transformations dans les pratiques de l’écriture qui se vérifièrent massivement durant le « long xiiie siècle » dans le même espace – y compris donc le duché de Lorraine et le comté de Luxembourg –, voir P. Bertrand, Les écritures ordinaires. Sociologie d’un temps de révolution documentaire (entre royaume de France et Empire, 12501350), Paris, 2015. 8 Sur la présence de Raoul, duc de Lorraine, et de Jean l’Aveugle, comte de Luxembourg à Crécy en 1346 voir à titre d’exemple : H. Levallois, Introduction historique et diplomatique au catalogue des actes de Raoul, duc de Lorraine (1329-1346), Paris, 1902, p. 50 ; M. Margue, « Jean de Luxembourg : images d’un prince idéal », in Id. (éd.), Un itinéraire européen. Jean l’Aveugle, comte de Luxembourg et roi de Bohême, 1296-1346, Luxembourg, 1996, p. 145-190. 9 N. Van Werveke, « Étude sur les chartes luxembourgeoises du Moyen-Âge », in Publications de la Section historique de l’Institut Grand-Ducal de Luxembourg, 41 (1890), p. 76-80 ; W. Reichert, « In lingua Guallica sive Romana pro comoditate domini. Beobachtungen zum Aufkommen volkssprachiger Urkunden in der Grafschaft Luxemburg », in K. Gärtner et G. Holtus (éd.), Urkundensprachen im germanisch-romanischen Grenzgebiet. Beiträge zum Kolloquium am 5./6. Oktober 1995 in Trier, Mayence, 1997, p. 369-490; K. Gärtner et al., (éd.), Skripta, Schreiblandschaften und Standardisierungstendenzen. Urkundensprachen in Grenzbereich von Germania und Romania im 13. und 14. Jahrhundert. Beiträge zum Kolloquium vom 16. bis 18. September 1998 in Trier, Trèves, 2001 (en particulier les contributions de A. Körner, « Kontinuität oder Variationen? Die Sprache der Luxemburger Grafenurkunden des 13. Jahrhunderts in Original und Kartularabschrift », p. 393-417, et M-G. Boutier, « Étude sur des chartes luxembourgeoises », p. 419-447) ; G. Holtus et al., Luxemburgische Skriptastudien : Edition und Untersuchung der altfranzösischen Urkunden Gräfin Ermesindes (1226-1247) und Graf Heinrichs V (1247-1281) von Luxemburg, Tübingen, 2003. Pour la Lorraine, citons T. Brunner, « Le passage aux langues vernaculaires dans les actes de la pratique en

91

92

l aur a gi l i -th é b au d e au & t i m ot h y s al e mme

Figure 10 : VIAF : capture d’écran des résultats de recherche pour Ferry III, duc de Lorraine

central s’interrompt dans les années 1250, suite à l’apparition, puis au recours de plus en plus massif, à l’ancien et au moyen français. Pour les décennies suivantes, les recherches en cours dans le cadre de TRANSSCRIPT ont permis de détecter un changement : le retour, de la part des scribes et chanceliers du comté, à l’usage du latin à côté du français, qui eut lieu en concomitance avec l’élection au trône royal germanique d’Henri VII de Luxembourg en 1308, et qui suit donc la prédilection pour le latin dans la chancellerie impériale. Finalement, une nouvelle évolution s’imposa pendant les années 1330, période dans laquelle l’usage de l’allemand devient aussi courant que celui du français. Tout en constituant évidemment une richesse particulière de notre corpus, la coexistence de multiples langues de rédaction des actes princiers a suscité au sein de l’équipe de TRANSSCRIPT et de nos partenaires de l’IRHT de nombreux questionnements portant sur le traitement informatique et sur l’indexation des noms de lieux et personnes écrits dans des formes différentes. La solution retenue a été de marquer ces noms à l’aide des tags TEI 10 et 11 directement dans le champ « transcription de l’acte » du formulaire proposé dans la base, en y insérant par la suite un attribut @id pour les identifier indépendamment de la langue du document ; ce faisant, le nom sera directement indexé dans la langue courante. Afin de faciliter la recherche et de favoriser l’interopérabilité entre les bases de données, nous songeons en outre à la possibilité d’attribuer aux noms de personnes un identifiant via la base de données VIAF12, tandis que Geonames permettra de

Occident », in Le Moyen Âge. Revue d’histoire et de philologie, CXV (2009), p. 29-72, ici p. 44. M. D. Glessgen, « Les lieux d’écriture dans les chartes lorraines du xiiie siècle », in Revue de linguistique romane, 72 (2008), p. 413-540. 10 Tag , . 11 Tag , . 12 VIAF (Fichier d’autorité international virtuel), URL : .

l e p ro j e t « t r an s fro ntali e r » t ransscri pt

normaliser et géolocaliser les toponymes (en donnant en même temps les variantes dans d’autres langues)13. Un corpus dispersé : établir la tradition des actes et la transposer dans la base de données

Le corpus d’actes de la base de données TRANSSCRIPT est donc, comme on l’a vu, riche et multilingue ; on pourrait aussi rajouter : assez fragmenté. En ce qui concerne les archives des ducs de Lorraine et des comtes, puis ducs de Luxembourg, il n’est pas question d’évoquer dans le détail leurs processus de morcèlement tout au long de l’époque moderne, pour lesquels il suffit de renvoyer aux nombreuses études qui en retracent les étapes principales14. Nous nous contenterons tout simplement de rappeler ici de façon générale que la documentation faisant à l’origine partie des Trésors des chartes lorrain et luxembourgeois est aujourd’hui dispersée dans des nombreux dépôts d’archives entre France, Belgique, Luxembourg, Allemagne, ainsi qu’à Prague et à Vienne15. Tout aussi complexe est d’ailleurs le travail de repérage des actes des ducs de Lorraine et des comtes de Luxembourg conservés dans les chartriers des bénéficiaires et destinataires – que ce soient des archives d’autres princes, des évêques, des établissements religieux, etc. –, et ce en raison de l’ampleur et de la

13 Geonames, URL : . 14 Bibliographie essentielle sur la fragmentation du trésor de chartes des ducs de Lorraine : H. Lepage, « Le trésor des chartes de Lorraine », Bulletin de la Société d’archéologie lorraine, 7 (1857), p. 99-280 ; P. Marichal, « Dufournoy et Lancelot. Notes sur les anciens inventaires du Trésor des Chartes de Lorraine », Mémoires de la Société d’archéologie lorraine, 44 (1894), p. 5-74 ; P. Marot, « Les archives de Meurthe-et-Moselle et le Trésor des Chartes de Lorraine », Revue lorraine illustrée, 1931, 44 p. ; H. Collin, « Le trésor des chartes de Lorraine, ses lieux de conservation successifs et les amoindrissements qu’il a subis au xviie et au xviiie siècle », in Id. (éd.), Mélanges d’archéologie, d’art et d’histoire offerts au chanoine Jacques Choux, Nancy, 1997, p. 179-195 ; M. Dinet, « Avantpropos », in H. Say et H. Schneider (éd.), Le duc de Lorraine René II et la construction d’un État princier. Actes de la journée d’étude organisée à l’occasion du 500e anniversaire de la mort de René II, Nancy, 2010, p. 7-9. En ce qui concerne le trésor des chartes luxembourgeois : F-X. Würth-Paquet, « Chartes luxembourgeoises à Lille », Publications de la Section historique de l’Institut Grand-Ducal de Luxembourg, 12 (1877), p. 306-309 ; N. Van Werveke, « Étude sur les chartes luxembourgeoises », p. 2-50 ; M. Bourguignon, Les chartes du Luxembourg. Introduction à l’inventaire des Chartes et Cartulaires du Luxembourg, Bruxelles, 1931 ; T. Kellen, « Die luxemburgische Geschichtsschreibung : ein Rückblick und ein Ausblick », Jonghemecht : Zeitschrift für heimatliches Theater, Schrift und Volkstum, 7 (1933), p. 109-118 ; R-H. Bautier et al., Les sources de l’histoire économique et sociale du Moyen Âge. 2. Les États de la maison de Bourgogne, I : Archives des principautés territoriales, fasc. 2, Les principautés du Nord, Paris, 1984, p. 647-656 ; J.-M. Yante, Le Luxembourg mosellan. Production et échanges commerciaux. 1200-1560, Bruxelles, 1996, p. 19-31. Sur la chambre des comptes de Bruxelles, voir E. Aerts, Geschiedenis en archief van de rekenkamers, Bruxelles, 1996. 15 Parmi les dépôts qui nous intéressent le plus, on peut citer ici, pour la France, les quatre archives départementales lorraines, les Archives du Nord à Lille ; à Paris, la Bibliothèque nationale de France, les Archives Nationales, mais aussi le Musée Condé à Chantilly ; les Archives Nationales de Luxembourg. En Belgique, ce sont surtout les Archives générales du Royaume à Bruxelles, mais aussi celles d’Arlon, Liège, Namur et Gand. En Allemagne, les dépôts de Sarrebruck, Coblence, Trèves. Enfin, il convient de ne pas oublier les archives de l’État de Prague et de Vienne.

93

94

l aur a gi l i -th é b au d e au & t i m ot h y s al e mme

longueur de ce type de recherche dans des multiples dépôts d’archives de la Grande Région. Ce qui nous intéresse le plus, c’est de souligner que cet état de dispersion, à un niveau plus élémentaire, concerne aussi les actes connus sous la forme d’exemplaires multiples – que ce soit des originaux et/ou des copies –, qui sont actuellement assez souvent gardés dans des dépôts divers. Tout cela comporte évidemment, d’une part, la nécessité de réaliser de mises à jour régulières de la tradition de chaque acte en cours de traitement au fur et à mesure que les recherches archivistiques et diplomatiques avancent ; de l’autre, celle de transposer dans la base les données ainsi nouvellement repérées. En ce qui concerne ce deuxième point, comme on le verra aussi dans la suite, nous avons opté pour disposer de deux champs différents dans le formulaire de saisie : le premier (appelé « Cote ») est utilisé pour renseigner sur la cote du témoin transcrit dans le cadre du projet – à priori, l’original, ou, en l’absence de celui-ci, la copie la plus ancienne que nous avons repérée, complétée par des éventuelles collations – ; le deuxième (« Type de source ») pour en préciser l’état (original, vidimus, copie, etc.). Les cotes d’autres exemplaires éventuels du même document sont, quant à elles, signalées dans une autre section du formulaire, indiquée comme « Sources manuscrites ». Contrairement aux deux autres précédemment mentionnés, ce dernier champ est conçu de façon à permettre à l’utilisateur accrédité d’ajouter une case supplémentaire pour chaque exemplaire dont il a connaissance. Mettre en image le corpus. Un grand défi

Idéalement, chaque fiche contenue dans la base de données sera complétée par des photos numériques de l’acte princier auquel la transcription se réfère. En particulier, pour les chartes originales et les vidimus contemporains, nous envisageons la mise à disposition des usagers de la base les reproductions du recto et du verso, ainsi que des sceaux et contre-sceaux éventuellement attachés au support : cela facilitera les recherches portant sur des aspects autres que le contenu du document (par exemple philologiques ou paléographiques). Idéalement, car nous sommes en effet assez souvent confrontés à la nécessité d’acheter aux archives qui conservent la documentation qui fait l’objet de notre recherche les droits de reproduction et de diffusion des images des actes. Bien conscients du fait que, ces derniers étant conservés dans des différents pays, des législations nationales et des tarifs parfois considérablement disparates s’appliquent en la matière, nous avons entamé, dès le début du projet, des discussions avec les archivistes responsables des principaux dépôts afin d’établir des conventions16. Il est toutefois possible que, vu les rythmes variables de négociations, de nombreuses fiches soient malheureusement dépourvues d’images, du moins au 16 Pour la France, par exemple, l’article 5 de la loi « Valter » prévoit que les informations publiques et, donc, les images des documents d’archives et/ou des bibliothèques, soient gratuites. A cela, s’ajoutent cependant deux exceptions : a) les administrations peuvent établir une redevance de réutilisation pour couvrir une partie des coûts liés à l’accomplissement de leurs missions ; b) en cas de numérisation (par les services), une redevance peut être établie, là encore pour couvrir les coûts. Voir LOI n° 2015-1779 du 28 décembre 2015 [en ligne], disponible à l’adresse . Cette

l e p ro j e t « t r an s fro ntali e r » t ransscri pt

moment de l’ouverture au public de la consultation de la base de données. Nous espérons quand même pouvoir les intégrer dans un second temps. Un deuxième élément aussi important s’est imposé à l’attention des membres l’équipe TRANSSCRIPT. La plate-forme TELMA ne disposant pas d’un espace de stockage illimité – à partager d’ailleurs avec d’autres base de données similaires à celle de TRANSSCRIPT –, en accord avec les informaticiens de l’IRHT, nous avons limité à 10 Mo la taille maximale disponible par fiche pour le chargement des reproductions numériques. Les images ont une extension .JPG, ce format offrant en général par rapport à d’autres (par exemple TIFF et Raw), un bon rapport entre qualité de l’image et poids du fichier. La fonction « Recherche »

Indispensable au bon fonctionnement de la base de données, la fonction « Recherche » fait l’objet d’une profonde réflexion autant de la part de l’équipe de TRANSSCRIPT que des informaticiens de l’IRHT, qui, tout en adoptant des points de vue différents, dialoguent et coopèrent entre eux afin de la rendre plus performante. De façon classique, cet outil en constante évolution offre à l’usager de la base un double choix. Par le biais de la « Recherche simple », ce dernier peut effectuer des recherches plein texte qui interrogent l’ensemble des données contenues dans la base : dans ce cas, les résultats s’affichent exclusivement selon le principe de leur pertinence supposée, cet ordre ne tenant donc pas compte de leur provenance d’un champ ou l’autre du formulaire (par exemple, les champs « Analyse », « Transcription », « Note dorsale », etc.). En outre, toujours à partir de l’onglet « Recherche simple », il nous est possible de repérer des fiches par leur nom (par exemple, TRANSSCRIPT-232, TRANSSCRIPT-454, etc.). La « Recherche avancée », quant à elle, prévoit plusieurs champs qui coïncident d’ailleurs avec le formulaire de saisie des fiches – sur lequel on reviendra dans la suite –, proposant donc des recherches ciblées, qu’on peut combiner entre elles. Tant dans la recherche simple que dans la recherche avancée, la complétion du/ des mot(s) concerné(s) par l’enquête se fait automatiquement. Prenons un exemple relatif au nom de l’un des ducs de Lorraine, Ferry III, pour lequel l’on retrouve dans les actes médiévaux plusieurs variantes (« Ferry », « Ferri », « Ferris », « Ferriz », etc.). En saisissant tout simplement « Ferry » dans la case correspondante, le moteur de recherche de TRANSSCRIPT applique un algorithme (portant sur la forme « Ferry* ») qui répertoriera toutes les occurrences « Ferry » se trouvant dans la base (dans le cas de la recherche simple) ou dans certains champs des fiches qui y sont présentes (dans le cas de la recherche avancée). Si, par contre, on lance une recherche portant sur la forme « Ferr », celle-ci sera interprétée par le moteur de recherche comme « Ferr* », ce qui nous donnera au niveau des résultats non seulement les occurrences

loi a été remaniée par la loi « Lemaire », LOI n° 2016-1321 du 7 octobre 2016 pour une République numérique [en ligne], disponible à l’adresse .

95

96

l aur a gi l i -th é b au d e au & t i m ot h y s al e mme

de « Ferry », mais aussi celles de « Ferri », « Ferris », « Ferriz », etc., et même celle de « ferroient » (variante de la 3e personne du pluriel du verbe « faire »). Tout en présentant quelques limites – en réalité facilement surmontables, comme le montre le cas proposé ci-dessous –, les possibilités offertes par ce type de recherche nous apparaissent évidentes dans le cadre de plusieurs études, portant par exemple sur la terminologie utilisée dans les actes princiers. En outre, nous avons ultérieurement implémenté les outils de recherche internes de la base de données TRANSSCRIPT sur le modèle des principaux moteurs disponibles sur le Web (comme Google), afin de permettre aux usagers d’effectuer des recherches précises à l’aide des guillemets. Ainsi, en écrivant la forme « “duc de Lorraine” » dans la fonction « Recherche » (autant simple qu’avancée), les résultats de celle-ci porteront exclusivement sur les occurrences contenant précisément cette chaîne de mots, alors qu’une recherche sur les mêmes mots, mais sans le recours aux guillemets, nous permettra de lister tous les résultats relatifs à « duc », « de » et « Lorraine », quel que soit leur ordre. Des bases communicantes. Entre interopérabilité et compatibilité

Deux derniers points méritent d’être encore rapidement évoqués : ceux de l’interopérabilité et de la compatibilité de la base TRANSSCRIPT avec d’autres bases de données du même type17. L’interopérabilité constitue l’un des objectifs principaux de l’équipe informatique de l’IRHT, qui, entre autres, vise par exemple à développer sur le long terme des modèles et outils de recherche permettant d’interroger de façon unitaire les nombreuses bases déjà hébergées ou en cours de réalisation dans la plate-forme TELMA, afin d’en faire ressortir les données communes, comme par exemple le nom d’un individu, ou encore un toponyme, qui apparaissent dans de différents corpus (pas nécessairement documentaires). Finalement, sur le plan de la simple compatibilité entre bases différentes, un lien permet de partager avec une autre base, SIGILLA, les données relatives à de nombreux sceaux des chartes princières actuellement conservées en France et examinées dans le cadre du projet TRANSSCRIPT18.

17 Pour un aperçu plus détaillé sur l’interopérabilité, cf. . 18 Lancé en 2013 par le Centre d’Études Supérieures de Civilisation Médiévale de Poitiers, le programme SIGILLA (Base de données des sceaux conservées en France) est développé par un consortium réunissant plusieurs laboratoires (le CRULH de Nancy, le CRAHAM de Caen, l’IRHT) et a par ambition de poursuivre la collecte dans une base en ligne des données sigillographiques, à l’aide de nombreuses archives départementales, municipales et bibliothèques françaises. De plus, il vise à la création d’outils informatiques permettant la reconnaissance automatique d’armoiries, la reconstitution des matrices à partir de fragments d’empreintes, le traitement 3D de celles-ci, etc. Une convention de partenariat est en cours d’établissent entre SIGILLA et TRANSSCRIPT. La base SIGILLA, à présent en cours de développement, est accessible à l’adresse  ; cf. en outre la communication de Laurent Hablot dans ce même volume.

l e p ro j e t « t r an s fro ntali e r » t ransscri pt

En guise de conclusions La base TRANSSCRIPT s’insère pleinement dans un courant des humanités numériques en expansion depuis quelques décennies, comme en témoigne le nombre croissant de bases de données de documents médiévaux désormais accessibles en ligne19. D’un autre côté, nous nous interrogeons constamment sur la place qu’un outil informatique comme la base de TRANSSCRIPT pourrait avoir dans la réalisation de ces mêmes avancées : c’est pourquoi, depuis le début de ce projet, une partie considérable de nos réflexions ainsi que celles des informaticiens du pôle numérique de l’IRHT porte aussi, voire surtout, sur le développement des moteurs de recherche internes, dans le but de rendre de plus en plus performantes les interrogations des métadonnées stockées. La publication de la base de données sur les actes princiers du duché de Lorraine et du comté de Luxembourg est non seulement utile, en nous permettant d’aboutir à une interrogation plus fine des actes afin de parvenir aux souhaits scientifiques exposés dans la première partie de cet article, mais elle est aussi fondamentale : à l’heure actuelle, nous ne pouvons pas nous passer d’une édition électronique20. 19 Parmi celles-ci, nous signalons par exemple (et sans aucune prétention d’exhaustivité), pour la France – outre les nombreuses bases disponibles dans la plate-forme TELMA et que nous avions déjà évoquées – les éditions en ligne de l’École nationale des chartes, disponible à l’adresse (cf. aussi à ce sujet F. Clavaud, « Les éditions électroniques de l’École nationale des chartes : objectifs, principes, outils et perspectives », in Digital Edition of sources in Europe : achievements, problems et prospects. Conference celebrating the 175th anniversary of the Commission royale d’Histoire, Koninklijke Commissie voor Geschiedenis, held on the occasion of the annual meeting of Porta Historica, National Archives, Brussels, 29 avril 2009, Bruxelles, 2010, p. 107-120) ; pour la Belgique, la base Diplomata Belgica disponible à l’adresse  ; pour l’Angleterre, le projet Anglo-Saxon Charters développé par le King’s College disponible à l’adresse . Pour ce qui concerne l’Allemagne nous nous contentons de souligner ici exclusivement l’ouverture progressive aux humanités numériques de la part d’entreprises réputées et actives de longue date, telles que le Regesta Imperii ou les Monumenta Germaniae Historica ( et ). Au niveau supranational, mentionnons tout particulièrement le projet Monasterium.net (), au sujet duquel nous renvoyons au texte de la communication proposée par Antonella Ambrosio dans ce même volume. 20 « Si “les données sont le résultat important sur le long terme”, elles devraient être partagées sans restriction, tant pour permettre le progrès cumulatif des connaissances, que pour se conformer aux exigences de la recherche scientifique : reproductibilité, réfutabilité. Pour que ce type de science ouverte soit réalisée, nous devrions être moins indulgents envers les revendications abusives de droits patrimoniaux ou de propriété des textes anciens », J.-B. Camps, Où va la philologie numérique ? Fabula-LhT, n° 20, « Le Moyen Âge pour laboratoire », janvier 2018 [en ligne], disponible à l’adresse . Sur le développement du numérique, voir le rapport relatif à la mise en application de la loi française n° 2016-1321 du 07/10/2016, « Pour une République numérique ». Il est souligné dans l’introduction de ce rapport que : « Dans l’objectif de créer un cadre nouveau permettant le développement du numérique en France, la loi n° 2016-1321 vise à favoriser la circulation des données et du savoir, à protéger les droits des individus dans la société numérique et à garantir l’accès au numérique pour tous » [en ligne], disponible à l’adresse .

97

98

l aur a gi l i -th é b au d e au & t i m ot h y s al e mme

Pour utiliser les mots de Domenico Fiormonte : Digitalizzare non è più solo una moda o un imperativo : è diventato la normalità21 ; ou encore, pour le dire avec Lou Burnard, « Nous vivons dans une époque numérique. Pour preuve, les chercheurs qui entreprennent des recherches en littérature contemporaine par exemple, […] ne peuvent pas se passer des données numériques. On pourrait s’en passer, mais ce serait inepte »22. Bien qu’il faille prendre en compte la problématique des droits d’accès aux informations sur le Web, Internet est porteur d’avancées admirables dans les travaux historiques, diplomatiques23, paléographiques24, sémantiques et linguistiques25. Parmi les enjeux qui sont actuellement particulièrement au centre de nos préoccupations, nous en rappelons ici seulement un dont l’ampleur nous paraît évidente : comment implémenter et rendre plus fiables les recherches croisées des termes conduites à partir d’actes médiévaux écrits dans des langues et des cultures différents comme le français et l’allemand ? Auparavant, c’est-à-dire avant l’usage de l’outil informatique, la seule façon d’avoir, par exemple, des index, était celle de les créer manuellement : il fallait, en outre, renseigner dans l’index toutes les

21 D. Fiormonte, « Per una critica testuale delle Digital Humanities », in F. Ciotti et G. Crupi (éd.), Dall’informatica umanistica alle culture digitali. In memoria di Giuseppe Gigliozzi. Atti del convegno di studi, Roma, 27-28 octobre 2011, Rome, 2012, p. 220-242, p. 221. 22 L. Burnard, « Du literary and linguistic computing aux digital humanities : retour sur 40 ans de relations entre sciences humaines et informatique », in P. Mounier (éd.), Read/Write Book 2. Une introduction aux humanités numériques, Louvain-la-Neuve, 2012, p. 45-58, en particulier p. 46, [en ligne], disponible à l’adresse . Pour une excellente synthèse que ce que faire des humanités numériques représente, cf. A. Berra, « Faire des humanités numériques [2011] », ibid., p. 25-43. Et encore, pour ce qui est de l’encodage des documents diplomatiques, voir G. Vogeler, Uno standard per la digitalizzazione dei documenti medievali con XML. Cronaca di un Workshop internazionale: Monaco 5-6 aprile 2004 [en ligne], disponible à l’adresse , p. 241-255, traduction de l’article G. Vogeler, Ein Standard für die Digitalisierung mittelalterlicher Urkunden mit XML. Bericht von einem internationalen Workshop in München 5/.6. April 2004 paru dans « Archiv für Diplomatik », 2004 (50), p. 23-34. 23 A. Ambrosio, S. Barret et G. Vogeler (éd.), « Digital diplomatics. The computer as a tool for the diplomatist? », Archiv für Diplomatik, 14 (2014). Bien qu’anciennes, les remarques émises en 1975 par R-H. Bautier sont toujours valables : voir R-H. Bautier, « Les demandes des historiens à l’informatique : La forme diplomatique et le contenu », in L. Fossier et al., (éd.), Informatique et histoire médiévale. Actes du colloque de Rome, 20-22 mai 1975, Rome 1977, p. 179-186. 24 Sur les avancées en paléographie numérique, voir, par exemple D. Stutzmann, « Liste d’abréviations latines pour l’encodage XML », Écriture médiévale et numérique, (2016) [en ligne], disponible à l’adresse et d’autres articles du même auteur sur son blog. Voir aussi P. A. Stokes, « Digital Resource and Database for Palaegraphy, Manuscript ans Diplomatic », in D. Muzerelle et M. Gurrado (éd.), Analyse d’image et paléographie systématique. Travaux du programme « Graphem », Paris, 2011, p. 141-142. 25 E. Spadini, « La collazione semi-automatica tra linguistica e algortimi », in F. Boschetti (éd.), AIUCD 2016, Book of Abstract (Rev.0.1). Edizioni digitali: rappresentazione, interoperabilità, analisi del testo e infrastrutture, Venise, 2016, p. 73-74. Parmi les éditions portant sur l’aspect linguistique, mais qui prévoient aussi une édition diplomatique, voir « Les plus anciens documents linguistiques de la France », collection fondée par Jacques Monfrin, poursuivie par Martin-D. Glessgen [en ligne], disponible à l’adresse .

l e p ro j e t « t r an s fro ntali e r » t ransscri pt

variantes linguistiques d’un même nom afin de retrouver plus aisément les noms. Désormais, grâce à l’informatique, le ou les index de noms de personnes, de noms de lieux, etc., sont créés de façon automatique. Pour cela, il suffit, rappelons-le, d’utiliser une balise appropriée avec un attribut spécifiant l’identifiant du nom normalisé. Cette balise permet aussi de chercher dans le moteur de recherche interne un nom, sans craindre de ne pas le trouver si nous ne l’écrivons pas dans la forme rencontrée dans un document, alors que dans d’autres actes, sa forme pourrait être bien différente. Dans l’avenir, cette base de données nous permettra de mener des recherches de façon simple et efficace, pas seulement par rapport à la recherche des noms, comme déjà évoqué, mais aussi par rapport aux formulaires juridiques des actes. Ainsi, quels sont les verbes qui y sont utilisés ? Les formules juridiques des actes en français ou des actes en allemand ne sont-elles rien d’autre qu’une traduction des formules latines, ou alors le changement de langue correspond-il à une évolution du droit ? Pour ce qui est des formules de datation, nous pourrions interroger la base pour retrouver, là aussi, les manières les plus employées pour dater un document en Lorraine ou au Luxembourg : l’indication des fêtes des saints, plutôt que l’utilisation du calendrier romain. Et si (ou quand) l’on utilise la datation selon la façon romaine, pourquoi le fait-on ? Ou, plutôt, dans quel type d’actes ? Et encore, ce serait, peut-être, intéressant d’évaluer la présence du millésime, du mois, de l’année, etc. Bien évidemment, la base de données pourra être incrémentée au fur et à mesure des découvertes d’autres chartes ; mais nous pourrons aussi élargir nos critères, en ajoutant dans la base les actes dont les comtes et/ou les ducs sont aussi – en plus qu’auteurs, disposants et sigillants, comme c’est le cas actuellement – bénéficiaires des actions juridiques qu’y sont consignées. En conclusion, pour décrire notre base de données, nous pourrions emprunter à Laurent Hablot les termes qu’il a utilisés pour présenter la base SIGILLA26 et qui nous paraissent être applicables à la base TRANSSCRIPT. Une base de données a plusieurs atouts ; elle permet de : 1. inventorier un grand nombre d’actes ; 2. étudier les données diplomatiques, historiques, paléographiques, etc. ; 3. diffuser la documentation à un public assez vaste : du simple curieux aux spécialistes en passant par les étudiants ; 4. fédérer les initiatives nationales et internationales ; 5. innover grâce à une base de données performante et qui vise à l’interopérabilité des données avec d’autres bases de la même teneur ; 6. valoriser le patrimoine que nous avons à disposition.

26 L. Hablot, SIGILLA, base numérique des sceaux conservés en France, [en ligne], disponible à l’adresse .

99

1 00

l aur a gi l i -th é b au d e au & t i m ot h y s al e mme

Annexe : La base de données TRANSSCRIPT en ligne La base de données TRANSSCRIPT et l’XML

Au moment de la conception de la base de données, après avoir dans un premier temps envisagé un encodage des actes en XML/TEI27 effectué par les membres de l’équipe de TRANSSCRIPT par le biais de l’éditeur de texte Oxygen®28, nous avons rapidement opté pour un rapprochement avec l’IRHT et, par conséquent, pour le recours au portail TELMA. Deux éléments en particulier nous ont poussés à opérer ce choix : d’une part, la possibilité de disposer d’un suivi régulier de la base, garanti pendant toute la durée du projet, et même après sa fin, par les informaticiens de l’IRHT ; de l’autre – ce laboratoire faisant partie d’un organisme de recherche publique comme le CNRS –, l’espoir de pérenniser les données. La base TRANSSCRIPT présente directement en ligne le formulaire utilisé pour saisir les données. Conçu comme un outil performant, ce dernier permet d’encoder sur base XML sans pour autant que les balises soient visibles par le chercheur. Cet aspect est un véritable atout, car de facto il contribue à délier le travail d’injection des actes (et donc des données qu’on veut faire ressortir) de la nécessité de disposer d’une connaissance approfondie de l’XML/TEI. Bien que les membres du projet et les usagers de la base voient le même formulaire – mises à part quelques petites différences –, seuls les utilisateurs identifiés et accrédités peuvent modifier les données. Un avertissement : en informatique le temps, pour ainsi dire, passe très rapidement et ce qu’aujourd’hui est réputé être au point, pourrait être, en revanche, complétement modifié dans les six mois suivants. Et encore, la base TRANSSCRIPT, elle aussi, a déjà vu des modifications majeures depuis que nous avons décidé de nous rapprocher de TELMA. C’est pourquoi il ne faudra pas s’étonner de constater une modification de quelques champs de la base en ligne après la parution de cet article. Le menu dans la page d’accueil (utilisateurs externes non accrédités)

En se connectant à la base de données en tant que simples usagers, nous accédons automatiquement à une page d’accueil contenant une courte présentation en anglais et en français du projet TRANSSCRIPT. Toujours sur cette page, l’on repère immédiatement sur la droite le menu principal listant les possibilités de navigation. Celui-ci se répartit en trois sections principales. – La première, appelée « Navigation », donne accès aux pages contenant le descriptif général du projet TRANSSCRIPT et les informations qui le concernent. Elle 27 Pour le langage XML, voir : E. R. Harold et W. S. Means, XML en concentré. Manuel de référence, trad. française par P. Ensarguet et F. Laurent, Paris, 2005. Pour la Text Encoding Initiative (TEI), voir L. Burnard et S. Bauman (éd.), TEI. Texte Encoding Initiative. Guidelines for Electronic Text. Encoding and Interchange, t. 2, Oxford-Providence-Charlottesville-Nancy, 2008 [1.1.0. Last update on 4th July 2008] et, surtout, le site de référence, disponible à l’adresse . 28 Cf. .

l e p ro j e t « t r an s fro ntali e r » t ransscri pt

Figure 11 : Détail de l’encodage d’un acte en XML/TEI à l’aide de l’éditeur Oxygen® (Cote de l’acte encodé : Nancy, Archives départementales de Meurthe-et-Moselle, B 568 n° 11)

compte à présent quatre onglets. Tout d’abord « Projet TRANSSCRIPT » résume en anglais et en français le projet. Ensuite, « Base de données » présente synthétiquement les objectifs ainsi que les caractères spécifiques de la base. Par l’onglet « Membres de l’équipe », l’on visualise la liste des chercheurs collaborant à TRANSSCRIPT, avec le renvoi éventuel, pour chacun d’entre eux, à la page personnelle sur le site web de son institution universitaire d’appartenance. « Contacts », renvoie aux informations de contact des membres du projet qui ont en charge le suivi du développement de la base de données d’un point de vue scientifique. Il est important de souligner que, cette partie du menu étant modifiable non seulement par les informaticiens, mais aussi par tous utilisateurs identifiés qui disposent en plus des crédits « administrateur »29, elle pourra subir, tout au long du projet, des changements même importants opérés directement par les chercheurs de l’équipe TRANSSCRIPT : certains onglets pourront donc à l’occurrence être supprimés ou fusionnés, d’autres rajoutés au fur et à mesure. – Ce premier bloc du menu principal est suivi par un deuxième qui concerne les moteurs de recherche interne de la base de données (la « Recherche simple » et la « Recherche avancée », dont on a précédemment fourni une description). Toujours dans cette section, deux autres onglets permettent de visualiser dans une nouvelle page la liste intégrale des fiches enregistrées dans la base, ainsi que 29 Les utilisateurs accrédités peuvent avoir des droits différents dans la base de données : ils peuvent être « rédacteurs », « rédacteurs en chef » ou « administrateurs » - ces derniers ne doivent pas être confondus avec les administrateurs des droits CMS, Content Management System (en français : Système de gestion de contenu [en ligne], disponible sur ). Les administrateurs CMS sont les informaticiens de l’IRHT qui ont conçu la base de données.

101

102

l aur a gi l i -th é b au d e au & t i m ot h y s al e mme

la liste des éléments par type (on peut y mener, par exemple, une recherche par cote, par dépôt d’archives, etc.). – Finalement, la troisième partie du menu (« Dernières notices ») se compose d’une liste d’onglets se référant aux vingt dernières fiches rajoutées à la base par les membres de l’équipe, disposées selon l’ordre chronologique décroissant de création de celles-ci (de la plus récente à la moins récente). Injecter un acte dans la base : le formulaire de saisie (utilisateurs accrédités)

L’utilisateur accrédité de la base de données se connecte à partir d’un bouton qui se trouve en haut à droite de la page d’accueil : en cliquant dessus, il est immédiatement renvoyé à une nouvelle page sur laquelle ses identifiants personnels (« Nom d’utilisateur » et « Mot de passe ») lui sont demandés. Une fois identifié, l’utilisateur revient automatiquement sur la page d’accueil : dans le menu à droite, il disposera alors, par rapport aux simples usagers de la base, d’un bloc supplémentaire : « Raccourcis » qui contient trois onglets : « Ajouter une notice (avancé) » (on y revient ci-dessous) ; « Sas » (un espace de sauvegarde permettant la suppression ou la validation définitive d’une notice ou d’un champ) ; « Gestion des pages » (on peut créer des nouvelles pages de la base TRANSSCRIPT). C’est justement dans ce bloc « Raccourcis », pas visible à un utilisateur externe, que se trouve le formulaire de création de la fiche : « Ajouter une notice (avancé) ». Il se présente sous la forme d’une succession de champs que l’utilisateur accrédité doit remplir : – Les premiers quatre renseignent sur les métadonnées diplomatiques relatives aux personnes concernées par l’acte : « Auteur », « Bénéficiaire », « Disposant », « Destinataire », la saisie des premiers deux étant obligatoire afin de sauvegarder la fiche. – « Date », « Date libre » et « Date de lieu » : le nouveau style s’appliquant en Lorraine et Luxembourg, ainsi que dans la plupart des principautés de la région (avec quelques rares exceptions pour le Barrois), le champ « date » permet de donner la date normalisée de l’acte en cours d’encodage, toujours dans la forme AAAA/MM/JJ ; le cas échéant, dans la case « Date libre » il est possible d’insérer la date en ancien style tel qu’on la retrouve dans le texte du document en examen. Il arrive cependant dans certains cas que, la date étant incomplète – il manque par exemple l’indication de l’année –, ou n’étant pas indiquée, elle doive être établie à l’aide d’autre éléments sous forme de fourchettes chronologiques. Dans ce cas, l’utilisateur accrédité de la base pourra reproduire cette fourchette à l’aide des boutons « Après » et « Avant ». En ce qui concerne la « date de lieu », les toponymes sont de préférence écrits dans leur graphie française ; seule exception, celle des noms de lieu allemands pour lesquels le correspondant en français n’existe pas. – « Cote » de l’exemplaire du document en cours d’édition, qui est toujours saisie selon la structure suivante : pays (en majuscules), ville, dépôt de conservation, série et numéro de la série ou fonds d’appartenance, éventuel numéro de la

l e p ro j e t « t r an s fro ntali e r » t ransscri pt

– – –

– – – –

– –



– –

pièce ou (dans le cas d’un cartulaire ou d’un registre), l’indication du folio (par exemple : FRANCE, Nancy, Archives départementales de Meurthe-et-Moselle, B 657, n° 5, ou BELGIQUE, Liège, AE, Fonds cathédrale Saint-Lambert de Liège, n° 614). « Description » : ce champ permet de donner quelques remarques au sujet du support de l’exemplaire en cours d’édition, ainsi que sur son état de conservation. « Langue » : l’on se réfère évidemment à la langue dans laquelle l’exemplaire du document est rédigé (latin, français, allemand). « Authenticité » de l’acte : dans ce champ, l’utilisateur accredité est obligé à choisir entre « suspecté », « non suspecté », « douteux » ou « faux », les quatre possibilités étant listées dans un menu déroulant qui s’affiche en cliquant dans la case du champ. Ce champ, rappelons-le, apparaît sur toutes les autres bases d’éditions diplomatiques de TELMA. « Genre » du document : comme dans le champ précédent, le choix est restreint à « Bulle », « Charte », « Diplôme », « Lettre », « Mandement », « Notice », « Pancarte », « Privilège ». « Type de source » : l’utilisateur accredité indique si l’exemplaire en cours de traitement est un original, une copie, un vidimus, un cartulaire, un registre, une édition, etc. « Analyse » : nous proposons ici des regestes mentionnant en principe au moins l’auteur de l’acte, le disposant, le bénéficiaire, (le cas échéant) le destinataire, le verbe du dispositif et l’objet de l’action juridique. « Transcription » : Le texte de l’exemplaire du document en cours de traitement est transcrit dans ce champ avec un nombre assez limité d’interventions d’ordre informatique (bien qu’il manque un vrai balisage du texte en XML/TEI, le moteur de recherche interne permet de retrouver aisément des données). En dessous de la case destinée à accueillir la transcription, l’on retrouve plusieurs fonctionnalités permettant d’insérer directement dans celle-ci les balises et , ainsi que les sauts de ligne et de pages dans l’exemplaire édité et les notes d’apparat critique (« sic » et « corrigé »). « Remarques » : dans ce champ, il est possible d’insérer toutes sortes de commentaires historiques, diplomatiques, sigillographiques, etc. « Mentions hors teneur » et « Notes dorsales » : ces deux champs sont destinés à accueillir les transcriptions, d’une part, d’éventuelles notes de chancellerie, de l’autre des notes contemporaines ou postérieures (le plus souvent archivistiques) que l’on retrouve sur le verso de l’exemplaire du document édité. Par le biais des champs « Edition », « Regeste » et « Mentions » (ce dernier ayant la même fonction de l’« indiqué » des éditions papier), l’utilisateur accrédité peut partager les renseignements bibliographiques à sa connaissance au sujet du document traité. « Sources manuscrites » : l’on indique les cotes relatives à d’autres éventuels exemplaires manuscrits de l’acte édité. « Responsable » : l’utilisateur accredité responsable de l’injection de la fiche indique son nom, garantissant ainsi la traçabilité du travail fait dans la base de données.

103

104

l aur a gi l i -th é b au d e au & t i m ot h y s al e mme

Figure 12 : Base de données TRANSSCRIPT : capture d’écran du formulaire de saisie TELMA pour l’utilisateur accrédité

– « Image interne » : cet espace est destiné au chargement de reproductions numériques de l’exemplaire édité. – « Acte scellé » et « Sceau » : dans la première case, par le biais d’un choix simple « oui » et « non », on se limite à préciser si l’exemplaire de l’acte qui fait l’objet de l’analyse dans le formulaire est aujourd’hui pourvu ou pas d’un ou plusieurs sceaux. Ce champ introduit le suivant, « Sceau », dans lequel sont analysés les éventuels sceaux attachés aux exemplaires conservés dans les dépôts d’archives hors France. Pour ceux qui sont par contre gardés dans l’espace français, on insère des liens permettant de faire des renvois au notices contenues dans la base SIGILLA, où des descriptions exhaustives seront proposées. Le résultat final : la fiche d’un acte en ligne (utilisateurs externes non accrédités)

Après avoir complété le remplissage du formulaire de saisie de l’acte, l’utilisateur accrédité procède à son enregistrement et à sa publication (celle-ci étant soumise à l’approbation finale d’un administrateur). Une fois cette opération terminée, la notice sera accessible à partir des différentes options de recherche offertes – comme l’on a vu – par le menu principal de la page d’accueil. Elle se composera de cinq sections principales. La première, « Informations », contient des références au contenu de la fiche. Par exemple, « Type » = acte ; « Statut » = publié ; « Publié par » = nom de la personne qui a publié l’acte. Ensuite, on trouve la date de publication de l’acte et celle de la dernière consultation. Un « permalien » a aussi été prévu.

l e p ro j e t « t r an s fro ntali e r » t ransscri pt

Figure 13 : Base de données TRANSSCRIPT : capture d’écran d’une notice en ligne (publiée)

C’est dans la deuxième, la troisième et la quatrième sections, intitulées respectivement « Général », « Images » et « Sigillographie », que l’on repèrera les informations et reproductions numériques concernant l’acte édité. La structure et l’ordre dans lesquels celles-ci se présentent aux utilisateurs externes correspond intégralement, à quelques exceptions près, à ceux du formulaire de saisie (de « Auteur », « Bénéficiaire », à « Sceau »). Quelques différences se remarquent dans certains champs comme ceux de la « Date » ou de la « Transcription », où certains outils à disposition de l’utilisateur accrédité pour faciliter sa tâche de remplissage du formulaire ne seront évidemment pas visibles.

105

Sören Kaschke

The New Edition of the Frankish Capitularies Accommodating Digital and Print Edition

In 2014, the North Rhine-Westphalian Academy of Sciences, Humanities and the Arts decided to fund a sixteen-year project that aims to re-edit the Frankish capitularies, a group of c. 300 legal texts composed in Latin between 507 and 920. In what is still a rather uncommon approach for early medieval source editions, the project has opted for a two-pronged strategy, in that it will produce both a traditional print edition as well as a digital edition of its material.1 This decision was motivated not least by the specific nature of the source material and its transmission. It may therefore be expedient to elaborate on those twin factors before moving on to present the chosen editorial strategy in more detail. Capitularies form a notoriously diffuse genre that flourished during the eighth and ninth centuries under Charlemagne, Louis the Pious and Charles the Bald.2 The corpus of documents traditionally subsumed under this label incorporates a broad variety of texts, be it regarding authorship, mode of speech, topics covered, or legal force. Hubert Mordek, who had been working since 1979 until his death in 2006 on a new edition of the material, defined capitularies as ‘royal – that is, initiated by the Frankish rulers – statutes and announcements of legislative, administrative



1 See as well as the project’s website at for more detail (accessed 10 April 2018). 2 The classic treatise on capitularies, now somewhat outdated, is F. L. Ganshof, Wat waren de capitularia?, Bruxelles: Paleis der Academiën, 1955 (French and German editions appeared in 1958 and 1961 respectively). For more recent overviews and discussions of the issues at hand see S. Patzold‚ ‘Normen im Buch. Überlegungen zu Geltungsansprüchen so genannter “Kapitularien”‘, Frühmittelalterliche Studien, 41 (2007), p. 331-350; G. Schmitz, ‘Kapitularien’, in Handwörterbuch zur deutschen Rechtsgeschichte, 2nd edition, A. Cordes et al., (ed.), Berlin: Erich Schmidt, 2011, II, p. 16041612; B. Mischke, ‘Kapitularienrecht und Urkundenpraxis unter Kaiser Ludwig dem Frommen (814840)’, doctoral thesis, University of Bonn, 2013, p. 4-23; available online at: urn:nbn:de:hbz:5-31571; K. Ubl, ‘Kapitularien’, in: Germanische Altertumskunde Online, (2017), (accessed 7 February 2019). Sören Kaschke  Universität zu Köln Digitizing Medieval Sources – L’édition en ligne de documents d’archives médiévaux : Challenges and Methodologies – Enjeux, méthodologie et défis, éd. par Christelle Loubet, Turnhout, 2019 (Atelier de Recherches sur les Textes Médiévaux, 27), p. 107-115 © FHG10.1484/M.ARTEM-EB.5.117331

1 08

s ö r e n k a s ch ke

or religious-exhortative character, usually divided into chapters, with the magnates of the realm often involved in their drafting and / or promulgation’.3 Ideally, a capitulary would take the form of a decree issued on a single piece of parchment by a Frankish king, structured into chapters or capitula (hence the name) and recording a mixture of specific instructions and more general decisions, in particular on legal matters, that had been debated at a public assembly. Unfortunately such cases are exceedingly rare. Most of the c. 300 surviving capitularies, at least in their transmitted form, mention neither a date, nor a place, nor even the ruler by whom it was enacted. Often, titles are either missing altogether, are phrased extremely vaguely (‘item alia capitula’ – ‘likewise further chapters’) or appear to be additions by later copyists4 – perhaps unsurprisingly given the range of topics even a short capitulary might cover. If the chapters of a list are numbered, those numbers are rarely stable and prone to change from one manuscript to the next. Whether any of these features was ever present in the first place must remain unclear as not a single surviving document can safely be considered an original. Instead, texts have usually come down to us as part of extended collections in one of c. 300 mostly medieval codices containing texts of sometimes widely varying genres, though often including law codes and / or lists of canons.5 Capitularies were not routinely copied and distributed centrally by some royal writing office. Instead it was usually left to office holders themselves to procure a copy of whatever they deemed necessary for their duties, with e.g. archbishops taking a full copy of a new capitulary along with them when they returned from court to their see, with their suffragan bishops making a copy of that text, and local counts, possibly selectively, drawing on their bishop’s copy in turn. In contrast to regular law codes (leges) whose copyists tended to stick more closely to their respective model, capitularies appear to have belonged to the sphere of pragmatic literacy, with priority being given to capturing the gist of their content. The apparent lack of any offical designation or systematic collection that could have enabled referencing via stable titles and chapter numbers is starkly illustrated by the fact that sometimes even Carolingian kings when they wanted to refer to an earlier capitulary took recourse to quoting a ‘private’ collection put together by abbot Ansegis of St-Wandrille in 827. For Ansegis had at least attempted to impose some order onto his material, and within his four-book structure had allocated fixed numbers to every chapter, enabling a stable reference via book and chapter number.6

3 H. Mordek, ‘Leges und Kapitularien’, in Die Franken – Wegbereiter Europas. Vor 1500 Jahren: König Chlodwig und seine Erben, Mainz: Philipp von Zabern, 1996, p. 488-498 (p. 488). 4 On the problem of capitulary titles see P. Depreux, ‘Zur Nützlichkeit bzw. Nutzlosigkeit von Kunsttiteln für Kapitularien (am Beispiel der Nummern 134-135, 143-145 und 178 aus der BoretiusEdition)’, Deutsches Archiv für Erforschung des Mittelalters, 70 (2014), p. 87-106. 5 For a detailed survey of manuscripts and their transmission see H. Mordek, Bibliotheca capitularium regum Francorum manuscripta. Überlieferung und Traditionszusammenhang der fränkischen Herrschererlasse, Munich: Monumenta Germaniae Historica, 1995. 6 Die Kapitulariensammlung des Ansegis. Collectio capitularium Ansegisi (Monumenta Germaniae Historica: Capitularia regum Francorum NS, 1), G. Schmitz (ed.), Hannover: Hahn, 1996, p. 1-24.

t h e n e w e d i t i o n o f t he f rank i sh capi t u lari e s

In extant manuscripts, as often as not different capitularies or parts thereof are mixed up in long lists of chapters numbered consecutively, ignoring their initial numbering. These lists appear to owe their existence mainly to the needs or interests of ecclesiastic or secular Frankish officials, or even to those of post-Frankish collectors who extracted, modified and rearranged chapters from various sources – without necessarily restricting themselves to texts that would be considered capitularies by modern scholarship. Occasionally previous scholarship may have mistaken such a compilation for a single authentic capitulary, as with Charlemagne’s Capitulare missorum generale.7 However there are also lists that preserve one or more authentic capitularies in their original form, though sometimes shorn of their titles. Finally, there are texts that appear to derive from a preparatory stage in proceedings, i. e. lists of chapters simply recording topics to be debated at court, well before a decision had been reached, officially proclaimed by the king and committed to parchment. To start with the latter case, a good example for a text commonly rated as a capitulary but not featuring a royal command is capitulary no. 186 as edited by Alfred Boretius and Victor Krause in 1897.8 Readers of this text are not being provided with an instruction on how to act on any of the topics raised in the text. Instead, chapter five simply reads: ‘De iudicio aquae frigidae’ (‘Regarding the cold water ordeal’).9 The entire list appears to be an agenda for further discussion, with the decision eventually reached for the handling of the cold water ordeal – viz. to prohibit its future use – only recorded in chapter twelve of capitulary no. 192, a ‘proper’ capitulary.10 For other, sometimes quite unique topics mentioned in that agenda however no explicit decision has survived,11 neither in no. 192 nor in any other later capitulary. Even lists that do offer their reader decisions that look like the real deal at first may occasionally include some casual remark establishing that the king had actually not been involved in those decisions and was expected to scrutinize, complement and approve the list at some later date.12 The lack of stability for any particular combination of chapters, into one or more lists, which is possibly reflecting both different stages within proceedings at court and later scribal interventions, is well demonstrated by the five chapters of capitulary

7 As argued compellingly by S. Patzold, ‘Normen im Buch’, art. cit., p. 334-345. 8 Capitularia regum Francorum (Monumenta Germaniae Historica: Capitularia regum Francorum, 2), A. Boretius and V. Krause (ed.), Hannover: Hahn, 1897, II, p. 6-7. 9 Capitularia regum Francorum, II, op. cit., p. 7. 10 Capitularia regum Francorum, II, op. cit., p. 16: ‘Ut examen aquae frigidae, quod actenus faciebant, a missis nostris omnibus interdicatur, ne ulterius fiat’ (‘That the cold water ordeal which they performed previously be forbidden to everyone by our legates so that it will no longer be done’). 11 See for instance chapter three of no. 186, in Capitularia regum Francorum, II, op. cit., p. 7: ‘Similiter de monasteriolis puellarum in legatione Autgarii in quibus nullus ordo bonae conversationis tenetur’ (‘Similarly regarding the small monasteries for girls within Autgar’s district, in which no well-ordered monastic life is being observed’). 12 For instance Capitularia regum Francorum, II, op. cit., no. 142, ch. 7, p. 293: ‘Si (…) possunt, ad interrogationem domni imperatoris reservare voluerunt’ (‘Whether (…) this can be done, we wanted to leave undecided, reserving it for an enquiry with the Lord Emperor’).

109

110

s ö r e n k a s ch ke

no. 188.13 In one manuscript, Barcelona, Archivo de la Corona de Aragón, MS Ripoll 40, probably representing the earliest stage in that capitulary’s life,14 those chapters form part of a list that also includes capitulary no. 189. However, the sequence of chapters differs from that chosen by Boretius and Krause for their edition. Three other groups of manuscripts show further ways of arranging those chapters, or feature an alternative version of one of the chapters. Only a single, later group of manuscripts, represented by Berlin, Staatsbibliothek – Preußischer Kulturbesitz, MS Phill. 1737, actually has the chapters in the sequence offered by the edition. But as the two capitularies preceding no. 188 in the manuscript are either presenting a different sequence of chapters (no. 192) or missing a chapter included in the edition (no. 193), the choice of this copy of no. 188 as the apparent ‘authentic’ version is hardly convincing. Figure 14: Capitulary no. 188 in different manuscripts

Manuscript

Sequence of chapters (asterisks denote variant versions against the edition)

Barcelona, MS Ripoll 40 Paris, MS lat. 10758 Paris, MS lat. 4628a Berlin, MS Phill. 1737 Munich, MS lat. 3853

no. 189 – no. 188 ch. 5*, 4, 1-3 no. 189 – no. 188 ch. 5* – no. 187 – no. 188 ch. 1-4 no. 189 – no. 188 ch. 5 – no. 187 – no. 188 ch. 1-4 no. 192* – no. 193* – no. 188 ch. 1-5 no. 188 ch. 4 – no. 191* – no. 193* – no. 188 ch. 1-2 – no. 192**

The list of thirty-three chapters of which capitulary no. 188 is part of in Munich MS lat. 3853 (and in two related manuscripts from Heiligenkreuz and Paris, all of which were produced in southern Germany in the tenth or eleventh century) may also serve as an example of a list possibly compiled for an ecclesiastic or secular Frankish official,15 using different texts but still resembling an authentic capitulary. Entitled ‘Incipiunt capitula que Ludouuicus cesar et Hlotharius inperator filius eius cum consensu eorum fidelium dederunt’ (‘Here start the chapters which Caesar Louis [the Pious] and Emperor Lothar, his son, have bestowed with the consent of their faithful’) the list looks like the very model of a capitulary,16 even including a reference to the involvement of unnamed fideles.

13 Capitularia regum Francorum, II, op. cit., p. 9-10. 14 See S. Patzold, ‘Die Kapitularien der Jahre 828/29 und die Handschrift Barcelona, Archivo de la Corona de Aragón, Ripoll 40’, in Regnum semper reformandum, P. Depreux and S. Esders (ed.) (forthcoming). 15 The list can be found in Munich, Bayerische Staatsbibliothek, MS lat. 3853, fol. 248r-254r; Heiligenkreuz, Stiftsbibliothek, MS 217, fol. 266v-273r; Paris, Bibliothèque nationale de France, MS lat. 3878, fol. 96r-97v (fragmentary due to loss of leaves at the beginning and end of the list). For more information on each manuscript see H. Mordek, Bibliotheca, op. cit., p. 287-305, p. 158-172 and p. 444-451, and on the list itself see now S. Patzold, ‘Capitularies in the Ottonian realm’, Early medieval Europe, 27 (2019), p. 112-132, at p. 117 with note 27. 16 Munich, Bayerische Staatsbibliothek, MS lat. 3853, fol. 248r.

t h e n e w e d i t i o n o f t he f rank i sh capi t u lari e s

However a closer look shows the list to have been compiled using chapters from four different capitularies (nos 188, 191, 192, 193) as well as a single chapter previously only known from the partly forged capitulary collection of Benedictus Levita. Incidentally, this list may now demonstrate that at least this chapter was not a later fabrication by Benedictus.17 The list must have been compiled shortly after the original capitularies had first been drafted in 829. First, the title referring to both Louis the Pious and his son Lothar is unlikely to have been produced later than 829, the year in which Lothar and his father fell out so spectacularly at the diet of Worms in August, leading to Louis removing any reference to his son in official documents (which used to be issued in the name of both emperors previously), and Lothar in turn partaking in a rebellion against his father in the spring of 830.18 Second, the version of the capitularies nos 192 and 193 included in the list are each missing a chapter that, according to Patzold, were only added in Worms in August 829.19 All this serves as a timely reminder against basing one’s assessment of a document too quickly on its outward appearance. Thus, the very nature of capitularies – their lack of a fixed, diplomatic form, their openness to constant additions and rearrangements, the flexible attitude displayed towards them by copyists and collectors – makes for extremely complicated editorial decisions. And that is even before considering another problem deriving from the state of transmission particular to capitularies. Given that even contemporaries in the ninth century are as likely as not to have encountered capitularies in some variant form created by anonymous scribes, instead of in the form intended by the king: Should a critical edition provide texts ‘as issued at court’ or perhaps rather ‘as used by recipients across the realm’? Not least for these reasons it was decided that the new editorial project will have to follow a two-pronged approach. On the one hand, there is still the need for reconstructed ‘authentic’ capitularies, as well as for editing or at least documenting texts that bear witness to the process of capitulary production: early drafts, agendas of deliberations held at successive royal assemblies, ‘private’ notes of decisions taken on these occasions, as well as different ‘official’ versions of any capitulary. These needs are mostly served best by a traditional print edition. On the other hand, there is a growing awareness of the need to distinguish between an ‘official’ policy as devised at court, and its transmission (and implementation) across the realm. Which capitularies (or chapters thereof) ever made it to e.g. Bavaria, and in which form? And which earlier texts were copied (and thus presumably also used) alongside new decrees in e.g. ninth-century Burgundy? Furthermore, just as Roman law continued to be of relevance in Carolingian times, so did at least some capitularies continue to be of relevance in post-Frankish

17 See S. Patzold, ‘Benedictus Levita I, 279 – ein echtes Capitulum von 829? Vorarbeiten zur Neuedition der Kapitularien Ludwigs des Frommen’, Deutsches Archiv für Erforschung des Mittelalters, 70 (2014), p. 67-86. 18 E. Boshof, Ludwig der Fromme, Darmstadt: Wissenschaftliche Buchgesellschaft, 1996, p. 179-180. 19 S. Patzold, ‘Benedictus Levita’, art. cit., p. 72-80.

111

112

s ö r e n k a s ch ke

times, judging by the prolific copying of them in later centuries.20 For instance it is an intriguing fact that, while rulers east of the Rhine quickly stopped issuing new capitularies of their own after 843, their subjects continued to eagerly collect and copy older capitularies well into the eleventh century. Research on these issues requires the documentation of, ideally, every single chapter in its codicological context – a task for which a digital edition is well-suited. The resulting project architecture looks as follows: For the print edition, two volumes of capitularies will be published jointly during the course of the project by the four editors. The digital side of the project will progressively provide them with full transcriptions of all capitularies from all manuscripts. A third volume with material up to the year 814 has been split off as transcriptions and collations for this part were already undertaken by the late Hubert Mordek and his collaborators, and the volume will be prepared for print by one of his colleagues making use of preparatory drafts left by Mordek and not available for the later material. The text of the print edition will be prepared using the Classical Text Editor (CTE) developed by Stefan Hagel in Vienna. Its purpose will be to reconstruct authentic capitularies, occasionally including preparatory material from earlier stages of capitulary production. However, it will not usually attempt to document changes to the text of a capitulary once it had left the court. Thanks to the two-pronged approach of the project, the critical apparatus can be restricted in its scope and does not need to provide all variant readings. The standardised Latin texts will be accompanied by a commentary and a German translation facilitating their use in academic teaching. For the digital edition, each manuscript will be presented on a dedicated web page. On this page, detailed information on the manuscript, its paleography and content will be provided, incorporating material already published by Mordek in 1995.21 At the centre of each page will be a complete transcription of every capitulary contained within the manuscript, retaining its context, sequence and original spelling. These pages will be published successively over the project’s duration, with transcriptions added to in parallel to the progressing of the print edition. This means that instead of transcribing each manuscript in one go, the manuscript pages will grow over time, starting with capitularies included in the first volume of the print edition and finishing with the texts from the third volume. The latter will be transcribed afresh as an adaptation of the old transcriptions prepared by Mordek would be impractical for technical reasons. Transcriptions are being prepared in XML using the Oxygen editor. The underlying project guidelines have been developed in cooperation with the Cologne Centre of eHumanities (CCeH) based on the standards of the Text Encoding Initiative, Proposal 5 (TEI P5). They allow e.g. for the encoding of scribal corrections and uncommon abbreviations in a way that can be automatically converted via scripts developed by the CCeH into notes for display on the manuscript web pages.

20 S. Patzold, ‘Capitularies’, art. cit. 21 H. Mordek, Bibliotheca, op. cit.

t h e n e w e d i t i o n o f t he f rank i sh capi t u lari e s

Besides displaying all transcriptions in clear HTML format on the project’s website, the underlying XML files are being made available for download to every interested user under a Creative Commons Share Alike 4.0 license. In light of the duration of the project – 16 years – it was deemed advisable to document technical decisions, and in particular the standards used for encoding the various phenomena encountered in medieval manuscripts in XML. Furthermore, details of the workflow are presented online in the section ‘Project’. All the documentation is available for download, too. As the print edition will already provide a commentary for each capitulary the apparatus of the digital edition – which is in effect close to a diplomatic edition – can be restricted in size while still fulfilling the edition’s main purpose: to document the actual shape in which capitularies were encountered by their early medieval audience. Conversely, the digital edition’s presentation of the exact form of each manuscript supplements the restricted critical apparatus of the print edition. Further material on capitularies and search functionality (the latter partly still under development) includes various overviews for manuscripts and capitularies, dedicated web pages for each capitulary (added to over time in line with the print edition) and a comprehensive bibliography listing previous editions and translations as well as secondary literature on capitularies, manuscripts, issues of Frankish legal history and selected titles on general early medieval history. Preliminary draft editions of some capitularies are also being made available for viewing and downloading (in the section ‘Resources’ under ‘Texts’). Whether a full version of the print edition may eventually be integrated with or presented alongside the digital edition has not been decided yet. Where possible, links to publicly available images of transcribed manuscripts have been provided. Unfortunately, due to the problem of acquiring the respective rights it is not possible to present images from manuscripts alongside their transcription. Besides offering the public with continuous access to the digital edition as it progresses, the WordPress-based project website also provides some functionality for the editors of the print edition. Naturally the main task is to make available the transcriptions for each capitulary. For this purpose, when printing out a transcription the notes displayed on mouseover when viewing the HTML page are automatically converted into numbered footnotes and a page break is inserted after every chapter. Additionally, the CCeH has developed a tool for collating transcriptions against each other (Figure 15). It allows the editors to compare any chapter of a given capitulary in any set of manuscripts, using either the text of the old edition by Boretius and Krause as base text, or choosing the version from any manuscript for that role. The tool is based on the open source software CollateX and as yet only available to members of the project. However, it may possibly be added to the public area of the website at some later date. While not supplanting the need to manually compare manuscripts or their transcriptions, the tool offers a quick first impression on common traits as well as unique variants across the different witnesses. For instance, the manuscript Cava de’ Tirreni, Biblioteca della Badia, MS 4 immediately stands out for sporting several

113

114

s ö r e n k a s ch ke

Figure 15: Capitularia Collation Dashboard

peculiarities not shared by any other manuscript in chapter 13 of capitulary no. 139 (Figure 16). In summary, the project aims to provide digital and print editions of the Frankish capitularies that complement each other. While the print edition offers ‘top down’ texts of capitularies as issued centrally by kings and emperors, the digital edition adds the ‘bottom up’ perspective, documenting capitularies in the form in which they were used beyond the court at the periphery. With a full set of transcriptions from every manuscript available online, the apparatus of the print edition can be scaled back to a reasonable level, keeping it from overwhelming the actual source text – a common danger with editions of medieval legal texts, as any glance at the current edition of the Lex Salica may confirm. There is both a comprehensive summary of the codicological context for any variant text available (via the digital edition) as well

t h e n e w e d i t i o n o f t he f rank i sh capi t u lari e s

Figure 16: Collation of Capitulary no. 139, ch. 13

as a full evaluation of manuscript witnesses or a capitulary’s pattern of transmission (via the print edition). In short, scholars will have access to stable, quotable texts that are not weighed down by an oversized critical apparatus while still being able to quickly gauge the actual form in which this important genre of legal texts was being used all across Europe during the early and high Middle Ages.

115

Armand Jamme

Publier des comptes en ligne L’expérience Gemma

Ainsi nommé en vertu d’un nécessaire acronyme requis par l’AnR, le programme GEnèse Médiévale d’une Méthode Administrative, n’avait pas pour objectif, comme on pourrait le croire, d’enquêter sur les origines d’une culture d’administration, mais d’examiner à partir de sources comptables l’évolution de processus de gouvernement. Il ne s’agissait pas non plus de faire intervenir une scénographie à grand spectacle en conviant des siècles et des siècles d’expériences diverses développées dans un espace sans frontières pour prétendre dégager des résultats à valeur absolue : il était prévu dès l’origine de concentrer l’analyse sur un moment relativement court (1250-1450), mais aussi sur un contexte géopolitique relativement étroit. Sans doute convient-il en conséquence, avant d’aborder les questions méthodologiques et l’état des réalisations, de légitimer d’emblée de tels choix.

Contextes Il faut à cet effet convoquer une série de facteurs qui relèvent d’abord des pratiques de l’écrit et de la diffusion des techniques comptables. Les sources, qu’il s’agisse de celles ayant trait à la diffusion du calcul mathématique ou de celles concernant le gouvernement de territoires plus ou moins étendus, connaissent à partir du xiie siècle un net développement … et il y a bien concordance chronologique entre ces phénomènes qui agissent l’un sur l’autre comme cause et conséquence. Le Livre de l’addition et de la soustraction d’après le calcul des Indiens d’Al Khwarizmi fut pour la première fois traduit en latin à Tolède dans les années 1140. Autre canal de transmission : l’Italie avec le Liber Abbaci du marchand pisan Leonardo Fibonacci, écrit dans sa version initiale vers 1202. Cet ouvrage n’a peut-être pas eu dans la diffusion de nouvelles techniques de calcul le rôle qu’on lui a longtemps attribué, puisque le Carmen de Algorismo du franciscain normand Alexandre de Villedieu et l’Algorismus vulgaris de John of Holywood, dit encore d’Halifax, auraient été écrits

Armand Jamme  CNRS (CIHAM – Lyon) Digitizing Medieval Sources – L’édition en ligne de documents d’archives médiévaux : Challenges and Methodologies – Enjeux, méthodologie et défis, éd. par Christelle Loubet, Turnhout, 2019 (Atelier de Recherches sur les Textes Médiévaux, 27), p. 117-128 © FHG10.1484/M.ARTEM-EB.5.117332

118

armand jamme

en 1203 et 12301. Laissons toutefois aux spécialistes la paternité de leurs appréciations sur le niveau algébrique de ces traités et leurs datations. Ils n’en montrent pas moins qu’entre 1150 et 1250 il y eut en Europe un enrichissement des possibilités de calcul, puisqu’on le sait les anciennes méthodes et notamment le recours à l’abaque demeurèrent fondamentaux. Le deuxième phénomène, concomitant si l’on suit les sources conservées, est le développement à partir du xiie siècle de l’écrit documentaire, une expression que j’utilise non dans le sens que lui a donné François Menant, qui en fait curieusement un équivalent de la pragmastische Schriftlichkeit2, mais pour désigner tout texte destiné à être archivé, c’est-à-dire conservé à des fins de documentation et de probation par des pouvoirs institutionnels, politiques, économiques ou religieux. Cela ne veut pas dire qu’avant le xiie siècle on n’usait pas d’écrits de gestion : il suffit de penser aux polyptyques carolingiens ou au Domesday Book. Mais entre les années 1150 et 1250 on assiste à un tournant majeur sur le plan quantitatif et qualitatif, puisque se font jour de « nouvelles formes de pratiques de la rationalité » comme l’a rappelé le programme dirigé par Hagen Keller3. Dans cette évolution, reste encore problématique le rôle différentiel, en fonction des espaces considérés, du papier, dont l’usage se diffuse en Méditerranée avant même le milieu du xiie siècle, mais qui ne touche vraiment l’Europe médiane et septentrionale qu’au cours des xive et xve siècles4. Le papier a joué un rôle d’accélérateur des phénomènes d’écriture, autant si on le considère dans sa dimension de support temporaire, que comme moyen de conservation plus ou moins pérenne de diverses données, absolument fondamental dans l’histoire de l’Europe chrétienne. Pour ma part, la question de l’utilisation du papier et du parchemin ne se pose pas uniquement comme le font trop souvent les historiens en termes de substitution de l’un par l’autre : il est clair que le papier ne supprime rien; il s’ajoute et donc ouvre les horizons de la scripturalité, sur le plan de la conception autant que sur le plan de la mémorisation. Il est de ce fait un des facteurs premiers du développement d’un art de la comptabilité5. 1 R. Franci, L. Toti Rigatelli, « Towards a history of algebra from Leonardo of Pisa to Luca Pacioli », in Janus, 72-71/3 (1985), p. 17-82 ; G. Beaujouan, Par raison de nombres : l’art du calcul et les savoirs scientifiques médiévaux, Aldershot, 1991 ; A. Allard, « Le traitement des fractions dans les premiers textes latins du xiie siècle influencés par l’arithmétique arabe », in Histoire de fractions, fractions d’histoire, P. Benoît, K. Chemla, J. Ritter (éd.), Bâle, 1992, et Muhammad ibn Mûsâ al-Khwârizmî, Le calcul indien (algorismus), A. Allard (éd.), Paris-Namur, 1992 ; P. Portet, « Les techniques du calcul élémentaire dans l’Occident médiéval : un choix de lectures », in Écrire, compter, mesurer : vers une histoire des rationalités pratiques, N. Coquery, F. Menant, F. Weber (dir.), Paris, 2006. 2 F. Menant, « Les transformations de l’écrit documentaire entre le xiie et le xiiie siècle », in Écrire, compter, mesurer, p. 33-50, p. 34. 3 Schriftlichkeit und Lebenpraxis im Mittelalter. Erfassen, Bewahren, Veränden, H. Keller, C. Meier, T. Scharff (éd.), Munich 1999 ; Id., « Oralité et écriture », in Les tendances actuelles de l’histoire du Moyen Âge en France et en Allemagne, J.-C. Schmitt, O. G. Oexle (éd.), Paris, 2002, p. 127-142. 4 Voir la très suggestive communication sur les pratiques comptables des marchands hanséatiques au xve siècle de T. Behrmann, « Apprendre par l’écriture : les débuts de la comptabilité des marchands de la basse vallée du Rhin », in Écrire, compter, mesurer, p. 181-192. 5 Je renvoie sur ces points à A. Jamme, « Art, technique ou matrice de l’autorité ? Les comptabilités et le développement des rationalités pratiques (xiie-xve siècles) », in Le pouvoir de compter et décompter. Genèse, Formes et logiques de pratiques médiévales, A. Jamme (dir.), à paraître dans la Collection de l’EfR.

p u b l i e r d e s co mpt e s e n li gne

Développement économique, diffusion des techniques mathématiques, démultiplication des formes d’écritures pratiques et abaissement des coûts de production du support formèrent aux xiiie et xive siècles un cocktail de conditions favorables à l’apparition de nouvelles méthodes comptables. Et sur ce plan, l’Italie joua un rôle leader. Le plus ancien fragment d’un livre de comptes aujourd’hui conservé est celui de l’agent bolonais d’une banque florentine (1211). Dans les décennies qui suivent la documentation de ce type s’épanouit en nombre, mais aussi en genre, du giornale au libro secreto, en passant par toute une série de comptes particuliers, qui témoignent du développement des fonctionnalités les plus diverses de ces registres et de la démultiplication des utilisations possibles de la documentation ainsi constituée : contrôle des employés, calcul des profits distribués entre les actionnaires, aide à la prise de décision, etc. Devenu le produit d’une institution ou d’une société à statut juridique défini, le livre de comptes acquiert de fait au cours du xiiie siècle un statut singulier, qui lui permet d’être utilisé en justice exactement comme un document notarié. Sociologues, historiens et comptables ont fortement débattu sur les mérites de la comptabilité dite en partie double, qui permet à toute entreprise ou organisation, à travers des mécanismes d’enregistrement multiples (deux au moins en fait, au débit et au crédit), de disposer d’un état décrivant la situation financière de l’entreprise. La généralisation de cette méthode comptable aurait été, d’après Werner Sombart et Max Weber, un des principaux facteurs du décollage économique de l’Occident, puisqu’elle aurait permis l’expression d’une nouvelle mentalité d’affaires, clairement capitaliste6. Leurs préconceptions ont été très critiquées en Italie par Armando Sapori, Federico Melis, Giacomo Todeschini, etc., même si elles trouvent encore aujourd’hui quelques fidèles Outre-Atlantique. Les recherches ont démontré depuis que la partie double ne s’était répandue que très lentement dans les milieux d’affaires. La première présentation écrite de cette méthode n’a été réalisée qu’en 1458 par Benedetto Cotrugli, et il faut attendre 1494 et la Summa de Luca Pacioli pour disposer d’une présentation étendue. Si les travaux des dernières décennies ont restitué à l’économie sa fonction de tête innovante7 – même si certains considèrent encore à la lueur des livres de comptes des années 1340 établis par la commune, que Gênes aurait pu être à l’origine de la partie double8 – ils n’ont pas pour autant annihilé tout questionnement sur l’utilisation de la partie double par les pouvoirs politiques. Les recherches viennent en effet rappeler une évidence : les méthodes utilisées par les

6 Der moderne Kapitalismus parut en plusieurs versions de 1902 à 1927: augmentée en 1916, l’œuvre comporta un troisième volume en 1927 seulement ; voir également B. S. Yamey, « Accounting and the Rise of Capitalism. Further notes on a Theme by Sombart », in Studi in onore di A. Fanfani, Milano, 1961, vol. 6, p. 833-857. 7 G. A. Lee, « Coming of age of double entry: The Giovanni Farolfi ledger of 1299-1300 », in Accounting Historians Journal, 4-2 (1977), p. 79-95, p. 84 ; le registre est presqu’entièrement édité dans A. Castellani (éd.), Nuovi testi fiorentini del Dugento, Florence, 1952, vol. 2, p. 708-803. 8 Voir à titre d’exemple A. W. Crosby, La mesure de la réalité : la quantification dans la société occidentale (1250-1600), Paris, 2003, p. 204-205 ; F.-J. Arlinghaus, « Bookkeeping, Double-Entry Bookkeeping », in Medieval Italy. An Encyclopedia, C. Kleinhenz (dir.), New York, 2004, p. 147-150.

119

1 20

armand jamme

agents économiques, les officiers du prince ou des communes puisent aux mêmes sources ! Et les innombrables utilisations possibles de la comptabilité, autant sur le plan de son organisation interne, que par sa présentation (metodo tabulario toscano, lombardo, veneziano), font encore de l’Italie du xive siècle, même secouée par de très nombreuses crises bancaires, un laboratoire singulièrement actif en matière d’innovations comptables. Dans ces conditions, il convient évidemment de se demander pourquoi nous avons privilégié le quart Sud-Est de la France ? Pourquoi circonscrire notre enquête à un espace somme toute restreint, qui n’est au cœur d’aucune innovation au cours de la période étudiée ? Précisément serait-on tenté de dire ! Situé à la frontière de deux domaines culturels, celui du Midi français et celui de l’Italie du Centre-Nord, il présente compte tenu de ce qui vient d’être dit quelque intérêt puisqu’il permet de percevoir éventuellement les effets de ces mutations, d’autant plus que se développent pendant cette période en cet endroit de l’Europe quatre entités politiques qui adoptent des modes différents d’organisation de leur comptabilité. La Savoie, à son origine aux ixe-xie siècles, n’est que ce qu’on appelle aujourd’hui la « Savoie propre », articulée autour de la combe qui s’étend de Chambéry à Albertville. Longtemps son histoire ne fut celle que d’un agrégat de territoires épars, placés sous l’autorité d’un comte, qui n’accrut véritablement ses domaines qu’au xiiie siècle. Le Dauphiné a une origine apparemment plus prestigieuse, car dès le milieu du xiie siècle, son seigneur arbore une série de titres (baron, comte, duc, marquis, etc.), qui semblent faire de lui un personnage de premier plan. Mais c’est là encore au xiiie siècle que se situe son étape déterminante, à un moment où la diversité et l’extension de territoires qui vont des bords du Rhône au versant italien des Alpes (Casteldelfino), commencent à réclamer un nom pour les lier et rendre cohérent leur gouvernement. C’est alors que le prénom Dauphin commence à être substantivé en titre princier. On sait que les guerres et les difficultés financières conduisirent le dernier des Dauphins à vendre sa principauté au roi de France en 1349. Le développement politique de la Provence peut sembler similaire, puisque ce n’est qu’à partir du xiie siècle que le terme renvoya à une réalité politique précise, définie par une série de conventions et renforcée au début du xiiie siècle par une union personnelle avec le comté de Forcalquier. La transmission de la Provence à une branche des Capétiens en 1246 ne fit que consolider en même temps que son administration, l’indépendance et l’identité provençales. Enfin quatrième espace politique considéré : le Venaissin, dont le développement est nettement plus tardif. Jusqu’en 1249, ce territoire releva du comte de Toulouse qui s’était fait concéder par l’empereur Frédéric II le titre de marquis de Provence. « Gardé » après sa mort par Alphonse de Poitiers et le roi de France, le Venaissin fut restitué en 1274 au pape, qui y imposa les cadres administratifs en usage dans les provinces italiennes de l’État pontifical. Au xive siècle, achats de seigneuries et cessions de domaines donnèrent une réelle consistance territoriale à ce comté de Venaissin, qui ne fut jamais rattaché à la ville d’Avignon, mais survécut jusqu’à la Révolution française. On est donc en présence dans le quart Sud-Est de la France actuelle de quatre principautés qui se développent selon des formes et des logiques différentes, qui parfois se font la guerre (la Savoie et le Dauphiné notamment), mais qui toutes

p u b l i e r d e s co mpt e s e n li gne

se construisent à peu près au même moment. Toutes recourent massivement à l’écrit, qui prend comme ailleurs une grande place dans leur développement, mais ici tout spécialement à l’écrit comptable. Car, pour ces quatre principautés, l’un des caractères majeurs de la documentation conservée est en effet la richesse de ce matériau9. À son importance numérique, à sa dispersion entre Paris et Rome, s’ajoute une grande diversité typologique (cahiers, registres, rouleaux, sur parchemin, sur papier). Elle atteste de logiques d’organisation différentes d’un pouvoir à l’autre : on oppose souvent la comptabilité des châtellenies savoyardes, en latin et sur rouleaux de parchemin jusqu’au xvie siècle, à la comptabilité delphinale, en franco-provençal et sur papier dès les débuts du xive siècle10; exactement comme si dans cet espace compartimenté par l’orographie alpine et l’hydrographie, divisé par les rivalités politiques, mais innervé par le commerce et le crédit italiens, la démultiplication des contacts, des conflits et des influences avaient favorisé la genèse de modes singuliers de réalisation d’un art comptable…

Méthodologies Cet exposé des raisons d’un programme, un peu long peut-être, était indispensable pour mettre en perspective les objectifs qui conditionnaient son développement. Concrètement de quoi s’agissait-il ? D’abord de mener à bien, de manière déconcentrée mais coordonnée, une entreprise de numérisation des sources comptables des anciennes principautés de Dauphiné, Provence, Savoie et Venaissin. On a souhaité traiter les comptes généraux dans leur intégralité et, puisqu’il était impossible matériellement de tous les prendre en considération étant donné leur nombre, un panel représentatif de comptes particuliers. Il s’agissait ensuite de développer d’un point de vue technique les modes d’accès à ces sources, parmi les plus utilisées par les chercheurs, jeunes et confirmés, universitaires et conservateurs du patrimoine, sans compter les autres curieux de faits historiques, puisque les informations qu’elles recèlent touchent à une foultitude de thématiques. Troisièmement, il fallait multiplier les entreprises de transcription de ces comptes pour les éditer en ligne afin de faciliter leur interrogation. Enfin, il s’agissait pour nous d’approfondir nos connaissances des pratiques comptables et de leurs développements, par l’intermédiaire d’une série de rencontres qui devaient examiner pour ces territoires et les espaces voisins, les problèmes soulevés par le développement de la tenue comptable11.

9 Voir R.-B. Bautier, J. Sornay, Les sources de l’histoire économique et sociale du Moyen âge, I. Archives des principautés territoriales et archives seigneuriales, II. Archives ecclésiastiques, communales et notariales. Archives des marchands et des particuliers, III. Additions, corrections et index, Paris, CNRS, 1968, 1971, 1974. 10 A. Kersuzan, « Registres de papier et rouleaux de parchemin. Étude comparative de la forme et de l’usage des comptes de châtellenies et de péages dauphinois et savoyards du milieu XIIIe au milieu du xive siècle », in La Savoie et ses voisins dans l’histoire de l’Europe, Actes du XLIIIe congrès des Sociétés Savantes de Savoie, Annecy, 2010, p. 37-50. 11 Les programmes de ces rencontres sont consultables sur (consulté le 18 février 2019).



121

122

armand jamme

GEMMA, ce sont à la fin du financement du programme, à l’automne 2015, un peu plus de 22 000 images de comptes, accessibles gratuitement sur le net, photographiées en couleur 300 dpi, après repérage du matériel dans une douzaine de dépôts d’archives français et italiens. La publication des images se fonde sur une logique de reconstitution virtuelle des séries de comptes aujourd’hui dispersées. Le corpus rassemblé pour le Venaissin, par exemple, comprend des comptes issus des Archives nationales, des Archives départementales du Vaucluse et des Bouches du Rhône, des archives municipales d’Avignon et de l’Archivio Segreto Vaticano. Avignon et le Venaissin ayant été un temps sous domination française, puis sous domination angevine, enfin sous domination papale, les comptes de leur administration se découvrent donc dans les archives de leurs anciens seigneurs12. Autre exemple encore plus frappant : la Savoie, pour laquelle le programme tente de reconstruire des séries que l’histoire a dispersées. Conservés à l’origine au château de Chambéry, les comptes de Savoie ont été au milieu du xvie siècle transférés au-delà des Alpes, à Turin. Puis, lorsque la Bresse savoyarde fut cédée au roi de France en 1601 en même temps que ses comptes, ceux-ci furent sur ordre du roi déposés à Dijon où ils se trouvent encore. Après la seconde guerre mondiale, avec la redéfinition de la frontière entre la France et l’Italie, un nouveau déménagement d’archives savoyardes fut organisé de Turin vers Chambéry, Annecy, Nice et Paris13. Il est bien évident que dans un tel contexte documentaire, le net offre à l’historien un avantage patent : il permet d’accéder immédiatement à l’ensemble des sources conservées et repérées,et surtout de les comparer les unes avec les autres, d’un pouvoir à l’autre, mais aussi au sein d’une même série … ce qui s’avère, on l’a compris, parfois impossible à réaliser matériellement compte tenu de l’éloignement de ces documents. En d’autres termes, le numérique permet d’aller au-delà du réel … tout en conservant une étroite relation avec la réalité ! Il n’était en revanche pas envisageable d’effectuer l’édition systématique de l’ensemble de la documentation numérisée : dans le temps imparti à un programme AnR, une telle finalité, si elle avait été clairement revendiquée aurait même sans doute été rédhibitoire ! Compte tenu de la richesse et de la diversité du matériau comptable dans l’espace concerné, toute velléité d’édition appelait néanmoins une réflexion préalable, indispensable pour construire un modèle de saisie qui ait fonction de lanceur, afin que se développent à l’avenir les éditions de ces textes. Dans la mesure où les logiciels de reconnaissance graphique sur des images numériques n’en étaient qu’à leur balbutiement14, la transcription « classique » demeurait une étape indispensable. Cela ne signifiait pas que les scansions successives du travail d’éditeur qui conduisent jusqu’à la publication d’un texte ne pouvaient être traitées conjointement: tout ce qu’un éditeur confronté à un environnement technique 12 URL : (consulté idem). 13 Sur les pérégrinations complexes des comptes savoyards, on pourra se reporter par exemple à l’article de C. Guilleré, « Dernières recherches sur les comptes de châtellenies savoyards », in les Mélanges en l’honneur d’Albert Rigaudière, Paris, Presses de l’université Panthéon Sorbonne, 2010, p. 333-360. 14 On ne pouvait prévoir les succès du programme Himanis (https://www.himanis.org/#goals; consulté le 18 février 2019).

p u b l i e r d e s co mpt e s e n li gne

traditionnel devait traiter successivement pouvait avec un outil informatique être abordé simultanément. Et c’est ce que nous avons voulu faire. On s’est évidemment tourné vers des modèles proposés par d’autres éditeurs sur divers sites internet. Mais le nombre d’éditions électroniques de documents comptables était assez limité. De plus, sous cette appellation coexistaient et coexistent encore des travaux qui n’exploitent pas nécessairement toutes les possibilités offertes par le numérique15. Si l’on considère par exemple les comptes des consuls de Montferrand (1273-1319), édités par Anthony Lodge, accessibles sur le site de l’École des chartes16, on est en présence d’une édition qui revisite un matériau déjà édité sur papier, ce qui transparaît dès la prise en main du produit informatique, sans offrir à l’utilisateur une présentation du texte original (pas de fac-similés), ni une pluralité d’accès en fonction de ses centres d’intérêt et/ou de ses nécessités de recherche. L’édition électronique d’un registre de dettes et de factures de l’ordre teutonique vers 1400, aujourd’hui conservé à Berlin, est un autre exemple de travail sur un matériau déjà édité par Carl Sattler dans une version papier, mais de manière incomplète et muni d’un apparat critique considéré insuffisant17. L’édition est donc là mue par une reconsidération complète du travail éditorial, mais intègre malgré tout des logiques qui étaient celles de l’édition papier. Sur certaines questions, elle tend à la plus grande profondeur possible. Par exemple, puisque l’ordre teutonique conservait la preuve de ses créances dans des livres chronologiquement successifs – c’est tout le problème de la gestion juridico-comptable des arrérages de plus en plus volumineux à la fin du xive siècle ! –, et que l’édition de C. Sattler restituait par un système de renvois un peu abscons l’historique de ces créances, les ré-éditeurs ont décidé de capitaliser cette logique critique tout en la redynamisant, ce qui voulait dire connecter au texte une base de données, avec des entrées et des versions d’entrées (variantes), afin que l’utilisateur puisse observer les différentes énonciations d’une même créance et comparer les changements ou les précisions apportées à la forme et au contenu initiaux. Le site dispose d’un moteur de recherche élaboré, une recherche « simple » donnant un aperçu rudimentaire, qui peut être précisé par des accès systématiques listés dans la barre de navigation. On peut aussi faire des requêtes dans presque tous les champs, même en utilisant la syntaxe de la base de données. Le site n’offre pas d’images des documents originaux, mais les éditeurs expriment leur souhait de les inclure à terme. Autre exemple d’édition électronique, celle réalisée par Matthias Perlsting d’un registre d’imposition de la principauté de Styrie en 1424-2618, qui montre à quel degré de raffinement éditorial peut parvenir le traitement d’une source

15 Voir pour ces questions F. Alvarez Carbajal et M. Burghart, « Mettre des comptes en ligne. Comptabilités médiévales et Humanités digitales », dans Comptabilité et éthique de Babylone aux Amériques, P. Genequand, A. Jamme (éd.), à paraître. 16 URL : (consulté idem). 17 Die mittelalterlichen Schuld- und Rechnungsbücher des Deutschen Ordens um 1400, URL : (consulté idem le 27 janvier 2018). 18 Edition des steirisch-landesfürstlichen Marchfutterurbars von 1414/1426, URL : (consulté idem le 27 janvier 2018).

123

1 24

armand jamme

complexe. Elle propose en effet plusieurs niveaux de lecture et donc beaucoup plus d’informations qu’une édition imprimée traditionnelle. Son principal atout est sans nul doute d’afficher l’information en différentes couches, selon les centres d’intérêt de l’utilisateur. En d’autres termes, le texte peut être consulté en fonction de paramètres philologiques ou historiques. Il est également possible d’afficher ou de cacher les mains qui ont participé à l’annotation du contenu, de consulter par année le contenu du texte, permettant ainsi à l’utilisateur de visualiser le processus de confection de la source. Ces trois exemples attestent de la grande diversité des éditions électroniques, qui répondent en fait comme un écho, à la grande diversité des règles éditoriales adoptées dans les publications sur papier19 ! Une édition électronique peut viser à représenter la scripturalité, en fonction de sa langue, de son contenu, de son processus de confection, etc., ou à ne pas la représenter du tout. C’est-à-dire que les questions qui se posent à l’éditeur qui travaille dans un environnement technologique traditionnel se posent avec la même acuité à l’éditeur qui use de l’outil électronique … si ce n’est davantage : s’il a plus de moyens pour les résoudre, il a aussi la possibilité de s’en poser bien d’autres ! Au moment où nous avons commencé à travailler dans le cadre du programme GEMMA financé par l’AnR à partir du printemps 2011, il n’y avait aucun standard en matière d’encodage des données de comptabilité. En août 2011, une conférence se tenait au Wheaton College de Norton (Massachusetts) pour discuter d’un modèle d’encodage TEI pour les livres de comptes. Les participants, issus de différents champs d’expertise (historiens, archivistes, informaticiens) en arrivaient à la conclusion que les sources comptables historiques appelaient trois niveaux de codification : la mise en page, les expressions textuelles et un niveau plus abstrait de valeurs sémantiques qui ne peut être capturé par un encodage TEI. S’est faite jour la nécessité de générer une liste de caractères typiques des livres de comptes, de déterminer les éléments récurrents des enregistrements structurés, afin de différencier les livres de comptes des autres types d’enregistrements structurés liés aux échanges de liquidités, de propriétés, de biens et de services20. En 2011, le panorama de l’édition électronique des registres de comptes était surtout marqué, affecté même, par l’absence d’un modèle d’encodage, à l’exception de celui adapté par Georg Vogeler, à partir du standard Resource Description Framework, fondé sur une nouvelle manière de stocker l’information puisque celui-ci intègre les multiples valeurs et fonctions selon lesquelles un document peut être pensé (le texte comme image, comme trace, comme langage et comme signification) pour réaliser une édition électronique scientifique21. Tel était

19 On se permet de renvoyer à A. Jamme, « Histoire médiévale et comptabilités : du renouveau d’un champ historiographique au renouvellement des perspectives d’édition », in Perspectivia. net [En ligne], 9 (2014), disponible sur (consulté idem le 27 janvier 2018). 20 K. Tomasek, S. Bauman, « Encoding Financial Records for Historical Research », in Journal of the Text Encoding Initiative [En ligne], 6 (2013), disponible sur (consulté idem le 27 janvier 2018). 21 On renvoit évidemment à sa contribution dans ce volume.

p u b l i e r d e s co mpt e s e n li gne

l’état de l’art. Pour être plus clair encore, au moment où nous avons commencé notre travail, tout était en train de bouger ! Toutefois ce qui distinguait notre programme des travaux et expériences menés antérieurement et parallèlement, c’était le volume de la documentation que nous avions à traiter. Dès le départ, nous devions donc écarter l’idée de réaliser des éditions fines, dotées d’apparats critiques et techniques très élaborés, ce qui nous aurait amené à concentrer nos efforts sur quelques comptes en particulier, et aurait été contraire à la problématique même du programme qui engageait à multiplier les allers-retours entre les livres de comptes et entre les systèmes comptables de ces quatre principautés.

Réalisations À la fin du financement du programme par l’Agence nationale de la Recherche, GEMMA, c’était, outre six rencontres scientifiques organisées à Chambéry, Avignon, Grenoble, Aix, Dijon et Montréal, 22 169 images en ligne (pour être précis !), et seize comptes transcrits, soit un peu plus de 380 000 mots (180 000 pour le Venaissin et Avignon, 110 000 pour la Provence, 73 000 pour le Dauphiné et 22 000 pour la Savoie). Le travail a été dirigé conjointement par cinq chefs d’équipe, régionale ou technique : pour le Dauphiné Anne Lemonde, pour la Provence Thierry Pécout, pour la Savoie Jean-Louis Gaulin, pour les questions numériques Marjorie Burghart, pour Avignon, le Venaissin, ainsi que pour la coordination générale, l’auteur de ces lignes. Le programme a bénéficié du soutien matériel apporté par trois laboratoires : le CIHAM (Lyon), l’ancien CRHIPA (Grenoble) et TELEMME (Aix). Pour être publiés sur le site géré par le TGIR Huma-num, les transcriptions ont toutes été passées à travers un encodage xml qui suit les règles de la TEI, standard international des Humanités numériques, né en 1987 et développé ensuite par le « Consortium TEI » pour représenter toutes sortes de données textuelles. En utilisant la « grammaire » de la TEI, on peut en effet encoder un texte selon trois niveaux d’analyse différents. On peut s’intéresser à la codicologie (nombre de feuillets, de peaux, lacunes, numérations, linéations, etc.) et aux caractéristiques physiques du texte, tels ses aspects paléographiques (morphologie du ductus, fréquence et typologie du système d’abréviations, etc.), bref à des informations relatives à la critique externe du document. On peut s’intéresser aussi à la sémantique : le balisage va alors pister des informations telles que les toponymes, anthroponymes, dates, etc. et éventuellement les rapporter grâce à des attributs de balises à une forme stabilisée telle la toponymie ou l’anthroponymie contemporaine, si l’on travaille sur un document du Moyen Âge écrit en latin ou en langue vernaculaire. Enfin, on peut réaliser un autre type de balisage, plus analytique : l’éditeur va alors attacher à certains mots ou expressions figurant dans le texte des éléments d’une grille d’analyse qu’il a préalablement établie en fonction de critères de recherche plus ou moins larges. Le système d’encodage que nous avons retenu pour les seize comptes transcrits demeure lui assez “léger”. Il s’inspire fortement de celui mis en place par Marjorie Burghart pour le site Castellanie, né d’une collaboration entre médiévistes chambériens

125

1 26

armand jamme

et lyonnais et d’un financement dispensé par l’ex-région Rhône-Alpes22. L’utilisation d’un schéma déjà bien documenté, testé et diffusé, est un gage de pérennité de la publication. Cela signifie en effet que le cycle de vie d’une édition pourra être allongé, puisque l’on facilite ainsi un éventuel retraitement : un rebalisage ultérieur, ainsi possible, pourra toujours permettre d’aller plus loin dans l’apparat critique et la série d’informations apportées par la première édition. Car les comptes fourmillent en général de données diverses sur la société, les institutions, l’économie et la justice, sans évoquer la toponymie et l’anthroponymie. Traiter exhaustivement les apports des comptabilités en encodant le plus grand nombre d’informations possible était évidemment tentant. On aurait pu ainsi accéder directement à l’évolution des salaires, du coût des matériaux, des taux de change entre monnaies, aux éléments de métrologie ou à certains articles des comptes, relatifs à la justice, aux questions militaires, etc. Mais il est surtout apparu que si nous voulions mener à bien notre entreprise sur un large corpus, il nous fallait opter pour un modèle d’encodage relativement aisé à réaliser … L’encodage porte de ce fait sur les divisions en grands postes de recettes et dépenses, sur les articles du compte (individualisés le plus souvent par un « Item »), sur les changements de peaux, de feuillets, mais aussi de lignes. Enfin, sont individualisés les éléments de base d’une transcription diplomatique (mots ajoutés, effacés, en interligne, en marge, etc.). La logique de l’édition n’est donc pas de remplacer le document, mais simplement d’aider à sa lecture. Elle facilite l’appréhension des éléments que contient l’image, mais n’entend pas se substituer à celle-ci, qui reste l’élément de référence vers lequel l’historien doit se tourner et où il pourra découvrir encore d’autres informations en fonction de ses propres critères de recherche. Pour parvenir à un texte encodé, même légèrement, c’est-à-dire comprenant une série de balises qui le rendent publiable sur le net, deux types d’approche étaient envisageables, celle de l’assimilation technique et celle de la procuration. Dans le premier cas, chaque éditeur de texte doit être formé à l’utilisation des outils informatiques et des technologies nécessaires au programme, ce qui implique pour lui de s’astreindre à de nouvelles méthodes de travail, et donc à une déperdition de productivité en phase d’apprentissage ou d’adaptation à ces nouveaux outils, sans compter les risques d’erreur. Dans le deuxième cas, chaque éditeur de textes continue de travailler comme il en a l’habitude et l’on engage des collaborateurs qui prennent en charge l’encodage des textes transcrits. Une telle approche présente l’inconvénient, outre de coûts additionnels éventuellement élevés, d’une déperdition d’informations lors de l’encodage, en cas de mécompréhension entre transcripteur et encodeur. La solution que nous avons retenue pour notre programme ne fut ni l’une ni l’autre. Considérant que les éditeurs de textes peuvent être des personnes d’âge et d’expériences paléographiques et informatiques fort diverses, qu’ils résident nécessairement aujourd’hui dans des contrées très éloignées les unes des autres et bénéficient d’environnements de travail tout aussi hétérogènes, on a préféré établir, après avoir lancé le programme de numérisations, une convention de transcription, 22 URL : (consulté idem le 27 janvier 2018).

p u b l i e r d e s co mpt e s e n li gne

qui devait servir de document de référence pour tous les futurs collaborateurs. Celle-ci énumère quels éléments textuels devaient être balisés dans la transcription et comment cette dernière devait être présentée sous Word : l’accent était donc mis, à la fois sur la qualité de lecture de la source et sur le balisage des phénomènes décrits supra, ce qui débouchait sur un produit qui n’avait rien à voir avec la manière dont le texte allait ensuite apparaître à l’écran. Un tel protocole a évidemment dérouté la quasi-totalité des éditeurs qui avaient eu le courage de prendre en charge un des comptes numérisés dans le cadre du programme et qu’il a donc fallu rassurer quant à la présentation finale de leur travail qu’ils voyaient décidemment très éloigné des standards en usage dans notre discipline … Il n’en reste pas moins que les éditeurs n’ont pas eu à se familiariser avec de nouvelles technologies : ils ont simplement eu à inclure dans leur transcription quelques signes immédiatement accessibles sur un clavier d’ordinateur. C’est-à-dire qu’ils ont pu continuer à travailler dans leur environnement familier, en se conformant simplement à des normes, certes peu conventionnelles, mais dans une logique qui est somme toute celle que nous connaissons tous pour être fréquemment amenés à nous conformer aux normes « fomentées » par des revues, des maisons d’édition et des éditeurs scientifiques avec lesquels nous avons à faire pour la moindre publication. Passons rapidement au résultat final et à l’interface de consultation, sans proposer ici, à l’écrit (!), une visite guidée qui ne peut évidemment s’envisager que dans un environnement informatique adapté. Lorsque l’utilisateur consulte un document, il dispose de beaucoup plus d’options de lecture que s’il se penche sur une édition imprimée ou sur le document lui-même dans une salle d’archives : c’était bien là l’objectif du programme ! Il peut en effet entrer dans le document par sa table des matières interactive, générée automatiquement à partir de l’encodage, ce qui lui permet non seulement d’avoir une vue d’ensemble du compte, mais aussi de se rendre directement à une rubrique en particulier. L’utilisateur peut choisir d’accéder à une vue par défaut de l’édition, plus analytique, puisqu’elle distingue les Item en les numérotant, ou préférer une présentation diplomatique du document, en cliquant sur une icône qui lui permet d’obtenir un affichage ligne par ligne, numérotées, mais sans distinction des Item. Il peut bien sûr afficher directement dans l’édition les images des pages ou des peaux concernées, facilitant ainsi le dialogue entre texte et image, et donc l’appréciation des caractères paléographiques et diplomatiques du document. Le processus de publication n’est donc pas fondé, comme c’est le cas pour une version papier, sur une logique de commutation de la source. Il est le résultat d’un dialogue entre texte et image pour répondre à des attentes contemporaines, ou dit en d’autres termes, pour répondre à l’« éducation » de nos sociétés contemporaines qui appréhendent désormais bien souvent les questions de connaissance à partir du visuel.

Conclusions Je terminerai cette présentation en évoquant les perspectives d’un programme, qui à court terme s’intéresse à la publication des actes des colloques, qui ont donné lieu, sur cette thématique comptable particulièrement riche et singulièrement d’actualité

127

1 28

armand jamme

à des études novatrices23, et au basculement sur la base des éditions achevées pour certaines après la clôture du financement par l’AnR. Mais allons plus loin. GEMMA, ce sont on l’a dit plus de 22 000 images de comptes accessibles gratuitement en ligne. Leur mise à la disposition des chercheurs constitue une avancée considérable pour la connaissance, même si le site dans son état actuel reste à mon sens perfectible. Plusieurs perspectives s’offrent à nous. Le choix d’un encodage TEI laisse la porte ouverte à un éventuel enrichissement des fichiers xml en incluant d’autres couches d’analyse : c’est l’un des avantages de ce format d’édition, on l’a dit, que de permettre une reprise ultérieure du travail sur la base ainsi constituée. Mais c’est là sans doute une perspective que nous laisserons à d’autres équipes, voire à d’autres générations. Il est plus pertinent de poursuivre les travaux d’édition d’une part et surtout de réaliser la connexion entre les sites GEMMA et CASTELLANIE, qui sont aujourd’hui bien plus liés par leur essentialité que par la technique informatique. Une telle connexion déboucherait évidemment sur une volumétrie faisant de la « super-base » ainsi constituée, et de très loin, le plus gros corpus de comptabilités médiévales en ligne. Mais ce ne serait pas là le seul objectif : il importe en effet de raisonner avant tout, pour ce genre de publication, en termes d’ergonomie. Avec quels crédits ? Pour l’instant nul ne le sait. C’est le principal problème posé par la structure même de l’AnR, qui impliquerait à l’avenir une révision de ses pratiques, pour que son soutien financier, pour certains programmes s’entend et notamment ceux qui produisent une base de données à l’obsolescence programmée tout autant que parable, ne passe pas de tout à rien … au risque de perdre tout !

23 Les résultats de ces rencontres sont pour partie en cours de publication, pour partie publiés : De l’autel à l’écritoire. Genèse des comptabilités princières en Occident, T. Pécout (dir.), éd. De Boccard, Paris, 2017 ; Ce que compter veut dire. Le discours comptable du xiiie au xve siècle, A. Lemonde (dir.), à paraître aux PUGrenoble ; Le pouvoir de compter et décompter : genèses, formes et logiques de pratiques médiévales, A. Jamme (dir.), à paraître dans la Collection de l’École française de Rome ; quant aux actes du colloque de Montréal, Comptabilité et éthique de Babylone aux Amériques, P. Genequand et A. Jamme (dir.), ils sont en préparation.

Laurent Hablot

Le programme SIGILLA, base de données nationale des sceaux des archives françaises

En septembre 2013, une équipe de chercheurs a initié le programme SIGILLA visant à l’élaboration d’une base de données en ligne des sceaux des archives françaises. Depuis, l’ambitieux projet s’est mué en véritable programme dont la base numérique est désormais accessible en ligne. Visant à fédérer les initiatives françaises de recherches, de conservation et de diffusion des données sigillographiques, SIGILLA propose un mode d’approche inédit des sources scellées, centré sur la matrice originelle. Ce programme intègre et développe également diverses solutions numériques innovantes, propres à l’étude des sceaux, capables de stimuler les recherches futures et d’enrichir nos connaissances. Pour saisir la nature exacte de ce programme, il convient de revenir sur sa genèse, son élaboration, ses perspectives et les solutions scientifiques et techniques qu’il propose.

La genèse du projet, l’initiative des Archives départementales de la Vienne En 2012, le Centre d’études supérieures de civilisation médiévale de Poitiers a été sollicité par les Archives départementales de la Vienne pour les assister dans l’élaboration d’un catalogage numérique de leur collection de pièces scellées1. Rassemblés dans une série spécifique, ces documents collectent près de 1500 empreintes sigillaires médiévales et modernes. L’objectif du projet d’institution était autant la préservation de ces pièces que leur valorisation par l’intermédiaire de leur site internet propre.



1 Le CESCM de Poitiers est une Unité Mixte de Recherches (UMR 7302) associant le CNRS à l’Université de Poitiers. Ce laboratoire développe des compétences spécifiques sur les sciences de l’érudition (épigraphie, iconographie, castellologie, emblématique et héraldique, philologie, musicologie). Laurent Hablot  EPHE, PSL Digitizing Medieval Sources – L’édition en ligne de documents d’archives médiévaux : Challenges and Methodologies – Enjeux, méthodologie et défis, éd. par Christelle Loubet, Turnhout, 2019 (Atelier de Recherches sur les Textes Médiévaux, 27), p. 129-141 © FHG10.1484/M.ARTEM-EB.5.117333

130

l aur e n t ha b lot

Encadré par le directeur adjoint des archives, M. Pierre Carouge, ce recollement s’est en partie appuyé sur plusieurs stages d’étudiants du CESCM, dans le cadre du Master II d’histoire médiévale. Ce projet a notamment été l’occasion, pour les AD86, de solliciter les Archives nationales, des spécialistes de la restauration de sceaux et de faire l’état des lieux des sites internet d’archives ou d’institutions françaises proposant la consultation de tout ou partie de leurs collections sigillographiques2, soit une dizaine de sites environ3. Cette lecture comparée a clairement souligné l’intérêt renouvelé pour ce matériau et la volonté de ces services d’archives de valoriser et de préserver cette source documentaire fragile et méconnue. Certains de ces portails numériques constituent d’ailleurs de véritables modèles du genre à l’instar du site des Archives départementales de l’Aube4. Pourtant, la plupart de ces réalisations témoignent souvent de l’intérêt particulier d’un conservateur pour l’objet plus que d’une réelle politique générale de conservation. Cette enquête a également fait ressortir la grande inégalité des situations dans les dépôts, certains conservant des masses d’empreintes considérables, encore très partiellement étudiées ou même largement inconnues, quand d’autres ne possèdent plus que quelques empreintes, parfois parfaitement analysées. Mais ce qui est apparu avant tout est l’extrême dispersion de l’information, la différence de traitement des données, l’inexistence de compatibilité entre ces bases, l’importante énergie humaine et financière dépensée à reformuler autant de fois que nécessaire les solutions informatiques ad hoc, le manque d’homogénéité de l’information dispensée et l’irrégularité dans le suivi des consignes de description du sceau émises par le Service des sceaux de Archives nationales par l’intermédiaire de la note ISAD-G5. Enfin, centrées sur des collections spécifiques, ces inventaires envisagent rarement le sceau dans la sérialité et la matérialité qui le caractérisent pourtant, l’empreinte de sceau étant un objet tridimensionnel décliné en de multiples occurrences introduisant souvent de nombreuses variantes par la couleur, le mode d’attache, le contre-scellement, etc.





2 Ont notamment été sollicités Marie-Adélaïde Nielen et Philippe Jacquet. 3 Parmi les dépôts d’archives ayant mis en ligne tout ou partie de leurs sceaux il faut citer les archives départementales de l’Aube, de Loire-Atlantique, de la Creuse, de l’Yonne, de la Somme, de la Sarthe, du Puy-de-Dôme. Différents projets numériques sigillographiques sont également en cours de réalisation tels que le Projet Matrice (Cabinet des Médailles, Inès Villela-Petit, Ambre Vilain, URL : , consulté le 1er février 2018) ; le Projet Chartes scellées (Département des Manuscrits, Solène de La Forest d’Armaillé, URL : , consulté le 1er février 2018) ; le Projet SPHAM - modes d’attache des sceaux du Haut Moyen Âge, (M.-A. Nielen, Archives nationales de France). 4 Les archives de l’Aube ont notamment développé le cédérom Sceaux et usages de Sceaux qui est un véritable modèle d’exploitation pédagogique en matière de sigillographie. Leur site propose également une base de données sur les sceaux champenois et les chartes et sceaux de Clairvaux. 5 La note ISAD(G), établie par la directive des Archives Nationales en 2005 pour la description des collections sigillographiques, est un outil très pertinent, notamment dans la logique archivistique qui était celle de ses concepteurs. Ce cadre pose cependant divers problèmes d’application pratique et demande souvent à être adapté ou simplifié pour la saisie en ligne. URL : (consulté le 1er février 2018).

Le pro gramme SI GI LLA

L’expérience poitevine a donc révélé la nécessité de fédérer les efforts des promoteurs de bases sigillographiques mais elle a aussi souligné l’intérêt d’adosser ces travaux à l’actualité de la recherche sur le sceau et rappelé l’indispensable conjugaison avec les initiatives internationales dans ce domaine6. La réalisation d’une base de données nationale qui assurerait la visibilité et l’homogénéité de l’information sigillographique a donc été avancée et mise à l’étude7.

L’étude du projet. Phase exploratoire septembre-décembre 2013 Le soutien financier du Groupement d’intérêt scientifique SOURCEM a permis de réaliser cette étude conduite à l’occasion d’une série de rencontres avec les principaux acteurs du sujet8 : conservateurs d’archives, de bibliothèques et de musées, agents des services de consultation et de conservation des sceaux aux Archives nationales, chercheurs et enseignants-chercheurs spécialistes de sigillographie ou de disciplines concernées, informaticiens9. Ces rencontres ont notamment permis de prendre la mesure du projet, d’éprouver l’enthousiasme général pour l’idée mais aussi d’appréhender les difficultés, d’identifier





6 En 2015, plusieurs programmes internationaux de bases de données sigillographiques sont avancés parmi lesquels on peut citer le consortium SIGILLVM, Seals and Sealing : History, arts, preservation. International network (Société internationale de Sigillographie, Archives nationales de France, British Museum, National Archives, Universités de Londres, Prague, New York, Durham, Norwich, etc.), URL : (consulté le 1er février 2018) ; le Projet SIGILLUM, Base numérisée des sceaux du clergé portugais (Rosario Morujao, professeur, Université de Coïmbra), URL : (consulté le 1er février 2018) ; le Projet SiMeW (seals un medieval Wales), Université de Aberyswyth, Pr. Elizabeth New), URL : , (consulté le 1er février 2018) ; le Projet WELFENSIEGEL, Datenbank der Welfensiegl, Historische Kommission fur Niedersachschen und Bremen, (Pr. Dr Toni Diederich), URL : (consulté le 1er février 2018). 7 Cette initiative n’est pas totalement originale. Le service des sceaux des Archives nationales et la société ARES dirigée par Philippe Jacquet avaient déjà ébauché des projets de ce type. 8 Le Groupement d’intérêt scientifique Source de la culture européenne et méditerranéenne (GIS SOURCEM) est un contrat de coopération scientifique réunissant des laboratoires de recherches en sciences humaines. Il soutenait chaque année des projets de recherches ou des étapes préparatoires à des programmes. Ont été associés à ce projet initial Hanno Wisjman (IRHT), Jean-Christophe Blanchard (CRHUL), Michel Pastoureau (EPHE), Laurent Hablot (CESCM). 9 Ce projet exploratoire a donc permis d’associer plusieurs laboratoires partenaires (CESCM, IRHT, CRHUL, EPHE) dont les représentants ont organisé une série de rencontres et de consultations auprès d’institutions de conservation (Archives nationales, BnF, AD de la Vienne, du Nord, de la Côte d’Or, de l’Aube) ; de laboratoires (CESCM-Poitiers, IRHT, CRHUL Centre Jean Schneider, CRAHAM-Caen, EPHE), de musées et conservateurs de collections (Musée Dobrée de Nantes, Cabinet des Médailles de la Bnf), de sociétés savantes (SFHS, SAO) ; d’informaticiens (expertise sur les bases existantes recensées et étude des solutions techniques de moissonnage et de développement de la base, études des solutions des grandes bases interopérables de l’IRHT) de spécialistes de la restauration de sceau (Société ARES).

131

13 2

l aur e n t ha b lot

les écueils éventuels. Un projet de cette ampleur, déjà imaginé plusieurs fois mais jamais abouti faute de moyens, nécessite en effet une importante étude de faisabilité tant scientifique que logistique, institutionnelle et financière. Une des premières originalités du projet consistait dans sa dimension nationale et collective quand jusqu’alors ce type d’initiatives avait toujours relevé d’une institution donnée, le plus souvent un dépôt d’archives, liée à la détermination particulière d’un conservateur et sur ses fonds documentaires propres. De ce point de vue, la structuration des archives départementales françaises, à la fois autonomes et encadrées dans leur politique archivistique par le Service interministériel des archives de France, est apparue comme un atout important dans ce processus, offrant des possibilités d’action commune à l’échelle du pays. Cette singularité, effet bénéfique de la centralisation, est une véritable chance que nous envient beaucoup de nos collègues étrangers, pénalisés dans leurs initiatives de collectes nationales par l’absence de politique générale de conservation archivistique. Par ailleurs, depuis plusieurs décennies, le Service des sceaux des Archives nationales avait assuré une politique de conseil et d’expertise en matière de conservation et de valorisation des collections sigillographiques des archives françaises. Les récentes réorganisations de ce service, sans faire disparaître ses compétences scientifiques et techniques, ne lui donnaient hélas plus les moyens d’encadrer une telle initiative collective. Enfin, les multiples actions scientifiques en faveur des études sigillographiques, conduites depuis une dizaine d’années par des universités, des laboratoires de recherche ou soutenues par des sociétés savantes, à commencer par la Société française d’Héraldique et de Sigillographie, ou même des particuliers – érudits ou restaurateurs – rendaient évidente la collaboration technique et scientifique dans le portage de ce projet, pratique désormais courante et inscrite dans une volonté commune de valorisation de la recherche. Les laboratoires associés au programme garantissant pour leur part une véritable expertise dans le portage de projet et la gestion des multiples aspects scientifiques des données fournies par la matière sigillographique tels que l’histoire et l’histoire de l’art, la diplomatique, l’épigraphie, l’héraldique. Pourtant, en dépit de l’intérêt marqué de nombre de conservateurs pour les sceaux de leurs collections, la réalité des contraintes et des priorités archivistiques actuelles rendait improbable toute politique d’investissement direct des dépôts d’archives dans ce projet. Il s’agissait donc de proposer un ensemble de solutions pratiques et financées pour intervenir auprès des institutions sollicitées, en qualité d’agence de moyens mise au service de leurs collections sigillographiques. Plusieurs solutions ont ainsi été imaginées pour y parvenir : 1. L’élaboration d’outils informatiques nécessaires au catalogage et à la diffusion de ces informations. 2. La mise en place d’un réseau de collaborateurs locaux susceptibles de décharger les services d’archives de la saisie des données. 3. Le développement d’opérations autofinancées concentrées sur des fonds spécifiques. Les réunions préparatoires ont en effet permis d’imaginer collectivement les grandes lignes des outils informatiques indispensables à la réalisation de ce projet : une interface de saisie, la plus intuitive possible, permettant une indexation collaborative

Le pro gramme SI GI LLA

ouverte à des non-spécialistes ; une base de données relationnelle mettant en lien les informations relatives à chaque unité documentaire ; une interface internet permettant l’interrogation et la consultation de la base de données ; des protocoles de saisie et de diffusion des données textuelles et iconographiques. La consultation des conservateurs a notamment permis de confirmer la possibilité de trouver des « personnes ressources » locales – étudiants, lecteurs investis dans les dépôts, érudits – éventuellement capables de soutenir l’important (et parfois colossal) travail que demande l’indexation préalable des informations. Les termes des conditions de récupération des données déjà cataloguées ont également été précisés. A l’issue de ces concertations, le projet SIGILLA a donc été initié et s’est engagé dans la recherche de solutions de financements avec pour double objectif le développement informatique des outils de saisie et de consultation et la pérennisation du projet. Le programme s’est structuré par la constitution d’un comité scientifique10, ensemble d’experts garantissant la pertinence des propositions de SIGILLA, et d’un comité de pilotage chargé de conduire le développement technique de la base et de veiller à sa cohérence et à sa pertinence scientifique11. Un accord de consortium entre les institutions partenaires, encadré par le CNRS, a été signé. L’importance du projet a su convaincre les soutiens sollicités et SIGILLA a donc pu être engagé dès l’automne 2014 grâce à la participation financière du SIAF, complétée par le Consortium COSME, le mécénat d’un membre de SIGILLVM, le soutien logistique de la TGIR Huma-Num12, de l’Université de Poitiers et du CESCM. La Fondation du Patrimoine de Lausanne a par ailleurs soutenu un projet satellite de SIGILLA, le catalogage des sceaux inédits des archives départementales de la Côte d’Or. Le consortium SIGILLA a été récemment modifié par l’entrée, en juin 2016, de l’École pratiques des hautes études qui a délégué à l’équipe d’accueil SAPRAT rejointe par le coordonnateur, le portage du programme autrefois assuré par le CESCM. En 2018, l’École nationale des Chartes rejoindra officiellement le consortium SIGILLA.

Les solutions SIGILLA L’objectif du programme SIGILLA est donc de mettre à disposition des chercheurs et des amateurs un corpus critique et illustré des sceaux conservés dans les dépôts français. 10 Brigitte Bedos-Rezak (New-York University - SIGILLVM), Jean-Luc Chassel (Université Paris X), Dominique Delgrange (Société Française d’Héraldique et de Sigillographie), Marc Gil (IRHIS, Université de Lille), Michel Pastoureau (École Pratique des Hautes Etudes), Agnès Prévost (Archives Nationale de France), Laurent Macé (Université de Toulouse), Rosario Morujao (Université de Coïmbra - Coordinatrice du programme SIGILLVM PORTVGALIAE), Marie-Adélaïde Nielen (Archives Nationales de France), Torsten Hiltmann (Université de Münster). 11 Laurent Hablot (EPHE), Estelle Ingrand (CESCM), Amable Sablon du Corail (ANF), Jean-Charles Bedague (SIAF), Jean-Christophe Blanchard (CRULH), Hanno Wisjman (IRHT). 12 Cette Très Grande Infrastructure de Recherche dédiée aux humanités numériques assure notamment l’hébergement des données, fonction essentielle dans l’élaboration d’une base appelée à devenir conséquente. Cette opération de conservation et d’entretien des données représente un coût très conséquent heureusement assumé par cette structure scientifique institutionnelle.

133

134

l aur e n t ha b lot

À la différence des catalogues traditionnels, qui énumèrent une liste descriptive d’empreintes données, ne retenant que les mieux conservées d’entre elles ou uniquement celles conservées dans leur propre collection, la base SIGILLA organise l’information autour du prototype de chaque sceau, tel qu’il est connu par la matrice originelle – quand elle est conservée – ou tel que l’on peut le reconstituer à partir des différentes empreintes connues. Ce dénominateur commun est qualifié de « sceau-type ». Dans une approche inédite, la base énumère donc pour chaque sigillant, l’ensemble des sceaux-types dont il a fait usage et propose, pour chacun des sceaux-types, un catalogue aussi exhaustif que possible de toutes les empreintes conservées, quel que soit leur état et leur lieu de conservation. Chaque empreinte pouvant introduire des variantes de couleur, de mode d’attache, de façonnage ou de contre-scellement. Ce nouveau regard porté sur le sceau ouvre des perspectives inédites dans les études sigillographiques et annonce, nous l’espérons, d’importantes avancées dans le domaine. Ce programme implique en priorité la collecte des données. L’objet du recensement SIGILLA est le sceau considéré sous ses multiples aspects (matrice et empreinte), sous ses différentes formes initiales (empreintes de cire, bulles, sceaux sous papier, cachets ou timbres à sec) et sous ses différents media de conservation (empreintes originales, moulages, dessins ou frottis, clichés photographiques). Même si la priorité reste donnée aux sceaux du Moyen Age, aucune limite chronologique n’a été imposée, considérant que le cadre sera d’abord défini par les partenaires et selon la nature de leur fonds. Sont donc concernés par ces collectes l’ensemble des dépôts sigillographiques français, en priorité les archives nationales et départementales, mais également les archives municipales, les bibliothèques, les collections des musées, les archives privées et les collections de moulages de particuliers. La collecte des données SIGILLA provient essentiellement de deux sources : Le « moissonnage » des données sigillographiques déjà cataloguées et/ou disponibles en ligne ; le versement de nouvelles données par les institutions de conservation et le catalogage direct par des chercheurs ou des agents du programme. Le moissonnage s’applique notamment aux grands catalogues de sceaux dressés à partir de la seconde moitié du xixe siècle, conservés sous forme éditée et le plus souvent non illustrée. Cette opération implique en premier lieu la « rétro-conversion » des données, c’est-à-dire leur reformulation via un classement typologique au moyen d’un logiciel de classement du type fichier Excel, et l’illustration de sceaux décrits par des clichés des empreintes ou des moulages correspondants. Cette opération a déjà pu être réalisée pour le catalogue d’Auguste Coulon consacré aux sceaux de la Bourgogne13, à partir d’un fichier rétro-converti élaboré par les archives départementales de la Côte-d’Or et des clichés des moulages conservés aux Archives

13 A. Coulon, Inventaire des sceaux de la Bourgogne, recueillis dans les dépôts d’archives, musées et collections particulières des départements de la Côte-d’Or, de Saône-et-Loire et de l’Yonne, Paris, 1912.

Le pro gramme SI GI LLA

nationales. Le traitement du catalogue de Louis Douët d’Arcq, Sceaux de l’Empire, est programmé pour 201814. L’autre type de moissonnage de données consiste à saisir plus ou moins automatiquement des informations déjà organisées, notamment celles des bases sigillographiques précédemment élaborées par des dépôts d’archives. Ces opérations nécessitent la collaboration étroite des institutions concernées, en soulignant que leur contribution à SIGILLA n’a pas pour but de les dessaisir de leur outil ou de rendre ceux-ci obsolètes mais bien plutôt de les enrichir. Il deviendra par exemple possible, pour une empreinte donnée, conservée par un dépôt particulier, de la confronter aux autres empreintes connues répertoriées par SIGILLA et donc d’en parfaire la connaissance. Ces bases locales sont par ailleurs libres de glaner dans SIGILLA toutes les informations utiles à leurs propres collections comme par exemple une empreinte de meilleure qualité, la matrice réelle ou le sceau-type, des informations plus précises sur la période d’utilisation du sceau, de la bibliographie, etc. Un conséquent travail de communication et de présentation du projet est donc engagé. Par ailleurs, une solution de page SIGILLA dédiée, propre à chaque lieu de conservation, est en cours de finalisation. Générée par SIGILLA et mise à disposition des institutions partenaires, elle permettra d’accéder directement à une collection précise saisie dans SIGILLA. Ce processus sera prochainement (mars 2018) appliqué à la collection des sceaux des archives de Haute-Savoie dont le catalogue, établi en par Gérard Detraz en 199815, a été numérisé dans la base. Ces opérations de moissonnage sont essentielles et vont permettre de fournir, relativement rapidement, une masse critique d’informations estimée à 80 000 entrées issues des grands inventaires nationaux, complétées par environ 10 000 entrées collectables sur les sites déjà opérationnels. Mais la collecte de SIGILLA passe également par le versement de nouvelles données. Il s’agit dans ce cas d’une saisie directe, in situ, de sceaux inédits. Ce catalogage s’effectue au moyen de l’interface de saisie développée par SIGILLA. Cet outil informatique est conçu pour être le plus intuitif possible – même si de nombreuses

14 Le traitement informatique de ces données rétro-converties, presque impossible à systématiser à l’aide d’un programme ad hoc (une « moulinette » dans le jargon informatique) est un lourd travail de saisie. L’expérience conduite par Philippe Jacquet sur le fichier Coulon permet d’estimer la saisie à environ 1000 cotes par mois. La saisie de ces grandes collections soulève un certain nombre de problèmes. En effet ces données ne sont pas exemptes d’erreurs de datation, d’attribution, de localisation, ou de description que la confrontation avec l’empreinte originale ou les données réelles met à jour. Il ne sera évidemment pas possible de les corriger toutes dans un premier temps. La structure même de la base permettra toutefois de corriger progressivement ces erreurs de nos prédécesseurs. De nombreuses données traitées par les auteurs des catalogues du xixe siècle et même du xxe siècle ont d’ailleurs pour une part été détruites. De ce fait, l’information produite par SIGILLA se posera à terme comme nouvelle référence, à la place des classifications traditionnelles. 15 G. Detraz, Catalogue des sceaux médiévaux des Archives de la Haute-Savoie, sous la direction d’Hélène Viallet, Annecy : Archives départementales de la Savoie, 1998.

135

1 36

l aur e n t ha b lot

améliorations restent à faire – et se veut un compromis entre la qualité scientifique de l’information collectée et la prise en compte des capacités réelles des agents de saisie. En effet, l’opération de collecte à grande échelle ne peut s’envisager qu’avec le soutien d’« agents » SIGILLA engagés localement. Ces personnes – personnels des institutions de conservation, étudiants en Histoire, en Histoire de l’art, en DU Archives, stagiaires de MII, lecteurs volontaires ou membres de sociétés savantes nationales, sont formées à la saisie par un membre du comité de pilotage SIGILLA à l’occasion d’un bref stage16. L’interface de contribution se doit donc d’être à la fois adaptée aux modes d’encodage des institutions publiques (EAD) et de prendre en compte les capacités scientifiques des agents et les attentes des utilisateurs futurs. Cet outil est basé sur un formulaire type fondé sur la note ISAD (G) dont il retient en priorité les champs essentiels, réservant à une saisie experte la totalité des champs : informations diplomatiques et archivistiques sur le document ; informations sur le sigillant ; description du sceau ; bibliographie ; iconographie, épigraphie et héraldique. Ces informations sont complétées par les opérateurs à partir de listes fermées accessibles par des menus déroulants proposant une série de choix nommés et/ou figurés – en particulier pour les éléments techniques comme le mode d’attache, le type de sceau. Plusieurs champs de commentaires libres sont prévus pour compléter ces informations si nécessaires et permettre également en aval une recherche « plein texte ». Le renseignement de l’intégralité des champs (92 au total) n’est donc pas nécessaire pour le versement des formulaires. Ces données sont validées, et si besoin complétées, par les webmasters de la base avant leur mise en ligne. Un indicateur de remplissage – en back office – permet de connaître l’étendue des données complétées. En effet, contrairement aux éditions papier qui figent dans le temps les informations, le grand intérêt de l’outil informatique est de permettre une révision continue des données. Enfin, ces contributions collaboratives sont identifiées en back office et leurs auteurs référencés, permettant la « traçabilité » de l’intervention. Des outils de description des données épigraphiques sont en cours d’élaboration en collaboration avec l’équipe d’épigraphie du CESCM et SIGILLA a répondu un appel à projet de SCRIPTA-PSL, Histoire et pratiques de l’écrit17, proposant notamment un développement informatique permettant le traitement semi-automatisé des données épigraphiques du sceau : lecture automatique, transcription, repérage des particularités épigraphiques, des formules, noms de personnes et de lieux, etc. Les données héraldiques font l’objet d’un traitement spécifique. En effet pour résoudre les problèmes posés par la question du blasonnement18 – langage qui produit différentes versions selon les auteurs et que tous les utilisateurs ne maîtrisent pas – , SIGILLA a développé une base de données interne permettant de décrire les armoiries observées ou recherchées au moyen d’un catalogue de formes graphiques restituant

16 Le premier s’est tenu à l’IRHT les 2 et 3 octobre 2017 et a réuni 12 stagiaires. 17 URL : (consulté le 1er février 2018). 18 On qualifie de « blasonnement » la description des armoiries à partir d’une méthode et d’une terminologie spécifique progressivement élaborée entre le début du xiiie siècle et le xviiie siècle.

Le pro gramme SI GI LLA

les couches du signe héraldique (champ, pièces, figures) et ses possibles combinaisons. Ce relevé produit par le lecteur et transcrit en niveaux de gris pour correspondre à la nature monochrome du sceau, dans une forme générique rectangulaire, est coloré au niveau de la fiche « sigillant » quand les couleurs des armoiries de ce dernier sont connues et documentées. Une recherche par armoirie peut ainsi être opérée et permet d’identifier tous les sceaux utilisant une même composition héraldique. Cet outil, déjà fonctionnel en back office avec des résultats visibles en ligne, est en cours de développement pour une interrogation en front office. L’ensemble des notices est bien entendu illustré : un des principaux avantages de ce nouvel outil sur la plupart des catalogues existants. Les clichés versés sur la base sont, si possible, établis selon les normes définies par la Bnf dans son Projet chartes scellées pour lequel a été établi un cahier des charges photographique fournissant les standards de la « bonne » photographie d’un sceau. Toutefois, en l’état actuel des besoins, la couverture photographique ne requiert aucune restauration préalable ni dépoussiérage spécifique, étant entendu qu’à défaut d’avoir pu opérer une couverture photographique dans les règles, une photo de qualité moyenne reste préférable à une lacune d’illustration. Dans l’idéal, cette couverture comprend donc cinq photographies : une photo recto-verso du sceau (qu’il intègre ou non un contre-sceau) et trois photos de l’acte, face/revers/repli, permettant son étude, celle du type d’attache, etc. Cette attention permet d’intéresser à SIGILLA les bases diplomatiques qui connaissent actuellement un grand développement et ont déjà manifesté leur intérêt pour SIGILLA. L’utilisation des données moissonnées ou collectées se fait dans le cadre de conventions établies entre SIGILLA et l’institution concernée et ses tutelles, définissant les conditions d’exploitation et de diffusion des informations. Un certain nombre de dispositions informatiques (accès limité aux images, mention du copyright, renvoi automatique vers un formulaire de demande de reproduction propre au dépôt concerné) garantissent les droits des contributeurs et des opérateurs. La récente réglementation en matière de diffusion des données publiques allège considérablement cette procédure.

Le site internet L’ensemble des résultats de la collecte SIGILLA est accessible via un site internet public. Un soin particulier a été porté à l’interface de consultation livrant des notices simples, intuitives et conviviales tenant un juste milieu entre le confort d’utilisation, l’esthétique et l’information scientifique. Pour accéder à ces données, l’utilisateur consulte un moteur de recherche organisé en deux niveaux : une recherche simple, en plein texte, renvoyant aux mentions des termes interrogés dans les notices sceaux-types et, si nécessaire, une recherche experte par l’intermédiaire de « facettes » renvoyant à l’ensemble des champs disponibles dans les tables de la base et sélectionnables. Ce moteur de recherche s’appuie sur un système d’auto-complétion, constitué à partir des informations du site, qui accélère l’enquête.

137

138

l aur e n t ha b lot

Les résultats obtenus renvoient aux « fiches sceau-type » qui permet ensuite à l’internaute de naviguer vers la « fiche-sigillant », la « fiche-empreinte », la « fiche-acte ». La « fiche-sigillant » fournit les données biographiques essentielles, des données généalogiques et héraldiques et mentionne, sous forme de fiche synthétique, tous les sceaux-types employés par une personne physique ou morale. La « fiche sceau-type » livre toutes les informations données par la matrice originale ou, à défaut de la conserver encore – ce qui est la majorité des cas –, par les empreintes qui en dérivent. Se trouvent donc mentionnées sur cette notice les informations biographiques a minima, et des informations sigillographiques (nature, forme, description, légende). A la suite de la fiche sceau-type, sont énumérées en mention réduite toutes les empreintes connues tirées de ce prototype et ouvrant sur des « fiches-empreintes » « moulages » « dessins ». Ces variantes sont ordonnées hiérarchiquement dans la base en vertu de leur degré de proximité à la matrice. Le choix est fait en revanche de mentionner la totalité des empreintes connues sans se limiter aux meilleures d’entre elles. Cet inventaire exhaustif permettra de considérer l’importance des exemplaires conservés pour une matrice donnée, de déceler d’éventuelles variantes ignorées jusqu’ici, de valoriser la totalité des empreintes quel que soit leur état de conservation (et donc d’attirer l’attention de conservateurs sur la nécessiter de préserver même les fragments d’une empreinte détériorée). Depuis la fiche « sceau-type » sont également mentionnés les différents actes portant une empreinte de ce sceau (« fiche-acte »). « fiche-empreinte », « moulage », « dessin ». L’ouverture d’une fiche-empreinte ou d’une fiche moulage donne accès à une notice détaillée sur chaque document sigillographique, recensant l’ensemble des informations rassemblées lors de la saisie (cote de l’acte, matière, couleur, contre-marque, état matériel, position sur l’acte, type d’attache (mode d’apposition, nature des attaches, matière). Une vignette avec le cliché du sceau peut s’ouvrir sur simple clic et permettre de consulter la photographie du sceau via un viewer muni de quelques outils indispensables (zoom, rotation, échelle, etc.). Quand le sceau bénéficie d’une couverture tomographique ou 3D, celle-ci est annoncée sur la fiche et peut être lue en séquence animée. « fiche-acte ». La fiche acte donne accès à une notice détaillée sur l’acte support de l’empreinte livrant toutes les informations diplomatiques requises et, si possible, proposant une couverture photo de l’acte en question. En l’état actuel, l’affichage des notices se présente en défilement. D’autres solutions sont à l’étude comme des « coups d’œil » rassemblant des entrées avec différentes logiques et permettant de varier les modes d’affichages et de consultation, en colonnes, en planches, en notice, en nuages, etc. La facilité de circulation entre les modes d’affichage et entre les niveaux de requête reste une priorité du développement. À terme, l’objectif de l’interface est d’offrir les fonctionnalités attendues mais aussi permettre d’exploiter l’outil par de nouveaux modes d’interrogations et d’expositions croisés sur un thème (par exemple les sceaux de connétables entre 1240 et 1500 avec affichage par planches pour une lecture comparée), des consultations par dépôt (par exemple tous les sceaux des AD 86), ou par collection ou catalogue (par exemple les sceaux du catalogue de François Eygun).

Le pro gramme SI GI LLA

Un « panier » permet par ailleurs au lecteur de conserver sa propre recherche et de créer son propre catalogue. Un ensemble d’informations générales sur la sigillographie, de liens vers des espaces pédagogiques (à l’instar des outils accessibles sur le site « Sceaux et usages de sceaux » développé par les archives départementales de l’Aube), ou vers les outils essentiels de la discipline, permettent aux amateurs de perfectionner leurs connaissances et d’exploiter au mieux les données de la base.

SIGILLA et les nouvelles technologies Comme tous les outils numériques développés actuellement, la base SIGILLA intègre un certain nombre de nouvelles solutions numériques. Elle se doit également d’anticiper les développements en cours tels que la numérisation 3D, les outils d’interopérabilité français et étrangers, la production et l’exploitation de métadonnées, la compatibilité avec les tablettes et Smartphones, etc. À côté des outils héraldiques et épigraphiques cités, le principal investissement technique souhaité par SIGILLA reste le développement d’outils de modélisation d’une matrice virtuelle à partir des empreintes conservées. Il est en effet prévu sur la base qu’à défaut de la préservation de la matrice originale, une « matrice virtuelle », reconstituée automatiquement à partir des images superposées des empreintes, soit signalée au niveau de la fiche « sceau-type ». Dans la plupart des cas en effet, les matrices, ces objets gravés en creux dans du métal ayant permis de produire en série les empreintes des sceaux qui nous sont parvenues, ont aujourd’hui disparu. Ces objets sont pourtant le prototype à la fois pratique et symbolique à partir duquel est émise l’image sigillaire. Ils sont la source unique de chaque sceau. L’état de conservation de la majorité des empreintes connues produites à partir de ce sceau-matrice est hélas souvent médiocre. Façonnées sur un matériau cireux malléable devenu sec et cassant, la plupart de ces empreintes sont aujourd’hui ébréchées, incomplètes, en partie illisibles ou détériorées voire éparpillées en fragments. Cependant, dans de nombreux cas, la conservation de tirages multiples peut permettre, à partir de ces différents éléments, de reconstituer à la manière d’un puzzle le dessin plus ou moins complet du prototype initial. Le but est donc de pouvoir, automatiquement, superposer des parties d’images produites par la même matrice, à la manière de calques, pour permettre de reconstituer, de façon la plus complète possible, l’image prototype du sceau (matrice) complet d’origine. Cette étape comprend de multiples contraintes techniques. En effet, une empreinte sigillaire est un objet tridimensionnel dont la lecture est parfois rendue délicate, notamment pour des questions d’éclairage. Cette opération nécessite donc en premier lieu la production d’une image numérique normalisée de l’empreinte. Par ailleurs, l’empreinte sur cire a le plus souvent subie de relatives déformations, au moment même de l’impression ou du fait des conditions de conservation, chaleur, chocs, usure, etc. Il est donc pratiquement impossible de superposer exactement l’image de plusieurs empreintes d’un même sceau. Le développement d’outils informatiques automatisés impliquera donc un ajustement automatique des images (calibrage des

1 39

140

l aur e n t ha b lot

empreintes sur une taille identique), une correction chromatique (transcription au trait d’empreintes de couleurs variées ou harmonisation sur une couleur neutre), une prise en compte des variables des unités à superposer (correction des déformations, interprétation des dissemblances accidentelles, définition d’un pourcentage acceptable de coïncidence). L’élaboration d’un outil logiciel de reconstitution virtuelle de matrices offrira un champ de possibilités totalement inédit et novateur qui ne manquera pas de susciter l’intérêt des différents chantiers de numérisation de collections de sceaux en cours à travers l’Europe. D’un point de vue sigillographique, cette possibilité offerte par les outils informatiques est une innovation exceptionnelle qui doit permettre de reconstituer des quantités importantes de sceaux aujourd’hui méconnus et de distinguer différents types jusqu’alors confondus ou ignorés. Cette correction des données aura des incidences directes dans l’attribution et la datation des documents médiévaux. D’un point de vue archivistique, cette nouvelle technologie devrait conduire les conservateurs à prendre soin des fragments apparemment dépourvus d’intérêt mais qui pourraient, par cette méthode, composer des pièces essentielles du puzzle traité par l’outil de recomposition de la matrice virtuelle. L’enjeu en termes de conservation du patrimoine est donc là encore essentiel. Parmi les innovations avancées par SIGILLA figure également la numérisation en trois dimensions de sceaux. Celle-ci peut être produite par tomographie ou photogrammétrie. La tomographie de sceaux, obtenue par balayage de l’objet aux rayons X, offre une lecture polyfonctionnelle de l’objet sceau, en surface et en profondeur. Elle fournit notamment une perception de l’image dégagée des contraintes d’éclairage et permet une recomposition 3D de l’objet. Donnant à lire le sceau « à cœur ouvert », la tomographie permet de le détailler en coupes ou en strates, et d’isoler ainsi les phases de composition, de percevoir les techniques d’assemblage des cires, de saisir les modes de laçage interne destinés à éviter les falsifications ou propres à une chancellerie, de comprendre le traitement particulier de la surface, voir même d’identifier dans la matière et sans détériorer le sceau des corps étrangers (cheveux, billets, etc.). Relativement complexe à réaliser – elle impose de déplacer le document jusqu’au tomographe –, et encore assez onéreuse, la lecture tomographique ne peut être appliquée à tous les sceaux. Mise en œuvre pour quelques exemplaires fameux ou particulièrement intéressants, elle ouvre cependant des pistes tout à fait nouvelles dans les études sigillographiques. La lecture tridimensionnelle du sceau produite par la tomographie peut également être obtenue par le procédé de la photogrammétrie. Cette image 3D, lorsqu’elle est rendue accessible sur le site SIGILLA, souligne particulièrement la matérialité de la source-sceau qui échappe évidemment dans la lecture bidimensionnelle du document rendue par la photographie. On oublie trop souvent en effet que l’empreinte de sceau est un objet en volume, parfois très conséquent, doté le plus souvent d’un avers et d’un revers, réalité que restitue parfaitement la lecture 3D, ouvrant ainsi de nombreuses perspectives d’analyse et d’étude. En termes de restauration, l’image 3D permet encore d’isoler les manques et de travailler avec une infinie précision à la reconstitution de synthèse des lacunes.

Le pro gramme SI GI LLA

Dans un futur très proche, l’imprimante 3D permettra de reproduire exactement un sceau biface, ajoutant un nouvel avatar aux moyens plastiques de reproduire et donc de conserver les sceaux médiévaux. Avant tout pensé comme le produit de collaborations techniques et scientifiques entre spécialistes et passionnés de sigillographie, la base SIGILLA a donc pour ambition de mettre à la portée du plus grand nombre des informations actuellement difficiles d’accès voir totalement méconnues des spécialistes eux-mêmes. S’appuyant sur les avantages multiples de l’outil informatique, cette base s’efforce donc de répondre aux attentes des conservateurs, des chercheurs et des amateurs dans le but de favoriser et de valoriser les études sigillographiques. Son approche originale de l’objet sceau, les possibilités offertes par le croisement des données autorisé par la structuration même de la base, les perspectives offertes par les nouveaux outils en cours de développement font déjà de SIGILLA, nous l’espérons, un outil incontournable des recherches sigillographiques.

141

Torsten Hiltmann & Thomas Riechert*

Digital Heraldry – The State of the Art and New Approaches Based on Semantic Web Technologies

From their emergence in the twelfth century, coats of arms gained an increasing presence in European culture, and became a central means of communication for pre-modern societies. They were used by individuals such as princes and noblemen, as well as women, clerics, town-dwellers, and peasants; they were utilized by institutions like cities, churches, abbeys, as well as all kinds of communities, like guilds and brotherhoods. But they did not only function to identify their bearer. They also conveyed messages of kinship and proximity, social and political claims and aspirations, and worked as a means of self-conceptualisation. Through their various uses they could evoke presence and cause memoria, express honor and degradation, provide protection and authority; presented in groups, by adding a spatial component, they could also express relationships and hierarchies and, by doing so, fairly complex ideas about political order and political concepts.1 In the Middle Ages, coats of arms were considered so important that they were attributed to people who had lived long before



* Torsten Hiltmann is Professor of Medieval History and Auxiliary Sciences at the University of Münster, where he leads the research project “Coats of Arms in practice”, funded by the Volkswagen Foundation. He is currently preparing a new project on digital heraldry. Thomas Riechert is Professor of Information Systems and Data Management at Leipzig University of Applied Sciences and a member of the Agile Knowledge Engineering and Semantic Web (AKSW: ) research group. 1 For a general overview, see W. Paravicini, ‘Gruppe und Person. Repräsentation durch Wappen im späteren Mittelalter’, in Die Repräsentation der Gruppen. Texte - Bilder – Objekte (Veröffentlichungen des Max-Planck-Instituts für Geschichte, 141), O. G. Oexle and A. von Hülsen-Esch (ed.), Göttingen: Vandenhoeck & Ruprecht, 1998, p. 327–389. The different aspects of medieval heraldry and the use of coats of arms in medieval communication are currently studied by the ‘Die Performanz der Wappen’ project on coats of arms in practice, at the University of Münster. For further information see: (accessed 2 July 2019). Torsten Hiltmann  University of Münster Thomas Riechert  Leipzig University of Applied Sciences Digitizing Medieval Sources – L’édition en ligne de documents d’archives médiévaux : enjeux, méthodologie et défis, éd. par Christelle Loubet, Turnhout, 2019 (Atelier de Recherches sur les Textes Médiévaux, 27), p. 143-171 © FHG10.1484/M.ARTEM-EB.5.117334

144

To r s t e n Hilt m an n & T h o m as R i ec h e rt

the emergence of this sign system, from Alexander the Great and Julius Caesar to the heroes of romances, like King Arthur and the Knights of the Round Table. Coats of arms also served to identify the personification of abstract ideas like virtues, sins or death, and finally even the saints, Jesus Christ, or God himself.2 For contemporaries in this period, no one of importance could remain without a coat of arms. In representing all of these figures and ideas, coats of arms could be produced in all kinds of material, in the most private as well as in the most public spaces. We find them in manuscripts and on clothes as well as on walls, windows and objects of all kind. They could be executed in stone, wood, and metal, glass, or leather: painted, carved, sculpted, or itched. With the help of a mould, they could even be baked into waffles and other kinds of food. To sum up, coats of arms were about everywhere in the late Middle Ages. The prominent role coats of arms played in medieval and early modern communication and society should resonate within historical research, where further appreciation of such heraldic devices could open up an essential source for better understanding of past societies and cultures. However, in historical research as well as in related disciplines like history of art and literary studies, coats of arms have yet to play a significant role. Previously these visual devices were only regarded as a tool to identify the makers, patrons or owners of documents, art objects, and archaeological remains, and as a means to dating such artefacts. Thus for a long time they have been seen as a matter exclusively for the auxiliary sciences, as a marginal field of research only of interest to a few specialists, rather than as a valuable source for the study of medieval and early modern cultures.

Causes of the Lack of Interest in Coats of Arms Restrictions on the Focus of Research by the Limited Availability of Media

This disregard for heraldry was certainly also fostered, amongst other causes, by technical and also conceptual limitations of editions of historical sources in the era of print, where there were critical technical restrictions in editing and reproducing large numbers of visual sources. Over the last one hundred years historical research conceived itself predominantly as a text-centered science, likely to the detriment of heraldic studies. This text-centricity has in recent years been challenged, and is slowly (and finally) being replaced by a much more open perspective, incorporating visual representations and the materiality of objects into the study of historical cultures and societies. This change in approach has been stimulated, in our opinion, by the new accessibility of these sources, made possible due to the benefits of digitization and the new possibilities of the digital reproduction, storage and analysis of images.

2 W. Augustyn, ‘Fingierte Wappen in Mittelalter und früher Neuzeit. Bemerkungen zur Heraldik in den Bildkünsten’, Münchner Jahrbuch der bildenden Kunst, 56 (2005), p. 44–82.

D i gi Tal He ralD ry

Figure 17 : Dedication picture in Hektor Mülich’s copy of the Augsburger Stadtchronik (1457), Augsburg, Staats- und Stadtbibliothek, Codex Halder 1, fol. 4v (image: BSB Munich)

The impact of these technical and conceptual restrictions on historical research shall be illustrated through the example of the Augsburger Stadtchronik of Sigismund Meisterlin. Contemporary copies of this text contain a frontispiece with an extremely illuminating miniature, which features a particularly elaborate and significant heraldic program (Figure 17).3 In this image we see the counsellors of the city, identified by 3 Augsburg, Staats- und Stadtbibliothek Augsburg, Codex Halder 1, fol. 4v. For the digitized version of this image see: (accessed 2 July 2019).

145

146

To r s t e n Hilt m an n & T h o m as R i ec h e rt

their respective coats of arms as members of the most important families of the town, gathered around the coat of arms of the city itself which their hands seem to touch and support. Thus, the miniature, and the heraldic representations within it, add relevant information to the content of the chronicle itself. It should therefore be seen as an integral part of the chronicle and treated as such. However, a detailed discussion of the illustrations accompanying a text source is seldom given, and the eventual discussion of heraldic content is even less likely.4 It is only due to the digitization of this manuscript that we have become aware of the additional layers of information which it contains. The lack of a more detailed analysis of heraldic information in descriptions of the Augsburger Stadtchronik made in the past reveals that there must be more cause for this reluctance than merely the restrictions in the media of reproduction.5 The problem lies within the heraldic material itself. Heraldry is a complex field of research difficult to apprehend and to cover, for three reasons: the sheer mass of evidence, the heterogeneity of its sources, and the complexity of its subject. Mass of Evidence

According to some rough estimates, there may have been more than one million different coats of arms in the Middle Ages alone.6 Printed repositories covering the Middle Ages to the nineteenth century, like the Siebmacher for the German-speaking area and the Rietstap for the whole of Europe, contain 130 000 and 120 000 different coats of arms respectively.7 Looking to the digital resources at our disposal, the

4 The present example is to some extent an exception, since the partial edition of this manuscript is part of a larger study of late medieval historiography in the city of Augsburg: D. Weber, Geschichtsschreibung in Augsburg. Hektor Mülich und die reichsstädtische Chronistik des Spätmittelalters, Augsburg: Mühlberger, 1984. The last part of the text is edited as an annexe on p. 263–273, followed, in an exemplary fashion, by the reproduction of a large number of black-and-white illustrations of relevant miniatures. The dedication depiction itself is briefly discussed on p. 59-61, mostly to date the copy by the members of the council shown in the illumination, recognisable by their coats of arms. However, most of the late medieval municipal chronicles have been edited in the series “Die Chroniken der deutschen Städe” from 1862 onwards, which does not feature any illustrations. The same is true for other kinds of chronicles and also for charters, which could be illuminated as well, see: Martin Roland, Andreas Zajic, ‘Illuminierte Urkunden des Mittelalters in Mitteleuropa’, Archiv für Diplomatik, 59 (2013), p. 241-432. 5 There are studies like, for instance, Z. Á. Pataki, ‘Bilder schaffen Identität. Zur Konstruktion eines städtischen Selbstbildes in den Illustrationen der Augsburger Chronik Sigismund Meisterlins 1457-1480’, in Identität und Krise? Zur Deutung vormoderner Selbst-, Welt- und Fremderfahrungen, C. Dartmann and C. Meyer (ed.), Münster: Rhema, 2007, p. 99–118, which explicitly deals with the construction of the city’s identity within the miniatures in Meisterlin’s chronicle, but does not take into account the role the coats of arms played in this context. The dedication depiction mentioned above serves here only as an indication that the copies of this chronicle may have also performed a public function: ibid., p. 115. 6 M. Pastoureau, L’art héraldique au Moyen Âge, Paris: Seuil, 2009, p. 42. 7 H. Jäger-Sunstenau, General-Index zu den Siebmacher’schen Wappenbüchern 1605–1961, Graz: Akademische Druck- und Verlagsanstalt, 1969); J. B. Rietstap, Armorial général précédé d’un dictionnaire des Termes du blason, 2 vols, Gouda: G. B. van Goor Zonen, 1884–1887; repr. London: Heraldry Today, 1972.

D i gi tal He raldry

Ordinary of Medieval Armorials by Steen Clemmensen includes more than 87 000 references for the Middle Ages, relating to more than 33 000 individual coats of arms.8 It should be clear from those numbers that the identification and interpretation of a given coat of arms is not that easy, and that it is near to impossible to gain a full overview of this field and the range of possibilities which it contains. Heterogeneity of the Supporting Media

This mass of evidence is further met by the wide range of sources which are able to convey coats of arms. Due to their nature as a sign system not bound to any particular material or context, coats of arms can be found in manuscripts and on charters, on seals, coins, mural paintings, sculptures, and funerary monuments, in stained glass and panel paintings, as well as on almost every other kind of object.9 These objects and corresponding information about them are collected and conserved in such varied repositories as libraries, archives, museums, institutions for the preservation of historical monuments, or even in situ. Thus to be able to deal with coats of arms, it is necessary to know about the particularities of all these different media, and kinds of sources and the way they are described and registered in various repositories.10 Complexity of Coats of Arms and the Blazon as its Language of Description

After accessing the heraldic sources, which survive in large numbers and in very different contexts, one is finally confronted with a third possible reason for the general reluctance to work with them: the complexity of heraldry itself. To properly describe a coat of arms, a special language called blazon is required. This language, at least on a theoretical level, assures that the depiction of a coat of arms can be described in a standardized way so that from this description it can be represented anew, containing the same information as the first portrayal. In order to do so, it is necessary to observe a given vocabulary which consists of several hundred specific terms for specific features, and a certain set of rules dictating how to apply them.11 For instance, if one wants to describe the coat of arms represented in Figure 18, one has to know that birds without feet are called martlet and that from a certain number onwards they aren’t counted anymore, and that from this point the term semy of has to be applied. Those terms and their use also differs from language to language. So

8 S. Clemmensen, Ordinary of Medieval Armorials, ms access database, vs. 2.1 ( July 2017), (accessed 2 July 2019). 9 See below, p. 138-139. 10 On this topic, see the forthcoming Organization, Representation and Description through the Digital Age. Information in Libraries, Archives and Museums, C. M. Angel and C. Fuchs (ed.), Munich: De Gruyter Saur, 2018. 11 See for instance G. F. L. Stalins, Vocabulaire-atlas héraldique en six langues, Paris: Société du grand armorial de France, 1952; G. Oswald, Lexikon der Heraldik, Leipzig: Bibliographisches Institut, 1984; or E. De Boos, Dictionnaire du blason, Paris: Le Léopard d’or, 2001.

147

1 48

To r s Te n HilT m an n & T H o m as r i ec H e rT

Figure 18 : The coat of arms of Sir Ernoun of Appelby: Azure, semy of martlets Argent, in the Powell Roll, Oxford, Bodleian Library, MS Ashmole 804, pt. IV, p. 37 (image: Bodleian Library, Oxford)

in French, martlet is called merlette and in German gestümmelte Amsel – though some heraldists are discussing whether those terms describe the same thing, or whether there are differences in small details which should be used to tell them apart.12 12 See M. Gritzner, J. Siebmacher’s grosses und allgemeines Wappenbuch, Einleitungsband, Abteilung B: Grundsätze der Wappenkunst verbunden mit einem Handbuch der heraldischen Terminologie, Nürnberg: Bauer & Raspe, 1890, p. 91, who claims that there is a difference between Merletten and gestümmtelte Amsel, which would feature different kinds of beaks and the stumps of legs. Others go even further, claiming that the martlet would also be distinguished from those other two, and interpreting the martlet as a swallow, the merlette as a duck, and the gestümmelte Amsel as a blackbird, see: (accessed 2 July 2019).

D i gi tal He raldry

Besides this, certain ordinaries (i.e. geometrical figures within a coat of arms) and charges (i.e. objects, animals, plants or persons depicted on a coat of arms) have different properties to differentiate them further. Besides its color a lion, for instance, is represented in a particular posture. Furthermore, the color of its tongue and claws can differ, alongside the number of tail(s) it has, and even the way in which these tails are represented. The meaning and importance of these properties, to make things more complicated, may differ from region to region and may have changed over time. Sometimes, it is also difficult to establish whether some feature in a coat of arms is part of the coat of arms itself, or just the result of artistic licence. Coats of arms can also consist of a combination of several distinct coats of arms in what is called ‘marshalling’, which can be rendered in different ways. Finally, a coat of arms can be accompanied by several different elements of para-heraldry like a helmet, a crest, a crown, supporters, etc., which add further meaning to the representation and enhance the complexity of the coat of arms and its blazon. All of these features and particularities have to be described with specific terms, which differ from language to language but sometimes also within the same language, from author to author. In the end, we have to state that blazon is rather a convention than a set of rules. Printed Repositories

In order to be able to work with these coats of arms and to identify them, there are, of course, already several printed repositories. But they are not easy to use. When confronted with a lack of space, some authors of the printed repositories use blazon but with various abbreviations, making the handling of the terms even more difficult. Furthermore, from a scientific perspective, many of them are marked by severe shortcomings. Often, the different entries lack references to the sources used, so the reader is not able to corroborate the given information. Ordered by the names of the supposed bearers of the respective coats of arms, most of the more comprehensive repositories are only useful in verifying presumptions of identification. They render the task of identifying an unknown coat of arms almost impossible, as well as studies in the use of specific heraldic figures or colors.13 The inadequacy of the existing printed tools may thus add to the limited interest and consideration of coats of arms in the broader field of historical research. As a result we can conclude that in the current state the extensive range of sources, distributed over different media hosted and documented in different repositories, as well as the complexity of the coats of arms and the language used to describe them, combined with the insufficiencies of existing tools, all together make it difficult to deal with coats of arms as a source for historical research. Thus we have to look for new approaches to achieve better utilization of heraldry in this field, and to understand that

13 Notable exceptions are the Dictionary of British Arms. Medieval Ordinary, A. Wagner and T. Woodcock, 4 vols, London: The Society of Antiquaries of London, 1992–2014, and T. de Renesse, Dictionnaire des figures héraldiques, 7 vols, Brussels: Société Belge de Librairie, 1894–1903.

149

150

To r s t e n Hilt m an n & T h o m as R i ec h e rt

it is only through the use of the relatively new methods and techniques of computer sciences that we will be able to open up this treasure of sources, for research in the varied disciplines of the humanities in all their diversity.

The Current State of Digital Heraldry As an essential part of our cultural heritage, different standards for the description and encoding of texts and images already feature the possibility to register the presence of coats of arms and to register further information on them. Besides these standards, specialized databases also exist to collect heraldic information; they are either established to give a description of particular object, or created with the view to obtaining heraldic data. In the following paragraphs, we will review the possibilities for the digital registration and encoding of heraldic data and establish the current state of the art of the methods in the field. Text Encoding Standards and Iconographical Thesauri

First of all, let’s look at the ways to encode the occurrence of heraldry in texts. The only standard we can acknowledge here is the one carried by the Text Encoding Initiative (TEI). Since coats of arms can be mentioned or described in texts, the TEI offers the possibility to indicate the presence of heraldic information within a text.14 In order to do so, it provides the element , which, as it is noted in the guidelines, refer to ‘descriptions of heraldic arms, supporters, devices, and mottos’.15 For this reason, it operates with a very unspecific definition of heraldry. The element can indicate a detailed blazon of a coat of arms as well as the simple mention of a motto, which belongs to the field of para-heraldry rather than heraldry as such. The TEI standard doesn’t provide any further specification to encode more detailed information concerning the heraldry mentioned in a text. Coats of arms are a regular part of medieval and early modern artworks, where they indicate the possessor or donator, or identify the person depicted, ranging from historical individuals and heroes of medieval romances to personified allegories. Thus, heraldry is also part of a standardized classification system within art and iconography. The most comprehensive and important systems of classification for heraldry in these fields are Getty’s Art & Architecture Thesaurus (AAT) and Iconclass. Both offer hierarchically ordered collections of definitions of objects, people, events, and concepts to describe an image or a piece of art. They allow for the creation of harmonized and interoperable descriptions of artworks, which can be used to jointly retrieve and analyze iconographical descriptions from different resources, such as

14 URL: (accessed 2 July 2019). 15 URL: (accessed 2 July 2019).

D i gi tal He raldry

inventory catalogues and iconographical databases within the Linked Open Data cloud.16 Getty’s AAT is part of the Getty Vocabularies, which provides cataloguers, researchers, and data providers with a structured terminology for art, architecture, decorative arts, archival materials etc. Within this framework, the AAT presents the structured vocabulary (thesaurus) for the various concepts necessary to describe artwork.17 Within its hierarchical structure, the class ‘devices (symbols)’ contains a subclass ‘coats of arms and coat of arms elements’ (ID 300138225), that again features the subclasses ‘coat of arms’ (300126352), and ‘coat of arms elements’ (300138226).18 According to its specification, the class ‘coat of arms’ (300126352) refers to the full display of armorial bearing, including helm, crest, etc. It features two more specific (sub-)elements: ‘family arms’ (300411429), for the ‘full display of armorial bearing of a family or clan’, and ‘alliance coats of arms’ (300411528) for the depiction, as it is specified in the AAT, of a combination of the coats of arms of a husband and his wife.19 The class ‘coat of arms elements’ (300138226), on the other hand, refers to single elements within the coats of arms. It contains the (sub-)terms ‘abatements (coats of arms)’, ‘escutcheons (coats of arms)’ and ‘mantling’. The term ‘abatements (coats of arms)’ (300265409), according to the AAT, shall be used to identify modified representations of shields or coats of arms meant to demonstrate misconduct or dishonor. The term ‘escutcheons (coats of arms)’ (300138227) shall only be used for the depiction of coats of arms as a shield or on a shield-like surface, and ‘mantling’ (300266216) shall apparently indicate the cloth hanging from the helmet as a further part of a heraldic achievement. Much more important terms like ‘crest’, on the other hand, are totally omitted. Since we are talking here specifically about the possibilities of registering the presence of heraldry and heraldic information as data, this is not the place to discuss the idea of heraldry which underpins this system of conceptualization. However, it should be noted that it is incomplete and barely adequate for its purpose. Furthermore, it is easily misleading, since it mingles form and interpretation, leaving aside the idea that the same form can convey different information. Take for example the use of the term ‘alliance coats of arms’ (300411528). Here we first have to clearly identify the individual coats of arms being depicted in this way, to be able to say that these are the coats of arms of a married couple in the form of alliance coats of arms, in order to use the term according to its specification in the AAT. It is important to identify their bearers because the same form of depiction can also be used to portray the coats of arms of friends, brothers or different territories held (or claimed to be held) by a particular person.20 The same is true, for instance, of ‘abatements (coats of arms)’ (300265409). Here, the interpretation of a certain manner of depicting a coat of arms is driven by context, rather than the form of the depiction itself. We only are able to 16 17 18 19 20

For this concept, see below, p. 131. URL: (accessed 2 July 2019). URL: (accessed 2 July 2019). URL: (accessed 2 July 2019). On this topic see the upcoming study: ‘Kulturgeschichte der Wappen im Mittelalter’ by T. Hiltmann.

15 1

1 52

To r s t e n Hilt m an n & T h o m as R i ec h e rt

understand the meaning of using a certain way of depicting coats of arms when we understand the context and purpose of this depiction.21 On the other hand, in its current state, it is impossible to use the AAT to encode the presence of a single helmet or crest beyond the more general term ‘coat of arms elements’ (300138226). The same is true for the depiction of a heraldic device on certain items, for instance on a horse blanket, if it doesn’t take the shape of a shield. Thus, we can conclude, Getty’s Art & Architecture Thesaurus offers the potential to indicate the presence of heraldic information, but provides an incomplete and sometimes misleading means to do so. Iconclass is another often-used classification system. It was construed to provide a specialized thesaurus to describe the subject of the iconography of artwork.22 Here, heraldry turns up in different places. Firstly, it appears as ‘46A122 - armorial bearing, heraldry’ under the class ‘46A1223 - nobility and patriciate; chivalry, knighthood’. Here, further specification is possible. Doubling the letter in the ID indicates that the bearer of the coat of arms is a woman (46AA122). Furthermore, one can add the name of the bearing family in brackets behind the number, and by adding another number after the brackets, one can finally specify the precise part of the armorial bearing that is depicted (coat of arms[1], crest[2], device or motto[3]), or the medium through which it is depicted (banner[5], seal[6]), since the specification doesn’t differentiate between the two.24 Heraldry is further contained within the system as ‘44B194 - coat of arms (symbol of sovereignty)’ in the class ‘44B19 - insignia and symbols of sovereignty (crown, diadem, scepter, orb, seal, standard, cloak, pectoral)’, and once more as ‘44A1 coat of arms (as symbol of the state, etc.)’, being here part of the class ‘44A symbols of the state (in general)’. In the last case, it is possible again to specify the information given by adding a number describing whether this state is ‘(+1)’ a league of nations, ‘(+2)’ a nation, ‘(+3)’ a province, ‘(+4)’ a city or municipality, ‘(+5)’ a society or ‘(+6)’ a church or a monastery. Finally, there are at least two more categories which encode information about heraldry, in these cases for very specific coats of arms: ‘11F13 coat of arms of Mary’ and ‘48B411 coat of arms of Guild of St Luke’. These references to heraldry can be explained by the fact that some parts of the Thesaurus are more deeply defined than others, so they include here further information about a specific subject (‘11F the Virgin Mary’, ‘48B41 Guild of St Luke’). Iconclass thus offers the possibility to encode much more information about coats of arms, and even provides a standardized form to indicate the bearer of a given coat of arms. But this only applies if the arms belong to a family, and if this family is part

21 See for instance the different descriptions used in L. Hablot, ‘“Sens dessoubz dessus”. Le blason de la trahison’, in La Trahison au Moyen Âge. De la monstruosité au crime politique (Ve–XVe siècle), M. Billoré and M. Soria (ed.), Rennes: Presses Univ. de Rennes, 2009, p. 331–347, and in G. A. Seyler, Geschichte der Heraldik (Wappenwesen, Wappenkunst, Wappenwissenschaft), Nürnberg: Bauer & Raspe, 1890; repr. Neustadt an der Aisch: Bauer & Raspe, 1970, p. 513-514. 22 URL: (accessed 2 July 2019). 23 URL: (accessed 2 July 2019). 24 URL: (accessed 2 July 2019).

D i gi tal He raldry

of the nobility or the patriciate. If the coat of arms belongs to a family of artisans, following the structure of Iconclass, ‘46A122 - armorial bearing, heraldry’, it wouldn’t apply as a armorial device. Thus Iconclass, in its current state, acknowledges coats of arms only as a sign of nobility, a sovereign or a state. Essentially we are here dealing again with the same issues raised in the case of the AAT: that is, the lack of separation between form and meaning, and additionally the problem that in heraldry, depending on context, the same depiction can mean different things, sometimes even at the same time. Thus, a coat of arms Azure, three fleurs de lis Or, a blue shield with three golden fleurs-de-lis, can refer to the Kingdom of France (as a state) in the same way as to the King of France (a sovereign), the royal family (a family), or even the monarch as an individual. With Iconclass, the cataloger or researcher has to try to distinguish the meaning of a coat of arms, which, in some cases, is just not possible. To sum up, on the level of established standards which provide vocabulary or thesauri to annotate or describe textual and visual sources, there are different ways to encode heraldic information, allowing for different levels of detail. However, they all have comparable problems in incompleteness and inconsistency, so that it may sometimes be difficult for the encoder to decide which term to apply without falsifying the result. Moreover, only Iconclass provides – under certain circumstances – a standard to also encode information about the actual bearer of the coat of arms; but this requires a correct interpretation and identification of the coat of arms in the first place. None of these standards and thesauri, however, allow us the possibility to encode information about the coat of arms itself, i.e. to describe or blazon it in the way it presents itself in the source. The Encoding of Heraldic Information in Heraldry-Centered Projects

For the next step, we will take a look at the practice. How is heraldic information currently described and encoded in digital databases and catalogues, such as inventories of museums and databases for seals and stained glass? Some of them, like the Corpus Vitrearum Medii Aevi (CVMA) Digital, a repository for images of medieval stained glass, use Iconclass to classify the images. Others do not yet rely on this type of classification system. In the Objektkatalog of the Germanisches Nationalmuseum, the database which describes the holdings of the National Museum in Nuremberg, for instance, heraldic information is mentioned only as part of the general description of an item, often without any particular specification. Taking object n° A 1266, a tile, as an example, only the textual description contains information on the coat of arms portrayed on the item, only mentioning that it must signify a tailors’ guild without specifying the features of the heraldic design which may have led to this conclusion.25 The Deutsche Inschriften Online, the online catalogue for medieval and Early Modern inscriptions in the German-speaking area, features a separate field entitled Wappen (coat of arms), to indicate the identification of the coats of arms represented, for instance, 25 URL: (accessed 2 July 2019).

15 3

154

To r s t e n Hilt m an n & T h o m as R i ec h e rt

on tombstones. However, the degree of detail varies in the records. Sometimes, the identification of the coat of arms is only given by returning to the name of the assumed bearer of the coat of arms.26 In other cases the coats of arms are described extensively, but only in a footnote attached to the name, not in the corresponding field as such.27 In seals, coats of arms are an extremely common feature. In sigillographic databases, the registration of heraldic information should thus garner more attention. This is indeed the case, though the manner of the records vary. The database of the French project Sigilla contains a field Héraldique which provides the heraldic information concerning a given seal. Here, the coat of arms is sometimes described in more detail, but is also occasionally only identified by the name of its bearer.28 All heraldic seals are accompanied by a graphical representation of the coat of arms, which for the interpretation of the heraldic description, if given, is very helpful. In the database Welfensiegel, finally, the coats of arms are always blazoned in detail, which is actually a good thing. Unfortunately this is not done in a distinct and specific field, but only as part of the general iconographical description, so that the user cannot easily retrieve specific heraldic data. Heraldic Databases

In the last step, we will turn our attention to databases which were explicitly created to register and describe coats of arms. Finally here, detailed blazons of coats of arms are to be expected. This is the case, for instance, for the website Palisep which contains several heraldic databases, where the description of the coats of arms is provided in a field named either Blasonnements or Armes.29 Here, the coats of arms are described in detail with the according vocabulary in plain text. However, sometimes the same field returns different blazons of the same coat of arms. In the Armorial historique & monumental européen database, for instance, we read for the family of Aragon: écartelé en sautoir, aux 1 et 4 d’or à quatre pals de gueules qui est Aragon, au 2 de gueules au château donjonné de trois tours d’or, au 3 d’argent au lion de gueules. (P. Anselme) d’or à quatre pals de gueules. (Tous armoriaux). The text of the blazon given in this database is thus not standardized. The field Blasonnements (or Armes) serves as a container for full-text descriptions of the coats of arms, as one could expect them also in printed collections.

26 URL: (accessed 2 July 2019). 27 URL: (accessed 2 July 2019). 28 URL: , (accessed 2 July 2019). 29 URL: (Blasonnement), , (Armes) (accessed 2 July 2019).

D i gi tal He raldry

The most advanced project in this field is the Ordinary of Medieval Armorial database by Steen Clemmensen.30 This is the first attempt in a published database to register coats of arms in a significantly more formalized way. For this purpose, Steen Clemmensen invented a new system with the objective to separate the different parts of the blazon, and to concentrate on brevity and clarity. Breaking with the usual customs, he separates tinctures and charges. In one field, he registers the tinctures of the coats of arms, in a second one its charges. The relationship between them is expressed by order of the corresponding elements, which are mostly offered as a set of given abbreviations. The coat of arms of the French king, Azure, three fleurs de lis Or, is thus encoded in Field 1: ‘B O’ and Field 2: ‘3 fleurs-de-lis’. If one is well acquainted with the system, this approach makes it much easier to retrieve a particular coat of arms based on its design. But this means that one first has to learn how this systems works, which is not easy even with the necessary heraldic knowledge. Moreover, it rapidly becomes quite complex, for instance when it comes to multi-colored elements. Taking the blazon Per pale Argent and Gules a lion Vert within a border Sable as an example, it would be transcribed as ‘XVS-AG’ for the tinctures and ‘per pale & lion & border’ for the charges. Working with a given set of abbreviations, he comes much closer to a standardized vocabulary. Containing all the necessary information on the content of the different coats of arms in a formalized way, this system provides the potential to retrieve the data and to work with it. However, this doesn’t mean that the data is always clean and consistent. Since there is no procedure to control the correct use of the vocabulary, especially in matters of spelling, mistakes creep in here as well. Theoretical Approaches in the Computer Sciences

Beyond the practice described in the preceding paragraphs, very early there were also theoretical reflections concerning the possibilities of encoding blazon to allow for the manipulation of heraldic information with computer-based methods. These endeavors were fostered by the idea that coats of arms are built on a strict and precise system. The first attempt we know of dates back into the year 1974, in an article written by N. Michael Brook. Already at this early stage he realized that the language of blazon is less structured and coherent and much closer to natural language than is often thought.31 Thus, he states, blazon relies rather on conventions than rules, and that there are some practical problems which stem from the potential complexity and grammatical informality of blazon.32 However, assuming that these conventions are based on an underlying structure, he was convinced that it would be possible to

30 See above, n. 8. For the documentation on the database, see (accessed 2 July 2019). 31 N. M. Brooke, ‘The Computer and Heraldry’, Coat of Arms, n. s., 1.92 (1974), p. 112–116; n.s., 1.93 (1975), p. 137–143; n.s., 1.94 (1975), p. 172–180. 32 Ibid., p. 116.

15 5

1 56

To r s t e n Hilt m an n & T h o m as R i ec h e rt

devise a coded form of a blazon library. The main interest of his study lies in the way we might translate blazon into a computer-readable code. In order to keep things easily approachable for the users, he postulates that ‘whatever code is used within the computer, the blazon text should if possible therefore remain the language of communication with the machine’.33 Thus, he was looking for a way to formalize the textual heraldic description in a way that a computer could parse it. The emphasis of this study was on the syntax of heraldic descriptions. The order and arrangement of the different words used in a description was of importance, not the semantics. The description of a component should be between a numeral and the descriptor for the color, which should serve as ‘delimiters’. Furthermore, the parser should scan for connecting words like between, on, charged with, within, etc. In order to verify the input, it was planned that the computer should generate a picture of the coat of arms from the coded form of the blazon text. Overall, this system became very complex. In 1991 M. Newton, a pupil of Brookes, tried to develop this system into an application called XHERALD, which would have been able to automatically draw pictures from a registered description.34 But there is no more information available about this project. The latest published study in this field that we know was completed by Pascal Manoury from the University of Paris VII, who also sets out to formalize the language of blazon in such way that a machine might understand it, and convert this text into the image it encodes.35 Karl Wilcox holds the same goal as his target with his application Drawshield, which apparently began in 2010 and has been in continuous development until at least as recently as 2014.36 The application aims to parse a natural language blazon and to render it into a graphical representation. In order to do so, it uses an XML schema called BlazonML as an intermediate format, which also serves to map the text of the blazon to a standardized vocabulary of the different charges and elements of the blazon.37 Observations

What can we conclude from all of this, so far? General standards to describe textual and iconographical sources are very limited. They allow us to indicate the presence of a coat of arms and, in the case of the art thesauri, also make some statement about the

33 Ibid., p. 115. 34 M. Newton, ‘Computer Analysis of Blazon’ (final year project dissertation, University of Bath, School of Mathematical Sciences, 1991). 35 P. Manoury, ‘De l’interprétation algorithmique du blason’, in Actes des journées francophones des langages applicatifs (2010), URL : (accessed 2 July 2019). For some examples see (accessed 2 July 2019). 36 URL: (accessed 2 July 2019). 37 URL: (accessed 2 July 2019).

D i gi tal He raldry

way the coat of arms is depicted. However, mostly this information is already based on an interpretation of these depictions, which in some cases can be misleading. It is only possible in one case to additionally encode more detailed information about a coat of arms itself, in this case, concerning its bearer. But here as well, this is only possible after the coat of arms has already been interpreted and identified. The registration of the essential information given by the coat of arms, which is its design, is not possible. There is no standard, no vocabulary or thesaurus to do it. With the databases, we have seen that they record statements on coats of arms in different ways: either by naming their assumed bearer, or by giving a more extensive description, the blazon. The latter is done in one of two ways. Either it is completed in the same way it would be done in a printed book, using the respective field of the database as some kind of drop off for a traditional textual description; or, as Steen Clemmensen does it in his Ordinary of Medieval Armorials, the authors look for a way to formalize the entry of heraldic data so that it can be more easily entered and retrieved. The efforts in the theoretical discourse are concentrated on the question of how to formalize the language, or more precisely the syntax of blazon, so that the computer can more easily parse it, in order to treat and analyze it with computer-based methods. Or, as N. M. Brooke phrased it back in 1975: ‘A more satisfactory approach is to omit semantics from the rules of the grammar and defer their consideration to a later stage’. However, none of these procedures have become in any way a common standard to register coats of arms in a database, let alone to exchange data between different systems. Almost all the implemented solutions mentioned above share, in our opinion, the same shortcomings. Putting one or more descriptions in one field or segmenting the description into two fields, in order to store the data, they all rely on the blazon as a more or less formalized linear textual description.38 This entails a series of disadvantages, at the least if one wants to process and analyze these data using computer-based methods: – Since those systems work with plain text descriptions without a controlled vocabulary and routines to check the entries for consistency, they are very errorprone. The smallest typo can deface an entry in such a way that the information it contains can no longer be retrieved from the system. – Since the terms used in those descriptions are not specified, there may be a different understanding of the single terms by the author and the different users of the databases, which may also lead to errors and misinterpretation. The same is true already in the process of data entry between different data authors. – Since the systems rely on natural language, they also depend on a specific language. This means that such a system can only be used in a particular language (e.g. French or English), which may have to be learned anew in order to allow usage. – Finally, the data collected in the systems described above cannot, or can only in a very limited way, be processed with computer-based methods. This means

38 Exception is Karl Wilcox who also standardized the entries (see above, note 36). However, the basis he uses is as well the given blazon.

15 7

1 58

To r s t e n Hilt m an n & T h o m as R i ec h e rt

that it is impossible or at least far more difficult and error-prone to extract more information from the collected data than from the simple heraldic descriptions, e.g. if one wants to analyze the frequency of recurring combinations of charges and colors, or the complexity of the coats of arms. Thus, even though the data collected contains much more information than the simple description of the coats of arms, the use of the existing systems is quite limited. If the computer shall serve not only as storage for heraldic information (as in the case for Palisep, for instance) but also as a tool to process and analyze the data for more sophisticated and explorative research, we have to turn to other solutions.

Semantic Web Technologies In order to overcome the shortcomings of the existing technical solutions and to enhance the potential for analysis, we are convinced that Semantic Web technologies, and more precisely Ontology engineering and Linked Data, may provide a solution.39 It allows us to tackle the three leading issues which have hindered a broader use of heraldry so far, that is: the mass of evidence; the heterogeneity of the supporting media; and the complexity of coats of arms and their description. In doing so it immensely enhances our analytic capacities, allowing us to use the collected data not only to identify unknown coats of arms in a very efficient manner, but also for far more advanced research schemes, even those we may not even have thought of yet. The idea behind the use of ontology engineering is to encode coats of arms on a conceptual level beyond words and strings and specific languages.40 Thus, the collected data are not only machine-readable, which means that the machine can process the data, but machine-understandable. This means that the computer is not only able to read but also interpret the data correctly within a given framework. By the use of a hierarchical model as background for the interpretation, the data become analyzable on different levels of abstraction, enabling us to gain knowledge from it which has not been registered before. By the use of the Linked Data principle, it is possible to exchange data between different systems, for instance from the various databases of the repositories holding heraldic sources, and to combine them in data

39 Semantic Web Standards: (accessed 2 July 2019). For a general introduction into the use of Semantic Web technologies for Historical sciences see: A. Meroño-Peñuela et al., ‘Semantic Technologies for Historical Research. A Survey’, in Semantic Web (2014), p. 1–27. URL: (accessed 2 July 2019). 40 The research field of knowledge engineering is reflected by a large number of used and approved methodologies. Standardizations in the context of the Semantic Web also support knowledge engineering through reasoning and collaborative engineering technologies. An overview of methods and technologies is provided by the publications of the series of the International Conference on Knowledge Engineering and the Semantic Web (KESW).

D i gi tal He raldry

retrieval and analysis.41 It allows us to integrate further data from those and other data collections into our scholarship, which enhances the possibilities for further research considerably. Both the handling of the complexity of heraldic data through a hierarchical conceptualization of those data, and the combination of different data sources using the Linked Data principles, finally enables us to cope with the immense mass of heraldic evidence, and provides us with new prospects for analysis and research. Distributed Data Within the World Wide Web

To understand this technique, we have to take a step back and take a look on the broader image: that is how the internet, and more specifically, how the use and exchange of data on the internet works.42 While the internet started first as a network of computers, meaning that you had to connect one machine to another in order to search the file system for a document you may have been interested in, and to download it in order to be able to process it (e.g. to display and read it), this had changed with the introduction of Hypertext and internet browsers. By this, the Web of machines became the Web of interlinked documents. Now it was no longer the machines but rather the documents that were linked to each other, so that one could go from one document to another via hyperlinks. However, the content of the different documents didn’t matter. The important thing was that there was a formally correct link in the document that referred to another document on the internet. Furthermore, using the anchors within the document it was possible to point to a part of the linked documents.43 This basic concept requires an interpretation of the document to understand the information it contained and the meaning of the link to the other documents. This situation changes with the idea of Semantic Web, which is to directly link the data and the information itself, and thus to create a Web of Data.44 For the moment, most of the data are stored in single databases or documents. In order to gather data from different databases, you have to access those bases, one after the other, often in a specific and different manner. Those databases thus work like silos: each one has its individual data access interface and its individual procedure to retrieve data and information from it. The idea of Semantic Web is to provide a technique that gets rid of those silos and that allows us to access the data from different collections all at once. The result is a web of linked data that transforms the internet into a huge distributed database.

41 T. Heath and C. Bizer, Linked Data. Evolving the Web into a Global Data Space, Milton Keynes: Morgan and Claypool, 2011. 42 The history of the World Wide Web is documented by the World Wide Web Consortium (URL: (accessed 2 July 2019)). The fundamentals have been described in Tim Burners-Lee, ‘Information Management: A Proposal’, CERN, 1989/1990 (URL: (accessed 2 July 2019)). 43 An anchor can be addressed by using the symbol # followed by a mark that has had to be defined in the linked document. 44 On the principles of the Semantic web see: T. Berners-Lee, J. Hendler and O. Lassila, ‘The Semantic Web’, Scientific American, 284.5 (2001), p. 34–43.

1 59

1 60

To r s t e n Hilt m an n & T h o m as R i ec h e rt

Expressing Facts Using Statements Based on Subject, Predicate and Object

How can this be done? The most basic technique of the Semantic Web is described by the Resource Description Framework (RDF).45 It expresses information through statements that are phrased within simple declarative sentences consisting of only three elements (triples): subject, predicate, and object. For example, in the sentence ‘Lucas Cranach was born in Kronach’, ‘Lucas Cranach’ is expressed as the subject, was born in’ as the predicate and ‘Kronach’ as the object. This data representation is different to documents and relational databases as data can be represented by a single statement. The same information which is provided by documents and databases may be distributed on different servers within the network. In order to make these statements interoperable, every part of this statement has to refer to a single resource on the Internet, representing the concept it stands for. Those resources are defined as Uniform Resource Identifiers (URI), in the form of an Uniform Resource Locator (URL) that is used for Hyperlinks. An URI exists precisely once, and makes those references unambiguously identifiable on the Internet. Such URIs are, for instance, provided for resources by the project DBpedia, where ‘Lucas Cranach’ is referenced by the URI http://dbpedia.org/resource/ Lucas_Cranach_the_Elder, ‘was born in’ by the URI http://dbpedia.org/property/ birthPlace, and ‘Kronach’ by the URI http://dbpedia.org/resource/Kronach.46 All these links provide a specification about what they represent, in order to facilitate a common understanding of the concepts that these URI represent. Thus, to say ‘Lucas Cranach was born in Kronach’, we make the following statement: Listing 1: RDF statement to express ‘Lucas Cranach was born in Kronach.’ http://dbpedia.org/resource/Lucas_Cranach_the_Elder http://dbpedia.org/ property/birthPlace http://dbpedia.org/resource/Kronach. By using URIs as references, and not an expression in natural language, the representation of the concepts works independently from natural language. This doesn’t stop you from stating that strings like ‘Lukas Cranach der Ältere’, ‘Lucas Cranach l’Ancien’, ‘Лукас Кранах Стари’ or ‘루카스 크라나흐’ are representing this very concept as strings and are labels assigned to this concept in the different languages (German, French, Russian, Korean). Expressing Concepts Based on Classes and Properties

But there are more things we can state about Lucas Cranach. For instance, that Lucas Cranach was a painter. By doing so, we can refer to the concept ‘painter’ in a given ontology, i.e. an explicit, formal specification of a shared conceptualization of a

45 URL: (accessed 2 July 2019). 46 DBpedia provides extracted structured information from Wikipedia as Linked Open Data: (accessed 2 July 2019).

D i gi tal He raldry

certain domain of knowledge.47 Thus, in this ontology, it may be said that every painter is an artist, and that every artist is a person, and that every person carries a certain set of properties, like a date of birth and a birthplace. That means that we refer to an established and well-documented model of a part of the world (as we conceive it). In this case, the model may say that ‘Painters’ ‘paint’ and ‘Paintings’ may be ‘located’ in a ‘Museum’, that the concept ‘Painter’ is a subclass of the concept ‘Artist’ and thus that all instances of ‘Painter’ share all the properties of the class ‘Artist’. The same is true for the class ‘Artist’ as a subclass of the class ‘Person’. Such an ontology can come with different degrees of expressivity. It may just consist of a controlled vocabulary or, as a glossary, also include more detailed definitions. This is the working level of Linked Data where a shared vocabulary or glossary is defined within an authority file for disambiguation and linkage. But it can also consist of a hierarchized model of different classes (taxonomy), which may also feature statements about further relationships between different classes beyond the strict hierarchy (thesaurus), which can be completed by the addition of logical rules and value restrictions to define it. The Semantic Web standards provide the RDF-Schema (RDF-S) and the Web Ontology Language (OWL) to describe classes and properties to define such vocabularies.48 Inferences and Querying

It is through reference to such formal models of a domain of knowledge that machine-readable data become machine-understandable. Following such a model with rules and restrictions, the machine can deduce, by logical inference, that if Lucas Cranach is a painter, he is also an artist and a person, and if he is a person, that he must have a date of birth and a birthplace. What can be retrieved by this is implicit knowledge. Nowhere is it explicitly said that Lucas Cranach is an artist or a person, but by using the model of the ontology and logic inference, the computer deduces that he necessarily must be an artist and a person as well. The same can be done with the birthplace of Lucas Cranach, ‘Kronach’, which is an instance of the class ‘City’, which is a subdivision of a ‘Federal State’ (in this case ‘Bavaria’), which again is a subdivision of a ‘Country’ (Germany). The ontology and logical inference allow us then to combine these statements and to formulate more sophisticated and far-reaching queries, such as our questioning which painters were born in Kronach or which artists died in Bavaria. By doing so, we can analyze and query the data on different levels of abstractions (classes and subclasses), and we are also able to combine those different levels of abstraction with logical rules and value restrictions. In this way we can ask, for instance, the following question, 47 T. R. Gruber, ‘A Translation approach to portable Ontology Specifications’, in Knowledge Acquisitions, 5 (1993), p. 199–220; also N. Guarino, D. Oberle and S. Staab, ‘What is an Ontology?’, in Handbook on ontologies, Berlin: Springer, 2009, p. 1–17. 48 RDF-Schema 1.1 (2014): and OWL 2 Web Ontology Language Document Overview (Second Edition, 2012): (accessed 2 July 2019).

161

1 62

To r s t e n Hilt m an n & T h o m as R i ec h e rt

combining information about painters, paintings and museums: Can you give me all paintings exhibited in a museum in the very city where the artists was born?49 This is a question that would take quite some time to answer in the traditional way, but which would be solved immediately by the use of Semantic Web technologies, provided that there are sufficient data – a condition, though, which also applies to the conventional procedure. The SPARQL50 Protocol and RDF Query Language is used to query a set of statements. Listing 2 shows the example described above to query on DBpedia. The main concept of SPARQL is to match patterns on a set of statements. Furthermore, to use SPARQL on research of distributed data you have to establish an triple store, that caches the data from different Linked Data endpoints. Listing 2: SPARQL query to retrieve paintings exhibited in a museum at the birthplace of its painter. PREFIX dbo: PREFIX dbyago: SELECT ?person ?painting ?museum ?birthplace WHERE { ?person a dbyago:Painter110391653. ?person dbo:birthPlace ?birthplace. ?painting dbo:author ?person. ?painting dbo:museum ?museum. ?museum dbo:location ?birthplace. ?birthplace a dbyago:City108524735. }

Applying Semantic Web Technologies to Medieval Heraldry The question is now, how can we use this technique for the registration and analysis of heraldic data? Before we can answer this, we must first know more about the very nature of coats of arms. Coats of Arms as Combinations of Concepts

Coats of arms can be expressed just as well in images as in texts. As mentioned above, using the particular language of blazon, we can describe a coat of arms in such a way that, starting from this description, it can be represented again as an image without any loss of information. Both forms of expression, picture, and text, are interchangeable. This is because, to use the words of Michel Pastoureau, a coat of arms is an image fortement conceptuelle.51 Or to put it in another way, they 49 This example can be explored using the DBpedia SPARQL endpoint on Wikipedia data. URL: (accessed 21 December 2017). 50 SPARQL 1.1 Query Language (2013): (accessed 21 December 2017). 51 M. Pastoureau, ‘L’armoirie médiévale. Une image théorique’, in Iconographie médiévale. Image, texte, contexte, G. Duchet-Suchaux (éd.), Paris : CNRS Editions, 1990, p. 121-138, p. 122.

D i gi Tal He ralD ry

Figure 19 : Several medieval depictions of heraldic lions and colors

are a combination of concepts, a code of different colors and forms. As a matter of fact, in the case of coats of arms, it is not important what kind of red or blue you use. The important thing is that the concept of blue or of red is discernible. The same is true for the charges, like a lion or an eagle. In particular representations they can look very different – large or small, more abstract or more natural – but as long as they can be recognized for the concept they represent, this doesn’t matter (Figure 19).52 As combinations of different concepts, coats of arms combine a limited number of colors or tinctures (six or seven colors and two or three different furs, depending on region and time), a limited number of geometric figures (the ordinaries) and/ or an unlimited number of different charges (like animals, plants, or objects like the cross). These ordinaries, charges, but also furs can be further differentiated by a given set of properties, which may be particular to a specific charge or groups of charges. Ordinaries like a fess, for instance, can feature particular lines of partition (i.e. shapes), while lions can be differentiated by the color of their claws and/or tongue (armed, langued) or by their posture. The Coats of Arms as Stratified Images

As Michel Pastoureau has shown already, in the Middle Ages at least, coats of arms are structured like Romanesque paintings that are organized in different layers, which can be read from the back to the front.53 In the background is the color (or partition) of the field, on a second layer a charge or ordinary, and if necessary there may be a third and even fourth layer with further elements, most often some kind of cadency to differentiate the coat of arms from others within the same family. To demonstrate through a practical example, in a fifteenth-century armorial we find the representation of the coat of arms of the family de Villequier, accompanied by the following text: Le seigneur de Villequier, de guelles a le croix d’or pommelees et

52 For a good overview of how the different styles heraldic charges could be represented in over time, see: W. Leonhard, Das große Buch der Wappenkunst. Entwicklung, Elemente, Bildmotive, Gestaltung, 2nd ed, Munich: Callwey, 1978. 53 M. Pastoureau, ‘L’armoirie médiévale’, art. cit., p. 122.

163

1 64

To r s Te n HilT m an n & T H o m as r i ec H e rT

Figure 20 : The different layers of the coat of arms of the family de Villequier (modified image from: New Haven, Yale University Library, Beinecke ms 648, fol. 8v)

fleuronnee aux bouz, billetee de mesmes.54 In modern English, it would be blazoned as follows: Gules, a cross pommy and flory Or, billety Or. In other words, the coats of arms of the seigneur de Villequier is made up of a red field, a golden cross with balls and fleur-de-lis at its endings, and over that another layer of golden shingles, which represent the three levels of the coat of arms as depicted in Figure 20. The Ontology

In the Palisep database mentioned above, this coat of arms is registered by its blazon in one field with the string: De gueules à la croix fleurdelisée d’or, cantonnée de douze billettes du même55 (which, as a matter of fact, cites the blazon given in the Armorial général by Johannes Rietstap56). In the Ordinary of Medieval Armorials database by Steen Clemmensen we find the description of the same coat of arms, based on a the Rôle de la campagne de Kuinre en Frise (as part of Armorial Beyeren), divided in two separate fields: one with the string ‘GOO’ to represent the tinctures, and another with the string ‘cross patonce, billety’ to represent the charges.57 Both use different languages (Palisep French, Steen Clemmensen English) and give a slightly different description. A high level of understanding on the matter is required to realize that both are describing the same coats of arms. It would require quite some

54 55 56 57

New Haven, Yale University Library, Beinecke ms. 648, fol. 8v. URL: (accessed 2 July 2019). J. B. Rietstap, Armorial général, II, op. cit., p. 1006. S. Clemmensen, Ordinary of Medieval Armorials, op. cit., tblBranches, BranchID: 5357.

D i gi tal He raldry

more understanding to retrieve the identification of the coat of arms as those of the family de Villequier if there were only the image of the coat of arms as a starting point. Thus, what could the registration or digital representation of coats of arms with Semantic Web technologies look like, based on the idea that coats of arms are a combination of a given set of concepts organized in different layers? We need, in the first place, a conceptualization of coats of arms and their structure. As a first step, we would establish a controlled vocabulary for all the different concepts that can be part of medieval coats of arms and their description and provide for each of them a specific and well-documented URI. Therefore, we would establish a namespace like http://digitalheraldry.org/ontology/ for the ontology with the different concepts that have to be described and specified, hereafter abbreviated as ‘dho:’. So, for instance for a heraldic cross as a charge (since there are also crosses as ordinaries, depending whether they touch the border or not), we would have a URI like dho:CrossCharge, for which one can specify that in German it is called Kreuz, in French croix or in Spanish cruz. The same is true for the different properties, which are used to further differentiate the charges and ordinaries. For the cross, this could be properties like ‘voided throughout’, ‘latin’, ‘rayonnant’, and ‘gyronny’, or even ‘pommy’ and ‘flory’ which would get the URI dho:Pommy and dho:Flory. For them, we have to specify as well to what kind of charges they apply, whether they are valid as a differentiation only for dho:CrossCharge or also for dho:CrossOrdinary. Furthermore, we can state that the concept dho:CrossCharge is a subclass of dho:CommonCharges, and that dho:CommonCharges is a subclass of dho:Charges. The same has to be done for lions, eagles, and all the other charges, ordinaries, tinctures and their particular properties used in heraldry. One could state, for instance, that dho:Lion, dho:Leopard, dho:Bear, dho:Fox, dho:Wolf, dho:Hound etc. are instances of the subclass of dho:Carnivores, which is a subclass of dho:Quadrupedes, which is a subclass of dho:Animals, which is a subclass of dho:CommonCharges, which is a subclass of dho:Charges. On the other hand, we specify as well the ways the properties of a certain charge or concept are linked to this concept, like dho:hasStyle and dho:hasTincture. Eventually, this would allow us to model a digital representation of the field of heraldry, which could be used, afterwards, to represent coats of arms digitally. But we also need to store the actual data. Therefore, we would use a namespace like http://digitalheraldry.org/data/ for the data, hereafter abbreviated as ‘dhd:’. Here, we represent the different coats of arms, each one with a unique identifier such as dhd:CoatOfArms1, but also the different charges within a given coat of arms get unique identifiers such as dhd:Charges1. Thus, we have a particular namespace for the terms we will use to describe the coats of arms and for the actual coats of arms and their elements, that are encoded using those terms. In order to encode a specific coat of arms, we would then use a combination of those concepts, structured by the idea of coats of arms as stratified images. For the coat of arms of the Seigneur de Villequier (Figure 21), for instance, we would first state that our coat of arms number one (dhd:CoA1) is in fact a coat of arms (dho:CoatOfArms). We further state that it has a ground (dhd:Ground1) which is of the type plain (dho:Plain) and has the color red (dho:Gules). We would add

165

166

To r s Te n HilT m an n & T H o m as r i ec H e rT

Figure 21 : The digital representation of the coat of arms of the family de Villequier, provided by the means of Semantic Web technologies

that our coat of arms has a charge (dhd:Charge1) of the type cross (dhr:CrossCharge) in a golden color (dho:Or), which is styled pommy (dho:Pommy) and flory (dho:Flory). Finally, we would state that our coat of arms has another charge,

D i gi tal He raldry

which is of type billetty (dho:Billety), again in the color gold (dho:Or), which has been put above (dho:covers) the first charge (dhd:Charge1). Listing 3: RDF statements that describe the ontology depicted in Fig. 17 @base . @prefix rdf: . @prefix rdfs: . @prefix dho: . @prefix dhd: . dhd:CoA1 rdf:type dho:CoatOfArms . dhd:CoA1 dho:hasGround dhd:Ground1 . dhd:CoA1 dho:hasCharge dhd:Charge1 . dhd:CoA1 dho:hasCharge dhd:Charge2 . dhd:Ground1 rdf:type dho:Plain . dhd:Ground1 dho:hasTincture dho:Gules . dhd:Charge1 rdf:type dho:CrossCharge . dhd:Charge1 dho:hasTincture dho:Or . dhd:Charge1 dho:hasStyle dho:Pommy . dhd:Charge1 dho:hasStyle dho:Flory . dhd:Charge2 rdf:type dho:Billety . dhd:Charge2 dho:hasTincture dho:Or . dhd:Charge2 dho:covers dhd:Charge1.

New Possibilities for Enquiry and Analysis

What we have established this way is not a description of a coat of arms per se. It is not a textual portrayal, but a digital representation of the very idea and concept of the particular coat of arms. As such, it can be queried and studied in a completely different manner. First, looking for an unknown coat of arms will be much easier. Independent from a specific language, we can use terms from different languages like cross, croix, or Kreuz in German which all refer to the concept dho:CrossCharge to retrieve coats of arms featuring a cross. Since the data is stored by the combination of URIs and not by strings, there are no typos as well which could distort the results. Moreover, we can start from whatever information we have. We can query, for instance, for coats of arms which feature a golden cross and a red field. As one of the results, among others, the coat of arms of the Seigneur de Villequier would be returned. Thanks to the thesaurus and its hierarchically modelled structure, we can also query and analyze the data on different levels of abstractions. If we have only a fragment of a coat of arms so that just a field of gold and the paw of a quadruped carnivore such as a lion, wolf or hound etc. is discernible, we can look for coats of arms with a quadruped carnivore on a golden field without having to test all the possibilities. This is true as well for plants, which are very similar in appearance but have quite different names. Instead of trying out all the different names such as trefoil, quatrefoil, cinquefoil, rose or others, to retrieve the coat of arms with a flower, we could look for coats of arms with a flower. Finally, it would also be possible to generate fuzzy searches. Within the model we are establishing, it is possible to state specific rules concerning the similarities

1 67

1 68

To r s t e n Hilt m an n & T h o m as R i ec h e rt

of concepts that are difficult to differentiate and thus are often mixed up. So, we could state that ‘bars’ and ‘barry’ are similar to each other, as are, from a certain number onwards, ‘billets’ and ‘billety’, or again ‘fleurdelisé’ and ‘patonce’ as further specifications of a cross. In our query, we could decide then whether to apply those rules or not in a search, meaning whether the machine should search for strictly what we entered, or also include any results that are similar to what we are looking for. Those new possibilities are even more far-reaching when it comes to the analysis of the gathered data. This implementation would, for the first time, allow us to study the composition of coats of arms in-depth with the help of a computer, since those data are not only machine-readable but also machine-understandable. Thus, we could analyze the distribution of different combinations of colors and charges and colors and groups of charges, calculate the percentage of differentiations, for instance, ‘langued’ for lions, or the proportion of such further differentiation for charges. This becomes particularly powerful in the context of linked data, when we can study those particularities of coats of arms and their distribution combined with the metadata of the objects those coats of arms have been found on, such as that pertaining to time and place. This could be done by mapping the coat of arms in our database to the unique identifiers of the different entries in databases such as the Corpus Vitrearum Medii Aevi Digital, the Deutsche Inschriften Online, Sigilla or Welfensiegel or the Ordinary of Medieval Armorials, and to automatically retrieve the data on dating and location. Alternatively, it would also be possible to include the URI for a particular coat of arms directly in the respective entries of a database, which would make the data retrieval even easier. Such an interlinkage of different entries in different databases, featuring a coat of arms with the same design, would enhance our potential to identify unknown coats of arms considerably. It would enable us to cross-reference data from complementary data sources and to place the different results in context. Moreover, it would allow us to combine data from additional sources. Seals and gravestones, for instance, often provide information about the bearer and the time and place of use but not about the tinctures used in the coats of arms, while armorials, on the other hand, provide information about the tinctures but no specific data on time and place and the particular bearer of a coat of arms. From the perspective of cultural history, this system would give us the opportunity to gather information about the use of heraldry and specific coats of arms (or groups of them) in very different media and contexts. This way, we could follow, for instance, the use of the coats of arms of the Nine Worthies in manuscripts, on wall paintings and objects of all kind, potentially (depending on our data) whole over Europe.58 This would allow us to establish a more accurate idea of the formation, transfer and dissemination of such groups of coats of arms, and thus of certain representations of literary concepts and ideas in medieval Europe. Finally, as part of the web of data, the data on coats of arms could also be studied in combination with data on persons, places and events.

58 See, for instance, W. van Anrooij, Helden van weleer. De Negen Besten in de Nederlanden 1300–1700, Amsterdam: Amsterdam Univ. Press, 1997.

D i gi tal He raldry

Challenges

However promising this may sound, this approach of course faces some severe challenges. In the last part of this paper, we want to mention some of them. For starters, we have to propose a model of heraldry, specifically one which has the potential to be accepted and shared by many specialists in the fields, in order to allow this new system to work. Since heraldry is an international concern, this is not an easy task, because heraldry has developed differently in different countries.59 For this reason there are concepts in one given language and culture which do not exist in others. Furthermore, in different heraldic cultures the same coats of arms may be conceived of very differently. Finally, this is also true on the level of individuals. Even the individual understanding of specific concepts may differ significantly, which makes it more challenging to work with sources or heraldic descriptions from different sources and authors. Since we are dealing with a historical phenomenon, changes over time have also occurred. This doesn’t matter when we only work with modern descriptions of coats of arms, but raises particular problems when we include the study of historical texts and historical blazon (as it is the case for armorials which do not feature any images but only textual descriptions). The term sinople in Middle French, for instance, indicated in the thirteenth century the color red, but changed its meaning from the fourteenth century to signify ‘green’.60 Depending on time and space, certain details in the depiction of a coat of arms could bear a certain meaning, or they could not. This is the case, for instance, for the color of the tongue of a lion, or how his tail is shaped.61 Those details didn’t convey any meaning in the thirteenth century, but became meaningful in the fourteenth and fifteenth century. Closely related to this is the problem of differentiating between artistic liberty and the representation of significant features. It is sometimes difficult to decide whether a specific detail is set to add to the meaning of the coat of arms, or only stems from the artist’s manner in depicting it. In the end, different individuals can interpret differently in different times and places, since they do not share the same model of heraldry. Finally, there are also coats of arms which defy the rules of blazon, i.e. which break with the idea of coats of arms being combinations of concepts. For instance, when the coat of arms in question is a picture rather than a coat of arms, or when heraldic devices stem from other sign systems like merchant marks, combinations of strokes and circles with no regulated language to describe them. In the end, heraldry and coats of arms are not that regular a system, nor are they based on transtemporal rules as it has been claimed all too often. 59 T. Hiltmann, ‘Heraldry as a Systematic and International Language? About the Limitations of Blazonry in Describing Coats of Arms’, in Heraldica nova. Medieval Heraldry in social and culturalhistorical perspectives (blog on Hypotheses.org), 25 May 2016, URL: (accessed 21 December 2017). 60 G. J. Brault, Early blazon. Heraldic terminology in the twelfth and thirteenth century with special reference to Arthurian literature, 2nd ed., Woodbridge: Boydell, 1998, p. 275. 61 G. Scheibelreiter, Heraldik, Wien: Böhlau, 2015, p. 49.

169

1 70

To r s t e n Hilt m an n & T h o m as R i ec h e rt

How can we deal with those challenges and overcome them? On the one hand, ontology engineering provides us with some possibilities to express vagueness and blurriness, and the possibility to limit the validity of a certain concept in space and time. Some of them can be directly adopted, but for other problems appropriate solutions to deal with vague, incomplete, and ambiguous historical data and the dynamics of historical development may still have to be developed. On the other side, we have to know more about the historical development of heraldic practices and heraldry as such, of temporal and geographic or cultural differences and changes. Thus, this approach to digitally represent heraldic data reveals the necessity of further basic research within the field of digital humanities, and the application of methods and techniques from Computer Sciences to the context of historical studies. But also the approach has an impact on heraldry as an auxiliary science, where it is necessary for us to no longer look for (assumed) universal rules, but rather for actual practices in their historical contexts.

Conclusion To sum up: In the first part of this paper, we identified different reasons why heraldry, despite its prominent role in medieval culture and communication, is still rarely included in studies on medieval and Early Modern culture and society. The mass of evidence, the heterogeneity of the media and the complexity of coats of arms and heraldry as such are apparently important obstacles to this. These obstacles are supplemented by the fact that the tools at our disposal are often difficult to use and outdated: a problem which heraldry shares with many other auxiliary sciences, such as sigillography or numismatics. The solution to this may lie in the use of the methods and techniques of Computer Sciences. Thus, in the second part of the paper, we established the current state of the art concerning the use of computer-based methods to describe and register heraldic information in historical sources. We started with standards and thesauri to describe and annotate texts and images, continued with general databases on cultural heritage, and finally studied different specific databases on coats of arms and heraldry themselves, as well as the theoretical discussions about possible ways to use computer-based methods for this. As a result, we have to conclude that there is no common standard and no sufficient way to digitally register coats of arms and their depiction. In thesauri and general databases, no distinction is made between information provided by the coat of arms (by its design and the way it is depicted) and the interpretation of this information (e.g. to read a certain way of representation solely as an abatement, or to identify the coat of arms without mentioning any reference). This may very easily lead to misunderstandings and mistakes in the analysis and further processing of those data. It is only in the databases explicitly construed for the registration of heraldic data that we find the design of the coats of arms registered in detail in a separate field, so that these data can be more easily extracted. However, the different approaches we reviewed here focused on the use of natural language in order to store and process heraldic data in the computer system,

D i gi tal He raldry

trying to formalize the syntax further to improve the possibility to parse these descriptions into computer-readable data. Mostly with the goal to transform the collected data in images again, to facilitate the entry and retrieval process, or just to store the data in a more accessible medium. We have shown that any approach using natural language has several shortcomings, that it is likely to be more error-prone, that it lacks practicability since it depends on a given natural language (English, French), and that its options for data retrieval and analysis are insufficient. Thus, in the last part of the paper, we proposed a new approach by using Semantic Web technologies. Seizing coats of arms not as texts but as concepts, this method allows us to overcome the described obstacles and shortcomings. This technique offers the possibility to study large amounts of complex data coming from different systems and repositories. In doing so, it opens up the collected material for new and exciting opportunities for analysis and research. This is true for the identification of unknown coats of arms as well as for studies in the perspective of cultural history. Stimulating new research in the field of Digital Humanities and creating a new need for more detailed studies in heraldry, focusing henceforth on the historical dynamics of heraldic practice instead of an assumed general system of rules with universal validity, this approach may eventually also give a significant push to the study of heraldry in particular and to auxiliary sciences in general.

17 1

Isabelle Guyot-Bachy

Conclusions

Porteurs et coordinateurs de TRANSSCRIPT, Michel Margue et moi devions à votre assemblée d’experts de prendre part, de la manière la moins illégitime, à ce premier colloque inscrit au programme du projet. Non sans une certaine naïveté, tirer les conclusions nous a paru – à distance – l’exercice le moins périlleux. C’est donc en nos deux noms que je vais essayer de rendre compte de vos contributions, riches par leur degré de réflexion et de prospective, par les compétences mises en œuvre dans des expériences déjà avancées ou achevées. Partons d’une prise de conscience relayée par plusieurs des communicants : depuis les années 80, une ère nouvelle s’est ouverte pour les médiévistes (Els De Paermentier). Ils y sont entrés pleins d’allant, livrant en ligne et à tout-va leurs matériaux bruts, les documents d’archives médiévaux. Plus qu’une tendance démultipliée, la pratique est aujourd’hui incontournable, encouragée par les institutions scientifiques, dispensatrices des financements. En quelques années, les Digital Humanities nous sont de la sorte devenues si familières que nous peinons à croire Eliana Magnani, lorsqu’elle en rappelle la date de naissance (2004), encore si proche. Les médiévistes ont été entraînés dans la spirale de l’accélaration du temps et, l’expérimentation précédant largement la réflexion prospective, ils ont multiplié les initiatives dans le domaine. Prenant avec TRANSSCRIPT notre tour et notre part de ce mouvement, l’heure nous a semblé venue de partager une question : l’entrée dans l’ère nouvelle des humanités numériques, par le biais plus spécifique de l’édition en ligne, constitue-t-elle pour le métier d’historien une simple « revisite » ou une « révolution » ? Pour comprendre ce nouveau contexte, remémorons-nous d’abord quelle était la situation avant, autrefois. À l’ère pré-digitale (pour reprendre l’expression de Georg Vogeler à propos des « Medieval studies in the pre-digital era »), notre carte mentale, notre « ontologie » d’historien, était formatée par l’usage du livre/codex ; notre approche et notre pratique de l’édition des documents devaient tout aux préceptes de l’École méthodique, notre travail d’interprétation tenait du courant des Annales que « l’Histoire est un récit ». Ces conclusions se contenteront de passer en revue les trois étapes de notre métier, telles que décrites ci-dessus, et d’envisager à partir de

Isabelle Guyot-Bachy  Université de Lorraine, CRULH, F-54000 Nancy, France Digitizing Medieval Sources – L’édition en ligne de documents d’archives médiévaux : Challenges and Methodologies – Enjeux, méthodologie et défis, éd. par Christelle Loubet, Turnhout, 2019 (Atelier de Recherches sur les Textes Médiévaux, 27), p. 173-178 © FHG10.1484/M.ARTEM-EB.5.117335

1 74

is a be l l e guyot- b ac h y

vos contributions et des réflexions qu’elles inspirent, les perspectives, les prérequis, les limites de leur reconfiguration à l’ère digitale. La première étape est celle qui mène l’historien du dépôt d’archives, gardien des documents médiévaux, à l’édition de ceux-ci. À l’ère « pré-digitale », cette étape nécessitait des consultations sur place, précédées de recherches dans des catalogues, complétées par des échanges épistolaires avec les archivistes. Une étape assurément coûteuse en temps et en argent. Au xxie siècle, l’historien dispose d’inventaires en ligne pour préparer son travail et de grandes entreprises de numérisation ont déjà mis à sa portée, sans qu’il n’ait plus besoin de longs déplacements, un nombre considérable de documents d’archives et de manuscrits. Jean-Philippe Genet a donné un aperçu de ces nouveaux espaces documentaires mais a également montré, à travers l’exemple du De Regimine Principum de Gilles de Rome, les déconvenues que pouvait connaître celui qui cherchait à s’y orienter : système de renvoi de site à site insatisfaisant ; décalage entre les cotes transmises par la tradition archivistique et les nouvelles numérotations attribuées aux documents dans le programme de numérisation. Il nous a mis en garde contre l’illusion séduisante des bibliothèques virtuelles, toujours incomplètes car en actualisation constante. Les questions de référencement, de pérennisation des adresses URL, freinent la fluidité attendue d’une recherche en ligne. Quant à l’accès payant à des bases de plus en plus onéreuses, il risque de réduire drastiquement le nombre des utilisateurs. Pour explorer les territoires documentaires, le dialogue avec les responsables des fonds d’archives reste – et il faut s’en réjouir – obligé. C’est là l’un des principaux apports de la table ronde qui a réuni à l’occasion de ce colloque des historiens et des conservateurs1. La connaissance que ces derniers ont des fonds, leur autorisation nécessaire pour l’accès aux documents en fonction de leur état de conservation, les placent, aujourd’hui plus qu’hier d’une certaine manière, en position de cheville-ouvrière d’un travail éditorial dont ils ont de plus en plus souvent l’initiative. Laurent Hablot a rappelé ce que le lancement de SIGILLA devait à une demande des archives de la Vienne pour la mise en ligne des pièces scellées. Cependant, la mise en ligne des documents confronte les responsables de fonds d’archives à deux problèmes inédits : celui du rapport à l’usager invoquant son droit à la communication et celui du financement de la numérisation. La gestion quotidienne, en tension entre la demande exubérante des généalogistes et le souci de valorisation de documents plus récents, a des répercussions sur la manière dont sont perçus les projets de la médiévistique « digitalisée ». Pour le dire brièvement, les collectivités n’ont pas d’argent pour la numérisation ou, quand elles en ont, préfèreront valoriser la correspondance des « poilus » plutôt que des chartes princières du xiiie siècle. Le problème du financement peut être en partie résolu par l’élaboration de projets de recherche financés, sous réserve de faire du dialogue avec les dépôts de conservation – et avec les politiques qui sont leurs tutelles et leurs financeurs − le



1 Étaient présents Noé Wagener (UPEC), Nadine Zeien (Archives nationales du Grand-Duché de Luxembourg), Jean-Éric Iung (Archives départementales de Moselle), François Petrazoller (Archives départementales des Vosges), Bertrand Gaiffe (ATILF – Université de Lorraine).

co nclu si o ns

centre névralgique du travail éditorial. Car, et c’est une différence notable par rapport à la fin du xixe siècle, lorsque se mit en place la complémentarité des tâches entre archivistes et éditeurs/historiens, la mise en ligne fait aujourd’hui sortir virtuellement le document du dépôt d’archives. L’association des responsables et spécialistes de la conservation et leur participation active à la valorisation du patrimoine, dont ils sont les garants au nom et au profit de la collectivité, sont donc les conditions indispensables de la fondation d’un nouveau contrat. Car les bénéfices que les dépôts d’archives peuvent espérer, en termes d’informations sur la documentation dont ils ont la charge dans un contexte de dispersion quelques fois extrême des fonds, sont immenses. Les exemples donnés par Laurent Hablot à propos de SIGILLA, mais également par Armand Jamme dans le cadre de GEMMA, en attestent parfaitement. Puissent ces perspectives aider à lever les dernières réticences et à trouver un équilibre entre les bonnes pratiques et les exigences de la législation. L’exemple du Luxembourg, présenté par Nadine Zeien, a montré combien la proximité entre les décideurs politiques, les conservateurs, les éditeurs et historiens permettaient d’aller plus vite vers l’Open Data. En France, nul doute que les lois n° 2015-1779 du 28 décembre 2015, relative à la gratuité et aux modalités de la réutilisation des informations du secteur public, et no 2016-1321 du 7 octobre 2016 pour une République numérique, qui ont largement modifié le cadre juridique de la réutilisation des informations publiques, vont offrir à l’avenir, grâce à la licence ouverte2, un contexte de partenariat plus encourageant. Venons-en maintenant à la seconde étape du travail éditorial. Au xixe siècle, il s’agit de transcrire le texte du document, en indiquant les variantes repérées dans l’ensemble de la tradition manuscrite, de l’assortir de notes historiques, de composer des indices nominorum/locorum/rerum et un éventuel glossaire, de donner enfin à l’ensemble une solide introduction érudite. Ce sont autant d’opérations qui, en dotant le document d’un apparat critique et d’outils, préparent le travail de l’historien, mais sans en présupposer les problématiques et les lectures. L’édition en ligne a d’emblée repris à son compte ces exigences. Mais elle a dû les traduire dans un nouveau langage, qui passe par l’encodage des données. Dans ce domaine, l’émergence de plusieurs « écoles » souligne l’existence d’un espace de réflexion. Jean-Philippe Genet a plaidé pour un langage « naturel » avec des règles simples qui structurent l’information. Ce langage permet un fichier exportable sous Excel et offre la possibilité de retravailler les fiches. Le langage XML/TEI, évoqué dans de nombreuses communications, semble aujourd’hui un outil reconnu, adopté par tous. Il pose cependant quelques difficultés (normalisation des noms de personnes et de lieux dans des corpus multilingues), mais elles ne sont pas insolubles. Ce langage, d’un niveau technique accessible à tout chercheur, se révèle en revanche chronophage. L’historien/éditeur apprécie le développement d’outils destinés à faciliter le passage d’un texte « naturel » (sous Word) à un texte traduit en XML/ TEI, sans passer – ou en passant à moindres frais – par l’étape de l’encodage. Dans le cadre TRANSSCRIPT, cette opportunité qu’elle offre nous a fortement incités à nous rapprocher de la plate-forme TELMA. 2 .

17 5

176

is a be l l e guyot- b ac h y

Vient ensuite la question du référencement. Repartons des trois catégories proposées par Jean-Philippe Genet qui déterminent finalement des types d’édition en ligne. Le référencement interne renvoie à une pratique éditoriale minimale, une sorte d’édition papier présentée sous forme numérique, accompagnée d’une photographie. Le référencement externe vise à l’interopérabilité, un idéal inatteignable si l’on en croit toujours Jean-Philippe Genet, pour des raisons liées aux stratégies scientifiques autant qu’aux choix présidant à la réalisation de bases qui ont chacune une histoire, qui n’ont pas été toutes réalisées avec les mêmes moyens techniques, humains, financiers. La réussite de ce second type de référencement présuppose une mise à niveau des bases et des règles communes assez strictes, auxquelles la liberté éditoriale, comme démarche intellectuelle, se contraint mal. Le référencement intégré, tout en recourant à l’usage de l’XML/TEI pour encodage, propose de le dépasser et d’intégrer les ressources RDF (Resource Description Framework) dans un projet de Semantic Web. C’est ce à quoi nous ont invités Georg Vogeler et Torsten Hiltmann, dans des contributions fascinantes et vertigineuses à la fois. Autant que j’ai pu le comprendre, il s’agit ici d’employer un nouveau langage, renvoyant non plus à des termes mais au contenu derrière ces termes. Ce qui suppose que ces termes soient abordés sous l’angle de concepts ou de relations, que l’on modélise des faits simples, en vue d’élaborer une conceptualisation des connaissances. Il s’agit ni plus ni moins d’une modélisation de la connaissance (ontologie). Cette approche est fascinante car sa mise en œuvre permet de représenter le contenu en « relief », tel que les hommes du passé l’ont vécu et non plus dans la surface « plane » et « close » sur elle-même du « texte ». Fascinante encore, la modélisation ouvre vers l’infini les champs du possible. Elle semble donner les moyens techniques et conceptuels à l’ambition de restituer un savoir global et de le dominer (on pense aux encyclopédistes du xiiie siècle). Avant de céder au vertige, osons une question : à quel moment passe-t-on du travail « éditorial » à la production de l’étude historique ? Le graphe est-il seulement le terme des opérations éditoriales, le produit fini l’étude historique ou un kit de matériaux dont chacun pourra s’emparer pour construire son propre discours historique ? Le « Do it yourself » ne risque-t-il pas de repousser toujours plus loin (jusqu’aux calendes grecques ?) le temps de l’interprétation et de la construction du discours historique ? Le grand apport du travail éditorial initié dans la seconde moitié du xixe siècle était de laisser sa validation ou sa remise en question à d’autres que celui qui l’avait produit. L’édition était conçue comme le préalable d’enquêtes historiques, un réservoir de matériaux propres à la construction d’un récit historique authentifié par la preuve documentaire. Dans le cadre d’une division bien affirmée des tâches, les archivistes-paléographes et les historiens constituaient une communauté scientifique étroite, mais à qui avait été dévolu le rôle social de construire un récit national ou, plus généralement, de dire l’histoire telle qu’elle s’était vraiment passée. L’édition numérique, par la multiplication des supports et la multiplication induite des possibilités de lectures différentes (E. Magnani) mondialise une communauté scientifique, dont elle floute en même temps les contours. Le Net est à tout le monde ! Le travail éditorial est mis à la portée de tout un chacun. Bien plus, les éditeurs-historiens doivent répondre à la nouvelle demande sociale : rendre accessible au citoyen, matériellement

co nclu si o ns

et intellectuellement, les documents médiévaux, sortis « virtuellement » des dépôts de conservation. On a dit les réticences que suscite une accessibilité matérielle du document d’archives via le téléchargement. L’appropriation serait vécue comme une menace, une dépossession. Mais promouvoir la science citoyenne, ne serait-ce pas plutôt entrer dans la perspective évoquée par Antonella Ambrosio, dans laquelle l’utilisateur est mis par l’éditeur en position de se « réapproprier » le document? Cette perspective ambitieuse impose ses contraintes propres, à commencer par celle de devoir tenir compte du point de vue de l’utilisateur. Dans le panorama des éditions comptables dont Armand Jamme a donné un aperçu, l’Edition des steirisch-landesfürstlichen Marchfutterurbars von 1414/1426 met à disposition plusieurs couches d’information, correspondant aux centres d’intérêt des différents profils de lecteur. À l’égard de la communauté scientifique, le travail éditorial doit être clairement « introduit », avec la même rigueur que pour les éditions traditionnelles. D’où l’importance de la page d’accueil, où sont exposés l’état de l’art et les attendus du projet, les choix faits dans le corpus documentaire, les éléments valorisés dans l’encodage … Il convient de partager les clefs de l’édition numérique pour ouvrir les voies de futures recherches, en permettant de remonter le processus de construction de la source ou d’entrer en contact avec l’éditeur de tel document précis. Les expériences rapportées par les uns et les autres ont insisté sur la valorisation progressive du projet. Sur le court terme, elle passe par la production de billets, de carnets de recherche, même si la gestion de ces nouveaux media du dialogue scientifique est chronophage ; à moyen terme, tous les projets ont fait une part importante aux rencontres scientifiques ; sur le plus long terme, on se réjouit des thèses engagées, qui s’appuient sur le travail éditorial, en recueillent et en valorisent les premiers fruits, participent de manière active à son amélioration technique et heuristique. À l’égard du grand public, le service à rendre est différent. Il s’agit d’ouvrir avec pédagogie les portes d’un document, qui, à disposition sur la toile, n’en demeure pas moins obscur. Je relève çà et là des initiatives intéressantes : un système interactif qui permet d’obtenir des informations en cliquant sur une partie du document ; une cartographie associée ; la présentation d’un document du mois. Reste la question, plus délicate, de l’élargissement de la collaboration au-delà de la communauté scientifique. Jusqu’où aller ? La gestion du blog, des commentaires mis en ligne, doit trouver un juste équilibre pour faciliter un dialogue raisonné avec l’utilisateur, en fonction de son profil. Avec le xxie siècle nous est venue l’ambition de reproduire le document dans toutes ses dimensions et de donner des clefs pour l’interpréter. Avons-nous pris la mesure des multiples tâches nouvelles que l’édition numérique supposait entre le travail du diplomatiste et celui de l’historien ? Moissonnage, encodage, conception de moteurs de recherche, modélisation des données pour laquelle le besoin de logiciels spécifiques a été souligné. L’historien du xxie siècle peut-il vraiment assumer trois métiers : diplomatiste – informaticien – historien ? Face à ce « travail de titan » (L. Hablot), qui suppose des forces humaines, des compétences technologiques, qui entraîne des coûts, sans parler des contingences institutionnelles et juridiques qui ont été relevées par nombre d’entre vous comme autant de freins aux projets, le risque du découragement guette.

17 7

1 78

is a be l l e guyot- b ac h y

Pour y remédier, nombre des communicants ont prôné les vertus de l’édition collaborative. Elle renvoie en premier lieu à un partage de compétences au sein d’une même équipe éditoriale : le paléographe, le diplomatiste, l’informaticien et l’historien travaillent ensemble. Si le décloisonnement est heureux, il nécessite de fournir des outils intuitifs qui permettent à chacun de déployer ses compétences sans quitter un environnement familier. Néanmoins, la présence ou non d’un informaticien dans l’équipe, capable de comprendre les attentes scientifiques de celle-ci, est déterminante dans la bonne marche du projet. Elle pose la question du recrutement et de son financement. Contrairement à ce que pourrait penser le simple citoyen ou le décideur politique, la mise en ligne n’est pas une façon d’économiser du temps de travail ou de l’argent. Ce n’est pas d’abord une question de rentabilité. On peut regretter que dans la pratique, les solutions bricolées dominent. Elles reposent beaucoup sur la ténacité des porteurs, aux limites de la surcharge, sur des emplois contractuels précaires et sur la disponibilité généreuse de collaborateurs associés. Cette situation suggère d’investir pour l’avenir dans la formation. De même qu’à la fin du xixe siècle, on prit l’heureuse habitude de former les jeunes historiens à la diplomatique, à la paléographie, à la critique documentaire, de même devons-nous aujourd’hui intégrer dans nos maquettes l’apprentissage des outils et des méthodes de l’édition numérique. Mais plus généralement des ressources humaines doivent être prévues dans les programmes développés ou soutenus par les Très grands équipements, tel Huma-Num. Ces infrastructures, mises en place par la volonté politique, peuvent, seules, offrir les conditions d’une pérennisation et d’une amplification du travail. Reste à convaincre que la mise en ligne de documents d’archives médiévaux est un service public indispensable : non seulement parce qu’elle rend plus accessible la connaissance des sources et les possibilités d’enquêtes à partir d’elles, mais parce qu’elle rend accessible des sources qui ne le sont plus, participe à leur préservation, à la pérennisation raisonnée de leur visibilité. Même si la question peut être posée : l’image d’un original est-elle encore l’original ?

Table des matières

Introduction Christelle Balouzat-Loubet

5

Le référencement Jean-Philippe Genet

7

Juggling (Meta)Data. A User’s Assessment of Online Medieval Charter Editions Els De Paermentier

23

Digital Edition of Archival Material – Machine Access to the Content. On the Role of Semantic Web Technologies in Digital Scholarly Editions Georg Vogeler

37

Des chartae au Corpus. La plateforme des CBMA – Chartae/Corpus Burgundiae Medii Aevi Eliana Magnani

57

Digital Critical Editions of Medieval Documents on Monasterium.Net. The Digital Edition of the Documents of the Abbey S. Maria Della Grotta Antonella Ambrosio 69 Le projet « transfrontalier » TRANSSCRIPT. Une base de données plurilingue pour les actes des ducs de Lorraine et des comtes de Luxembourg (xiiie-xive siècle) Laura Gili-Thébaudeau & Timothy Salemme

85

The New Edition of the Frankish Capitularies. Accommodating Digital and Print Edition Sören Kaschke

107

Publier des comptes en ligne. L’expérience Gemma Armand Jamme

117

1 80

ta bl e d e s m at i è r e s

Le programme SIGILLA, base de données nationale des sceaux des archives françaises Laurent Hablot

129

Digital Heraldry – The State of the Art and New Approaches Based on Semantic Web Technologies Torsten Hiltmann & Thomas Riechert

143

Conclusions Isabelle Guyot-Bachy

173

Table des matières

179

Table des illustrations

181

Table des illustrations

Figure 1 : Les bibliothèques et la numérisation des manuscrits de Gilles de Rome 14 Figure 2 : Graph based visualisation of cases in which the city administraiton threatens further punishment to male and female offenders from the Urfehdebuch X der Stadt Basel, 15631569 (Christopher Pollin) 52 Figure 3 : EditMOM3 – Photograph and editing environment (Edition by Vera Isabell Schwarz-Ricci) 74 Figure 4 : EditMOM3 – XML visualization (Ed. by V. Schwarz-Ricci) 75 Figure 5 : EditMOM3 – Photograph visualization 76 Figure 6 : EditMOM3 – Photograph visualization 76 Figure 7 : EditMOM3 – Text selection and drop-down menu (Ed. by V. Schwarz-Ricci)77 Figure 8 : EditMOM3 – Refined encoding (Ed. by V. Schwarz-Ricci) 77 Figure 9 : EditMOM3 – Refined encoding (Ed. by V. Schwarz-Ricci) 78 Figure 10 : VIAF : capture d’écran des résultats de recherche pour Ferry III, duc de Lorraine 92 Figure 11 : Détail de l’encodage d’un acte en XML/TEI à l’aide de l’éditeur Oxygen® (Cote de l’acte encodé : Nancy, Archives départementales de Meurthe-et-Moselle, B 568 n.° 11) 101 Figure 12 : Base de données TRANSSCRIPT : capture d’écran du formulaire de saisie TELMA pour l’utilisateur accrédité 104 Figure 13 : Base de données TRANSSCRIPT : capture d’écran d’une notice en ligne (publiée) 105 Figure 14 : Capitulary no. 188 in different manuscripts 110 Figure 15 : Capitularia Collation Dashboard 114 Figure 16 : Collation of Capitulary n° 139, ch. 13 115 Figure 17 : Dedication picture in Hektor Mülich’s copy of the Augsburger Stadtchronik (1457), Augsburg, Staats- und 145 Stadtbibliothek, Codex Halder 1, fol. 4v (image: BSB Munich). Figure 18 : The coat of arms of Sir Ernoun of Appelby: Azure, semy of martlets Argent, in the Powell Roll, Oxford, Bodleian Library, MS Ashmole 804, pt. IV, p. 37 (image: Bodleian Library, Oxford). 148 Figure 19 : Several medieval depictions of heraldic lions and colors 163

1 82

ta bl e d e s i l lu s t r at i o n s

Figure 20 : The different layers of the coat of arms of the family de Villequier (modified image from: New Haven, Yale University Library, Beinecke ms 648, fol. 8v).164 Figure 21 : The digital representation of the coat of arms of the family de Villequier, provided by the means of Semantic Web technologies 166