DHCenter - logo

Cours pour les doctorant·e·s des universités de Bâle, Berne, Fribourg, Genève, Neuchâtel et Lausanne ainsi que de l’EPFL (les chercheurs et chercheuses post-doc peuvent faire une demande).

Avec : Simon Gabay, Berenike Herrmann, Simone Rebora, Elias Kreyenbühl

La lecture distante (distant reading), portée par le développement du numérique dans les sciences humaines, s’est imposée comme une des approches les plus prolifiques des textes littéraires. Les cartes, les graphiques et les arbres, pour reprendre les mots de Moretti (2005), nous permettent en effet de relire les œuvres les plus célèbres d’une manière inédite, ou de nous pencher sur des textes jusqu’alors oubliés. Ces études nouvelles ne reviennent cependant que trop peu sur l’acquisition des données à observer : d’où viennent-elles ? Comment sont-elles construites ?

La présente école se propose de revenir sur l’étape cruciale de l’acquisition des données, en revenant dans le détail sur leur chaîne de production. Nous commencerons par l’OCR (optical character recognition, reconnaissance optique de caractère), qui permet de transformer un jeu d’image en un texte exploitable, en dépit des difficultés introduites par la variation des systèmes graphiques ou la matérialité des artefacts anciens. Le second temps – décisif – est celui de l’encodage en XML-TEI, qui transforme le texte en base de données exploitable et permet d’ajouter un surcroît d’information au texte (auteur, genre, période). Le troisième et dernier temps est celui de l’analyse avec R, qui permet de tester des hypothèses par l’analyse et la visualisation de données.

Fortement tournée vers la pratique, cette école voudrait jeter les bases d’un premier corpus suisse multilingue (français, italien et allemand). Sa construction au cours de l’école sera l’occasion de discuter de ces enjeux.

Informations

 

 

03 Oct 2021
In-person conference

United Nations World Data Forum 2021 in Bern

29 Jun 2021
In-person course/workshop

Summer School UNIL EPFL : Digital Methods in the Humanities and Social Sciences

14 Jun 2021
In-person course/workshop

UNIL/EPFL continuing education course on “Internet: Social and political issues”

10 May 2021
In-person conference

Humanistica 2021