Pour qu’un corpus puisse être interrogé informatiquement, il doit être annoté. Le travail d’annotation, extrêmement long et rigoureux, implique d’identifier chaque signe par une étiquette unique. Cette étiquette ou glose glose unique (« ID-gloss » en anglais) permet de retrouver à travers tout le corpus toutes les occurrences d’un même signe, ou plus précisément d’un même lemme (un lemme rassemble toutes les variations morphologiques d’un signe, comme l’infinitif en français qui rassemble, dans le dictionnaire, toutes les formes conjuguées d’un verbe).
La glose unique d’un signe ne doit absolument pas être confondue avec la traduction française du signe. La glose pourrait être un nombre, ou n’importe quel symbole arbitraire. Cependant, pour la facilité du processus d’annotation, des mots (ou combinaisons de mots) français ont été utilisés comme gloses ; elles sont écrites en majuscules.
Plus de 10 heures de vidéos sont à ce jour annotées signe par signe. Ces annotations sont disponibles pour ceux qui sont enregistrés sur le site. Lorsqu’une vidéo est annotée, le nom de la tâche contient la mention « avec annotation » (affichage en liste) ou la mention « (A) » (affichage en boutons).
Les signes qui ne sont pas totalement lexicalisés (c’est-à-dire les signes couramment désignés comme « iconiques » et dont le sens dépend du contexte) sont provisoirement annotés par le code « DS », pour « depicting sign »*. A l’avenir, ils seront complétés par une description de leur sens en contexte.
Les signes lexicalisés repérés dans les 10 heures de vidéos annotées sont rassemblés dans la base lexicale (Lex-LSFB) disponible également sur le site. Cette base lexicale n’est pas un dictionnaire. Il s’agit d’un répertoire de l’ensemble des signes rencontrés dans les vidéos annotées, associés à leur glose et à des sens possibles en français. Cette base lexicale s’enrichira régulièrement avec le développement de l’annotation du corpus.
Grâce à ces annotations, liées à la base lexicale, il est possible de faire des recherches dans les vidéos à partir des gloses des signes ou des mots-clés français qui leurs sont associés dans la base (ex : quelles vidéos utilisent le signe JUSTE ? quelles vidéos contiennent des signes signifiant « précis » ou « exact » en français ?)
* Voir les conventions d’annotation du corpus de langue des signes australienne (Auslan) : Johnston, Trevor, Auslan Corpus Annotation Guidelines, http://media.auslan.org.au/attachments/Johnston_AuslanCorpusAnnotationGuidelines_14June2014.pdf (dernière mise à jour : 2014)