Une collection audio libre de 16 000 mots ukrainiens ajoutée au Projet Shtooka

samedi 10 mai 2008
 Laure PESKINE

Une information de Linuxfr.org

Le Projet Shtooka vient de mettre à disposition des internautes une collection audio libre de 16 000 mots ukrainiens. Cette collection est publiée sous licence libre Creative Commons BY (Attribution). De plus ont été enregistrés fin mars près de 8000 mots biélorusses.

Le Projet Shtooka vise à constituer un ensemble de bases de données audio linguistiques afin de développer des outils logiciels pour l’apprentissage des langues étrangères.

Le nombre total d’enregistrements libres sur le serveur atteint maintenant le chiffre de 75 000. La « Collection audio libre de mots français » a, par exemple, doublé de taille depuis sa création. Malgré tout, il est à regretter que l’espagnol et l’allemand - qui sont pourtant deux langues fortement enseignées en France - restent si mal représentées.

Il s’agit en fait d’un euphémisme, puisque nous n’avons toujours pas un seul enregistrement en espagnol. Avis aux amateurs !

Le récit de Nicolas qui participe au projet Shtooka :

Les langues Slaves de l’Est bien représentées

Fin mars, donc, je me suis rendu en Biélorussie : train de nuit Moscou-Minsk. Billet à 700 roubles.
J’y ai rencontré Igor, avec qui j’étais en contact par internet (via le site Unilang.org).
Le lundi nous sommes passés à la faculté des lettres (la "Philfac"), au département "Biélorusse" de l’université d’État.
Nous avons pu ainsi prendre contact avec Julia et Dasha pour qui le biélorusse est la langue maternelle.
Il faut dire qu’à Minsk les russophones sont en fait l’écrasante majorité.
Nous avons pu procéder à l’enregistrement de mots, la plupart tirés du fameux dictionnaire "Boulyka", directement dans les amphis (plutôt bruyants) de l’université.
En fin de semaine je suis rentré à Moscou, pour repartir à peu près aussitôt à Kiev. J’ai pu loger à la cité-U de l’université Taras Chevtchenko grâce aux accords avec l’université d’État de Moscou.
Avec Galja, une femme d’une cinquantaine d’années, nous avons travaillé un peu moins de 3 heures par jour du lundi au vendredi sur l’enregistrement de la collection ukrainienne.
J’étudie moi-même l’ukrainien, et j’avais vraiment besoin de ces enregistrements pour m’aider à apprendre du vocabulaire.
Je suis rentré à Moscou, avec dans mes valises, en plus de mon matériel d’enregistrement audio, une collection de 16 000 mots ukrainiens. Voilà, le Libre est aussi des voyages.

La collection audio libre de mots français

La collection de mots français quant à elle continue à s’enrichir d’enregistrements supplémentaires.
En plus du paquet principal, qui contient maintenant près de 15 000 mots et expressions, il y a aussi une collection de 600 expressions idiomatiques ainsi qu’une collection d’adjectifs numéraux que nous avons enregistré avec Flora (pour changer de voix).
J’utilise ce matériel audio dans le cadre de mes cours du soir de FLE au Centre Culturel Français de Moscou (les étudiants ont accès à un petit site internet avec, entre autres, une fiche de vocabulaire audio pour chaque leçon).
Cela me permet d’ailleurs de rassembler les expressions manquantes et de les enregistrer au fur et à mesure.
J’ai également été contacté par des gens d’un autre projet libre qui travaillent dans le domaine des TICE, le projet Wims, qui désirent utiliser les bases audio libres dans leurs exercices.
Nous travaillons donc ensemble depuis un petit mois grâce - entre autres - à la toute nouvelle liste de diffusion du Projet.

Les utilisateurs de GNU/Linux oubliés

Shtooka.net, c’est maintenant 75 000 fichiers audio, rassemblés, "tagués", librement téléchargeables et réutilisables (dans 10 langues différentes)... mais ce sont aussi quelques petits logiciels qui permettent de tirer partie de ce matériel audio.
Cependant, si le "Kit Shtooka" (ensemble de programmes pour Windows) se porte bien, j’ai eu quelques retours positifs d’enseignants qui l’utilisent dans le cadre de leurs cours ; en revanche, les logiciels pour GNU/Linux du Projet Shtooka sont soit inexistants, soit franchement mauvais.

J’ai donc commencé à travailler un peu plus sérieusement (malgré mon incompétence) sur de nouveaux logiciels basés sur GTK+, Sqlite, Expat... enfin sur des outils libres et standards.
Cela permettra également à d’autres logiciels, le fameux dictionnaire StarDict par exemple, d’intégrer facilement ces enregistrements sonores (je suis en contact avec son auteur).

Tous à vos micros !

Si cette dépêche est écrite à la première personne et non pas à la troisième, dans un style impersonnel, c’est pour ne pas donner l’impression que le Projet Shtooka ce serait des dizaines de personnes.

Je vais donc terminer cet article, comme d’habitude, par une invitation à venir nous aider. Il y a des dizaines de manières de le faire, que l’on soit graphiste, développeur logiciel ou développeur web, professeur de langue ou simplement étudiant !

Alors, à très bientôt !


Laure PESKINE

Professeurs de langues : contribuez au projet Shtooka en le faisant connaitre et en invitant les locuteurs natifs que vous connaissez à "prêter" leur voix !

Présentation du projet Shtooka sur le site APLV-Langues Modernes


Le Projet Shtooka