| www.inuktitutcomputing.ca contact |
L'analyseur morphologique de l'inuktitut du CNRC est un
programme Java développé dans le Groupe
d'information interactive de l'Institut de technologie de l'information
(ITI) du Conseil national de recherches du Canada (CNRC), qui décompose
un mot Inuktitut en ses morphèmes,
c'est-à-dire, sa racine,
ses suffixes
et sa terminaison
grammaticale. L'information lexicale à la base de
l'analyseur morphologique consiste de quelque 2000 racines, plusieurs
centaines de mots lexicalisés (sorte
de radicaux complexes fixes combinant une racine et un ou deux
suffixes), plus de 330
suffixes, 300 terminaisons nominales
et 1200
terminaisons verbales contenus dans une base de
données que nous avons créée. La
majeure partie de
cette information lexicale provient des ouvrages de Ken
Harper, Alex Spalding, Lucien Schneider, Mick Mallon, et Louis-Jacques
Dorais. Veuillez vous référer à
cette bibliographie pour une liste complète de nos
références linguistiques. Les règles
phonologiques des divers dialectes sur les groupes de consonnes (kt
> tt, par exemple) ont été
incorporées. Les dialectes reconnus par notre analyseur sont
ceux d'Aivilik, Kivalliq, la Terre de Baffin du nord et du sud, et le
nord du Québec. La loi de Schneider, qui s'applique au nord
du Québec, a aussi été
incorporée.
La version actuelle de l'analyseur morphologique de l'inuktitut peut
décomposer avec succès plus de 95% des
mots les plus fréquents trouvés dans les Hansard
du Nunavut et dans les pages inuktitut de l'internet. Nous
continuons à travailler activement à augmenter
les performances de l'analyseur morphologique de l'inuktitut par
l'addition de racines et d'suffixes et d'informations pertinentes sur
ces morphèmes.
L'analyseur peut retourner plus d'une décompositions pour un
mot donné; typiquement, la bonne décomposition se
trouve parmi les premières au début de la liste,
souvent en première position. Il arrive qu'un certain nombre
de décompositions retournées par l'analyseur ne
devraient normalement pas l'être. Ceci est dû
à plusieurs facteurs dont l'ambiguïté
lexicale entre certains morphèmes de même forme et
de même comportement morphophonologique, l'absence
de contraintes sur ce qui peut ou doit suivre ou
précéder certains morphèmes, et
l'absence de certains morphèmes.
Aller à une application Web de l'Analyseur Morphologique Inuktitut
Téléchargez une présentation Power Point sur l'Analyseur Morphologique Inuktitut faite à Iqaluit en février 2005.
Nouveau ! L'analyseur morphologique Inuktitut est maintenant disponible en version programmatique.
Définition de mot Inuktitut est une application de l'Analyseur Morphologique Inuktitut qui retourne la décomposition d'un mot Inuktitut sélectionné dans une page internet. Cette application est accessible par un LIEN qui doit être placé sur la BARRE DE LIENS de votre navigateur.
* Définitions en français: tous les mécanismes sont en place pour offrir les définitions en français. Cependant, étant donnés la nature "de recherche" du projet et le manque de temps et de ressources, les versions françaises des sens des racines n'ont pas pu toutes encore être entrées dans la base de données. Par conséquent, le cas échéant, le mot null apparaîtra dans la case 'Signification' de la racine.
Pour ajouter le lien ‘Définition de mot Inuktitut‘ dans votre navigateur, cliquez ici et suivez les étapes d'installation très faciles.
Exemple d'un cliché d'écran:
|
|
|
Démo
Pour que vous puissiez avoir une idée de ce que fait cette application, nous avons préparé une page de démonstration avec une sélection de mots inuktitut sur lesquels on peut cliquer directement pour obtenir leur décomposition sans devoir installer le lien sur votre navigateur.
Caractères syllabiques
De façon à ce que les caractères syllabiques Inuktitut puissent être affichés correctement, vous aurez besoin d'une police de caractères syllabiques Inuktitut Unicode. Si vous n'en avez pas dans votre ordinateur, vous pouvez en obtenir une à polices Inuktitut.
Avertissement:
| Cette application utilise un parseur HTML Java pour déterminer la police de caractères utilisée pour afficher le texte inuktitut syllabique dans une page internet. Malheureusement, ce parseur ne pardonne pas facilement et pour cette raison, lorsque le codage HTML d'une page n'est pas orthodoxe, il pourrait ne pas être capable de déterminer quelle police de caractères a été utilisée, ce qui résulterait en l'incapacité de décomposer le mot sélectionné. |