Moteur de recherche Inuktitut du CNRC

www.inuktitutcomputing.ca       contact


Ce moteur de recherche inédit pour la langue inuktitut permet de retrouver du texte inuktitut dans les pages internet, quels que soient le jeu de caractères et la police de caractères utilisés pour afficher les caractères syllabiques. De plus, pour accomoder l'utilisateur, le texte à rechercher peut être écrit de plusieurs façons: syllabique avec les polices Nunacom, ProSyl et AiPaiNunavik; syllabique Unicode; alphabet latin. Des caractères de remplacement sont disponibles. On a aussi la possibilité d'utiliser des opérateurs booléens (ET, OU, NON) dans des expresssions de recherche plus avancées.

Pour plus d'information sur la façon d'utiliser le moteur de recherche, allez à cette page.

Pour utiliser le moteur de recherche, allez à cette adresse.

Pourquoi un moteur de recherche Inuktitut?

PARCE QUE le syllabaire canadien unifié Unicode n'est pas reconnu partout

Plusieurs moteurs de recherche populaires actuels ne reconnaissent pas les caractères Unicode du syllabaire unifié canadien comme des caractères de mots. Si vous tentez par exemple de chercher avec Google ou Yahoo! le mot  , vous n'obtiendrez aucun résultat.

PARCE QUE plusieurs encodages sont utilisés

À l'origine, le texte inuktitut était (et est encore souvent) affiché avec une police de caractères dite archaïque à 7 ou à 8 bits, telle que ProSyl et Nunacom. Ces polices utilisent le même jeu de caractères ASCII que les polices auxquelles nous sommes tous habitués, par exemple Courier, Times, etc., mais au lieu d'afficher les lettres que nous connaissons, elles associent des glyphes du syllabaire inuktitut aux codes. Ainsi, par exemple, le code 70 dans la police Nunacom représente le caractère syllabique  (vi); dans les polices telles que Courier et Times, il représente la lettre de l'alphabet latin 'F'. Ceci signifie qu'un mot inuktitut comme (ilinniarvik - école) en Nunacom est en fait indexé par les moteurs de recherche communs comme la suite de caractères latins wo8ix3F4.

Chaque police archaïque possède sa propre table de conversion code-glyphe. Bien qu'il existe une grande similitude entre les tables de conversion de plusieurs polices, plusieurs différences importantes demeurent. Un grand nombre de mots peuvent avoir la même séquence de codes, mais pour un très grand nombre, leurs séquences sont différentes. Par exemple, le mot est w6]vNw]/E/z5 en Nunacom, w6>vNw>/E/z5 en Prosyl, w6√Nw÷E/z5 en Naamajut, Žñ›¶ŽÎäÍö” en Aujaq2, w6Ïâ÷E/z5 en AiPaiNunavik, ...  Cela signifie que pour retrouver ce mot avec les moteurs de recherche usuels, il faudrait rechercher chacune de ces formes, et même plus puisqu'il existe plusieurs autres polices archaïques.

PARCE QUE certains codes sont reconnus comme des délimiteurs de mot

Bien que de nombreux mots inuktitut affichés avec des polices archaïques, comme le mot en Nunacom dans l'exemple plus haut, aient une séquence de codes qui puisse être indexée par les moteurs de recherche courants, ce n'est pas le cas pour un très grand nombre de mots dont la séquence de codes contient des caractères qui ne sont pas considérés comme des caractères de mot, mais comme des délimiteurs de mot. Ces mots ne sont donc pas indexés et ne pourront pas être retrouvés. De plus, si un tel mot est utilisé comme requête, il sera séparé en plusieurs parties, là où se trouvent ces caractères délimiteurs. Par exemple, une recherche avec Google à www.google.ca pour le mot en Nunacom , dont la séquence de codes est 'w6]vNw]/E/z5', retourne 18300 résultats; à www.google.com, Google retourne 7470 résultats.  Comme ']' et '/' sont des délimiteurs pour Google, les résultats retournés sont des pages qui contiennent toutes les "parties" w6, vNw, E, z5, et leurs équivalents avec lettres minuscules et lettres majuscules, comme ce qui suit:

... MFO@W&+VNW>B^5N.82PSE5M(G(.#XO?'JVS+S`^0++,#/EIULP1 ... R&JGR^OH+_L*0@<";+M4>!$
MLWJ8_.0MK^8.6,S8''W6=8M*I22580 ... R!\>="4'+=8O5,!I5[(H\ZC"]^I1KH8*/G M&N+E]Z5[?,6XEE4< ...

Pour le même mot, le moteur de recherche inuktitut du CNRC retourne 1 résultat !!!

PARCE QUE la casse n'est pas considérée

Les moteurs de recherche courants ont été développés à l'origine pour des langues (principalement l'anglais) qui utilisent un alphabet où la casse n'a pas une fonction de discrimination au niveau du lexème. Par exemple, 'ciel', 'CIEL', 'Ciel' sont le même mot. La recherche est faite sans égard à la casse. N'importe laquelle de ces formes peut être utilisée indifféremment dans la requête de recherche, et toutes les formes de ce mot seront retrouvées, toute casse confondue. Pour l'inuktitut avec les polices archaïques, cela a évidemment des conséquences indésirables. Par exemple, la requête  (école) en Nunacom, dont la séquence de codes correspond à la suite de caractères latins wo8ix3F4, retournera des pages contenant non seulement cette chaîne de caractères, mais aussi WO8IX3F4, Wo8iX3f4, et toutes les chaînes contenant ces lettres en minuscules et en majuscules, soit 32 chaînes en tout qui n'ont rien à voir avec la requête:  WO8IX3F4 est en Nunacom le mot , et Wo8iX3f4, le mot , qui ne sont même pas des mots inuktitut.