46

Algorithme de recherche approximative dans un dictionnaire fondé sur une distance d'édition définie par blocs

Conférence en Recherche d'Infomations et Applications (RDIEA), 2021
Abstract

We propose an algorithm for approximative dictionary lookup, where altered strings are matched against reference forms. The algorithm makes use of a divergence function between strings -- broadly belonging to the family of edit distances; it finds dictionary entries whose distance to the search string is below a certain threshold. The divergence function is not the classical edit distance (DL distance); it is adaptable to a particular corpus, and is based on elementary alteration costs defined on character blocks, rather than on individual characters. Nous proposons un algorithme de recherche approximative de cha\^ines dans un dictionnaire \`a partir de formes alt\ér\ées. Cet algorithme est fond\é sur une fonction de divergence entre cha\^ines~ -- une sorte de distance d'\édition: il recherche des entr\ées pour lesquelles la distance \`a la cha\^ine cherch\ée est inf\érieure \`a un certain seuil. La fonction utilis\ée nést pas la distance d'\édition classique (distance DL); elle est adapt\ée \`a un corpus, et se fonde sur la prise en compte de co\^uts dált\ération \él\émentaires d\éfinis non pas sur des caract\`eres, mais sur des sous-cha\^ines (des blocs de caract\`eres).

View on arXiv
Comments on this paper