geolsemantics_pages
novembre 8, 2016

Produits

L’offre de GEOLSemantics est :

  • Multisource : Les informations à analyser peuvent être issues de types de contenus très variés et peuvent provenir de sources diversifiées telles que le web, les documents word, pdf, les transcriptions de paroles, les mails, etc….
  • Multilingue : Le niveau des traitements dans chacune des langues supportées est similaire
  • Interlingue : Les technologies de GEOLSemantics permettent de présenter, dans la langue de l’utilisateur et en un tout cohérent, les résultats des analyses de document écrit dans différentes langues

L’offre de base de GEOLSemantics est constituée par deux modules à savoir :

GEOLSemantics Linguistic Analyser
GEOL Linguistic Analyser

L’objectif de ce module est d’identifier et de normaliser les informations pertinentes. Cet objectif est atteint en procédant à une analyse morphosyntaxique suivie d’une analyse syntaxique profonde. Ces analyses permettent notamment de lever les ambiguïtés, d’assimiler les synonymes, etc . En particulier, GEOL Linguistic Analyser effectue un repérage très fin des Entités nommées telles que les noms de personnes, d’organisations ou d’entreprises, de lieux, des quantités, des distances, des valeurs, des dates …. Il est également possible d’extraire des Entités nommées propres à certains domaines, par exemple dans le médical, le juridique …. Utilisant la puissance et la précision des analyseurs linguistiques, la reconnaissance des entités nommées effectuées par GEOLSemantics produit un niveau de résultat inégalé : Ainsi à titre d’exemple, dans la phrase « Washington s’inquiète des visées de Pékin » Washington et Pékin sont des « organisations » (les gouvernements) et ne sont ni des lieux ni des personnes.

GEOLSemantics Linguistic Analyser
GEOL Knowledge

GEOL Knowledge est un extracteur de connaissances visant :

  • à lever les ambiguïtés non résolues par GEOL Linguistic Analyser et en particulier par la reconnaissance du rôle des Entités nommées. Ainsi, à titre d’exemple, dans la phrase « Washington s’inquiète », Washington ne peut être qu’une personne ou une organisation dans la mesure où un lieu ne « s’inquiète » pas ;
  • à structurer les informations pertinentes, résultats de GEOL Linguistic Analyser. Cette structuration articule les informations en tenant compte des rôles, des relations entre informations, du temps etc. de manière à répondre aux questions : QUI ? QUAND ? QUOI ? OÙ ? COMMENT ? COMBIEN ?

L’offre de base est enrichie par deux modules complémentaires, à savoir :

  • GEOL Transliterator : il a pour objectif de ramener les différentes formes orthographiques ou phonétiques à une forme normalisée. GEOL Transliterator se compose de 2 moteurs.
    • le premier repose sur la variabilité du nom d’origine étrangère dont le jeu de caractères est différent et pour lequel la latinisation n’est pas homogène (russe, arabe et chinois). Il permet de rassembler des informations concernant une personne dont on connaît une seule orthographe de son nom en recherchant plusieurs orthographes.
    • le second se réfère à la variabilité phonétique des noms propres dont on n’a jamais vu l’orthographe. L’outil propose des variantes qui concernent la phonétique en fonction de plusieurs langues européennes, le français, l’anglais, l’allemand et l’espagnol.
  • GEOL Terminology Extractor : il a pour objectif de produire des lexiques terminologiques d’un corpus de textes tel que textes juridiques, techniques, économiques, etc. L’Extracteur de terminologie se compose de 2 moteurs principaux :
    • le premier concerne les clients qui n’ont jamais fait de liste de thèmes, mais qui possèdent beaucoup de données textuelles. L’extracteur constitue une liste d’autorités de thèmes à partir d’extractions automatiques contrôlées manuellement par un spécialiste.
    • le deuxième outil concerne les clients qui ont déjà constitué une liste d’autorités. Cette extraction par apprentissage est effectuée sur un travail nouveau, mais repose sur le travail passé de documentalistes ayant mis des mots clés pour décrire le contenu de chaque document.