geolsemantics_pages
novembre 8, 2016

Technologies

GEOLSemantics est spécialisée dans l’extraction des données à caractère personnel et propose actuellement des offres en réponse aux besoins des entreprises face au RGPD.

Les technologies de GEOLSemantics permettent d’identifier les données personnelles contenues dans les textes (par exemple dans les zones de commentaires libres des bases de données ou toute information exprimée par des textes). Text-Check utilise ces technologies pour permettre aux entreprises de se mettre en conformité au RGPD.

 

 

GEOLSemantics a développé une technologie novatrice d’analyse sémantique multilingue : le profilage sémantique. Les innovations de GEOLSemantics apportent à l’utilisateur :

Dans un contexte monolingue
  • l’identification des informations pertinentes du texte : elle repose à la fois sur une définition préalable des besoins informationnels et sur la reconnaissance dans les textes des informations susceptibles de répondre aux dits besoins tels que
    • les entités nommées : elles répondent aux questions QUI ? et OÙ ?
    • les actions : elles permettent de répondre à la question QUOI ?
    • la temporalité : elle répond à la question QUAND ?
    • les moyens et mesures : ils répondent aux questions COMMENT ? et COMBIEN ?
  • la normalisation des informations identifiées : la normalisation homogénéise les mots, les groupes nominaux, les groupes verbaux, les nombres, les dates, les heures, etc. Cette homogénéisation est effectuée par application de règles grammaticales et syntaxiques ;Ex: « le vol a été constaté le matin du dix octobre 2015. »
    Date début : 2015/10/10
    Date fin : 2015/10/10
    Heure début : 00h00m00s
    Heure fin : 12h00m00s
    Ex: « La veille vers 20 h un rôdeur a été remarqué … »
    Date début : 2015/10/09
    Date fin : 2015/10/09
    Heure début : 19h30m00s
    Heure fin : 20h30m00s
  • La structuration des éléments normalisés consiste à mettre « en relation dans le temps et l’espace les entités nommées, leurs rôles, leurs actions et leurs moyens ». La structuration est une étape indispensable pour permettre aux applications informatiques de traiter les informations extraites des textes. En d’autres termes, cette étape permet de « mettre dans les colonnes » les données appropriées issues des textes ;
    Ex: « Washington s’inquiète des visées de Pékin » Washington et Pékin sont des « organisations » (les gouvernements)

 

Dans un contexte multilingue

L’intégration en une vision unique des résultats des analyses de textes rédigées en langues distinctes. En effet, les résultats des analyses ont une représentation interne indépendante de la langue source des documents, ce qui permet de mettre en relation des documents écrits dans des langues distinctes (interlinguisme).

L’approche proposée par GEOLSemantics est caractérisée par

  • sa généricité, la mise en cohérence des éléments des textes étant établie aux moyens d’ontologies formelles ;
  • son agilité permettant de s’adapter rapidement aux besoins clients et spécificités de domaines métiers particuliers ;
  • la pertinence des résultats : le niveau qualitatif des résultats produits par les technologies de GEOLSemantics est très largement supérieur à celui obtenu avec les approches statistiques usuelles avec pour conséquences pour l’utilisateur
    • un très grand allègement de sa charge de travail de sélection, tri, lecture et interprétation;
    • une forte accélération de la mise à disposition de l’information pertinente.

Les technologies de GEOLSemantics sont disponibles pour les langues française, anglaise, arabe (en ce compris les dialectes du Maghreb et l’égyptien) et chinoise. Ces langues sont traitées de manière totalement équivalente.

GEOLSemantics a planifié le développement des langues allemande, espagnole, portugaise, italienne, néerlandaise et russe. Par ailleurs, les technologies sont capables d’intégrer aisément toutes autres langues ou dialectes.