geolsemantics_pages
février 1, 2017

Publications

GEOLSemantics développe sa technologie d’extraction sémantique multilingue en participant à des projets de recherche et développement en partenariat au niveau national et Européen.

 

Projet SAIMSI :

 

Le projet SAIMSI a pour but de réaliser un prototype de système qui accumulerait de l’information structurée sur les agissements de personnes soupçonnées d’activités illicites.

En savoir plus..
Cette information est extraite automatiquement à partir de sources internet dans différentes langues (français, anglais, arabe et chinois (mandarin), dans différents média (texte et parole) et à partir de différents types de sources (pages web, bases de presse, réseaux sociaux, etc). Dans le cadre du projet, nous nous sommes limités à des sources ouvertes.

 

L’information extraite à partir des différentes langues est représentée selon les standards du web sémantique en RDF de manière indépendante de la langue et conformément à une ontologie de la sécurité élaborée dans le cadre du projet. L’anglais a été choisi pour représenter les concepts et les relations.

 

L’information collectée est gérée dans deux bases de données : Une base de connaissances qui contient les informations structurées cumulées sur les différents documents et une base textuelle interrogeable en interlingue qui contient les documents sources. Lors de la visualisation des textes dans la base textuelle, il est possible de demander les informations structurées cumulées dans la base de connaissances sur une entité citée (personne, lieu, société). Inversement pour toute information de la base de connaissances, on peut retrouver les documents origines dans la base textuelle.

 

 

Projet ORELO :

 

ORELO a pour but de mettre au point des techniques d’identification de l’origine dialectale arabe d’un texte écrit en caractères arabes ou en écriture latine ou d’une parole. Les dialectes pris en compte par le projet sont les dialectes principaux du Maghreb (Marocain, Algérien, Tunisien) et l’Egyptien. En savoir plus..

Les dialectes du Maghreb sont encore peu étudiés du point de vue du traitement par ordinateur. La prise en compte de l’Egyptien va permettre des comparaisons avec des travaux antérieurs qui portent sur l’Egyptien et les langues du Machrek. Ces travaux préalables sont indispensables pour que Vocapia puisse envisager d’étendre ses systèmes de transcription automatique de la parole arabe standard aux différents dialectes. C’est aussi un préalable pour que GEOLSemantics puisse rendre ses traitements d’extraction de connaissances en arabe standard robustes à la présence de mots dialectaux. L’approche proposée par GEOLSemantics pour l’identification des dialectes écrits, qui est basée sur l’utilisation de dictionnaires de dialectes, fournit déjà pour la suite les ressources nécessaires.

 

 

Projet DRIRS :

 

Le projet DRIRS a pour but de repérer les activités de promotion des idées radicales sur les réseaux sociaux, de repérer les influenceurs et d’établir les cercles de probables recrus. Il s’agit de l’activité amont de la radicalisation qui utilise des réseaux non chiffrés pour atteindre le plus grand nombre.

 

 

 

Autres publications :