Category : Standard Post

Home/Archive by Category "Standard Post"

Taliste, ingénieur linguiste, linguiste informaticien(ne), expert linguiste : qui se cache derrière Data2Content ?

Contact between human and robot

Data2Content est une solution qui utilise un moteur de rédaction pour créer du contenu textuel. Ce type d’outil est appelé un générateur de textes. Comme son nom l’indique, c’est un outil qui permet de générer plein de textes à partir de règles linguistiques et une base de données. Lorsqu’on parle de génération de textes, certains pensent directement à un robot. Or, ce n’est pas un robot tout seul qui écrit. Le moteur n’est pas magique. Il ne fait rien tout seul.

Derrière cette technologie il y a l’humain, un ou une linguiste. C’est en effet un(e) linguiste qui, pour chaque projet, écrit une grammaire spécifique pour obtenir le texte voulu. Il s’agit d’un expert en traitement automatique du langage ; plus concrètement, en génération automatique de textes. Dans la plupart des cas, il s’agit d’un profil bac+5 minimum, avec un parcours en sciences du langage, linguistique ou traduction et une spécialisation (niveau Master) en ingénierie des langues ou traitement automatique des langues. Le ou la linguiste est donc un expert de la langue, une personne formée pour comprendre les processus de formation du langage, de la formation des mots à la structuration des phrases, en passant par la compréhension et la construction du sens.

Le métier

Le travail de l’ingénieur linguiste dans le domaine de la génération automatique des textes consiste à écrire des règles linguistiques pour créer des textes. Cela passe par différentes étapes :

Pré-étude / Diagnostic

1)    Etude de la base de données que l’on veut faire parler

2)    Rédaction manuelle d’un ou de plusieurs textes afin de définir le contenu que l’on peut créer à partir de la base

3)    Echanges avec le client pour valider le(s) texte(s) type(s) à produire, en prenant en compte la ligne éditoriale du client

Au boulot !

4)    Codage du lexique du domaine, par exemple, la liste de toutes les facettes d’un hôtel avec ses différents types et variantes (bungalow, mobilhome, mobil-home, etc.)

5)    Définition de la grammaire au niveau macro pour la structure du texte et au niveau micro pour chaque phrase

6)    Programmation des règles linguistiques en utilisant le langage de programmation développé en interne.

7)    Enrichissement des règles pour avoir plus de variabilité.

… et contrôle qualité final !

8)    Correction orthographique, correction de style, vérification du contenu, etc. sur plusieurs échantillons choisis expressément et aussi de façon aléatoire. A partir de ce moment là, les textes sont garantis d’être de qualité et nous pouvons laisser le moteur générer les textes.

Ce n’est donc pas vraiment un robot qui écrit, mais un, souvent une linguiste, une passionnée de la langue et de l’écriture  avec des compétences en informatique et un goût pour la formalisation du langage et de ses mécanismes.