Author:

Home/Articles Posted by

Taliste, ingénieur linguiste, linguiste informaticien(ne), expert linguiste : qui se cache derrière Data2Content ?

Contact between human and robot

Data2Content est une solution qui utilise un moteur de rédaction pour créer du contenu textuel. Ce type d’outil est appelé un générateur de textes. Comme son nom l’indique, c’est un outil qui permet de générer plein de textes à partir de règles linguistiques et une base de données. Lorsqu’on parle de génération de textes, certains pensent directement à un robot. Or, ce n’est pas un robot tout seul qui écrit. Le moteur n’est pas magique. Il ne fait rien tout seul.

Derrière cette technologie il y a l’humain, un ou une linguiste. C’est en effet un(e) linguiste qui, pour chaque projet, écrit une grammaire spécifique pour obtenir le texte voulu. Il s’agit d’un expert en traitement automatique du langage ; plus concrètement, en génération automatique de textes. Dans la plupart des cas, il s’agit d’un profil bac+5 minimum, avec un parcours en sciences du langage, linguistique ou traduction et une spécialisation (niveau Master) en ingénierie des langues ou traitement automatique des langues. Le ou la linguiste est donc un expert de la langue, une personne formée pour comprendre les processus de formation du langage, de la formation des mots à la structuration des phrases, en passant par la compréhension et la construction du sens.

Le métier

Le travail de l’ingénieur linguiste dans le domaine de la génération automatique des textes consiste à écrire des règles linguistiques pour créer des textes. Cela passe par différentes étapes :

Pré-étude / Diagnostic

1)    Etude de la base de données que l’on veut faire parler

2)    Rédaction manuelle d’un ou de plusieurs textes afin de définir le contenu que l’on peut créer à partir de la base

3)    Echanges avec le client pour valider le(s) texte(s) type(s) à produire, en prenant en compte la ligne éditoriale du client

Au boulot !

4)    Codage du lexique du domaine, par exemple, la liste de toutes les facettes d’un hôtel avec ses différents types et variantes (bungalow, mobilhome, mobil-home, etc.)

5)    Définition de la grammaire au niveau macro pour la structure du texte et au niveau micro pour chaque phrase

6)    Programmation des règles linguistiques en utilisant le langage de programmation développé en interne.

7)    Enrichissement des règles pour avoir plus de variabilité.

… et contrôle qualité final !

8)    Correction orthographique, correction de style, vérification du contenu, etc. sur plusieurs échantillons choisis expressément et aussi de façon aléatoire. A partir de ce moment là, les textes sont garantis d’être de qualité et nous pouvons laisser le moteur générer les textes.

Ce n’est donc pas vraiment un robot qui écrit, mais un, souvent une linguiste, une passionnée de la langue et de l’écriture  avec des compétences en informatique et un goût pour la formalisation du langage et de ses mécanismes.

Bienvenue sur le site Data2Content

Childhood Dream

Data2Content est une nouvelle marque, créée  pour faire parler vos données en les traduisant en contenu rédactionnel.

 Le contenu est un élément clé pour toute entreprise, à la fois pour satisfaire le client et pour gagner en visibilité sur le web. Avec un moteur rédactionnel développé par nos experts en ingénierie linguistique, Data2Content aide les entreprises dans leur stratégie de contenu, en particulier pour les projets de grande envergure qui nécessitent la création de  milliers de textes en très peu de temps ou pour des mises à jour régulières du contenu.

 Data2Content est une marque créée par Syllabs, spécialiste de l’analyse sémantique, et fruit de plusieurs années de R&D en traitement automatique des langues.

 En 2013, Data2Content a permis de créer un contenu pertinent et de qualité pour plusieurs sites, entre d’autres, pour des acteurs dans le e-tourisme (descriptifs d’hôtels et stations touristiques), dans l’e-commerce (descriptifs produits) et pour des annuaires en ligne (fiches sur différents artisans et enseignes).

 Data2Content en quelques chiffres :

  • 17 942 textes créés dans l’espace de 4 mois pour un site marchand de résidences touristiques, avec au total 2 754 515 millions de mots,
  • 37 555 textes créés dans l’espace de 2 mois pour un annuaire local, avec au total 2 763 637 mots,
  • 145 444 textes créés dans l’espace de 6 mois pour un annuaire en ligne, avec au total 14 451 716 mots,
  • 2 146 textes crées dans l’espace de 1 mois pour un comparateur de voitures, avec au total 299 328 mots,
  • 150 000 textes créés dans l’espace de 6 mois pour un site de réservation d’hôtels en trois langues (français, anglais, espagnol) avec au total 23 550 000 mots.

Ces chiffres résument quelques projets réussis cette année. Restez-connectés sur notre blog pour en savoir plus sur les nouveautés ! Nous vous invitons également à nous suivre sur notre compte tweeter @data2content et à nous contacter sur contact@data2content.fr/en.