Quatre Sans Quatre

Chroniques Des Polars et des Notes Fiction Top 10 Recherche

L'algorithme de sélection littéraire : interview de Quentin Pleplé, responsable du projet Short Edition

L'algorithme de sélection littéraire : interview de Quentin Pleplé, responsable du projet Short Edition sur Quatre Sans Quatre

Photo : micro-processeur - nouveau comité de lecture ?

La nouvelle a fait grand bruit : un algorithme allait décider, chez Short Edition, de ce qui était publiable ou non, de la qualité des textes ou des aptitudes d'un auteur à écrire correctement bien droit dans les lignes! Tollé immédiat, moi en tête, contre cette absurdité qui voudrait nous faire croire que l'art et l'émotion peuvent être enfermés dans quelques obscurs calculs et formules alambiqués.

Le premier réflexe passé, celui où l'on condamne, sans appel, et sans entendre, le coupable d'une telle incongruité, le second également, celui des tweets indignés et rageurs, l'idée m'est venue d'en savoir un peu plus sur ce projet avant de passer directement au lynchage et à l'éxecution publique de l'insolent ;)

Sophie Dinh et Mathias Goddon, deux twittos également rétifs à cette idée, et professionnellement concernés, ont accepté de prendre le temps de poser quelques questions à Quentin Pleplé, responsable du projet chez Short Edition, afin de récolter un peu plus d'éléments de réflexion et que vous puissiez vous faire, à votre tour, une opinion plus éclairée sur l'affaire. Merci à lui !


Patrick : Pouvez vous nous présenter rapidement ce projet d'algorithme qui devrait être capable de pré-sélectionner des œuvres littéraires courtes ?

Il s'agit de développer un algorithme qui analyse la qualité littéraire d'une nouvelle. Effrayé ? Détendez-vous ! En aucun cas la machine ne remplacera le cerveau humain, elle l’assistera pour le rendre plus efficace : l’algorithme sera utilisé comme une aide à la décision et tous les textes seront lus par au moins 3 membres de notre comité éditorial. Ouf, on est passé à côté du pire...


Patrick : Comment vous est venue cette idée ? C'est une demande d'un éditeur ou une initiative personnelle ? Ce projet doit demander pas mal de capitaux pour voir le jour...

Short Edition est un éditeur communautaire de littérature courte. Ce sont les grands lecteurs de la communauté - des passionnés de littérature - qui évaluent une oeuvre avant publication et mise en avant. 
Il y a beaucoup de choses que l'on fait manuellement à Short Edition, à coups de clics de souris. Le nombre d'œuvres que l'on reçoit ne cesse d'augmenter (en ce moment 2 000 oeuvres par mois) et bientôt nous n'aurons simplement plus assez de doigts pour cliquer toute la journée ! Il n'existe aujourd'hui pas d'outils que l'on pourrait acheter pour nous aider à faire ces choses. On a donc commencé un programme de recherche il y a un an pour étudier ces problématiques.
Ce projet représente en effet un investissement important (en money money et en énergie) pour une petite structure comme la notre et il est soutenu financièrement par BPI France. Merci BPI ! :)
 


Mathias Goddon : Dans quelle mesure l'algorithme permettra de faire un premier tri dans les œuvres ? Exemple : je fais parfois quelques fautes d'orthographe, le seuil d'élimination va-t-il être très élevé (ce qui peut pénaliser la forme plutôt que le fond) ? Et qu'en est-il de l'argot et des néologismes présents dans tant d’œuvres désormais classiques ?
 

L'algo ne refuse pas d'oeuvre.
Aujourd'hui, chaque oeuvre reçue est lue par 10 de nos chers membres du comité éditorial. Pour fixer les idées, voila comment on compte utiliser l'algo après l'été pour améliorer l'efficacité du comité.
Si l'algo calcule une probabilité forte de qualité, on ne change rien, l'oeuvre est lue par 10 membres avant de décider de publier et de mettre en avant ou pas. En revanche, si l'algo calcule une probabilité faible de qualité, on va la faire lire au début par seulement 3 membres. S'ils confirment tous les 3 que c'est loin d'être publiable, on la renvoie alors à l'auteur en lui demandant de la re-travailler. Mais si un doute persiste, on la fait lire par plus de monde.
L'algo ne fait donc pas de tri lui-même mais il nous assiste sur le nombre d'évaluations à avoir (entre 3 et 10) avant prise de décision.
Concernant les fautes d'orthographe, pas de panique. Je surveille parce que j'en fais souvent ! L'algorithme est basé sur les technologies d'apprentissage automatique (machine learning en anglais) : c'est l'algorithme seul qui, sur la base des 25 000 oeuvres évaluées par notre comité éditorial, va découvrir et apprendre des combinaisons de critères corrélés avec la qualité des oeuvres. Ce n'est donc jamais un critère seul qui déterminera la probabilité de qualité d'une oeuvre mais la combinaison de centaines de critères. Ainsi, la présence de quelques fautes d'orthographe dans un texte bien écrit ne plombera pas son résultat, sa probabilité.  


Sophie Dinh : Développer un algorithme d’intelligence artificielle de ce type est une véritable prouesse. Cependant, je ne crois pas qu’on puisse appliquer ce principe à des œuvres créatives, qui font appel aux émotions des lecteurs. Comment une machine, dont l’intelligence est avant tout logique, pourrait-elle prédire les coups de cœur des comités de lecture et évaluer les idées originales d’intrigue ou de style ?
 

La qualité littéraire en tant que telle est un concept subtil et ce n'est qu'indirectement qu'on peut la mesurer en observant ses conséquences dans le texte. De la même façon qu'en astrophysique on ne peut pas observer directement les trous noirs (ils absorbent la lumière) mais on est sûr de leur présence et on sait quelle taille ils font en observant les conséquences de leur présence : les choses apparaissent déformées autour d'eux par exemple.
Mais alors, vous allez me demander, quelles conséquences de la qualité littéraire peut-on observer ? Je fais les demandes et les réponses... c'est plus sûr ! Eh bien c'est tout ce qu'on peut mesurer dans un texte. Voila quelques exemple mais on a des centaines de critères : la densité du vocabulaire, la cohésion des phrases, l'utilisation d'adverbes, de la ponctuation...
L'algo va ensuite calculer la pertinence de chaque critère, les critères non pertinents seront automatiquement ignorés par l'algo.


Mathias Goddon : Quelle assurance aura l'auteur quant à la lisibilité des raisons de son refus. Lui enverra-t-on les analyses statistiques de l'algorithme ? Après tout cela lui permettrait peut-être d'améliorer son texte?
 

Un refus ne se fera jamais effectué sur la base du seul calcul de l'algorithme, toujours sur la base des évaluations des membres du comité éditorial. Le calcul de l'algorithme servira simplement à déterminer à combien de membres du comité on fait lire a priori (en cas de doutes sur une oeuvre, on la fait plus lire).
On ne communiquera pas l'analyse de l'algo à l'auteur, ça entraînerait des abus avec des auteurs qui essaieraient de contourner le système... et ça donnerait une impression fausse du mécanisme d'évaluation d'une oeuvre. 


Sophie Dinh : En se projetant dans un avenir hypothétique où votre algorithme serait adopté par tous les éditeurs, comment imaginez-vous échapper à une uniformisation globale des livres publiés et à la perte d’intérêt et d’inventivité associée ?

C'est une très bonne question, et c'est bien pour cela qu'il ne faut pas laisser le dernier mot à l'intelligence artificielle, qu'il ne faut pas effectuer un filtre des œuvres avant lecture par le comité. En ne publiant que sur la base des évaluations du comité éditorial, nous contrôlons la diversité et sommes toujours en mesure de repérer la pépite originale ou les textes qui font polémique entre les membres de notre comité éditorial. Parce que chez nous, toutes les oeuvres qui nous sont adressées sont lues en intégralité et en aveugle (sans connaître le nom de l'auteur... même si c'est un auteur confirmé) par plusieurs personnes... Je ne crois pas qu'on puisse en dire autant chez les éditeurs traditionnels ! 


Patrick : L'intérêt réel de cet algorithme est-il de trier ce qui est bon pour nous, lecteurs, ou ce qui est bon financièrement pour l'éditeur ? Il y a le triste exemple de la musique et du nivellement par le bas dès lors que des critères quasi objectifs ont été mis en place dans les majors...

L'algo mesure ce qui de bonne qualité littéraire, pas ce qui se vend bien.

Déjà un peu de théorie ! Le principe d'apprentissage automatique repose sur un modèle éprouvé et reconnu : des individus réalisent une tâche définie sur des données, leur travail sert alors de modèle à un algorithme qui apprend à reproduire la tâche. L’algo peut ensuite exécuter la tâche sans intervention humaine, avec un taux d’erreur que l’on mesure. L’algo est finalement utilisé en conditions réelles lorsque le taux d’erreur est jugé acceptable.
Chez nous, on entraîne l'algorithme sur les notes du comité éditorial. L'algo cherchera donc à mimer le travail d'un membre du comité éditorial, donc de prédire la qualité littéraire... qui ne sont pas forcément ceux qui se vendent bien !


Merci à nos complices pour cette interview :

Sophie Dinh est doublement intéressée par ce projet d’intelligence artificielle appliqué à l’évaluation de la qualité littéraire. D’une part traductrice de profession, elle est confrontée aux programmes d’automatisation des traductions et à leurs limites évidentes dès lors qu’ils s’attaquent à des écrits créatifs. Et d’autre part, auteure d'un recueil de nouvelles, "La Cage d'escalier du 50" récemment publié chez Edilivre, elle s’interroge sur l’incidence d’un tel système sur la présélection des manuscrits chez les éditeurs.

Mathias Goddon est un auteur de romans policiers. Après une première oeuvre autobiographique sur le service militaire "Le dernier de service", 2008, il a publié en 2011 "Rendez-vous à Saint-Antoine" aux éditions Papier Libre, puis cette année "Tuez-les tous, Dieu reconnaîtra (peut-être) les siens" aux éditions Atramenta.
Ses oeuvres mêlent intrigue policière, le réel et l'imaginaire, l'Histoire, l'amour, mais aussi l'humour, sans lequel il ne pourrait écrire.

Interview : BOOKNSERIES, une nouvelle idée de l'édition IRO IRO : Un jeu indépendant qui va jouer avec vos nerfs Goat Simulator : le simulateur de chèvre est enfin de sortie !