Intelligence collective

Pendant cette pandémie de coronavirus, il arrive qu’on entende parler d’intelligence collective. Que beaucoup de personnes se mettent à réfléchir sur la production de respirateurs et on loue l’apparition d’intelligence collective.

La discussion ci-dessous s’y réfère explicitement et me semble intéressante par les avis contrastés auxquels elle mène en terme de reconnaissance vocale. Car, mobiliser de nombreuses ressources humaines pour traiter un problème ne suffit certainement pas à amener un collectif, aussi important soit-il, à l’intelligence. La résolution de problèmes tels que les déplacement en voitures ou l’information par la vidéo le montre clairement.

La relation entre la reconnaissance vocale et l’intelligence artificielle est aussi troublante de ce point de vue puis on y fait l’hypothèse que c’est en utilisant un grand nombre de cas qu’on pourrait contextualiser les discours. En un sens, c’est l’espoir de pouvoir utiliser une forme d’intelligence collective pour rendre le système moins con. Espoirs déçus semble-t-il. Mais ne devait-on pas s’y attendre.

Extrait de :

La reconnaissance vocale aux prises avec la réalité sociologique – Décryptualité du 6 avril 2020

Luc : Sujet du jour, on va reprendre certains éléments notamment sur cette question de l’intelligence collective qui était dans un des articles, pour parler un petit peu, notamment, de reconnaissance vocale et de la nécessité, ou pas, que les humains, que les développeurs interviennent pour qu’un système automatique soit pertinent. Le point de départ c’est un article2 que j’ai vu dans Next INpact qui reprend quelque chose publié par The Verge un magazine américain. Ils ont repéré que les outils de reconnaissance vocale identifiaient mal les mots dans 19 % des cas quand les entretiens étaient faits avec des Blancs et dans 35 % des cas quand c’était fait avec des Noirs américains. Est-ce que le système est raciste ?

Manu : Le système est peut-être raciste, en tout cas il a des comportements qui le semblent et qui maltraitent les utilisateurs du système. C’est quelque chose qu’on retrouve avec les images : les images ont l’air d’être calibrées par des gens qui sont blancs et qui n’arrivent pas à bien gérer des images de gens noirs.

Luc : Pour moi c’est comparable mais pas ce n’est pas tout à fait la même chose parce que tu ne parles pas différemment que tu sois noir ou blanc. En revanche, aux États-Unis, il y a une dimension sociologique très importante : on sait que les populations noires américaines sont très majoritairement défavorisées, donc vont potentiellement avoir des accents liés à leurs groupes sociaux qui vont être plus populaires, etc., des façons de parler, indépendamment du fait que leur peau soit noire, le phénomène physique lié à ça n’a aucun lien, c’est simplement qu’ils vont être sous-représentés dans les échantillons de gens qui vont parler ou ce genre de choses. Sur les images, par contre ?

Manu : Par contre, là ce sont les programmeurs qui vont calibrer les images et les dispositifs de prise d’images, et qui vont plutôt orienter dans un sens ou dans un autre. Souvent, quand les programmeurs mettent en place ces outils, c’est eux-mêmes qu’ils utilisent comme point de départ et c’est leur groupe, leur entourage d’une manière générale, donc ils vont calibrer en partant sur des visages blancs traditionnels.

Luc : Après, ils vont éventuellement prendre des tas de paquets de photos et ils vont aller taper dans des photos où si la population est majoritairement blanche il y aura beaucoup de gens blancs et, potentiellement, des banques de photos de trucs qui les intéressent, en tout cas qui leur semblent correctes, du coup il va y avoir des biais. Il y a eu le même type de problèmes avec la reconnaissance faciale des visages asiatiques par exemple, parce que, pareil, les systèmes sont mal alimentés. Donc il n’y a pas besoin qu’il y ait un projet derrière, c’est juste que c’est aussi le reflet du milieu social dans lequel naviguent les gens qui mettent ça en place.

Manu : J’aurais tendance à dire, c’est une expression d’informaticien, GIGO, garbage in, gabage out. En gros, si on met du caca dedans on va obtenir du caca à l’extérieur. Dans le monde du Libre, il y a des gens très intéressants qui essayent d’obtenir des données pour ensuite en faire quelque chose, notamment sur la reconnaissance vocale. On a des amis à Mozilla qui bossent là-dessus.

Luc : Il y a un projet Mozilla, c’est Common Voice3, comme la voix en anglais, voice.mozilla.org, dans lequel, selon la bonne logique du Libre où chacun apporte quelque chose et de l’intelligence collective, tout le monde peut venir contribuer, parce que, évidemment, ce genre de système a besoin de beaucoup d’échantillons et de gens qui écoutent. On peut à la fois enregistrer sa voix et écouter les échantillons enregistrés par d’autres personnes pour que le système sache si c’est un bon échantillon sur lequel travailler ou pas. On a regardé vite fait et on va vous faire écouter une partie validation d’un des échantillons sur lequel on est tombé. Pour moi il illustre très bien le problème.

Voix off : Une partie de la chanson réside dans sa sonorité, avec les thèmes « archetypique ».

Luc : Le mot « archetypique » n’existe pas, c’est archétype, ça s’écrit « ch », le mot est un peu compliqué, la personne qui parle se prend les pieds dans le tapis, elle ne connaît probablement pas le mot. Typiquement, là on voit la phrase qui fait que quelqu’un qui a un petit peu moins de culture littéraire que quelqu’un d’autre va se planter. Peut-être que cette personne aura un accent de certaines catégories sociales moins éduquées, mais qui vont avoir du mal à être représentées dans ce cas-là.

Manu : C’est quelque chose qu’on va avoir dans tous les cas et c’est là où on espère que l’intelligence collective, comment on pourrait dire, soit bien regroupée, récupérée, tamisée, pour en ressortir les bonnes informations. Ce n’est pas facile, je pense qu’il y a un gros effort à faire derrière pour éviter les biais.

Luc : Un autre truc là-dessus, j’en ai écouté plein, je me suis amusé à les valider, c’est 80 % d’hommes qui parlent. Il y a très peu de femmes dans les enregistrements de Mozilla. On voit qu’en laissant ça ouvert, finalement Mozilla récupère des gens qui sont plutôt libristes, qui sont souvent des hommes, souvent bien éduqués. Rien que dans le choix des textes, des fois il y a des noms de villes ou des noms propres étrangers, super durs à dire.

Manu : On avait eu des cas, qu’on avait trouvés amusants tous les deux, de données qui avaient été fournies à des machines et qui avaient dégénéré derrière, notamment dans des cas d’assistants conversationnels qui essayaient de discuter avec les individus sur Internet et qui étaient devenus pseudo-nazis.

Luc : Microsoft avait fait ça, ils avaient mis une IA et on pouvait aller tchatter avec parce que c’était trop cool. Évidemment tout le monde s’est amusé à la troller et en 48 heures, je crois, elle est devenue nazie, misogyne, à peu près le pire qu’on puisse imaginer, parce que c’était rigolo.

Manu : C’est là qu’on se rend que la machine elle-même, si on ne lui donne que des mauvaises informations, elle ne va pas en tirer autre chose que des mauvaises informations.

Luc : Tu pourrais trouver de bonnes conclusions avec des mauvaises informations : le propre de l’intelligence naturelle c’est d’être capable de comprendre les choses par rapport à leur contexte. Or, la machine ne comprend pas, n’a pas cette capacité-là, donc elle ne crée aucun sens. Elle se contente de faire des traitements statistiques d’une base de données. Il y a des gens qui disent « on va lui donner vraiment des tonnes et des tonnes de données, des milliards de données, du coup ça va aller ». Ce que je pense c’est qu’on peut avoir les trucs les plus puissants du monde et mettre des quantités de données pas possibles, le système ne s’en sortira jamais parce qu‘il n’est pas capable de comprendre le contexte. Il faut que quelqu’un lui mette le contexte.

Manu : Ça c’est un sujet qu’on a déjà eu entre nous, clairement.

Luc : Et on n’est pas d’accord !

Manu : Et on n’est pas d’accord ! C’est peut-être mon côté informaticien : j’ai l’impression que si on donnait à un ordinateur toutes les données du monde, à un moment donné il en retirerait une information contextualisée qui lui suffirait pour passer pour nous. Clairement passer le fameux test de Turing par exemple.

Luc : Non ! Je pense que non parce qu’elle n’est pas contextualisée. Le contexte est hyper-variable et à moins que quelqu’un soit capable de décrire le monde tout entier, constamment, de dire « dans tel contexte ceci, dans tel contexte cela », sachant que le contexte change tout le temps puisqu’on a tous des capacités à inventer des mots, à faire de la poésie, des analogies, des machins, etc., la culture change constamment, c’est une mission impossible en fait.

Manu : Moi je rétorquerai, mon côté informaticien, que oui, effectivement, on n’y arrive pas aujourd’hui. Clairement avoir un contexte qui soit malléable, évolutif, qui soit capable de prendre en compte peut-être même des choses personnelles, ça va être difficile pour l’ordinateur, mais ce n’est qu’une question de quantité. La quantité est une qualité et on peut transformer, c’est ce qu’essayent de faire les géants du Web, les Google, les Uber même avec leurs outils de conduite automatique, ils essayent, à partir de masses de données, d’en retirer quelque chose. Est-ce que ce sera une intelligence ? Non. Est-ce que ce sera quelque chose qui aura un bon sens ? Non, parce que je ne suis même pas sûr qu’on puisse définir entre nous ce qu’est un bon sens. C’est comme la conscience. Allez définir la conscience ! Moi je pense que ce n’est pas définissable, parce que peut-être même que ça n’existe pas et que nous, en tant qu’humains, finalement nous ne sommes que la masse des données qui nous constituent, de manière imparfaite parce qu’on se va se planter régulièrement, on va régulièrement se tromper dans les contextes qu’on utilise nous-mêmes, comme un ordinateur, parfois pire qu’un ordinateur, on va faire des erreurs de bon sens, dans le sens où toi tu l’entends.

Luc : C’est là-dessus qu’on n’est pas d’accord, donc on n’arrivera pas à se mettre d’accord ici. Pour moi c’est une différence fondamentale dans la façon dont l’information est traitée et on peut en mettre des tonnes, ça n’améliorera pas la situation, même si on fait des erreurs, il y a des erreurs absolument grossières qu’on ne fera pas. De la même façon que tu as même des animaux qui sont capables de catégoriser des éléments en en ayant vu très peu ; en fait, c’est cette question de la compréhension du contexte. Sauf à ce que la technologie évolue et qu’on passe sur des systèmes d’analyse qui soient radicalement différents, pour moi on va continuer comme depuis les années 50 en pensant qu’on va y arriver parce que ce sera plus puissant, qu’on aura plus de données.

Manu : Il est possible effectivement, comme on le dit depuis 60 ans, « dans 20 ans, l’intelligence artificielle sera au niveau d’un être humain ». Et aujourd’hui encore on dit souvent « dans 20 ans ça y est, on y est » . Donc c’est possible que ce soit toujours le cas, que ce soit toujours à l’infini.
En tout cas on peut se mettre d’accord, déjà aujourd’hui, c’est qu’on fait beaucoup de conneries avec l’informatique, il y a beaucoup d’algorithmes dont il faut se méfier, il y a beaucoup d’usages qui sont mauvais et, effectivement, il faut qu’on y regarde de près. Éviter que les machines deviennent racistes, qu’elles deviennent misogynes, xénophobes et qu’elles nous entraînent dans des comportements qui seront vraiment gravés dans le silicium parce que ce serait particulièrement mauvais pour nous. Là il faut y faire attention, c’est pour ça que le Libre est important.

Luc : Et garder le contrôle de l’informatique.

Manu : Exactement. Là on est d’accord, je pense, et il faut qu’on y bosse.

Laisser un commentaire