Les start-up font-elles de la fausse IA?

Par Olivier Ezratty, expert FrenchWeb

05/07/2019

15 minutes de lecture

Un rapport du fonds d’investissement anglais MMC Ventures “State of AI : divergence – 2019” publié en février 2019 a fait couler un peu d’encre ces dernières semaines. Pourquoi donc ? Parce qu’il révélait qu’en Europe, 40% des start-up d’IA n’utiliseraient pas d’IA dans leur solution. Et bien dites donc! Les investisseurs à l’affût de start-up faisant de l’IA se feraient donc berner par les entrepreneurs. Un véritable scandale en perspective?

L’information était relayée dans de nombreux médias comme dans 40% des start-up européennes d’intelligence artificielle n’utilisent pas d’intelligence artificielle par Elisa Braun, dans le Figaro ou investisseurs-la-course-a-l-intelligence-artificielle-est-semee-d-embuches-147039.html »>Pour les investisseurs, la course à l’intelligence artificielle est semée d’embûches par Arnaud Dumas sur le site Novethic qui indique que “…toutes les startups revendiquant une composante IA dans leur modèle ne sont pas sincères. Sur 2 830 startups européennes analysées, dans lesquelles des fonds ont été investis, 40 % n’ont pas en réalité de composantes IA dans leur technologie! MMC Ventures dénombre en tout 1 580 startups dont une des technologies de l’intelligence artificielle se trouve au cœur de la proposition de valeur. 479 d’entre elles sont localisées au Royaume-Uni. C’est le double des deux autres grands pays porteurs que sont la France avec 217 entreprises et l’Allemagne avec 196 entreprises.”. La presse anglosaxonne a relayé de même l’information comme TheVerge dans Forty percent of ‘AI startups’ in Europe don’t actually use AI, claims report de James Vincent.

Tout ceci m’a bien titillé car cela fait quelques années que je rencontre des start-up de l’IA ou examinent ce qu’elles font à distance, en particulier pour la création et la mise à jour de mon ebook “Les usages de l’intelligence artificielle” (dernière édition en novembre 2018). S’il m’arrive bien de tomber sur des start-up survendant leur IA, c’est loin d’être dans une proportion de 40%, surtout pour celles qui ont réussi à se financer et qui ont déjà des clients.

Armé de patience, je me suis donc lancé dans un petit exercice de fact checking de ces affirmations! Quelques biais de l’étude de MMC Ventures méritent d’être d’abord relevés. Nous allons voir comment nous pouvons nous faire berner par un tel sensationnalisme. Je vais ensuite faire une sorte de zoom arrière et tenter de fournir quelques explications sur les erreurs de communications de certaines start-up de l’IA.

Un détail non documenté d’un gros rapport

L’information de ce rapport qui confirme une idée que nombre d’observateurs se faisaient de l’écosystème des startups de l’IA n’était en fait qu’un simple paragraphe, page 99, d’un gros document de 151 pages contenant des généralités de vulgarisation sur ce qu’est l’IA et sur l’évolution de son adoption dans les entreprises. Il contient notamment un bon topo sur le hardware de l’IA.

Le texte est précisément le suivant : “We individually reviewed the activities, focus and funding of 2,830 purported AI startups in the 13 EU countries most active in AI – Austria, Denmark, Finland, France, Germany, Ireland, Italy, the Netherlands, Norway, Portugal, Spain, Sweden and the United Kingdom. Together, these countries also comprise nearly 90% of EU GDP. In approximately 60% of the cases – 1,580 companies – there was evidence of AI material to a company’s value proposition.”.

Un simple paragraphe de 8 lignes ! Mais aucune autre information n’est fournie ! Quid de la création de cet échantillon de 2830 startups ? Sont-ce des startups en recherche de fonds, des startups déjà financées en amorçage ? Peut-on avoir la liste des startups analysées? Peut-on savoir quels critères ils ont utilisé pour éliminer 40% ? Est-ce que ces 40% sont spécifique à l’Europe? Le phénomène se produit-il aussi aux USA? Le document ne contient aucune réponse à ces questions clés.

Les interviews des auteurs indiquent d’ailleurs que le flag “IA” des startups de leur base ne vient pas forcément des startups elles-mêmes mais aussi des market maps diverses qui ont casé ces startups dans le domaine de l’IA, … à l’insu de leur plein gré!

Ça commence très mal !

J’imagine que cet échantillon de 2830 startups est un mix de leur deal flow, à savoir les startups qu’ils ont analysées dans le cadre de leur veille en tant qu’investisseur, et d’autres sources externes.

Un échantillon biaisé et incomplet

J’ai commencé à avoir un doute lorsque j’ai découvert la répartition du nombre de startups par pays. Elle met en valeur le Royaume-Uni. Et pour cause, le fonds d’investissement MMC Ventures qui en est à l’origine est lui-même Britannique et basé à Londres. Créé en 2000, il a financé une centaine de startups à ce jour d’après la Crunchbase. Il a £220M sous gestion et investit £35M par an. Il est “lead investor” sur une cinquantaine de ces investissements.

Conclusion rapide : l’étude de MMC Ventures est un (bel) outil marketing de promotion de son activité d’investisseur et au passage de son pays d’origine. En période de brexitation, il est critique pour l’écosystème de startups britannique de bien se valoriser et de continuer à attirer capitaux et entrepreneurs !

Dans cette répartition par pays, on y trouve une première bizarrerie : ils n’ont “que” 217 startups française de l’IA. Or, l’initiative France Is AI – qui est maintenant intégrée dans France Digitale – en inventorie 335 sur son site, donc 54% de plus ! J’ai déjà plusieurs fois balayé la liste de ces 335 startups françaises et j’y retrouve pas mal de startups connues et rares sont celles qui pipotent sur leur usage de l’IA. Si vous en trouvez, allez, lâchez-vous et dénoncez-les ! Ce que MMC ne se permet pas de faire nominativement dans son étude.

Nous avons donc déjà un biais d’échantillon dans l’étude : les startups françaises de l’IA sont sous-échantillonnées et nous ne savons pas pourquoi. Est-ce fait pour valoriser les startups UK qui seraient mieux échantillonnées ? Comme la liste des startups utilisée dans l’étude n’est par fournie, difficile de savoir ! Il faut faire confiance. Et comme on ne connaît pas le critère de sélection des startups, on ne peut savoir si certains pays ont été désavantagés ou pas.

Il existe toujours un biais dans la question et l’outil de mesure. Ainsi, si je vous demande quelle est la plus grande unicorn d’origine française, vous répondrez Sigfox, Talend, Blabacar ou OVH. Alors qu’en fait, c’est Snowflake, une startup créée aux USA par une équipe d’entrepreneurs français qui propose une solution de gestion d’entrepôts de données dans le cloud. Elle levé $928M avec une valorisation de plus de $3B. Et d’ailleurs, sans IA !

Un définition contestable de ce qu’est l’IA

Personne n’est vraiment d’accord sur ce qu’est l’IA ou un produit qui utilise de l’IA. Pour prendre des cas extrêmes, nous avons en France d’un côté Luc Julia qui considère que l’IA n’existe pas (… au sens anthropomorphique du terme) et de l’autre, Laurent Alexandre qui considère qu’elle produit des gilets jaunes (même l’IA faible d’aujourd’hui). Probablement “des gilets jaunes” du futur. Faites un rechercher-remplacer de “intelligence artificielle” par “technologies” et le papier de Laurent Alexandre prend tout son sens.

Je me suis en fait étranglé en découvrant la manière dont MMC présentait sa définition de l’IA. Elle est des plus partiale et partielle ! Leur définition élague tout bonnement une belle moitié du champ de l’IA, celui de l’IA symbolique au profit de l’IA connexionniste.

Voici donc leur topo :

“Basic AI has existed since the 1950s, via rules-based programs that display rudimentary intelligence in limited contexts. Early forms of AI included ‘expert systems’ designed to mimic human specialists. Rules-based systems are limited. Many real-world challenges, from making medical diagnoses to recognising objects in images, are too complex or subtle to be solved by programs that follow sets of rules written by people. Excitement regarding modern AI relates to a set of techniques called machine learning, where advances have been rapid and significant. Machine learning is a sub-set of AI. All machine learning is AI, but not all AI is machine learning. Machine learning enables programs to learn through training, instead of being programmed with rules. By processing training data, machine learning systems provide results that improve with experience”.

Et l’on retrouve ce schéma ultra-conventionnel mais partiel décrivant le champ de l’IA en poupées russes, qui élague les moteurs de règles, la programmation par contrainte tout comme les réseaux multi-agents.

A côté de la plaque, le rapport de MMC considère dont que l’IA connexionniste du machine learning est “meilleure” en général que l’IA symbolique (à base de moteurs de règles). Cela relève d’une méconnaissance grave de la riche histoire du champ scientifique de l’IA. Tout d’abord, ce que l’on faisait ou fait avec de l’IA symbolique n’est généralement pas faisable avec le deep learning d’aujourd’hui : démontrer un théorème de géométrie (fait dans les années 1960), faire un diagnostic médical qui ne relève pas de l’imagerie (fait dans les années 1970 avec le système expert MYCIN), faire de la maintenance industrielle, ou tout simplement faire respecter le code de la route à un véhicule autonome.

De plus, les chercheurs de l’IA n’ont jamais tenté de reconnaître un chat dans une image avec un moteur de règles. Au pire le faisait-on dans les années 1990 et 2000 avec du machine learning exploitant des “handcrafted features” comme ils l’expliquent pourtant dans le document.

Il y a bien eu des tentatives d’intégrer des capacités de raisonnement dans du deep learning, en particulier dans la branche du “Symbolic Neural Networks”. Mais elle n’a pour l’instant pas aboutit sur quelque chose de probant. A ce stade, donc, les outils de l’IA symbolisme, même s’ils n’ont plus la cote depuis l’explosion cambrienne du deep learning, sont complémentaire de ce dernier.

Faire apprendre le code de la route pourrait être réalisé avec de l’apprentissage par renforcement mais cela ne serait pas forcément efficace. En pratique, on utilise encore des moteurs de règles et l’on peut éventuellement ajuster la base des règles via de l’apprentissage. C’est aussi comme cela que fonctionnent certaines solutions à base d’IBM Watson avec du deep learning pour faire de l’extraction de règles dans des bases de textes libres qui alimentent ensuite des briques logicielles symboliques.

Qu’on se le dise : le deep learning d’aujourd’hui ne raisonne pas. Il exploite des données avec des modèles probabilistes. Il pourra raisonner un jour puisque c’est comme cela que notre cerveau fonctionne. Mais avec une densité et un nombre de neurones qui va au-delà des réseaux de neurones de l’IA d’aujourd’hui. On est à la fois limité par le matériel qui ne peut pour l’instant gérer que des réseaux de neurones avec quelques milliards de paramètres, et par les algorithmes utilisés.

D’autres éléments de l’étude de MMC Ventures

L’étude de MMC est longue. On y trouve quelques autres informations intéressantes mais difficiles à interpréter du fait de l’absence de transparence sur le jeu de données utilisées.

Ainsi, la France aurait des projets de startups d’IA plus matures qu’au Royaume Uni ! On le voit dans le graphe ci-dessous qui montre que l’échantillon français comprend moins de startups en amorçage (en bleu) qu’au Royaume-Uni. Autre traduction : nous aurions un “pipe” insuffisant de projets de qualité. Question de verre à moitié plein ou à moitié vide !

Dans une autre perspective, d’un point de vue thématique, le Royaume-Uni serait le pays des startups de l’IA dans la santé tandis que la France serait celle des startups de l’IA du service client. C’est possible mais non vérifiable. Il est vrai que dans la cartographie de France Is AI, on y trouve pas mal de startups liées au retail. Mais on en a aussi pas mal dans la santé et elles n’y sont d’ailleurs pas toutes.

Le rapport contient d’autres éléments crédibles. Ils indiquent ainsi que la proportion des startups qui intègrent de l’IA dans leurs solutions ne fera qu’augmenter. L’IA est amenée à se généraliser un peu partout, quelle qu’en soit la forme. Il décrit ce phénomène, le syndrome de ruée vers l’or des investisseurs, qui n’est pas spécifique à l’IA et que l’on a connu sur plein d’autres tendances technologiques ces dernières décennies.

Une promotion des startups du portefeuille de MMC Ventures

Le document de MMC comprend des descriptions format “one pager” pour 14 startups.

Nous avons :

Audio Analytic (UK) ayant levé $8,2M. Elle détecte les anomalies dans des sources audio. Elle est intégrées dans la Freebox Delta Player lancée en décembre 2018 pour sa fonction de sécurité pour détecter les intrusions.
Current Health (UK) ayant levé $11,7M, dont une part chez MMC Ventures. C’est de la télésurveillance de seniors à base d’objets connectés. Il doit bien y avoir une douzaine de startups faisant quelque chose d’équivalent en France.
Digital Genius (UK) ayant levé $26M dont une part chez MMC Ventures. Ils automatisent la création de scénarios de service clients pour des chatbots.
Gousto (UK) ayant levé $100M, dont une part chez MMC Ventures. Ils utilisent de l’IA, non précisée, pour créer des paniers pour se préparer ses repas.
Kheiron Medical (UK) ayant levé selon la Crunchbase £10K mais probablement plus au vu de la liste des investisseurs. Fait du diagnostic de cancers, pour l’instant du sein. C’est visiblement un concurrent du Français Therapixel.
Omni:us (Allemagne), ayant levé 23,9M€ propose une solution d’automatisation pour la gestion de sinistres dans les assurances.
Prowler.io (UK) ayant levé $14,9M. Ils font des prédictions à base de machine learning. La description de leur offre est particulièrement floue comme le sont souvent les startups de ce type.
Seldon (UK) ayant levé $4,3M. Ils font du machine learning dans le cloud. Original !
SenSat (UK) ayant levé $5M. Leur solution sert à la conduite de chantiers, mais il est difficile d’identifier les composantes d’IA qu’elle contient.
Senseon (UK) dans la cybersécurité, ayant levé $6,4M, dont une part chez MMC Ventures.
Senseye (UK) ayant levé £4,8M dont une part chez MMC Ventures. Ils font de la maintenance prédictive pour l’industrie.
Signal (UK) ayant levé $26,6M, dont une part chez MMC Ventures. Ils font la curation de contenus textuels.
StoryStream (UK) ayant levé £3M, dont une part chez MMC Ventures. Leur description : “Using patent-pending AI, our solution transforms the carbuying experience by automatically delivering more real, relevant content, at scale, to every customer touchpoint. Our platform enables better lead quality and increased conversion, and improved ROI by driving efficiency into content management across global teams.”. Allez vérifier l’IA qu’il y a là-dedans avec ça !
Synthesia (UK) avec des investisseurs non documentés, visiblement uniquement le gouvernement UK. Ils proposent une application intéressante et perturbante. Elle permet de faire un doublage de film en en altérant le mouvement des lèvres des acteurs pour qu’ils collent à la langue du doublage. Cela utilise bien de l’IA à base de réseaux de neurones génératifs. C’est une forme légère de “fake news” comme ces fameuses vidéos fake de Barack Obama qui tiennent des propos entièrement artificiels.

Au final, nous avons donc 13 startups UK sur 14, et 50% où le fonds MMC Ventures a investi. Traduction : les britanniques sont les rois de l’IA et nous sommes un fonds d’investissement sérieux dans l’IA. Les autres fonds sont des rigolos qui se font berner par des entrepreneurs maquillant une base de données MySQL ou NoSQL en IA.

Quelques points de vigilance des startups de l’IA

Je vous livre ici quelques réflexions liées à l’observation de loin et de près de nombreuses startups de l’IA.

Tout d’abord, le syndrome de l’IA bullshit décrit par MMC est souvent la conséquence des pratiques marketing du monde des startups. Les accélérateurs et autres services d’accompagnement des startups formatent les discours et le marketing des startups pour mettre en avant la “business value” de la solution. Les composantes techniques de la solution sont très rarement décrites dans le marketing. Avec ou sans IA. Les entrepreneurs veulent conserver la main sur leur procédé. Souvent, ils veulent aussi simplement cacher le fait qu’ils utilisent des méthodes d’IA très standards, disponibles “off the shelf” dans n’importe quel framework tel que TensorFlow. Une startup d’imagerie médicale ne va pas raconter qu’elle enchaîne un R-CNN avec un VGG16 puis un classifieur pour détecter une tumeur cancéreuse ! Ce sont des techniques courantes. Dans d’autres cas de figure, les startups ne sont pas très bavardes sur leur solution car elle est en cours de dépôt de brevet. Même sur des logiciels, qui sont en pratique brevetables dès lors qu’ils sont associés à un dispositif matériel plus ou moins original.

Je connais beaucoup d’investisseurs et, s’ils n’ont pas tous un bon bagage technique dans l’IA, savent tout de même détecter une bonne part du bullshit des entrepreneurs. C’est ce qui fait qu’une bonne part des entrepreneurs en herbe n’arrivent pas à se financer, même en amorçage. Ils utilisent souvent des “signaux latéraux” comme le pedigree et le parcours des fondateurs. Une startup de l’IA qui n’aurait pas dans ses fondateurs un CTO ayant un historique dans le domaine devrait être un “red flag” pour tout investisseur. Une startup de l’IA créée par des HEC qui voudrait sous-traiter tous les développements logiciels devrait faire de même.

On sait que la valeur des IA connexionnistes est la combinaison d’algorithmes, de matériel et de données. Un investisseur doit donc aussi évaluer la source des données utilisées par la startup, leur quantité et leur qualité. Cette évaluation permet indirectement de se faire une idée de la généricité de la solution. Plus les données exploitées seront externes aux clients, plus la solution sera générique. Plus les données seront propres à chaque client, plus grand sera le risque que la solution nécessite une vente en mode service et/ou projet. La qualité ou la non qualité des données explique pourquoi une IA qui s’appuie sur les outils les plus récents peut très bien ne pas fonctionner. Elle va générer trop d’erreurs, de faux positifs ou négatifs dans des tâches de classification. La qualité des données d’entraînement explique notamment les déboires d’IBM en cancérologie avec Watson.

Les briques de base de l’IA sont un lego géant essentiellement disponible en open source. Une bonne part du travail d’aujourd’hui consiste à les choisir et à réaliser un travail d’intégration et d’assemblage. Les équipes techniques de la startup doivent de plus en plus maîtriser une grande variété de ces techniques, relevant ou pas de l’IA : les capteurs, les télécoms, les ressources du cloud et les interfaces utilisateurs pour ne prendre que les plus courantes.

Comme les briques de l’IA sont devenues des commodités, il est de plus en plus difficile de jauger une startup par rapport à ses concurrents. Comme par exemple Kheiron Medical et Therapixels. La différence entre les deux pourra venir de l’IA, mais le plus souvent, elle viendra de la capacité à toucher les bons clients et à déployer rapidement. La bataille concurrentielle des startups est un mélange de bataille qualitative sur les solutions et une course de vitesse.

Autre point clé : le manque de références clients déployées à grande échelle et documentées. Une bonne part des startups de l’IA sont assez jeunes, avec quelques années d’existence. Très souvent, elles en sont encore au stade des projets pilotes (PoC). Ceux-ci ne donnent pas encore lieu à la production d’études de cas communicables. Surtout quand les PoC (proof of concepts) ne sont pas satisfaisants. Et lorsque les références sont documentées, elles se focalisent plus sur la valeur business de la solution que sur ses caractéristiques techniques. Il n’existe pas de véritable discipline de référencement d’étude de cas de l’IA. Je m’y étais essayé, sans grand succès en 2017 dans Modèle d’étude de cas de l’IA.

Avec un peu d’exercice, j’arrive souvent à identifier la technique d’IA utilisée en fonction de la description métier de la solution. Juste en imaginant les données en entrée et les résultats en sortie. Dans le machine learning, la méthode utilisée dépend généralement de la dimensionnalité du problème. S’il ne comprend que quelques dimensions, on utilise des méthodes de base du machine learning pour faire de la classification ou de la prévision (SVM, régression non linéaire, …). Si le nombre de paramètres passe à quelques dizaines, la solution va probablement faire appel à un réseau de neurones avec une ou quelques couches cachées. Enfin, si la donnée est plus complexe, on passera au deep learning. C’est un passage obligé dès que l’on traite des images, de la voix, du langage ou du bruit. Un robot, quelle qu’en soit la forme (chatbot, robot humanoïde, aspirateur, robotic process automation dans la banque ou l’assurance, …) fera généralement aussi appel à un moteur de règles pour l’application de règles déjà connues.

Un autre scénario peut très bien intervenir : celui d’une startup qui utilise une technologie donnée mais qui n’est pas indispensable. Elle le fera car c’est effectivement à la mode et que cela permet de trouver plus facilement des investisseurs. Cela peut très bien se produire avec de l’IA mais aussi, dans d’autres situations, avec une blockchain. On trouve des applications exploitant la blockchain pour des cas d’usages de plus en plus farfelus par les temps qui courent !

Enfin, il faudrait citer le cas des éditeurs de logiciels existants qui ne sont pas des startups et intègrent progressivement du machine learning dans leur solution pour exploitées les données qu’elle capte et génère. Dès lors que ces logiciels captent de gros volumes de données de qualité, il pourront ajouter des fonctions de classification et de prédiction à la solution existante. C’est ce qui est en train d’arriver dans les logiciels de comptabilité, dans la cybersécurité, dans les outils de monitoring d’infrastructures informatique (avec les “AIops”), dans les outils de développement, etc.

En conclusion, s’il est vrai qu’il y a tout de même de l’IA washing chez certaines startups, surtout en phase de pré-amorçage, il ne faut pas prendre les investisseurs pour des demeurés. Ils ont des biais mais ont aussi de l’expérience. Ils ne regardent pas que la technologie dans une solution mais la capacité à la marketer et à la vendre. Ils évaluent surtout le potentiel des équipes.

Bref

Nous avons tout de même une masse critique de belles startups de l’IA en France : Algolia, Dataiku, Invenis, Prevision.io, Yseop, Shift Technology, Snips, Naïo Robotics (robots agricoles), Alan, DreamQuark, Cardiologs, Therapixels, Visible Patient, etc. Reste à les faire décoller rapidement à l’échelle internationale.

Soyez en tout cas méfiants lorsqu’un article démarre avec “les études disent que…” ou “des chercheurs ont trouvé…”. Il se cache souvent derrière ces affirmations des études biaisées, des statistiques incomplètes, des analyses qualitatives déficientes et des biais cognitifs. Y compris d’ailleurs dans les critiques comme les miennes!

L’expert

Olivier Ezratty est consultant et auteur, créateur d’Opinions Libres, son blog sur les deep techs (intelligence artificielle, informatique quantique, medtech, …) et sur l’innovation (entrepreneuriat, politiques publiques…). Olivier est expert pour FrenchWeb qui reprend les publications de son blog.

À propos
Articles récents

Les Experts

Olivier Ezratty, Rodrigo Sepulveda, Gregory Renard, Laurence Faguer, retrouvez les analyses de nos experts dans les deeptech, investissement, IA, retail, santé...

Pour contacter la rédaction: redaction@fw.media

Vous souhaitez contribuer régulièrement en tant qu'expert sur FRENCHWEB.FR, merci de nous contacter à redaction@fw.media

Les derniers articles par Les Experts (tout voir)

05/07/2019

15 minutes de lecture

2 commentaires

Tubbydev dit :

25/03/2019 à 14h38

Voir aussi l’excellent livre de Casilli En attendant les robots. Enquête sur le travail du clic (Seuil)
https://www.liberation.fr/debats/2019/01/09/antonio-casilli-le-mythe-du-robot-est-utilise-depuis-des-siecles-pour-discipliner-la-force-de-travai_1701892
ou le nombre hallucinant de travaux demandés et faits sur les plate-forme comme Mechanical Turk pour sans aucun doute des start-ups blablatant sur l’IA
Yves dit :

28/03/2019 à 19h38

Toujours un plaisir de lire du OE dans le texte, tant la prose est plaisante et le contenu pointu et honnête (j’adore la conclusion). Well done ! IMHO, le réel problème de l’AI est de s’assurer qu’une fois en production, l’assemblage va continuer a prédire ou fournir les bons insights. En réalité, il faut un monitoring permanent des blocks que constituent la chaîne de l’IA à savoir : monitoring des données (covariate shift, detection d’anomalie etc.), Reco des Modèles (stabilité, bias, incertitude etc.) et enfin suivi de la performance des algos … bref c’est complexe mais pourquoi pas des algos qui superviseraient les algos / modèles et l’intégrité des données pour un monitoring permanent. Jackpot assuré !!