Jonathan Suru

Veille IA : Pourquoi je mise sur les petites startups et l'Open Source pour anticiper demain

Quand je fais ma veille technologique quotidienne, j'ai pris l'habitude de détourner le regard des géants de la Tech. Bien sûr, on ne peut pas ignorer OpenAI ou Google, mais j'ai réalisé que l'innovation la plus excitante, celle qui casse vraiment les codes, ne vient pas toujours de là. Elle vient des petites structures, des startups indépendantes et des laboratoires open source.

J'ai fini par comprendre que pour être vraiment à jour, le secret n'est pas de surveiller les entreprises comme des entités froides, mais de suivre les équipes qui les construisent. C'est là que la magie opère pour moi. Ces fondateurs et ingénieurs ne se contentent pas de parler de leur propre produit. Sur les réseaux sociaux, ils partagent leurs découvertes sur les nouvelles architectures, leurs avis tranchés sur les startups qui émergent, et leurs analyses pointues sur l'évolution du domaine. C'est une veille vivante : j'accède directement à leurs réflexions et à leurs coups de cœur techniques. Il y a une différence énorme entre lire un communiqué de presse et voir un fondateur tweeter à 2h du matin sur une faille dans une architecture ou une nouvelle bibliothèque qui vient de changer la donne.

En les suivant, je ne vois pas juste le produit fini, je comprends l'écosystème entier. Voici ma sélection personnelle de startups et de profils que je suis pour rester au courant des évolutions du domaine.

Recherche & Architecture

Ces startups ne se contentent pas d'utiliser l'IA, elles en redéfinissent les fondations techniques. Suivez-les pour comprendre comment l'IA pense.

Pleias
C'est une équipe que j'admire particulièrement pour sa rigueur scientifique. Ils ont mis à disposition de la communauté le Common Corpus, qui est tout simplement la plus grande base de données open source et permissive existante. Leur credo, c'est que la qualité des données surpasse la quantité. Ils l'ont prouvé avec leur modèle Baguettotron : il parvient à rivaliser avec des modèles de même taille tout en ayant été entraîné avec beaucoup moins de données. Je recommande vivement de suivre leurs fondateurs sur LinkedIn et Twitter, car ils partagent sans filtre leurs trouvailles sur l'OCR et les méthodes d'acquisition de données. Toute cette expertise technique, ils l'utilisent aujourd'hui concrètement pour développer des modèles personnalisés en B2B.
Kyutai
C'est pour moi le laboratoire de recherche open source le plus excitant du moment en Europe. Ils ont marqué les esprits avec Moshi, un modèle capable d'écouter et de répondre en temps réel avec une voix très expressive. Leur spécialité, c'est l'audio (STT et TTS), et ils publient régulièrement leurs avancées et leurs nouveaux modèles. En particulier, leur codec Mimi est devenu une référence incontournable, c'est l'un des plus utilisés aujourd'hui dans la communauté. À noter aussi que l'équipe gère Gradium.ai, où ils proposent leurs différents modèles sous forme d'API.
Liquid AI
Cette startup issue du MIT vient de changer les règles du jeu avec LFM2.5-1.2B-Thinking. En gros, c’est un modèle de raisonnement qui ne pèse que 900 MB et qui peut tourner entièrement sur votre téléphone, sans datacenter et sans abonnement cloud. Leur philosophie, c'est "Maximum intelligence. Minimum compute". Ils travaillent principalement sur la réduction de la taille des modèles via les Liquid Neural Networks pour offrir une intelligence sur appareil efficace pour tous. C'est à mes yeux une avancée majeure pour démocratiser l'IA de haute performance hors des serveurs géants.
Sakana AI
Basée au Japon, cette startup m'impressionne par sa capacité à innover différemment. Plutôt que d'entraîner des modèles géants à grands frais, ils s'inspirent de l'évolution biologique pour fusionner des modèles existants. Mais ce qui me fascine le plus, c'est leur projet The AI Scientist. L'idée est géniale : une IA capable de mener des recherches scientifiques de A à Z de manière autonome, de la formulation de l'hypothèse jusqu'à la rédaction du papier. C'est à mes yeux l'une des initiatives les plus audacieuses pour automatiser la découverte scientifique.
Nous Research
Je considère qu'ils sont les rois du "fine-tuning" et des modèles ouverts. Mais ce qui m'impressionne le plus, c'est leur vision technique pour casser les barrières de l'entraînement. Ils ont développé DisTrO, une famille d'optimiseurs distribués qui réduit la communication entre GPU de quatre à cinq ordres de grandeur. Concrètement, cela permet d'entraîner des modèles géants (comme un LLM de 15B) sur des connexions internet lentes, sans avoir besoin des infrastructures coûteuses habituelles. Ils mettent cette technologie en œuvre via Psyche, une infrastructure ouverte qui décentralise l'entraînement sur du matériel sous-utilisé, le tout coordonné via la blockchain Solana pour garantir la résilience. C'est un projet fou qui pourrait bien démocratiser la création des modèles de fondation.
Cohere (Cohere Labs)
Pour moi, c'est une référence absolue, et pas seulement pour l'entreprise. Ils sont pionniers sur les embeddings et le RAG, indispensables pour connecter une IA à vos documents. Mais je veux surtout saluer leur travail sur la représentativité avec la série de modèles Aya, qui vise à couvrir un maximum de langues pour une IA réellement inclusive. Ils prouvent également leur engagement en lançant une Open Science Initiative, partageant largement leurs recherches pour faire avancer toute la communauté scientifique.
Exa AI
Pour moi, c'est le moteur de recherche dont les agents IA avaient besoin. Contrairement aux moteurs classiques faits pour les humains, Exa est conçu pour les machines. Ils utilisent des embeddings de pointe pour comprendre le sens sémantique des requêtes et retrouver l'information pertinente, bien au-delà des simples mots-clés. Ce qui m'impressionne tout autant, c'est leur obsession pour l'optimisation de la vitesse : ils parviennent à délivrer des résultats ultra-rapides et structurés, ce qui est crucial quand on veut construire des agents réactifs. C'est selon moi la brique indispensable pour créer une IA capable de naviguer sur le web réellement.

Infrastructure & Performance

L'IA a faim de puissance. Ces startups construisent les outils qui permettent de faire tourner l'IA plus vite, pour moins cher. C'est le pan technique souvent ignoré mais crucial.

Tinygrad
Fondé par George Hotz, la légende qui a hacké l'iPhone et fondé comma.ai, ce projet incarne l'esprit hacker à l'état pur. Il applique la même rigueur open source qu'à son système de conduite autonome openpilot : tout est transparent et accessible. C'est un framework d'extrême performance, capable de faire tourner des modèles sur n'importe quel matériel, même limité. J'admire son approche "anti-bloat" qui élimine la complexité inutile pour offrir une efficacité maximale sans les lourdeurs logicielles habituelles.
ZML
Pour le déploiement, j'ai un coup de cœur pour ce framework écrit en Zig. Ils prennent le contre-pied total de l'industrie en virant Python de la stack, ce qui permet d'atteindre une performance brute et une latence minime que je trouve impressionnante. J'aime beaucoup leur philosophie Open Source et le fait d'être agnostique au hardware pour éviter de se bloquer chez un fournisseur. Et pour aller plus loin, le fondateur anime le podcast À la French, que je recommande pour ses discussions pointues sur la deep tech française.
Prime Intellect
C'est une startup qui a une vision qui me parle énormément : ils veulent démocratiser l'accès au calcul pour l'IA. Leur but est de permettre l'entraînement de modèles géants de manière décentralisée, en mutualisant des ressources de calcul dispersées un peu partout. Je suis de très près leur Lab où ils partagent leurs protocoles techniques pour rendre cela possible. C'est selon moi un projet crucial pour éviter que l'entraînement des modèles ne reste l'apanage exclusif des géants de la Tech.
Exolabs
Leur outil exo est une solution ingénieuse pour faire tourner de gros modèles sans matériel professionnel. Il permet de connecter simplement vos appareils du quotidien (Mac, PC, Linux) pour qu'ils agissent comme un seul ordinateur géant. L'utilité est immédiate : vous pouvez exécuter des modèles qui ne tiendraient pas sur une seule machine en mutualisant la puissance de calcul dont vous disposez déjà. C'est une approche idéale pour démocratiser l'inférence locale, sans avoir besoin d'investir dans des GPU hors de prix.

Robotique & Embodied AI

C'est la prochaine frontière : donner un corps à l'intelligence artificielle. Ces startups font le pont entre le code et le monde physique.

Pollen Robotics
Ce sont pour moi les stars françaises de la robotique ouverte. Ils font désormais partie intégrante de l'écosystème Hugging Face, ce qui leur permet de bénéficier de tout l'environnement et des modèles de la communauté. Leur robot Reachy Mini est un concentré de technologie expressif et open-source. C'est une véritable porte d'entrée pour l'IA robotique : entièrement programmable en Python, il permet de développer et tester des applications réelles directement depuis son bureau, rendant la robotique accessible aux développeurs et aux passionnés.
Fauna Robotics
C'est une startup qui ne se contente pas de fabriquer des robots, elle pousse la recherche plus loin. Ils repensent le design pour le rendre vraiment bio-inspiré, et on voit la qualité de leur travail dans leurs publications scientifiques, comme leur récente recherche sur arXiv. Leur travail sur la fluidité du mouvement et l'adaptation à l'environnement est fascinant. Pour moi, ce sont des chercheurs qui mettent la théorie en pratique avec une approche très sérieuse.
UMA
Pour moi, c'est probablement l'équipe la plus survoltée du secteur en ce moment. Ils développent des robots généralistes avec une dextérité niveau humain, mais leur force de frappe réside surtout dans leurs fondateurs : une véritable "dream team" venue tout droit de Tesla Optimus, Google DeepMind et du projet LeRobot à Hugging Face. Ils allient l'expérience du terrain industriel à la recherche de pointe en IA. Je suis leur trajectoire de très près, notamment en vue de leurs premiers pilotes prévus pour 2026 en logistique.
LiteFold
C'est un projet que je trouve fascinant à l'intersection de l'IA et de la biologie. Ils construisent une infrastructure ouverte dédiée à la biologie structurale pilotée par simulation. Concrètement, cela permet d'accélérer la découverte de médicaments et la compréhension des protéines en simulant leur comportement dynamique bien au-delà de la simple prédiction statique. Je recommande aussi de suivre activement leur fondateur sur les réseaux sociaux ; il commente régulièrement les avancées du secteur avec une acuité rare, ce qui est une mine d'or pour la veille technologique.
Arcee.ai
Spécialistes des Small Language Models (SLM). Pourquoi c'est important pour la robotique ? Parce qu'un robot n'a pas la puissance de calcul d'un data center. Arcee crée des modèles ultra-performants mais très légers, parfaits pour être embarqués dans une machine. Ils rendent l'IA mobile.

L'Afrique, une scène à part entière

Le continent africain ne suit pas simplement les tendances, il innove par nécessité et créativité. Cette scène doit être suivie séparément car elle aborde des problématiques uniques (langues, infrastructure, mobile-first) avec une audace remarquable. C'est un terrain d'innovation frénétique.

InstaDeep
C'est la success story historique. Née en Tunisie, devenue licorne puis rachetée par BioNTech, InstaDeep est un leader mondial sur l'IA pour la biologie et l'optimisation logistique. Ils prouvent que l'Afrique peut former des ingénieurs de niveau mondial capables de résoudre les problèmes les plus complexes.
LeLapa AI
Une startup essentielle pour l'inclusivité. La plupart des modèles d'IA ignorent les milliers de dialectes africains. LeLapa construit des modèles multilingues natifs, permettant à des millions de personnes d'accéder à la technologie dans leur langue maternelle. Un enjeu culturel majeur.
Soynade AI
C'est pour moi la plateforme la plus pointue pour les langues ouest-africaines. Ils ont compris que le défi principal n'est pas seulement la langue, mais le contexte : leurs modèles gèrent parfaitement les mélanges de langues, les accents locaux et l'écriture informelle. J'admire surtout leur engagement radical pour l'open source. Ils ne gardent rien pour eux : ils publient des outils comme Oolel-Translator et des datasets essentiels en Bambara ou Wolof. Soutenus par l'UNICEF, ils ne se contentent pas de vendre de l'IA, ils construisent les infrastructures manquantes pour que l'écosystème africain puisse exister par lui-même.

👨‍💻 Les "Builders" : Les personnes à suivre

Enfin, l'innovation est avant tout humaine. Ces profils partagent en direct leur code, leurs échecs et leurs découvertes. Les suivre sur les réseaux, c'est avoir accès à une formation continue de haut niveau.

Andrej Karpathy : L'ancien directeur de l'IA chez Tesla et OpenAI. Ses "tweets" et ses cours sont considérés comme la bible de l'éducation en IA. Il vulgarise les concepts les plus complexes avec une clarté rare.
Sebastian Raschka : Auteur de référence, il vulgarise les mathématiques complexes derrière le Machine Learning. Ses articles sont des ressources indispensables pour comprendre la théorie.
Ash Vardanian : Fondateur d'Unum, il pousse les limites de la performance des bases de données vectorielles (essentielles pour l'IA). Il est très actif sur les optimisations bas-niveau.
Remi Cadene
Ce n'est pas une entreprise mais un chercheur clé (Hugging Face) qu'il faut suivre absolument. Il est l'architecte de LeRobot, la bibliothèque standard pour entraîner des robots par imitation (montrer le geste au robot plutôt que le programmer). C'est l'évolution la plus excitante du moment pour la robotique grand public.
Nato Lambert : Chercheur reconnu pour son travail sur l'apprentissage par renforcement et l'alignement des modèles. Il partage souvent des retours d'expérience très concrets.
Vintage Data & DJDumpling : Des profils très techniques qui analysent les datasets et les nouvelles architectures en profondeur. Suivez-les pour les critiques techniques pointues.
StepJam : Recherche avancée en robotique et manipulation robotique.
Paula Bartabajo : Analyses stratégiques sur l'économie de l'IA. Elle met en perspective les impacts business des nouvelles technologies.
Skalskip & Yuvraj Singh : Développeurs actifs et créateurs de contenu technique, parfaits pour découvrir de nouveaux outils et bibliothèques.
Anindya : Un blog technique souvent centré sur les expérimentations de bas niveau, très apprécié par les puristes du code.

Ma recommandation musicale du jour : à écouter sans modération !

Écouter sur YouTube