À propos de moi
👋 Salut, je suis Slava Dubrov. Je mets en production des systèmes ML et IA depuis plus de dix ans, et je dirige des équipes qui font la même chose. Aujourd’hui, je fais partie de l’équipe Agent Execution chez HubSpot, où je travaille sur le déploiement de LLM, le fine-tuning et le fait de rendre les agents un peu plus disciplinés. Avant cela, j’ai passé quelques années sur l’infrastructure de retrieval et de mémoire dont ces agents dépendent, donc quand ils hallucinent, je le prends un peu personnellement.
Pourquoi lire ce blog
Principalement parce que j’y consigne ce que j’aimerais moi-même lire. L’IA de production est pleine de choses qui ont l’air correctes dans un notebook et qui s’effondrent le lundi matin. Je préfère la version du lundi.
Version courte de ce que j’ai réellement fait :
- Dans l’équipe Agent Execution de HubSpot : fine-tuning de LLM, optimisation de l’inférence, évaluation des agents et garde-fous de sécurité, le tout en production.
- Auparavant chez HubSpot, sur Embedding Hub et Context Layer : la couche de retrieval, de grounding et de mémoire derrière les agents de HubSpot.
- Chez Wayfair, environ $4M économisés par an grâce à la détection de fraude et d’arnaques, ainsi qu’aux systèmes d’embeddings que j’ai conçus et pilotés.
- Intervention sur « Engineering the Agentic Stack » au World Agentic AI Summit à Berlin (2026).
- PhD en diagnostic par IA, avec des publications évaluées par les pairs et quelques brevets.
- À l’aise sur toute la chaîne : pipelines de données, entraînement, évaluation, déploiement, et toutes les parties peu glamour entre les deux.
- Systèmes ML sur AWS et GCP, en batch, en streaming et en temps réel.
- Code open source, tutoriels et retours d’expérience pour les personnes qui font réellement le travail.
Conférences
- « Engineering the Agentic Stack » — World Agentic AI Summit, Berlin (2026). Architecture de production pour les systèmes d’IA agentique : Cognitive Engine, Cortex (architecture mémoire) et Schema-Guided Reasoning.
Ce que j’écris
Principalement des choses qui ont cassé, et ce que j’ai fait pour les réparer.
- Architecture d’agents : AI Agent Reasoning Loops, AI Agent Memory Architecture, AI Agent Tool Use, AI Agent Security, Long-Running AI Agent Runtime
- Contexte et retrieval : Context Engineering for AI Agents pour les systèmes agentiques, patterns RAG
- Développement LLM : LLM Fine-Tuning Guide, Schema-Guided Reasoning on vLLM, LoRAX Serving Guide
- Outillage développeur : configuration Python, uv on macOS, MCP Server Tutorial with uv and FastMCP
Radar technologique
Serving et fine-tuning de LLM : vLLM, LoRAX, LoRA/QLoRA, VLMs, SGR/SO
Agents : LangGraph, Claude, Google ADK, CrewAI, LlamaIndex, SmolAgents
Sécurité et évaluation : guardrails, evals automatisées, LLM-as-a-judge, observabilité
Vectoriel et retrieval : Qdrant, Faiss, recherche sémantique, retrieval hybride, reranking, compression de contexte
Outils et workflows : MCP (Model Context Protocol), A2A, FastMCP, n8n
MLOps : AWS (deux certifications), GCP/Vertex AI, Kubernetes, Kubeflow, Airflow, Ray, MLflow
Fondamentaux : Python, SQL, Scala, Java, Rust, PyTorch, FastAPI, Spark, Polars
Restons en contact
Ravi d’échanger, surtout si vous travaillez sur des problèmes ML difficiles à grande échelle, ou si vous voulez simplement que quelqu’un vous confirme que oui, votre pipeline est vraiment censé être aussi complexe.