À mon sujet

Je m’appelle Slava Dubrov, également connu sous le nom de Viacheslav Dubrov. Je développe des systèmes ML et AI en environnement de production, et je dirige des équipes qui accomplissent la même tâche.

Actuellement, je travaille au sein de l’équipe Agent Execution chez HubSpot : sur le déploiement de LLM, la fine-tuning, l’évaluation, ainsi que sur les composants runtime qui permettent aux agents de fonctionner en environnement de production. Auparavant, j’étais chargé de l’infrastructure de récupération, d’ancrage et de mémoire chez HubSpot, ce qui me donne une perspective sur ce qui se passe une fois que la démonstration fonctionne correctement.

Pourquoi lire ce blog

J’écris les notes que j’aurais aimé avoir lors de la débogage des systèmes en production AI. Une grande partie du travail AI semble ordonnée dans un cahier de notes, mais devient complexe dès qu’interviennent des utilisateurs réels, des latences, des problèmes de permissions, un écart de données et des coûts élevés. Ce blog porte précisément sur cette dimension.

Contexte pertinent :

Exécution des agents HubSpot : LLM fine-tuning, optimisation de l’inférence, évaluation des agents, ainsi que mécanismes de protection en environnement de production.
Couche de hub et de contexte HubSpot Embedding : infrastructure de récupération d’informations, d’ancrage sémantique et de mémoire pour les agents AI.
Wayfair : systèmes de détection de la fraude et des arnaques, ainsi que les systèmes embedding que j’ai conçus et dirigés, permettant des économies annuelles d’environ 4 millions de dollars.
Orateur au World Agentic AI Summit Berlin 2026 : « Ingénierie de la pile Agentic ».
Doctorat en diagnostic AI, articles soumis à révision par des pairs et brevets.
Travail portant sur le traitement des données pipelines, l’entraînement, l’évaluation, le déploiement, ainsi que sur les aspects opérationnels associés.
Environnement de production ML sur AWS et GCP, couvrant des systèmes en mode batch, en streaming et en temps réel.
Code open source, tutoriels et écrits destinés aux personnes qui développent des systèmes AI nécessitant une exécution continue.

Parole

« Ingénierie de la pile Agentic » – Sommet mondial Agentic AI, Berlin (2026). Architecture de production pour les systèmes agentic AI : moteur cognitif, Cortex (architecture mémoire) et raisonnement guidé par des schémas.

De quoi je parle

Principalement des pannes en environnement de production et les mesures que j’ai prises pour y remédier.

Architecture d’agent : AI Boucles de raisonnement d’agent, AI Architecture de mémoire d’agent, AI Agent Tool Use, AI Sécurité des agents, Agent Runtime à exécution prolongée AI
Contexte et récupération : Context Engineering pour les agents AI pour les systèmes agentic, les motifs RAG
LLM développement : LLM Fine-Tuning Guide, Raisonnement guidé par schéma sur vLLM, LoRAX Serving – Guide
Outils de développement : configuration en Python, UV sur macOS, MCP Tutoriel sur le serveur utilisant uv et FastMCP

Radar technologique

LLM serving ainsi que fine-tuning : vLLM, LoRAX, LoRA/QLoRA, VLMs, SGR/SO

Agents : LangGraph, Claude, Google ADK, CrewAI, LlamaIndex, SmolAgents

Sécurité et évaluation : garde-fous, évaluations automatisées, LLM en tant que juge, observabilité

Vecteurs et récupération d’informations : Qdrant, Faiss, recherche sémantique, récupération hybride, reranking, compression de contexte

Outils et flux de travail : MCP (Model Context Protocol), A2A, FastMCP, n8n

MLOps : AWS (deux certifications), GCP/Vertex AI, Kubernetes, Kubeflow, Airflow, Ray, MLflow

Noyau : Python, SQL, Scala, Java, Rust, PyTorch, FastAPI, Spark, Polars

Connectons-nous

J’ai généralement un intérêt pour la mise en production ML, les systèmes d’agents, le retraitement des données, l’évaluation, ainsi que le nettoyage des pipelines devenus trop complexes.