Un récent blog de développeur chinois décompose les coûts réels de construction d'une plateforme RAG (Retrieval-Augmented Generation) de production utilisant Claude Code et le modèle Tongyi Qianwen d'Alibaba. L'auteur parcourt l'ensemble du pipeline : analyse de documents (PDF, Word, Excel, HTML, Markdown), découpage en chunks, plongement vectoriel, indexation et QA conversationnelle. Les principaux facteurs de coût incluent les appels API pour le plongement et la génération, le stockage en base de données vectorielle (par exemple Pinecone ou Milvus) et le calcul pour le traitement des documents. L'article estime les coûts mensuels totaux pour un déploiement de petite à moyenne taille, soulignant que les coûts de plongement dominent à grande échelle. Pour les développeurs outre-mer, cela offre un aperçu transparent rare des prix des services d'IA chinois et un benchmark utile pour comparer avec les alternatives occidentales comme OpenAI + LangChain.
Une analyse détaillée des coûts de construction d'une plateforme RAG de production utilisant Claude Code et Tongyi Qianwen, couvrant les appels API, le stockage vectoriel et le calcul.