AgentMaster Multi-Agent Conversational Framework - Multimodal Information Retrieval System Based on A2A and MCP Protocols

🎯 मुख्य बिंदु (TL;DR)
- नवाचार फ्रेमवर्क: AgentMaster पहला मल्टी-एजेंट सिस्टम है जो A2A और MCP प्रोटोकॉल को एक साथ एकीकृत करता है
- मल्टीमॉडल समर्थन: टेक्स्ट, इमेज और ऑडियो सहित विभिन्न इनपुट प्रारूपों की बुद्धिमान प्रसंस्करण का समर्थन करता है
- उच्च प्रदर्शन: BERTScore F1 96.3%, G-Eval स्कोर 87.1% प्राप्त करता है
- व्यावहारिक मूल्य: तकनीकी पृष्ठभूमि के बिना उपयोगकर्ता प्राकृतिक भाषा के माध्यम से सिस्टम के साथ बातचीत कर सकते हैं
- ओपन सोर्स तैनाती: Flask माइक्रोसर्विस आर्किटेक्चर आधारित स्थानीय और AWS क्लाउड तैनाती का समर्थन करता है
विषय सूची
- AgentMaster फ्रेमवर्क क्या है
- मुख्य तकनीकी आर्किटेक्चर विश्लेषण
- A2A और MCP प्रोटोकॉल विवरण
- मल्टी-एजेंट सहयोग तंत्र
- प्रयोगात्मक परिणाम और प्रदर्शन मूल्यांकन
- वास्तविक-विश्व अनुप्रयोग केस स्टडी
- सिस्टम सीमा विश्लेषण
- तकनीकी तैनाती और कार्यान्वयन
- अक्सर पूछे जाने वाले प्रश्न
- सारांश और दृष्टिकोण
AgentMaster फ्रेमवर्क क्या है {#what-is-agentmaster}
AgentMaster स्टैनफोर्ड विश्वविद्यालय और जॉर्ज मेसन विश्वविद्यालय द्वारा संयुक्त रूप से विकसित एक अगली पीढ़ी का मल्टी-एजेंट संवादात्मक फ्रेमवर्क है, जो Anthropic के Model Context Protocol (MCP) और Google के Agent-to-Agent संचार प्रोटोकॉल (A2A) को एक ही सिस्टम में अग्रणी रूप से एकीकृत करता है।
मुख्य नवाचार
- एकीकृत संवादात्मक इंटरफेस: पेशेवर तकनीकी ज्ञान के बिना प्राकृतिक भाषा के माध्यम से सिस्टम के साथ बातचीत कर सकते हैं
- गतिशील कार्य विघटन: जटिल क्वेरी को निष्पादन योग्य उप-कार्यों में स्वचालित रूप से विघटित करता है
- बुद्धिमान रूटिंग तंत्र: कार्य विशेषताओं के आधार पर सबसे उपयुक्त विशेषज्ञ एजेंट को स्वचालित रूप से चुनता है
- मल्टीमॉडल प्रसंस्करण: टेक्स्ट, इमेज, चार्ट और ऑडियो सहित विभिन्न डेटा प्रारूपों का समर्थन करता है
चित्र 1: AgentMaster का सामान्य मल्टी-एजेंट सिस्टम फ्रेमवर्क
💡 तकनीकी सफलता
यह एक ही फ्रेमवर्क में A2A और MCP प्रोटोकॉल को एक साथ लागू करने वाला पहला मल्टी-एजेंट सिस्टम है, जो इस क्षेत्र में तकनीकी अंतर को भरता है।
मुख्य तकनीकी आर्किटेक्चर विश्लेषण {#system-architecture}
AgentMaster चार-स्तरीय आर्किटेक्चर डिज़ाइन अपनाता है, प्रत्येक स्तर की स्पष्ट जिम्मेदारी विभाजन है:
1. एकीकृत संवादात्मक इंटरफेस स्तर
- मल्टीमॉडल इनपुट: टेक्स्ट, चार्ट, इमेज और ऑडियो इनपुट का समर्थन करता है
- बुद्धिमान आउटपुट: टेक्स्ट, इमेज, संरचित डेटा तालिकाओं और अन्य प्रारूप उत्पन्न करता है
- उपयोगकर्ता-मित्र: चैटबॉट जैसा इंटरैक्टिव अनुभव
2. मल्टी-एजेंट हब
सिस्टम में तीन स्तर के एजेंट शामिल हैं:
एजेंट प्रकार | मुख्य जिम्मेदारियां | तकनीकी विशेषताएं |
---|---|---|
कोऑर्डिनेटर एजेंट | कार्य विघटन, निष्पादन समन्वय | समग्र शेड्यूलिंग के लिए जिम्मेदार केंद्रीय नियंत्रक |
डोमेन एजेंट | विशेषज्ञ कार्य प्रसंस्करण | LLM या गैर-LLM तकनीकों पर आधारित हो सकते हैं |
सामान्य एजेंट | सामान्य तर्क कार्य | प्रत्येक समर्पित LLM से सुसज्जित |
चित्र 2: केस स्टडी सिस्टम आर्किटेक्चर
3. मल्टी-एजेंट AI प्रोटोकॉल स्तर
- A2A प्रोटोकॉल: एजेंटों के बीच संरचित संचार लागू करता है
- MCP प्रोटोकॉल: टूल एक्सेस और संदर्भ प्रबंधन के लिए एकीकृत इंटरफेस प्रदान करता है
4. राज्य प्रबंधन स्तर
- वेक्टर डेटाबेस: निरंतर शब्दार्थ मेमोरी प्रदान करता है
- संदर्भ कैश: सत्र डेटा और मध्यवर्ती परिणामों का तेज़ भंडारण
A2A और MCP प्रोटोकॉल विवरण {#protocols-explained}
Agent-to-Agent (A2A) प्रोटोकॉल
A2A प्रोटोकॉल Google द्वारा मई 2025 में लॉन्च किया गया एक अंतर-एजेंट संचार मानक है:
मुख्य कार्य
- संरचित संदेश विनिमय: JSON प्रारूप आधारित मानकीकृत संचार
- कार्य वितरण तंत्र: उप-कार्यों के समानांतर या क्रमिक निष्पादन का समर्थन करता है
- साझा समझ निर्माण: जटिल समस्याओं को हल करने के लिए मल्टी-एजेंट सहयोग
तकनीकी लाभ
{
"message_type": "task_delegation",
"sender": "coordinator_agent",
"receiver": "sql_agent",
"task": "query_bridge_data",
"parameters": {...}
}
Model Context Protocol (MCP)
MCP Anthropic द्वारा मई 2024 में जारी किया गया एक मॉडल संदर्भ प्रोटोकॉल है:
मुख्य विशेषताएं
- मानकीकृत इंटरफेस: विभिन्न टूल और संसाधनों तक एकीकृत पहुंच
- मॉड्यूलर डिज़ाइन: सिस्टम अंतर-संचालनीयता बढ़ाता है
- राज्य प्रबंधन: स्टेटफुल मल्टी-एजेंट इंटरैक्शन का समर्थन करता है
⚠️ महत्वपूर्ण नोट
वर्तमान में, उद्योग में दोनों प्रोटोकॉल को एक साथ एकीकृत करने वाले सिस्टम बहुत कम हैं। AgentMaster इस क्षेत्र में अग्रणी कार्य है।
मल्टी-एजेंट सहयोग तंत्र {#multi-agent-collaboration}
कोऑर्डिनेटर एजेंट वर्कफ़्लो
graph TD
A[उपयोगकर्ता क्वेरी प्राप्त करें] --> B[जटिलता मूल्यांकन]
B --> C{मल्टी-एजेंट सहयोग आवश्यक?}
C -->|हां| D[कार्य विघटन]
C -->|नहीं| E[MCP क्लाइंट को सीधे रूट करें]
D --> F[एजेंट चयन]
F --> G[समानांतर/क्रमिक निष्पादन]
G --> H[परिणाम एकत्रीकरण]
H --> I[अंतिम उत्तर उत्पन्न करें]
E --> I
विशेषज्ञ एजेंट प्रकार
सिस्टम में वर्तमान में चार प्रकार के विशेषज्ञ एजेंट शामिल हैं:
एजेंट प्रकार | प्रसंस्करण डोमेन | तकनीकी कार्यान्वयन | अनुप्रयोग परिदृश्य |
---|---|---|---|
IR एजेंट | सूचना पुनर्प्राप्ति | ज्ञान आधार पुनर्प्राप्ति | असंरचित सामग्री क्वेरी |
SQL एजेंट | डेटाबेस क्वेरी | SQL उत्पादन और निष्पादन | संरचित डेटा विश्लेषण |
इमेज एजेंट | इमेज विश्लेषण | बाहरी दृष्टि API | मल्टीमॉडल सामग्री प्रसंस्करण |
सामान्य एजेंट | खुले डोमेन क्वेरी | LLM तर्क | फॉलबैक और सामान्य कार्य |
एजेंट संचार उदाहरण
चित्र 3a: फ्रंटएंड इंटरैक्शन उदाहरण
चित्र 3c: बैकएंड प्रसंस्करण प्रवाह
प्रयोगात्मक परिणाम और प्रदर्शन मूल्यांकन {#experimental-results}
मूल्यांकन पद्धति
अनुसंधान टीम ने बहु-आयामी मूल्यांकन प्रणाली अपनाई:
- एजेंट मेट्रिक्स: कार्य पूर्णता दर और सटीकता
- LLM-as-a-Judge: आउटपुट गुणवत्ता का मूल्यांकन करने के लिए बड़े भाषा मॉडल का उपयोग
- मानव मूल्यांकन: सत्यापन बेंचमार्क के लिए स्वर्ण मानक
मुख्य प्रदर्शन संकेतक
मूल्यांकन आयाम | मेट्रिक नाम | स्कोर | विवरण |
---|---|---|---|
शब्दार्थ समानता | BERTScore F1 | 96.3% | संदर्भ आउटपुट के साथ शब्दार्थ मिलान |
समग्र गुणवत्ता | G-Eval | 87.1% | LLM-मूल्यांकित व्यापक गुणवत्ता स्कोर |
उत्तर प्रासंगिकता | Answer Relevancy | उच्च स्कोर | प्रश्नों के लिए उत्तरों की प्रासंगिकता |
भ्रम का पता लगाना | Hallucination Rate | कम स्कोर | झूठी जानकारी उत्पादन दर |
जटिल क्वेरी प्रसंस्करण क्षमता
सिस्टम जटिल क्वेरी प्रसंस्करण में उत्कृष्ट प्रदर्शन करता है:
क्वेरी ID | उप-समस्याओं की संख्या | शामिल एजेंट | प्रसंस्करण स्थिति |
---|---|---|---|
Q1 | 2 | General + SQL | ✅ सफलता |
Q2 | 3 | SQL + General | ✅ सफलता |
Q3 | 2 | SQL + General | ✅ सफलता |
Q4 | 3 | SQL + IR + General | ✅ सफलता |
Q5 | 2 | SQL + General | ✅ सफलता |
Q6 | 4 | IR + General | ✅ सफलता |
✅ सत्यापन विधि
अनुसंधान टीम ने जटिल क्वेरी को सरल उप-समस्याओं में विघटित किया और उन्हें अलग से सत्यापन के लिए प्रस्तुत किया, सिस्टम आउटपुट की स्थिरता और सटीकता सुनिश्चित करते हुए।
चित्र 3b: जटिल क्वेरी सत्यापन उदाहरण
वास्तविक-विश्व अनुप्रयोग केस स्टडी {#use-cases}
केस 1: इन्फ्रास्ट्रक्चर डेटा क्वेरी
उपयोगकर्ता क्वेरी: "वर्जीनिया में कुल कितने पुल बनाए गए? 2019 में कितने बनाए गए?"
सिस्टम प्रसंस्करण प्रवाह:
- कोऑर्डिनेटर एजेंट जटिल क्वेरी के रूप में पहचानता है
- दो उप-समस्याओं में विघटित करता है
- SQL एजेंट डेटाबेस क्वेरी करता है
- सामान्य एजेंट पृष्ठभूमि जानकारी प्रदान करता है
- एकीकृत करके पूर्ण उत्तर उत्पन्न करता है
केस 2: मल्टीमॉडल इमेज विश्लेषण
अनुप्रयोग परिदृश्य: पुल का पता लगाना और ऊंचाई मानचित्र विश्लेषण
चित्र 4: इमेज एजेंट एकल क्वेरी फ्रंटएंड उदाहरण
तकनीकी कार्यान्वयन:
- इमेज एजेंट बाहरी दृष्टि API कॉल करता है
- इमेज में मुख्य जानकारी को स्वचालित रूप से पहचानता है
- संरचित विश्लेषण रिपोर्ट उत्पन्न करता है
केस 3: सूचना पुनर्प्राप्ति और सारांश
चित्र 5: IR एजेंट एकल क्वेरी फ्रंटएंड उदाहरण
प्रसंस्करण क्षमताएं:
- बड़े ज्ञान आधार से प्रासंगिक जानकारी पुनर्प्राप्त करता है
- बुद्धिमान सारांश और सामग्री एकीकरण
- सटीक उद्धरण और स्रोत प्रदान करता है
सिस्टम सीमा विश्लेषण {#limitations}
वर्तमान चुनौतियां
- सटीकता निर्भरता: सिस्टम प्रदर्शन अंतर्निहित LLM और पुनर्प्राप्ति कॉर्पस की गुणवत्ता से प्रभावित होता है
- जटिलता गलत निर्णय: कभी-कभी सरल क्वेरी को जटिल क्वेरी के रूप में गलत वर्गीकृत करता है
- सीमित सहयोग गहराई: एजेंटों के बीच सहयोग की डिग्री में सुधार की गुंजाइश है
- डेटाबेस पैमाना: सीमित डेटाबेस आकार से जानकारी की गहराई अपर्याप्त हो सकती है
तकनीकी सीमाएं
- LLM तर्क सीमाएं: जटिल जानकारी संश्लेषण में चुनौतियों का सामना कर सकता है
- मूल्यांकन पूर्वाग्रह: LLM-as-a-Judge विधि में संभावित पूर्वाग्रह
- सुरक्षा तंत्र की कमी: वर्तमान फ्रेमवर्क में जानकारी भंडारण और उपयोग के लिए सुरक्षा गारंटी का अभाव
⚠️ सुधार दिशाएं
अनुसंधान टीम ने इन सीमाओं को पहचाना है और भविष्य के काम में इन्हें संबोधित करने पर ध्यान केंद्रित करेगी।
तकनीकी तैनाती और कार्यान्वयन {#deployment}
तैनाती आर्किटेक्चर
- स्थानीय तैनाती: पूर्णतः ऑफ़लाइन संचालन का समर्थन करता है
- क्लाउड तैनाती: AWS-आधारित माइक्रोसर्विस आर्किटेक्चर
- तकनीकी स्टैक: Flask + Python + OpenAI GPT-4o mini
डेटा स्रोत
सिस्टम केस स्टडी के लिए फेडरल हाईवे एडमिनिस्ट्रेशन (FHWA) के सार्वजनिक डेटासेट का उपयोग करता है, जिसमें शामिल हैं:
- पुल इन्फ्रास्ट्रक्चर डेटा
- ट्रैफिक फ्लो आंकड़े
- इंजीनियरिंग निरीक्षण रिपोर्ट
🤔 अक्सर पूछे जाने वाले प्रश्न {#faq}
प्रश्न: AgentMaster और पारंपरिक मल्टी-एजेंट सिस्टम के बीच क्या अंतर है?
उत्तर: AgentMaster का मुख्य नवाचार नवीनतम दो प्रोटोकॉल A2A और MCP को एक साथ एकीकृत करना है, जो सिस्टम को निम्नलिखित प्रदान करता है:
- अधिक मानकीकृत अंतर-एजेंट संचार
- मजबूत मॉड्यूलरिटी और स्केलेबिलिटी
- बेहतर राज्य प्रबंधन और संदर्भ प्रतिधारण क्षमताएं
- अधिक एकीकृत टूल और संसाधन पहुंच इंटरफेस
प्रश्न: सिस्टम मल्टी-एजेंट सहयोग में सटीकता कैसे सुनिश्चित करता है?
उत्तर: सिस्टम बहु-स्तरीय सत्यापन तंत्र अपनाता है:
- कार्य विघटन सत्यापन: जटिल क्वेरी को सरल उप-समस्याओं में विघटित करके सत्यापन
- बहु-आयामी मूल्यांकन: BERTScore, G-Eval, और मानव मूल्यांकन का संयोजन
- स्थिरता जांच: उप-समस्या उत्तरों और समग्र प्रतिक्रियाओं के बीच स्थिरता की तुलना
- त्रुटि पुनर्प्राप्ति तंत्र: विफलता का पता लगाने पर स्वचालित पुनः प्रयास और मरम्मत
प्रश्न: सामान्य उपयोगकर्ता इस सिस्टम का उपयोग कैसे कर सकते हैं?
उत्तर: सिस्टम उपयोगकर्ता-मित्र इंटरैक्शन विधियों के साथ डिज़ाइन किया गया है:
- प्राकृतिक भाषा इंटरैक्शन: विशेष कमांड या सिंटैक्स सीखने की आवश्यकता नहीं
- मल्टीमॉडल इनपुट: टेक्स्ट, इमेज और वॉयस सहित विभिन्न इनपुट विधियों का समर्थन
- बुद्धिमान समझ: उपयोगकर्ता के इरादे को स्वचालित रूप से समझता है और उपयुक्त प्रसंस्करण मॉड्यूल में रूट करता है
- स्पष्ट आउटपुट: समझने योग्य प्रारूपों में परिणाम प्रस्तुत करता है
प्रश्न: सिस्टम की स्केलेबिलिटी कैसी है?
उत्तर: AgentMaster में उत्कृष्ट स्केलेबिलिटी है:
- मॉड्यूलर डिज़ाइन: मौजूदा कार्यक्षमता को प्रभावित किए बिना नए एजेंट को सहजता से एकीकृत कर सकते हैं
- मानकीकृत इंटरफेस: JSON-RPC आधारित एकीकृत संचार प्रोटोकॉल
- लचीली तैनाती: स्थानीय और क्लाउड में विभिन्न तैनाती विधियों का समर्थन
- ओपन सोर्स आर्किटेक्चर: शोधकर्ताओं और डेवलपर्स के लिए कस्टमाइज़ेशन और विस्तार सुविधाजनक
प्रश्न: सिस्टम वास्तविक अनुप्रयोगों में कैसा प्रदर्शन करता है?
उत्तर: प्रयोगात्मक परिणामों के अनुसार, सिस्टम उत्कृष्ट प्रदर्शन दिखाता है:
- उच्च सटीकता: BERTScore F1 96.3% तक पहुंचता है
- मजबूत स्थिरता: जटिल क्वेरी विघटन और सत्यापन में उच्च स्थिरता दिखाता है
- व्यापक लागू होने की क्षमता: SQL क्वेरी, सूचना पुनर्प्राप्ति, इमेज विश्लेषण और अन्य कार्यों को सफलतापूर्वक संभालता है
- स्थिर प्रदर्शन: स्थानीय और क्लाउड तैनाती दोनों में स्थिर रूप से प्रदर्शन करता है
सारांश और दृष्टिकोण {#summary}
AgentMaster मल्टी-एजेंट सिस्टम विकास में एक महत्वपूर्ण मील का पत्थर दर्शाता है, एकीकृत फ्रेमवर्क में दो अत्याधुनिक प्रोटोकॉल A2A और MCP को सफलतापूर्वक एकीकृत करके स्केलेबल, डोमेन-अनुकूलनीय संवादात्मक AI की नई संभावनाएं खोली हैं।
मुख्य योगदान
- तकनीकी नवाचार: A2A और MCP प्रोटोकॉल को एक साथ एकीकृत करने वाला पहला मल्टी-एजेंट फ्रेमवर्क
- आर्किटेक्चर अनुकूलन: क्वेरी विघटन, गतिशील रूटिंग, और एजेंट ऑर्केस्ट्रेशन का समर्थन करने वाला एकीकृत आर्किटेक्चर
- व्यावहारिक मूल्य: प्राकृतिक भाषा इंटरैक्शन के माध्यम से जटिल मल्टीमॉडल कार्य प्रसंस्करण
- प्रदर्शन सत्यापन: कठोर बहु-आयामी मूल्यांकन के माध्यम से सिस्टम प्रभावशीलता सिद्ध
भविष्य की विकास दिशाएं
- सुरक्षा तंत्र संवर्धन: व्यापक सूचना सुरक्षा और गोपनीयता संरक्षण सिस्टम स्थापित करना
- सहयोग गहराई सुधार: एजेंटों के बीच गहरी सहयोग क्षमताओं को बढ़ाना
- डोमेन विस्तार: अधिक विशेषज्ञ डोमेन एजेंट एकीकरण का समर्थन
- प्रदर्शन अनुकूलन: सिस्टम सटीकता और प्रतिक्रिया गति में निरंतर सुधार
🚀 तकनीकी दृष्टिकोण
AgentMaster अगली पीढ़ी के बुद्धिमान सहायकों और स्वचालन सिस्टम के निर्माण के लिए एक शक्तिशाली तकनीकी आधार प्रदान करता है, जिसमें अनुसंधान, व्यवसाय और सामाजिक सेवाओं में महत्वपूर्ण भूमिका निभाने की क्षमता है।
मूल पेपर लिंक: https://arxiv.org/html/2507.21105v1
लेखक जानकारी:
- Callie C. Liao (स्टैनफोर्ड विश्वविद्यालय)
- Duoduo Liao (जॉर्ज मेसन विश्वविद्यालय)
- Sai Surya Gadiraju (जॉर्ज मेसन विश्वविद्यालय)
डेटा स्रोत: फेडरल हाईवे एडमिनिस्ट्रेशन (FHWA) सार्वजनिक डेटासेट
यह लेख मूल पेपर सामग्री के आधार पर व्यवस्थित किया गया है, जिसका उद्देश्य पाठकों को AgentMaster फ्रेमवर्क का व्यापक तकनीकी विश्लेषण प्रदान करना है।