लेखक:
(1) एन यान, यूसी सैन डिएगो, ayan@ucsd.edu;
(2) झेंगयुआन यांग, माइक्रोसॉफ्ट कॉर्पोरेशन, zhengyang@microsoft.com समान योगदान के साथ;
(3) वानरोंग झू, यूसी सांता बारबरा, wanrongzhu@ucsb.edu;
(4) केविन लिन, माइक्रोसॉफ्ट कॉर्पोरेशन, keli@microsoft.com;
(5) लिन्जी ली, माइक्रोसॉफ्ट कॉर्पोरेशन, lindsey.li@mocrosoft.com;
(6) जियानफेंग वांग, माइक्रोसॉफ्ट कॉर्पोरेशन, jianfw@mocrosoft.com;
(7) जियानवेई यांग, माइक्रोसॉफ्ट कॉर्पोरेशन, jianwei.yang@mocrosoft.com;
(8) यिवू झोंग, विस्कॉन्सिन-मैडिसन विश्वविद्यालय, yzhong52@wisc.edu;
(9) जूलियन मैकॉले, यूसी सैन डिएगो, jmcauley@ucsd.edu;
(10) जियानफेंग गाओ, माइक्रोसॉफ्ट कॉर्पोरेशन, jfgao@mocrosoft.com;
(11) ज़िचेंग लियू, माइक्रोसॉफ्ट कॉर्पोरेशन, zliu@mocrosoft.com;
(12) लिजुआन वांग, माइक्रोसॉफ्ट कॉर्पोरेशन, lijuanw@mocrosoft.com।
संपादक का नोट: यह स्मार्टफ़ोन को नेविगेट करने के लिए जनरेटिव AI के उपयोग का मूल्यांकन करने वाले पेपर का भाग 1 है। आप नीचे दिए गए लिंक की तालिका के माध्यम से पेपर का शेष भाग पढ़ सकते हैं।
हम स्मार्टफ़ोन ग्राफ़िकल यूज़र इंटरफ़ेस (GUI) नेविगेशन टास्क के लिए GPT-4V-आधारित एजेंट MM-Navigator प्रस्तुत करते हैं। MM-Navigator मानव उपयोगकर्ताओं के रूप में स्मार्टफ़ोन स्क्रीन के साथ इंटरैक्ट कर सकता है, और दिए गए निर्देशों को पूरा करने के लिए बाद की क्रियाओं को निर्धारित कर सकता है। हमारे निष्कर्ष दर्शाते हैं कि बड़े मल्टीमॉडल मॉडल (LMM), विशेष रूप से GPT-4V, अपनी उन्नत स्क्रीन व्याख्या, क्रिया तर्क और सटीक क्रिया स्थानीयकरण क्षमताओं के माध्यम से शून्य-शॉट GUI नेविगेशन में उत्कृष्ट हैं। हमने सबसे पहले अपने एकत्रित iOS स्क्रीन डेटासेट पर MM-Navigator का बेंचमार्क किया। मानवीय आकलन के अनुसार, सिस्टम ने उचित क्रिया विवरण बनाने में 91% सटीकता दर और iOS पर एकल-चरण निर्देशों के लिए सही क्रियाओं को निष्पादित करने में 75% सटीकता दर प्रदर्शित की। इसके अतिरिक्त, हम मॉडल का मूल्यांकन Android स्क्रीन नेविगेशन डेटासेट के एक सबसेट पर करते हैं, जहाँ मॉडल शून्य-शॉट फैशन में पिछले GUI नेविगेटर से बेहतर प्रदर्शन करता है। हमारे बेंचमार्क और विस्तृत विश्लेषण का उद्देश्य GUI नेविगेशन टास्क में भविष्य के शोध के लिए एक मजबूत आधार तैयार करना है। परियोजना पृष्ठ https://github.com/zzxslp/MM-Navigator पर है।
कंप्यूटिंग डिवाइस के साथ बातचीत करने और मानवीय आदेशों का पालन करने में सक्षम स्वायत्त एजेंटों का निर्माण मशीन लर्निंग समुदाय में लंबे समय से एक विषय रहा है (बोल्ट, 1980; लीबरमैन एट अल., 1995)। स्मार्टफोन के आगमन के बाद से, सिरी, कॉर्टाना और गूगल असिस्टेंट जैसे वर्चुअल असिस्टेंट बनाने की व्यावहारिक मांग रही है, जिनमें उपयोगकर्ता के अनुभव को महत्वपूर्ण रूप से बढ़ाने और शारीरिक या परिस्थितिजन्य रूप से अक्षम व्यक्तियों की सहायता करने की क्षमता है। आदर्श रूप से, ये सहायक प्राकृतिक भाषा निर्देशों के आधार पर रोज़मर्रा के कामों को कुशलतापूर्वक पूरा करेंगे, जिसमें टाइमर सेट करने जैसी सरल क्रियाओं से लेकर परिवार की छुट्टी के लिए आदर्श होटल का पता लगाने जैसे अधिक जटिल कार्य शामिल हैं।
हाल के अध्ययनों ने मानवीय निर्देशों के बाद मोबाइल डिवाइस नियंत्रण और स्मार्टफ़ोन कार्य स्वचालन का पता लगाना शुरू कर दिया है (रॉल्स एट अल., 2023; वेन एट अल., 2023; झान और झांग, 2023; वांग एट अल., 2023)। प्रतिनिधि दृष्टिकोणों में टेक्स्ट के साथ स्क्रीन छवियों का वर्णन करना और बड़े भाषा मॉडल (LLM) (रॉल्स एट अल., 2023; वेन एट अल., 2023) के साथ परिवर्तित टेक्स्ट को संसाधित करना, या पर्यवेक्षित तरीके से क्रियाएँ उत्पन्न करने के लिए विज़न-लैंग्वेज मॉडल को प्रशिक्षित करना शामिल है (रॉल्स एट अल., 2023; झान और झांग, 2023)। हालाँकि, जब इन पर्यवेक्षित मॉडलों को विशिष्ट प्रकार की स्क्रीन और निर्देशों (रॉल्स एट अल., 2023) पर प्रशिक्षित किया जाता है, तो वे वास्तविक दुनिया के परिदृश्यों को सामान्य बनाने में सीमित प्रभावशीलता प्रदर्शित करते हैं। दूसरी ओर, LLM-आधारित दृष्टिकोण बेहतर तरीके से सामान्यीकृत होते हैं, लेकिन स्क्रीन छवियों को टेक्स्ट में बदलने के मध्यवर्ती चरण के परिणामस्वरूप सूचना का नुकसान होता है और परिणामस्वरूप प्रदर्शन को नुकसान पहुँचता है। हाल के बड़े मल्टीमॉडल मॉडल (एलएमएम) की प्रभावकारिता और व्यापक प्रयोज्यता से प्रेरित होकर, हम जीरोशॉट स्मार्टफोन जीयूआई नेविगेशन के लिए एक एलएमएम, जीपीटी-4वी (ओपनएआई, 2023ए, बी, सी; जीपीटी, 2023; यांग एट अल., 2023सी) का उपयोग करने का पता लगाते हैं, जिसका लक्ष्य इस पेचीदा कार्य के लिए एक नई मजबूत आधार रेखा निर्धारित करना है।
हम LMM के साथ GUI नेविगेशन के लिए दो प्राथमिक चुनौतियों की पहचान करते हैं, अर्थात् इच्छित क्रिया विवरण और स्थानीयकृत क्रिया निष्पादन। सबसे पहले, मॉडल को स्क्रीन छवि और पाठ निर्देश इनपुट को समझना चाहिए, और उचित कार्रवाई निर्धारित करने के लिए क्वेरी पर तर्क करना चाहिए, जैसे कि एक प्राकृतिक भाषा विवरण प्रदान करना "तीसरी पंक्ति और चौथे कॉलम में अमेज़ॅन आइकन पर क्लिक करना।" दूसरा, मॉडल को ऐसी उच्च-स्तरीय समझ को एक स्वरूपित क्रिया में परिवर्तित करना चाहिए जिसे नियमों के आधार पर आसानी से निष्पादित किया जा सके, जैसे कि "{क्रिया: क्लिक करें, स्थान: (0.31, 0.57)}।" हमारे दृष्टिकोण में, हम GPT-4V को क्रिया नियोजन के लिए एक छवि और पाठ के साथ संकेत देते हैं, और उत्पन्न आउटपुट को लंगर डालने के लिए सेट-ऑफ-मार्क टैग (यांग एट अल।, 2023 बी) रखते हैं। विशेष रूप से, हम इन चिह्नों को विभाजन या OCR मॉडल की मदद से स्थानिक स्थानों से जोड़ते हैं। इस उद्देश्य के लिए, हमारा प्रस्तावित GPT-4V आधारित सिस्टम, अर्थात् MM-नेविगेटर, स्क्रीन छवि, पाठ निर्देश और इसके इंटरैक्शन इतिहास पर आधारित निष्पादन योग्य क्रियाएँ उत्पन्न कर सकता है।
हमने MM-Navigator को दो डेटासेट पर बेंचमार्क किया। हमने स्क्रीनशॉट और उपयोगकर्ता निर्देशों के साथ एक iOS GUI नेविगेशन डेटासेट से शुरुआत की, जिसे हमने मैन्युअल रूप से एकत्र किया था। यह साफ विश्लेषणात्मक डेटासेट GUI नेविगेशन में दो चुनौतियों के लिए अंतर्दृष्टि की जांच करने के लिए डिज़ाइन किया गया है: इच्छित क्रिया विवरण और स्थानीयकृत क्रिया निष्पादन। इन दो कार्यों पर GPT-4V का आकलन करने के लिए मानवीय मूल्यांकन का उपयोग किया जाता है, जिसमें क्रमशः 91% और 75% की सटीकता दर होती है। इसके अतिरिक्त, हम हाल ही में जारी किए गए Android नेविगेशन बेंचमार्क (Rawles et al., 2023) से एक यादृच्छिक उपसमूह पर मॉडल का आकलन करते हैं। हम बेंचमार्क में प्रस्तावित मूल्यांकन प्रोटोकॉल का पालन करते हैं, साथ ही अतिरिक्त मानवीय मूल्यांकन भी करते हैं। मजबूत प्रदर्शन दर्शाता है कि MM-Navigator स्मार्टफ़ोन के लिए एक प्रभावी GUI नेविगेटर है, जो पिछले LLM-आधारित दृष्टिकोणों से काफी बेहतर प्रदर्शन करता है। हम प्रतिनिधि सफलता और विफलता के मामलों का गहन विश्लेषण प्रदान करते हैं। हम पाते हैं कि GPT-4V की वर्तमान स्थिति विभिन्न वास्तविक-विश्व GUI नेविगेशन परिदृश्यों में मनुष्यों की सहायता करने में पहले से ही प्रभावी हो सकती है, जैसा कि चित्र 4 में मल्टी-स्क्रीन परिणामों से स्पष्ट होता है। हालांकि, सिस्टम की विश्वसनीयता को और बढ़ाने के लिए निरंतर सुधार अभी भी आवश्यक हैं, जैसा कि हमारे विश्लेषणों में पता चला है।
हमारे योगदान का सारांश इस प्रकार है
• हम MM-नेविगेटर प्रस्तुत करते हैं, जो स्मार्टफोन GUI नेविगेशन के लिए GPT-4V पर निर्मित एक एजेंट सिस्टम है। MM-नेविगेटर सटीक निष्पादन योग्य क्रियाएँ बनाने के लिए प्रभावी रूप से एक्शन हिस्ट्री और सेट-ऑफ-मार्क टैग को शामिल करता है।
• हम विविध iOS स्क्रीन और उपयोगकर्ता निर्देशों के साथ एक नया विश्लेषणात्मक डेटासेट एकत्र करते हैं, जो LMM के साथ GUI नेविगेशन में दो मुख्य चुनौतियों का मूल्यांकन करता है: इच्छित क्रिया विवरण और स्थानीयकृत क्रिया निष्पादन।
• हम दो डेटासेट पर स्वचालित और मानवीय दोनों तरह से व्यापक मूल्यांकन करते हैं और विस्तृत विश्लेषण प्रदान करते हैं। प्रभावशाली परिणाम GUI नेविगेशन के लिए MMNavigator की प्रभावशीलता को प्रदर्शित करते हैं।