ओपनईएआई और मेटा के कॉल के जीपीटी -4.5 मॉडल ने ट्यूरिंग टेस्ट को मंजूरी दे दी है, 1950 के दशक में एलन ट्यूरिंग द्वारा प्रस्तावित एक संदर्भ बिंदु यह आकलन करने के लिए कि क्या एक मशीन बुद्धिमान व्यवहार को प्रदर्शित कर सकती है जिसे मनुष्यों से अलग नहीं किया जा सकता है। संवादी के लिए एक मौलिक क्षण, एक आसानी से पेचीदा घटनाक्रमों की एक श्रृंखला के बीच में ग्रहण किया गया, जिसमें चैट की घिबली छवियां शामिल हैं, एजेंट की खोज (मानव प्रतिक्रियाएं विशेष रूप से इस सीमा के लिए प्रासंगिक हैं), एआई और Google का उपयोग करके कैंसर का पता लगाने में अग्रिम ‘मिथुन 2.5’ के एक मॉडल को अनलॉक करते हैं।

यद्यपि इस परीक्षण को मंजूरी देने के लिए एआई के पहले मॉडल नहीं हैं, यह हाल के प्रतियोगियों में सबसे उल्लेखनीय में से एक है। GPT 4.5, 2023 में जारी किए गए, परीक्षणों में मनुष्यों के समान अधिकांश व्यवहारों का प्रदर्शन किया, जहां यह मेटा के कॉल -3.1-405b (यहां, बी, बी एक बिलियन, परिभाषित मापदंडों) और इसके भाई, जीपीटी -4 ओ (यह 2024 लॉन्च है) के बड़े भाषा मॉडल (एलएलएम) की प्रतिस्पर्धा पाया गया है।
“जब एक मानव के रूप में एक व्यक्ति, GPT-4.5 को 73% समय को अपनाने का अनुरोध किया गया था: पूछताछकर्ताओं की तुलना में अधिक बार सच्चे मानव प्रतिभागी का चयन करें,” शोधकर्ताओं ने कैलिफोर्निया सैन डिएगो विश्वविद्यालय के बेंजामिन के। बर्गन को एक अध्ययन में लिखा था, जो सहकर्मी की समीक्षा की उम्मीद करता था।
“Llama-3.1, एक ही नोटिस के साथ, समय के 56% मानव पर विचार किया गया था, उन मनुष्यों की तुलना में अधिक या कम नहीं, जिनके साथ उनकी तुलना की जा रही थी, जबकि संदर्भ मॉडल (एलिजा और GPT-4O) ने मौका (23% और 21% क्रमशः) के नीचे जीत की जीत हासिल की।”
इसके लिए एक चेतावनी है।
क्या इस परिणाम का मतलब GPT-4.5 है, या वास्तव में कहा जाता है -3.1, क्या वे बुद्धिमान हैं? आवश्यक रूप से नहीं। ट्यूरिंग टेस्ट संवादी प्रदर्शन को मापता है, समझ या चेतना नहीं। 73% की सफलता दर (लौ के मामले में भी कम) से पता चलता है कि एक मानव आश्वस्त रूप से खेल सकता है, लेकिन यह अभी भी उस तर्क या इरादे की कमी कर सकता है जिसे हम खुफिया के साथ जोड़ते हैं, परामर्श के लिए प्रतिक्रियाओं के लिए।
यह भी परीक्षण का एक हिस्सा एलिजा था, जो 1960 के दशक का एक चैटबॉट था, जिसे मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी (MIT) में कंप्यूटर वैज्ञानिक जोसेफ वीज़ेनबाम द्वारा विकसित किया गया था। यह समझ में आता है कि आधुनिक एलएलएम की तुलना में बहुत कमजोर एआई, शोधकर्ताओं का कहना है कि वे “एलिजा को एक हेरफेर सत्यापन के रूप में शामिल करते हैं ताकि यह सुनिश्चित हो सके कि पूछताछकर्ता मानव गवाहों की पहचान कर सकें।”
अध्ययन पुष्टि करता है कि GPT-4.5 और CALL-3.1-405B दोनों ट्यूरिंग टेस्ट पास करते हैं, क्योंकि वे 50%से अधिक प्राप्त करते हैं, हालांकि पहला रिकॉर्ड बेहतर स्कोर है।
ये इन मॉडलों के औसत हैं जिनका परीक्षण “व्यक्ति” और “कोई व्यक्ति” मोड के साथ किया जाता है। एआई और एक गैर -व्यक्ति के एक व्यक्ति के बीच महत्वपूर्ण अंतर एक एआई कैसे प्रस्तुत किया जाता है, यह बताता है कि उपयोगकर्ताओं के साथ बातचीत करता है और किसी भी “चरित्र” को प्रदर्शित करता है।
फरवरी में, Openai ने GPT-4.5 के लिए शोध का एक पिछला दृश्य प्रकाशित किया, इसे “चैट के लिए सबसे बड़ा और सबसे अच्छा मॉडल” कहा।
सैम अल्टमैन ने उस समय कहा, “यह पहला मॉडल है जो मेरे लिए एक रिफ्लेक्टिव व्यक्ति के साथ बात कर रहा है। मेरे पास कई क्षण हैं, जिसमें मैं अपनी कुर्सी पर बैठा हूं और मैं एआई से एक अच्छी सलाह प्राप्त करने के लिए आश्चर्यचकित था।” Altman ने अब तक ट्यूरिंग टेस्ट के परिणामों से सीधे संपर्क नहीं किया है।
ट्यूरिंग की कुंजी एक सार्वभौमिक रूप से मानकीकृत संदर्भ बिंदु नहीं है, लेकिन आम तौर पर एक मानव न्यायाधीश को एक मानव और एक मशीन के साथ एक पाठ -आधारित बातचीत में भाग लेने के लिए शामिल होता है, जो यह निर्धारित करने की कोशिश करता है कि कौन सा है।
GPT-4.5 मॉडल में शामिल परीक्षण के लिए फैसला प्रतिभागियों द्वारा एक अन्य मानव प्रतिभागी के साथ और प्रत्येक AI सिस्टम के साथ एक साथ 5 मिनट की बातचीत के बाद दिया गया था, यह जज करने से पहले कि वह किस बातचीत में उन्हें लगा कि वह मानव है।
“हम कृत्रिम बुद्धिमत्ता के लिए नहीं खो रहे हैं। हम कृत्रिम सहानुभूति खो रहे हैं,” एक प्रकाशन में नवाचार के नवाचार के संस्थापक जॉन नोस्टा को संक्षेप में प्रस्तुत करता है।
अंत में, यदि कोई न्यायाधीश एक मानव मशीन को मज़बूती से अलग नहीं कर सकता है, तो यह कहा जाता है कि मशीन पास हो गई है।
“यह अध्ययन ट्यूरिंग टेस्ट के पिछले प्रयोगों से अलग था क्योंकि इसने अधिक कठोर तीन भागों के विन्यास का उपयोग किया था। क्या यह पूरी तरह से आश्चर्यजनक है कि, इसके बावजूद कि परीक्षण कितनी सख्ती से डिजाइन किया गया था?
ऐतिहासिक रूप से, ऐसे कथन हैं कि एआई ट्यूरिंग टेस्ट के संस्करणों को पारित करता है, हालांकि बहस के लिए जगह है। 2014 में, व्लादिमीर वेसेलोव और उनके सहयोगियों द्वारा विकसित “यूजीन गोस्टमैन” नामक एक चैटबॉट ने रीडिंग विश्वविद्यालय द्वारा आयोजित एक ट्यूरिंग परीक्षण को मंजूरी दी। यह माना जाता है कि उन्होंने 33% न्यायाधीशों को आश्वस्त किया कि वह पांच -वर्षीय यूक्रेनी लड़का था जो पांच -मिनट की बातचीत के दौरान था।
एक प्रतिवाद: 33% सफलता दर 50% की आवश्यकता तक नहीं पहुंचती है, लेकिन शायद यह आने वाली चीजों का एक शगुन था, केवल उस समय किसी को भी एहसास नहीं हुआ था।
GPT-4.5 की सफलता बड़ी भाषा मॉडल (LLM) के Openai के अथक शोधन के लिए बहुत अधिक है। GPT-4 मल्टीमॉडल बेस के आधार पर, GPT-4.5 में प्राकृतिक भाषा का एक बेहतर प्रसंस्करण है, जो संभवतः बड़े डेटा सेट, बेहतर प्रशिक्षण तकनीकों और संदर्भ प्रतिधारण के लिए एक विशेष क्षमता द्वारा संचालित है। व्यक्तित्व संदेश, एक विशिष्ट स्वर या पहचान को अपनाने का निर्देश, मौलिक कारण है, जिससे आप एक मानव शैली के साथ उत्तरों को अनुकूलित कर सकते हैं।
हालांकि, संशयवादी महत्वपूर्ण निहितार्थ और कई अनुत्तरित मुद्दों को इंगित करते हैं।
बोवेल को “महान आर्थिक और सामाजिक निहितार्थ” से डर लगता है, श्रम विस्थापन के एक बहुत ही वास्तविक परिदृश्य का उल्लेख करते हुए, संभावित रूप से मानवीय संबंधों और धोखे की संभावना को कम करते हैं।
पिछले हफ्तों में, एजेंटिक के एआई की खोज ने लय को इकट्ठा किया है, वर्कफ़्लोज़ के लिए नए Microsoft एजेंटों के साथ जो स्वाद द्वारा विकास पर आधारित हैं (लेकिन एडोब, ज़ूम और स्लैक तक सीमित नहीं हैं। इन एजेंटों की दृष्टि कुछ कार्य या कार्य प्रोफाइल में प्रतिस्पर्धा को खोजना है, जैसे कि ग्राहक सेवा, स्वास्थ्य प्रबंधन, डेटा विश्लेषण, बिक्री, व्यक्तिगत सहायता, सामग्री निर्माण, साइबर सुरक्षा की अनुसंधान और निगरानी।
एआई मॉडल जो अपने व्यक्तित्व कौशल के लिए पुष्टि पाते हैं, पूरक हो सकते हैं।
बेशक, कृत्रिम जनरल इंटेलिजेंस, या एजीआई की आसन्न संभावना है।
“यह कहा जा सकता है कि यह वह सहजता है जिसके साथ एलएलएम को अपने व्यवहार को विभिन्न परिदृश्यों के लिए अनुकूलित करने के लिए कहा जा सकता है जो उन्हें इतना लचीला बनाते हैं: और जाहिरा तौर पर मनुष्यों के रूप में पारित करने में सक्षम है,” शोधकर्ताओं ने कहा।
सुसान श्नाइडर, संस्थापक निदेशक, सेंटर फॉर द फ्यूचर माइंड इन फ्लोरिडा अटलांटिक यूनिवर्सिटी (FAU) का कहना है कि ये परिणाम “आश्चर्य नहीं हैं।”
“बहुत बुरा है कि एआई के ये चैटबॉट्स सही ढंग से संरेखित नहीं हैं। हालांकि, मैं भविष्यवाणी करता हूं: वे क्षमताओं में वृद्धि करते रहेंगे और यह एक बुरा सपना होगा: उभरती हुई संपत्तियां, ‘गहरे झूठे’, चैटबॉट साइबरवर्स। बस कुर्ज़वेइलियन ड्रीम,” सोशल नेटवर्क पर लिखते हैं।
एआई का भविष्य व्यावहारिक उपयोगिता, समस्या को हल करने में निहित है, न कि केवल एक बुद्धिमान संवादी होने के नाते। यह विशेष रूप से नए संदर्भ बिंदुओं के लिए एक तत्काल आवश्यकता को उजागर कर सकता है, जो लोग तर्क या नैतिक संरेखण को साबित करते हैं, एआई की प्रगति को बेहतर ढंग से मापने के लिए।