AI को जज करने की कार्यप्रणाली को पुन: प्राप्त करने की आवश्यकता है

AI को जज करने की कार्यप्रणाली को पुन: प्राप्त करने की आवश्यकता है

जब एंथ्रोप ने एक सप्ताह पहले क्लाउड 4 लॉन्च किया, तो आर्टिफिशियल इंटेलिजेंस कंपनी (एआई) ने कहा कि ये मॉडल “कोडिंग, एडवांस्ड रीजनिंग और एआई एजेंटों के लिए नए मानक” स्थापित करते हैं। वे SWE-Bench सत्यापित पर मुख्य स्कोर का हवाला देते हैं, जो वास्तविक सॉफ्टवेयर इंजीनियरिंग कार्यों में प्रदर्शन के लिए एक संदर्भ बिंदु है। Openai यह भी बताता है कि O3 और O4-Mini मॉडल कुछ संदर्भ बिंदुओं पर सबसे अच्छा स्कोर लौटाते हैं। मिस्ट्रल की तरह, ओपन सोर्स देवस्ट्रल कोडिंग मॉडल के लिए।

AI को जज करने की कार्यप्रणाली को पुन: प्राप्त करने की आवश्यकता है
प्रतिनिधित्व छवि। (गेटी इमेज/istockphoto)

तुलनात्मक परीक्षणों के स्कोर को फ्लेक्स करने की कंपनियां एक सामान्य विषय है।

प्रौद्योगिकी की दुनिया सिंथेटिक संदर्भ परीक्षणों के स्कोर से ग्रस्त हो गई है। प्रोसेसर प्रदर्शन, मेमोरी बैंडविड्थ, स्टोरेज स्पीड, ग्राफिक्स प्रदर्शन: प्रचुर मात्रा में उदाहरण, अक्सर यह न्याय करने के लिए उपयोग किया जाता है कि क्या पीसी या स्मार्टफोन अपने समय और पैसे के लायक था।

हालांकि, विशेषज्ञों का मानना ​​है कि थोक परिवर्तन के बजाय, एआई परीक्षणों के लिए कार्यप्रणाली को विकसित करने का समय हो सकता है।

अमेरिकन रिस्क कैपिटलिस्ट, मैरी मीकर, नवीनतम एआई ट्रेंड्स रिपोर्ट में, बताते हैं कि एआई सटीक और यथार्थवाद के मामले में मनुष्यों की तुलना में तेजी से बेहतर है। वह MMLU संदर्भ बिंदु (बड़े पैमाने पर मल्टीटास्किंग भाषा) को इंगित करती है, जो 89.8% की मानव आधार रेखा की तुलना में 92.30% की सटीकता के साथ AI मॉडल का औसत करती है।

MMLU गणित, कानून, चिकित्सा और इतिहास सहित पेशेवर और शैक्षणिक विषयों को कवर करने वाले 57 कार्यों में एक मॉडल के सामान्य ज्ञान का न्याय करने के लिए संदर्भ का एक बिंदु है।

संदर्भ बिंदु विभिन्न एआई मॉडल के विकास को मापने, तुलना करने और समझने के लिए मानकीकृत मानदंड के रूप में काम करते हैं। संरचित मूल्यांकन जो विभिन्न मॉडलों के लिए तुलनीय स्कोर प्रदान करते हैं। इनमें आम तौर पर डेटा सेट होते हैं जिनमें हजारों प्रश्न, समस्याएं या कार्य होते हैं जो बुद्धि के विशेष पहलुओं को साबित करते हैं।

संदर्भ स्कोर को समझने के लिए संख्याओं के पीछे पैमाने और अर्थ पर संदर्भ की आवश्यकता होती है। अधिकांश संदर्भ बिंदु एक प्रतिशत के रूप में सटीकता की रिपोर्ट करते हैं, लेकिन इन प्रतिशत का महत्व विभिन्न परीक्षणों में नाटकीय रूप से भिन्न होता है। MMLU में, यादृच्छिक अटकल लगभग 25% सटीकता का उत्पादन करेगा क्योंकि अधिकांश प्रश्न बहुविकल्पी हैं। मानव प्रदर्शन आम तौर पर विषय के क्षेत्र के अनुसार 85-95% से भिन्न होता है।

मुख्य संख्या में अक्सर महत्वपूर्ण बारीकियों को नकाब दिया जाता है। एक मॉडल कुछ विषयों में, दूसरों की तुलना में अधिक उत्कृष्टता दे सकता है। एक कुल स्कोर उन कार्यों में एक कमजोर प्रदर्शन को छिपा सकता है जिनके लिए कई चरणों के तर्क या रचनात्मक समस्याओं की आवश्यकता होती है, मजबूत प्रदर्शन रिट्रीट प्रदर्शन के पीछे।

एआई इंजीनियर और टिप्पणीकार रोहन पॉल एक्स के बारे में बताते हैं कि “अधिकांश संदर्भ बिंदु लंबे समय तक मेमोरी को पुरस्कृत नहीं करते हैं, लेकिन छोटे संदर्भ कार्यों पर ध्यान केंद्रित करते हैं।”

तेजी से, एआई कंपनियां “मेमोरी” के पहलू को बारीकी से देख रही हैं। Google शोधकर्ता, एक नए लेख में, ‘इन्फिनी-एटेंटेशन’ नामक एक ध्यान तकनीक का विस्तार करते हैं, यह कॉन्फ़िगर करने के लिए कि एआई मॉडल अपने “संदर्भ विंडो” का विस्तार कैसे करते हैं।

गणितीय संदर्भ बिंदु अक्सर व्यापक प्रदर्शन अंतराल दिखाते हैं। जबकि अधिकांश अंतिम AI मॉडल GSM8K संदर्भ बिंदु (क्लाउड SONNET 3.5 के साथ 97.72%के साथ 90%से अधिक सटीक रूप से प्राप्त करते हैं, जबकि GPT-4 94.8%प्राप्त करता है), सबसे चुनौतीपूर्ण गणित संदर्भ बिंदु बहुत कम रेटिंग पर विचार करता है: Google मिथुन 2.0 प्रयोगात्मक फ्लैश 84%, जबकि GPT-4.3; सॉनेट का अभी तक परीक्षण नहीं किया गया है)।

कार्यप्रणाली को फिर से काम करें

एआई परीक्षणों के लिए, आकारों को महसूस करने की आवश्यकता है। माइक्रोसॉफ्ट के अध्यक्ष और कार्यकारी निदेशक (सीईओ) के शब्द, “सभी ईवीएल संतृप्त हैं। यह थोड़ा व्यर्थ हो रहा है।”

तकनीकी दिग्गज ने घोषणा की है कि वे एआई मॉडल का मूल्यांकन करने के लिए एक दृष्टिकोण विकसित करने के लिए पेन स्टेट विश्वविद्यालय, कार्नेगी मेलन विश्वविद्यालय और ड्यूक विश्वविद्यालय जैसे संस्थानों के साथ सहयोग कर रहे हैं, जो यह अनुमान लगाते हैं कि वे अज्ञात कार्यों में कैसे काम करेंगे और समझाएं कि, कुछ ऐसा जो वर्तमान संदर्भ बिंदु करने के लिए लड़ते हैं।

यह मॉडल के गतिशील मूल्यांकन, प्रासंगिक भविष्यवाणी, तुलनात्मक रूप से मानवीय और सांस्कृतिक पहलुओं पर ध्यान केंद्रित करने के लिए तुलनात्मक मूल्यांकन एजेंट बनाने का प्रयास किया जा रहा है।

“फ्रेम एडेल (विख्यात मांग स्तर) का उपयोग करता है, एक तकनीक जो मूल्यांकन करती है कि कैसे मांग करना एआई मॉडल के लिए 18 प्रकार के संज्ञानात्मक और ज्ञान -आधारित कौशल के लिए माप के तराजू के आवेदन के माध्यम से एक कार्य है,” लेक्सिन झोउ, माइक्रोसॉफ्ट रिसर्च असिस्टेंट बताते हैं।

क्षणिक रूप से, लोकप्रिय संदर्भ बिंदुओं में एसडब्ल्यूई-बेंच (या सॉफ्टवेयर इंजीनियरिंग बेंचमार्क) शामिल हैं, जो एआई कोडिंग कौशल का मूल्यांकन करने के लिए सत्यापित हैं, आर्क-एजीआई (कृत्रिम सामान्य बुद्धिमत्ता के लिए अमूर्तता और तर्क कॉर्पस) को सामान्यीकरण और तर्क का न्याय करने के लिए, साथ ही लाइवबेंच एआई जो एजेंट के कोडिंग के कार्यों को मापता है और एलएलएम का मूल्यांकन करता है और एलएलएम का मूल्यांकन करता है और मूल्यांकन करता है और मूल्यांकन करता है और मूल्यांकन करता है। कोडिंग और गणित।

व्याख्याओं को प्रभावित करने वाली सीमाओं के बीच, कई संदर्भ बिंदु तकनीकों के माध्यम से “पूर्ण” हो सकते हैं जो खुफिया या क्षमता में सुधार के बिना स्कोर में सुधार करते हैं। प्रश्न में मामला, मेटा के नए लामा मॉडल।

अप्रैल में, उन्होंने विभिन्न प्रकार के मॉडलों की घोषणा की, जिसमें फ्लेम 4 स्काउट, फ्लेम 4 मावेरिक और फ्लेम बीमोथ 4 प्रशिक्षित 4 शामिल हैं। मेटा के सीईओ, मार्क जुकरबर्ग, कहते हैं कि बीहमोथ “दुनिया में सर्वश्रेष्ठ प्रदर्शन आधार” होगा। Maverick ने Lmarena में Openai के gpt-4o के संदर्भ बिंदुओं के लिए अर्हता प्राप्त करना शुरू कर दिया, और मिथुन 2.5 प्रो के ठीक नीचे।

यहीं से चीजें फिनिश लाइन के लिए नाशपाती के रूप में चली गईं, क्योंकि एआई के शोधकर्ताओं ने इन स्कोर पर खुदाई करना शुरू किया। यह पता चला है कि मेटा ने एक 4 मावरिक फ्लेम मॉडल साझा किया था जो इस परीक्षण के लिए अनुकूलित था, न कि वास्तव में एक विनिर्देश जो ग्राहकों को प्राप्त होगा।

लक्ष्य अनुकूलन से इनकार करता है। “हमने बयान भी सुना है कि हम परीक्षण सेटों में प्रशिक्षित करते हैं, यह केवल सच नहीं है और हम कभी भी ऐसा नहीं करेंगे। हमारी सबसे अच्छी समझ यह है कि लोग जो चर गुणवत्ता देख रहे हैं, वह कार्यान्वयन को स्थिर करने की आवश्यकता के कारण है,” एक बयान में, जेनेरिक के उपाध्यक्ष अहमद अल-डाहले कहते हैं।

अन्य चुनौतियां हैं। मॉडल एक वास्तविक समझ विकसित करने के बजाय संदर्भ प्रारूपों के लिए विशिष्ट पैटर्न को याद कर सकते हैं। संदर्भ बिंदुओं का चयन और डिजाइन भी एक पूर्वाग्रह का परिचय देता है।

स्थान की बात है। Yi Tay, Google AI और DEEPMIND के एक IA शोधकर्ता ने उन विशिष्ट क्षेत्रीय संदर्भ बिंदुओं में से एक को विस्तृत किया है, जिसे SG-EVAL कहा जाता है, जो एक व्यापक संदर्भ के लिए AI मॉडल को प्रशिक्षित करने में मदद करने पर केंद्रित है। भारत भी एक संप्रभु बड़ी भाषा (एलएलएम) मॉडल का निर्माण कर रहा है, जिसमें बेंगलुरु सर्वाम में स्थित एआई स्टार्टअप है, जो इंडियनई मिशन के तहत चुना गया है।

जैसे -जैसे क्षमताएं आगे बढ़ती रहती हैं, शोधकर्ता मूल्यांकन के तरीके विकसित कर रहे हैं जो वास्तविक समझ, संदर्भ में मजबूती और वास्तविक दुनिया में क्षमताओं में मजबूती साबित करते हैं, बजाय सरल पैटर्न के संयोग के। एआई के मामले में, संख्या कहानी का एक महत्वपूर्ण हिस्सा बताती है, लेकिन पूरी कहानी नहीं।

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *