आईआईटी गुवाहाटी ने विकिपीडिया में सतही नाम त्रुटियों को सुधारने की नई विधि विकसित की
सतही नाम त्रुटियों की पहचान और सुधार
गुवाहाटी, 6 मार्च: भारतीय प्रौद्योगिकी संस्थान (आईआईटी) गुवाहाटी के शोधकर्ताओं ने विकिपीडिया में सतही नाम त्रुटियों (SNEs) की पहचान और सुधार के लिए एक बहुभाषी और स्केलेबल विधि विकसित की है, जिससे मानव उपयोगकर्ताओं और कृत्रिम बुद्धिमत्ता (AI) प्रणालियों के लिए जानकारी की विश्वसनीयता में सुधार होगा।
सतही नाम उस पाठ को संदर्भित करता है जो विकिपीडिया लेखों में किसी अन्य इकाई का उल्लेख या लिंक करने के लिए उपयोग किया जाता है। जब यह पाठ गलत होता है, तो उसे सतही नाम त्रुटि कहा जाता है।
आईआईटी गुवाहाटी की शोध टीम द्वारा किए गए एक अध्ययन में पाया गया कि विकिपीडिया में लगभग तीन से छह प्रतिशत सभी इकाई उल्लेखों में SNEs होते हैं। हालांकि ये त्रुटियाँ छोटी लग सकती हैं, लेकिन इनके गंभीर परिणाम हो सकते हैं।
मानव उपयोगकर्ताओं के लिए, एक गलत सतही नाम जानकारी की विश्वसनीयता और विश्वसनीयता को कम कर सकता है।
इसी तरह, कई मशीन लर्निंग और डीप लर्निंग मॉडल विकिपीडिया को एक मुख्य डेटासेट के रूप में उपयोग करते हैं। सतही नामों में ऐसी त्रुटियाँ AI कार्यों और मॉडल के प्रदर्शन पर नकारात्मक प्रभाव डाल सकती हैं, शोध टीम ने कहा।
इस चुनौती का समाधान करने के लिए, प्रोफेसर अमित अवेकर, जो आईआईटी गुवाहाटी के कंप्यूटर विज्ञान और इंजीनियरिंग विभाग में सहायक प्रोफेसर हैं, और MTech छात्र अनुज खरे (2022 बैच) ने एक विधि विकसित की जो गणितीय आवृत्ति पैटर्न का उपयोग करती है, जिससे यह भाषाओं में अनुकूलनीय है। विकसित विधि SNEs को वर्गीकृत करने के लिए तीन चरणों का पालन करती है।
पहले चरण में विकिपीडिया को स्कैन किया गया और प्रत्येक लिंक को एक चौकड़ी में परिवर्तित किया गया, जिसमें उस पृष्ठ की जानकारी शामिल थी जहां लिंक दिखाई देता है, उस पृष्ठ की जानकारी जिस पर यह इंगित करता है, लिंक में उपयोग किया गया सतही नाम, और आस-पास का पाठ्य संदर्भ।
अगले चरण में, विकसित विधि ने सतही नाम की समीक्षा की और इसे केवल तब सही माना जब यह कम से कम 10 बार प्रकट हुआ और यह किसी विशेष पृष्ठ की ओर इंगित करने वाले सभी लिंक का कम से कम पांच प्रतिशत था।
जो सतही नाम इन मानदंडों को पूरा नहीं करते थे, उन्हें संभावित त्रुटियों के रूप में चिह्नित किया गया।
अंतिम चरण में, यह पहचानी गई त्रुटियों को 'टाइपिंग गलतियों' जैसे 'गवाहाटी' के बजाय 'गुवाहाटी' या 'इकाई स्पैन त्रुटियों' में वर्गीकृत किया गया, जहां लिंक में अतिरिक्त या गलत शब्द गलती से शामिल हो जाते हैं।
शोधकर्ताओं ने विकसित विधि का परीक्षण आठ भाषाओं पर किया, जिनमें अंग्रेजी, संस्कृत, जर्मन, इतालवी, उर्दू, हिंदी, मराठी और गुजराती शामिल हैं, और सटीक परिणाम पाए।
विकसित विधि के वास्तविक दुनिया में अनुप्रयोग के बारे में बात करते हुए, प्रोफेसर अवेकर ने कहा, “यह कार्य हमें दिखाता है कि हमें वेब से डेटा पर अंधाधुंध भरोसा नहीं करना चाहिए, मानव उपयोग और AI मॉडल के प्रशिक्षण दोनों के लिए। अच्छे डेटा का होना किसी भी अच्छे AI मॉडल और डाउनस्ट्रीम अनुप्रयोग की शुरुआत है।”
विकसित विधि को मान्य करने के लिए, शोध टीम ने 2018 और 2022 के बीच अंग्रेजी विकिपीडिया के स्नैपशॉट की तुलना की और पाया कि लगभग 30 प्रतिशत त्रुटियाँ जो विधि द्वारा भविष्यवाणी की गई थीं, चार वर्षों में विकिपीडिया पर सही की गई थीं, जिससे इसकी सटीकता की पुष्टि हुई।
विकिपीडिया को दुनिया भर में स्वयंसेवकों द्वारा बनाए रखा जाता है, और विकसित विधि संपादकों को छिपी हुई टाइपिंग और लिंकिंग त्रुटियों की पहचान करने में मदद कर सकती है जो अन्यथा वर्षों तक अनदेखी रह सकती हैं, प्रोफेसर अवेकर ने कहा। शोधकर्ताओं द्वारा सुझाए गए मैनुअल सुधारों को विकिपीडिया समुदाय ने 99 प्रतिशत से अधिक स्वीकार किया है।