आईआईटी गुवाहाटी ने विकिपीडिया में सतही नाम त्रुटियों को सुधारने की नई विधि विकसित की

आईआईटी गुवाहाटी के शोधकर्ताओं ने विकिपीडिया में सतही नाम त्रुटियों की पहचान और सुधार के लिए एक नई विधि विकसित की है। यह विधि बहुभाषी है और मानव उपयोगकर्ताओं तथा कृत्रिम बुद्धिमत्ता प्रणालियों के लिए जानकारी की विश्वसनीयता में सुधार करती है। शोध में पाया गया कि विकिपीडिया में लगभग 3 से 6 प्रतिशत सतही नाम त्रुटियाँ होती हैं, जो जानकारी की विश्वसनीयता को प्रभावित कर सकती हैं। विकसित विधि का परीक्षण आठ भाषाओं पर किया गया है और इसके परिणाम सटीक पाए गए हैं।

By Narendra Chaudhary Mar 6, 2026, 09:40 IST

सतही नाम त्रुटियों की पहचान और सुधार

गुवाहाटी, 6 मार्च: भारतीय प्रौद्योगिकी संस्थान (आईआईटी) गुवाहाटी के शोधकर्ताओं ने विकिपीडिया में सतही नाम त्रुटियों (SNEs) की पहचान और सुधार के लिए एक बहुभाषी और स्केलेबल विधि विकसित की है, जिससे मानव उपयोगकर्ताओं और कृत्रिम बुद्धिमत्ता (AI) प्रणालियों के लिए जानकारी की विश्वसनीयता में सुधार होगा।

सतही नाम उस पाठ को संदर्भित करता है जो विकिपीडिया लेखों में किसी अन्य इकाई का उल्लेख या लिंक करने के लिए उपयोग किया जाता है। जब यह पाठ गलत होता है, तो उसे सतही नाम त्रुटि कहा जाता है।

आईआईटी गुवाहाटी की शोध टीम द्वारा किए गए एक अध्ययन में पाया गया कि विकिपीडिया में लगभग तीन से छह प्रतिशत सभी इकाई उल्लेखों में SNEs होते हैं। हालांकि ये त्रुटियाँ छोटी लग सकती हैं, लेकिन इनके गंभीर परिणाम हो सकते हैं।

मानव उपयोगकर्ताओं के लिए, एक गलत सतही नाम जानकारी की विश्वसनीयता और विश्वसनीयता को कम कर सकता है।

इसी तरह, कई मशीन लर्निंग और डीप लर्निंग मॉडल विकिपीडिया को एक मुख्य डेटासेट के रूप में उपयोग करते हैं। सतही नामों में ऐसी त्रुटियाँ AI कार्यों और मॉडल के प्रदर्शन पर नकारात्मक प्रभाव डाल सकती हैं, शोध टीम ने कहा।

इस चुनौती का समाधान करने के लिए, प्रोफेसर अमित अवेकर, जो आईआईटी गुवाहाटी के कंप्यूटर विज्ञान और इंजीनियरिंग विभाग में सहायक प्रोफेसर हैं, और MTech छात्र अनुज खरे (2022 बैच) ने एक विधि विकसित की जो गणितीय आवृत्ति पैटर्न का उपयोग करती है, जिससे यह भाषाओं में अनुकूलनीय है। विकसित विधि SNEs को वर्गीकृत करने के लिए तीन चरणों का पालन करती है।

पहले चरण में विकिपीडिया को स्कैन किया गया और प्रत्येक लिंक को एक चौकड़ी में परिवर्तित किया गया, जिसमें उस पृष्ठ की जानकारी शामिल थी जहां लिंक दिखाई देता है, उस पृष्ठ की जानकारी जिस पर यह इंगित करता है, लिंक में उपयोग किया गया सतही नाम, और आस-पास का पाठ्य संदर्भ।

अगले चरण में, विकसित विधि ने सतही नाम की समीक्षा की और इसे केवल तब सही माना जब यह कम से कम 10 बार प्रकट हुआ और यह किसी विशेष पृष्ठ की ओर इंगित करने वाले सभी लिंक का कम से कम पांच प्रतिशत था।

जो सतही नाम इन मानदंडों को पूरा नहीं करते थे, उन्हें संभावित त्रुटियों के रूप में चिह्नित किया गया।

अंतिम चरण में, यह पहचानी गई त्रुटियों को 'टाइपिंग गलतियों' जैसे 'गवाहाटी' के बजाय 'गुवाहाटी' या 'इकाई स्पैन त्रुटियों' में वर्गीकृत किया गया, जहां लिंक में अतिरिक्त या गलत शब्द गलती से शामिल हो जाते हैं।

शोधकर्ताओं ने विकसित विधि का परीक्षण आठ भाषाओं पर किया, जिनमें अंग्रेजी, संस्कृत, जर्मन, इतालवी, उर्दू, हिंदी, मराठी और गुजराती शामिल हैं, और सटीक परिणाम पाए।

विकसित विधि के वास्तविक दुनिया में अनुप्रयोग के बारे में बात करते हुए, प्रोफेसर अवेकर ने कहा, “यह कार्य हमें दिखाता है कि हमें वेब से डेटा पर अंधाधुंध भरोसा नहीं करना चाहिए, मानव उपयोग और AI मॉडल के प्रशिक्षण दोनों के लिए। अच्छे डेटा का होना किसी भी अच्छे AI मॉडल और डाउनस्ट्रीम अनुप्रयोग की शुरुआत है।”

विकसित विधि को मान्य करने के लिए, शोध टीम ने 2018 और 2022 के बीच अंग्रेजी विकिपीडिया के स्नैपशॉट की तुलना की और पाया कि लगभग 30 प्रतिशत त्रुटियाँ जो विधि द्वारा भविष्यवाणी की गई थीं, चार वर्षों में विकिपीडिया पर सही की गई थीं, जिससे इसकी सटीकता की पुष्टि हुई।

विकिपीडिया को दुनिया भर में स्वयंसेवकों द्वारा बनाए रखा जाता है, और विकसित विधि संपादकों को छिपी हुई टाइपिंग और लिंकिंग त्रुटियों की पहचान करने में मदद कर सकती है जो अन्यथा वर्षों तक अनदेखी रह सकती हैं, प्रोफेसर अवेकर ने कहा। शोधकर्ताओं द्वारा सुझाए गए मैनुअल सुधारों को विकिपीडिया समुदाय ने 99 प्रतिशत से अधिक स्वीकार किया है।