मनथन/MANTHAN: March 2015

प्राकृतिक भाषा प्रशोधन : संक्षिप्त चर्चा

रूपेश राई

१. परिचय :

प्राकृतिक भाषा प्रशोधन कम्प्युटर साइन्स (computer science) को एउटा शाखा हो जसले कम्प्युटर प्रणालीको विकासमा ध्यान दिन्छ अनि मानव भाषासँग सम्पर्क गर्न सहयोग पुर्‍याउँछ। यसलाई परिकलनात्मक भाषाविज्ञान (computational linguistics) पनि भनिएको पाइन्छ। यसले परिकलनात्मक प्रणालीमा मानव भाषालाई कसरी साँठगाँठ राख्दछ भन्ने विषयमा ध्यान दिँदछ। यो सन्. १९५० मा एलन चुरिङ्गको लेख "Computing Machinery and Intelligence"१ बाट सुरू भएको पाइन्छ।

विशेष गरी प्राकृतिक भाषा प्रशोधन कम्प्युटर साइन्स (computer science), आर्टिफिसिय इन्टेलिजेन्स (artificial intelligence) अनि भाषाविज्ञानको क्षेत्र हो जसले कम्प्युटर र मानव भाषा (प्राकृतिक भाषा) माझ हुने अन्तर्क्रियालाई चासो राख्दछ। यसले भारतका क्षेत्रीय भाषाहरूमा पनि धेरथोर कार्य अघि बढाइसकेका छन्। यसैले यस लेखमा यसबारे संक्षिप्त चर्चा गर्दै नेपाली भाषामा यसको उपयोगिताबारे प्रकाश पार्ने उद्देश्य रहेको छ।

२. प्राकृतिक भाषा प्रशोधन : अर्थ

प्रथमतः Natural Language Processing को पारिभाषिक शब्दावली बुझ्न अति आवश्यक देखिन्छ। यहाँ मानव भाषालाई किन Natural Language भनेर प्रयोग गरेको हो? भन्ने धेरै महानुभवहरूलाई मनमा खट्को लाग्न सक्छन्। Natural Language भनेर मानव भाषा (नेपाली भाषा) को चर्चा गरिँदैछ भन्ने पनि प्रश्न उठ्न सक्छ। किनभने-

Ø यो कम्प्युटर र मानवसँग सम्बन्धित विषय हो।

Ø कम्प्युटरको अफ्नै भाषा हुन्छ। जस्तै- जावा (Java), C++, Perl प्रभृति भाषाहरू छन्।

Ø त्यस्तै मानवको पनि आफ्नो भाषा हुन्छ।

Ø त्यसैले कम्प्युटरको भाषालाई कृतिम भाषा (Artificial Language) भनिन्छ।

Ø मानवले प्रयोग गर्ने भाषालाई प्राकृतिक भाषा (Natural Language) भनिन्छ।

तर यहाँ कम्प्युटरमा मानव भाषाको प्रयोगलाई सुदृढ पार्न विद्वानहरूले परिकलनात्मक भाषाविज्ञान (Computational Linguistics) को क्षेत्रमा प्राकृतिक भाषा प्रशोधन (Natural Language Processing) को विषयलाई अध्ययन साथै अध्यापन सुरु गरेका हुन्। यसैले कम्प्युटरको प्रोग्रामिङ्ग ल्याङ्ग्वेज (Programming Language) लाई कृतिम भाषा (Artificial Language) अनि मानव भाषालाई प्राकृतिक भाषा (Natural Language) भनिएको पाइन्छ।

३. प्राकृतिक भाषा प्रशोधनको लक्ष्य :

मानव भाषा जस्तै- अङ्ग्रेजी, हिन्दी, बङ्गाली अनि नेपाली प्रभृति भाषाहरूको विकास गर्नु अनि बुझ्नु प्राकृतिक भाषा प्रशोधनको मुख्य लक्ष्य रहेको पाइन्छ।

Ø कम्प्युटरको व्यवस्थाको परिकल्पना गर्नु

Ø कम्प्युटरको व्यवस्थको निर्माण गर्नु

यसरी कम्प्युटरको व्यवस्थालाई परिकल्पना र निर्माण गरेपछि यसले मानव भाषालाई विश्लेषण गर्न सक्ने हुन्छ। कुनै पनि भाषा अर्थात् जुन भाषाको विकासको लागि कार्य गरेको हुन्छ त्यस भाषामा सबै जानकारी अनि उत्पादन गर्न सकिन्छ।

अर्थात् जानकारी पुन: प्राप्‍त गर्न सकिन्छ। संग्रहण, संगठनको अनि जानकारीका विषयहरूसँग जानकारी पुनः प्राप्तिको साँठगाँठ रहँदछ। उपभोक्ताहरूका आवश्यकता अनुसारका बृहत् तथ्याङ्क सङ्ग्रहबाट निर्दिष्ट तथ्याङ्क सन्तोषजनक प्राप्त गर्न सक्नु पनि रहेको छ। अनि लिखित ग्रन्थ अतिरिक्त तथ्याङ्कहरूले बहुमाध्यमको दस्तावेज समावेश गर्न सक्छ।

४. प्रतिकात्मक पद्वति :

प्रतिकात्मक पद्वति एउटा यस्तो पद्वति हो जस्ले अर्थविज्ञान, वाक्यविज्ञान अनि प्रसङ्गका भाषावैज्ञानिक विश्लेषणमा प्राकृतिक भाषा प्रशोधनको आधार भएको हुन्छ। यस पद्वतिलाई कोहीबेला साङ्केतिक भनेर चिन्हित गरिएको पाइन्छ। किनभने यसमा चिह्नहरू निर्वाहण गर्नको लागि धेरैजसो नियमहरू रहेको पाइन्छ।

यस प्रकार कुनै पनि भाषाको वाक्यमा व्याकरणातमक नियमहरू ठिक छ कि छैन वा वाक्य राम्रोसँग बनिएको छ कि छैन भन्ने कुरालाई यस पद्वतिले ध्यान दिँदछ।

५. प्राकृतिक भाषा विश्लेषण :

निम्न अवस्थाहरूमा प्राकृतिक भाषाको विश्लेषण हुँदछन्-

Ø चिन्हिकरण

Ø शाब्दिक विश्लेषण

Ø वाक्यात्मक विश्लेषण

Ø आर्थतात्विक विश्लेषण

Ø अनि प्र्यागमेटिक (pragmatic) विश्लेषण

वाक्यात्मक विश्लेषणले ग्रन्थमा रहेका प्रत्येक वाक्यका संरचना र क्रमलाई उपलब्ध गराएको पाइन्छ। अर्थतात्विक विश्लेषणले साहित्यक अर्थ प्राप्त गर्दछ। अनि प्र्यागमेटिक विश्लेषण प्रसङ्गमा रहेका पाठको अर्थलाई निर्धारण गर्नको लागि हो। अनि यी मुख्य कार्यहरू पछि पद विवरण (parsing) र त्यस्तै कार्यमा हेरिन्छ।

६. प्राकृतिक भाषा उत्पादन :

यसले जानकारीका निर्धारित स्रोतबाट सहज अनि युक्तिसंगत बहु-वाक्यात्मक पाठ उत्पादन गरेको पाइन्छ। जानकारीका स्रोतबाट सहज र युक्तिसंगतबहु-वाक्यात्मक पाठहरूको उत्पादन गर्नु हो। सन्दर्भको आधारमा निर्भर गर्ने वाक अनि पुरै पन्नाका प्रशन्लाई उत्तर दिने वाक्यांश र सिङ्गो शब्दबाट उत्पादन गरिने किसिमको पाठ हुनेछ।

७. संरचनात्मक पद्वति:

संरचनात्मक पद्वति परिगणनात्मक निर्वहणमा संल्गन प्रणाली अनि तथ्याङ्कका वृहत मात्रामा प्रयोगमाथि केन्द्र रहेको पाइन्छ। कर्पस, एउटा विशेष ढाँचामा तथ्याङ्कको आयतन, विश्लेषण गर्न सहज हुन आएको पाइन्छ। यी चरम कार्यहरू- शब्द वर्ग चिन्हित गर्न, समरेखीकरण, विन्यासहरू, शब्द-ज्ञान- अनेकार्थकतारहित प्रभृतिको लागि प्रयोग गरेको पाइन्छ।

यस पद्वतिमा विषय आफै तलदेखि कार्य गर्छ, ढाँचाहरूको लागि हेराइ अनि नमूनासँग संलग्न हुनु, तर यी केही वाक्यात्मक वा अर्थतात्विक सम्बन्धमा मात्र सदृश्य नहुन सक्छ। यो पद्वति प्रतिकात्मक पद्वति भान्दा ठिक उल्टा रहेको पाइन्छ। अनि यसमा अर्को तरिकाले सोच्न सकिन्छ कि दुइवटा स्कुलले भाषामा रहेको जटिलतालाई कसरी सुल्झाउँछ। अन्तमा यस पद्वतिले सम्भाव्यताहरूका साथ पाठ्य तथ्याङ्को वैकल्पिक विश्लेषण गरेको पाइन्छ अनि परिगणनात्मक तराकाको प्रयोग गरेर तिनीहरूलाई निर्णय गरेको पाइन्छ।

८. प्राकृतिक भाषा प्रशोधनमा चुनौतीहरू:

अहिलेसम्म पनि त्यस्तो खासै प्राकृतिक भाषा प्रशोध को विकास हुनसकेको छैन। एउटा खाँटी वा परिपक्व प्राकृतिक भाषा प्रशोधन व्यवस्था तयार हुँदैछ। यसैले यसको विकासमा धेरै समस्याहरू देखापरेको थाह लाग्छ। जस्तै- वाक्यको गठनमा लचिलोपना (flexibility) अनि संदिग्धार्थता (ambiguity) प्रभृति। यस्ता समस्याहरूको समाधान नगरिकन यो विषयलाई विकास गर्नु अन्योन्याश्रित नै देखिन्छ।

अनि यसका कार्यविधिहरू (applications) लाई शाब्दिक स्रोत, कर्पोरा अनि परिकलनात्मक नमुनाको आवश्यकता पर्दछ।

९. निष्कर्ष:

सन्. १९५० मा एलन चुरिङ्गको लेख "Computing Machinery and Intelligence" ले भाषाविद र कम्प्युटर विज्ञानीहरूमा धेरै हलचल मच्चाएपछि प्रविधिमा मानव भाषाको प्रयोगलाई लिएर अध्ययनको थालनी तिव्र रूपमा बढ्दै गएको पाइन्छ। विशेष गरी पश्चिमी भाषाहरू- अङ्ग्रेजी, जर्मनी अनि फ्रेन्चमा प्राकृतिक भाषा प्रशोधनको अध्ययन निकै फष्टाएर गेको पाइन्छ। यता पूर्वेली अथवा भारतेली क्षेत्रीय भाषाहरूमा पनि यसको शोध र अध्ययन गर्ने जमर्को कसिएकोले अविकसित रहेका भाषाहरूलाई थप टेवा पुगेको छ।

विशेषतः कुनै पनि क्षेत्रीय भाषाको प्राकृतिक भाषा प्रशोधन कार्य सुरु गर्न त्यस भाषाको साहित्यिक ग्रन्थ (LITERARY TEXT) साथै विज्ञान, वानिज्य, कानुन सबै क्षेत्रमा (DOMAIN) उपलब्ध हुनु पर्दछ। किनभने यस कार्यको थालनीमा कर्पस (CORPUS/CORPORA) तयार पार्न आवश्यक देखिन्छ। त्यसपछि- शब्दवर्ग चयन (POS TAGGING), पदबन्ध(CHUNKING) र पद वर्णन (PARSING) गर्न सहज बन्दछ। किनकि जसरी हामीले लिखित ग्रन्थको आधार लिएर आफ्नो शोध वा अध्ययनको कार्य सक्षम बनाउँदछौँ त्यस्तै प्रकारले प्राकृतिक भाषा प्रसोधनको निम्ति कर्पस (usually electronically stored and processed) को खोचो पर्दछ। यसरी लेकसिपिडिया (LEXIPEDIA), वर्डनेट (WORDNET), व्याकरण जाँचकी (GRAMMAR CHECKER), हिज्जे परिक्षक (SPELL CHECKER), स्वचालित शब्दवर्ग ट्यागर (AUTOMATIC POS TAGGER), रूप विश्लेषक (MORPH ANALYZER) जस्ता विभिन्न विषयको निर्माण गर्न सकिन्छ।

सन्दर्भ :

१. डेल, रोबर्ट, मोइसल, हर्मन. ह्यान्डबुक अफ् न्याच्युरल ल्याङ्ग्वेज प्रोसेसिङ्ग,

२. https://www.wikipedia.org/

३. अरू ई-स्रोतबाट

मनथन/MANTHAN

Tuesday, March 24, 2015

Followers

Pageviews

Blog Archive

About Me

MY OTHER BLOGS