प्राकृतिक भाषा प्रशोधन : संक्षिप्त
चर्चा
रूपेश राई
१. परिचय
:
प्राकृतिक
भाषा प्रशोधन कम्प्युटर साइन्स (computer science) को एउटा
शाखा हो जसले कम्प्युटर प्रणालीको विकासमा ध्यान दिन्छ अनि मानव भाषासँग सम्पर्क
गर्न सहयोग पुर्याउँछ। यसलाई
परिकलनात्मक भाषाविज्ञान (computational
linguistics) पनि भनिएको
पाइन्छ। यसले परिकलनात्मक प्रणालीमा मानव भाषालाई कसरी साँठगाँठ राख्दछ भन्ने
विषयमा ध्यान दिँदछ। यो सन्. १९५० मा एलन चुरिङ्गको लेख "Computing Machinery and Intelligence"१ बाट सुरू भएको पाइन्छ।
विशेष गरी प्राकृतिक
भाषा प्रशोधन कम्प्युटर साइन्स (computer
science), आर्टिफिसिय इन्टेलिजेन्स (artificial
intelligence) अनि भाषाविज्ञानको
क्षेत्र हो जसले कम्प्युटर र मानव भाषा (प्राकृतिक भाषा) माझ हुने अन्तर्क्रियालाई
चासो राख्दछ। यसले भारतका क्षेत्रीय भाषाहरूमा पनि धेरथोर कार्य अघि बढाइसकेका
छन्। यसैले यस लेखमा यसबारे संक्षिप्त चर्चा गर्दै नेपाली भाषामा यसको उपयोगिताबारे
प्रकाश पार्ने उद्देश्य रहेको छ।
२. प्राकृतिक
भाषा प्रशोधन : अर्थ
प्रथमतः
Natural
Language Processing को पारिभाषिक शब्दावली बुझ्न अति आवश्यक
देखिन्छ। यहाँ मानव भाषालाई किन Natural Language भनेर
प्रयोग गरेको हो? भन्ने धेरै महानुभवहरूलाई मनमा खट्को लाग्न
सक्छन्। Natural Language भनेर मानव भाषा (नेपाली भाषा) को
चर्चा गरिँदैछ भन्ने पनि प्रश्न उठ्न सक्छ। किनभने-
Ø यो
कम्प्युटर र मानवसँग सम्बन्धित विषय हो।
Ø कम्प्युटरको
अफ्नै भाषा हुन्छ। जस्तै- जावा (Java), C++, Perl प्रभृति भाषाहरू छन्।
Ø त्यस्तै
मानवको पनि आफ्नो भाषा हुन्छ।
Ø त्यसैले
कम्प्युटरको भाषालाई कृतिम भाषा (Artificial Language)
भनिन्छ।
Ø मानवले
प्रयोग गर्ने भाषालाई प्राकृतिक भाषा (Natural Language)
भनिन्छ।
तर
यहाँ कम्प्युटरमा मानव भाषाको प्रयोगलाई सुदृढ पार्न विद्वानहरूले परिकलनात्मक
भाषाविज्ञान (Computational Linguistics) को क्षेत्रमा
प्राकृतिक भाषा प्रशोधन (Natural Language Processing) को विषयलाई
अध्ययन साथै अध्यापन सुरु गरेका हुन्। यसैले कम्प्युटरको प्रोग्रामिङ्ग
ल्याङ्ग्वेज (Programming Language) लाई कृतिम भाषा (Artificial
Language) अनि मानव भाषालाई प्राकृतिक भाषा (Natural
Language) भनिएको पाइन्छ।
३. प्राकृतिक
भाषा प्रशोधनको लक्ष्य :
मानव भाषा
जस्तै- अङ्ग्रेजी, हिन्दी, बङ्गाली अनि नेपाली प्रभृति भाषाहरूको विकास गर्नु अनि
बुझ्नु प्राकृतिक भाषा प्रशोधनको मुख्य लक्ष्य रहेको पाइन्छ।
Ø कम्प्युटरको
व्यवस्थाको परिकल्पना गर्नु
Ø कम्प्युटरको
व्यवस्थको निर्माण गर्नु
यसरी
कम्प्युटरको व्यवस्थालाई परिकल्पना र निर्माण गरेपछि यसले मानव भाषालाई विश्लेषण
गर्न सक्ने हुन्छ। कुनै पनि भाषा अर्थात् जुन भाषाको विकासको लागि कार्य गरेको
हुन्छ त्यस भाषामा सबै जानकारी अनि उत्पादन गर्न सकिन्छ।
अर्थात्
जानकारी पुन: प्राप्त गर्न सकिन्छ। संग्रहण, संगठनको अनि जानकारीका विषयहरूसँग
जानकारी पुनः प्राप्तिको साँठगाँठ रहँदछ। उपभोक्ताहरूका आवश्यकता अनुसारका बृहत्
तथ्याङ्क सङ्ग्रहबाट निर्दिष्ट तथ्याङ्क सन्तोषजनक प्राप्त गर्न सक्नु पनि रहेको
छ। अनि लिखित ग्रन्थ अतिरिक्त तथ्याङ्कहरूले बहुमाध्यमको दस्तावेज समावेश गर्न
सक्छ।
४. प्रतिकात्मक
पद्वति :
प्रतिकात्मक
पद्वति एउटा यस्तो पद्वति हो जस्ले अर्थविज्ञान, वाक्यविज्ञान अनि
प्रसङ्गका भाषावैज्ञानिक विश्लेषणमा प्राकृतिक भाषा प्रशोधनको आधार भएको हुन्छ। यस
पद्वतिलाई कोहीबेला साङ्केतिक भनेर चिन्हित गरिएको पाइन्छ। किनभने यसमा चिह्नहरू
निर्वाहण गर्नको लागि धेरैजसो नियमहरू रहेको पाइन्छ।
यस
प्रकार कुनै पनि भाषाको वाक्यमा व्याकरणातमक नियमहरू ठिक छ कि छैन वा वाक्य
राम्रोसँग बनिएको छ कि छैन भन्ने कुरालाई यस पद्वतिले ध्यान दिँदछ।
५.
प्राकृतिक भाषा विश्लेषण :
निम्न
अवस्थाहरूमा प्राकृतिक भाषाको विश्लेषण हुँदछन्-
Ø चिन्हिकरण
Ø शाब्दिक विश्लेषण
Ø वाक्यात्मक
विश्लेषण
Ø आर्थतात्विक
विश्लेषण
Ø अनि
प्र्यागमेटिक (pragmatic) विश्लेषण
वाक्यात्मक
विश्लेषणले ग्रन्थमा रहेका प्रत्येक वाक्यका संरचना र क्रमलाई उपलब्ध गराएको
पाइन्छ। अर्थतात्विक विश्लेषणले साहित्यक अर्थ प्राप्त गर्दछ। अनि प्र्यागमेटिक
विश्लेषण प्रसङ्गमा रहेका पाठको अर्थलाई निर्धारण गर्नको लागि हो। अनि यी मुख्य कार्यहरू पछि पद विवरण (parsing) र त्यस्तै कार्यमा हेरिन्छ।
६. प्राकृतिक
भाषा उत्पादन :
यसले
जानकारीका निर्धारित स्रोतबाट सहज अनि युक्तिसंगत बहु-वाक्यात्मक पाठ उत्पादन
गरेको पाइन्छ। जानकारीका स्रोतबाट सहज र युक्तिसंगतबहु-वाक्यात्मक
पाठहरूको उत्पादन गर्नु हो। सन्दर्भको आधारमा निर्भर गर्ने वाक अनि पुरै पन्नाका
प्रशन्लाई उत्तर दिने वाक्यांश र सिङ्गो शब्दबाट उत्पादन गरिने किसिमको पाठ हुनेछ।
७. संरचनात्मक पद्वति:
संरचनात्मक पद्वति परिगणनात्मक निर्वहणमा संल्गन
प्रणाली अनि तथ्याङ्कका वृहत मात्रामा प्रयोगमाथि केन्द्र रहेको पाइन्छ। कर्पस, एउटा
विशेष ढाँचामा तथ्याङ्कको आयतन, विश्लेषण गर्न सहज हुन आएको पाइन्छ। यी चरम कार्यहरू-
शब्द वर्ग चिन्हित गर्न, समरेखीकरण, विन्यासहरू, शब्द-ज्ञान- अनेकार्थकतारहित प्रभृतिको लागि
प्रयोग गरेको पाइन्छ।
यस
पद्वतिमा विषय आफै तलदेखि कार्य गर्छ, ढाँचाहरूको लागि हेराइ अनि नमूनासँग संलग्न
हुनु, तर यी केही वाक्यात्मक वा अर्थतात्विक सम्बन्धमा मात्र सदृश्य नहुन सक्छ। यो पद्वति प्रतिकात्मक पद्वति भान्दा ठिक उल्टा
रहेको पाइन्छ। अनि यसमा अर्को तरिकाले सोच्न सकिन्छ कि दुइवटा स्कुलले भाषामा
रहेको जटिलतालाई कसरी सुल्झाउँछ। अन्तमा यस पद्वतिले सम्भाव्यताहरूका साथ पाठ्य
तथ्याङ्को वैकल्पिक विश्लेषण गरेको पाइन्छ अनि परिगणनात्मक तराकाको प्रयोग गरेर
तिनीहरूलाई निर्णय गरेको पाइन्छ।
८.
प्राकृतिक भाषा प्रशोधनमा चुनौतीहरू:
अहिलेसम्म
पनि त्यस्तो खासै प्राकृतिक भाषा प्रशोध को विकास हुनसकेको छैन। एउटा खाँटी वा परिपक्व प्राकृतिक भाषा प्रशोधन व्यवस्था
तयार हुँदैछ। यसैले यसको विकासमा धेरै समस्याहरू देखापरेको थाह लाग्छ। जस्तै-
वाक्यको गठनमा लचिलोपना (flexibility) अनि संदिग्धार्थता
(ambiguity) प्रभृति। यस्ता समस्याहरूको समाधान नगरिकन यो विषयलाई
विकास गर्नु अन्योन्याश्रित नै देखिन्छ।
अनि
यसका कार्यविधिहरू (applications) लाई शाब्दिक स्रोत,
कर्पोरा अनि परिकलनात्मक नमुनाको आवश्यकता पर्दछ।
९.
निष्कर्ष:
सन्.
१९५० मा एलन चुरिङ्गको लेख "Computing Machinery and Intelligence" ले भाषाविद र कम्प्युटर
विज्ञानीहरूमा धेरै हलचल मच्चाएपछि प्रविधिमा मानव भाषाको प्रयोगलाई लिएर अध्ययनको
थालनी तिव्र रूपमा बढ्दै गएको पाइन्छ। विशेष गरी पश्चिमी भाषाहरू- अङ्ग्रेजी,
जर्मनी अनि फ्रेन्चमा प्राकृतिक भाषा प्रशोधनको अध्ययन निकै फष्टाएर गेको पाइन्छ। यता
पूर्वेली अथवा भारतेली क्षेत्रीय भाषाहरूमा पनि यसको शोध र अध्ययन गर्ने जमर्को
कसिएकोले अविकसित रहेका भाषाहरूलाई थप टेवा पुगेको छ।
विशेषतः कुनै पनि क्षेत्रीय भाषाको प्राकृतिक
भाषा प्रशोधन कार्य सुरु गर्न त्यस भाषाको साहित्यिक ग्रन्थ (LITERARY TEXT) साथै विज्ञान,
वानिज्य, कानुन सबै क्षेत्रमा (DOMAIN) उपलब्ध हुनु पर्दछ।
किनभने यस कार्यको थालनीमा कर्पस (CORPUS/CORPORA) तयार
पार्न आवश्यक देखिन्छ। त्यसपछि- शब्दवर्ग चयन (POS TAGGING),
पदबन्ध(CHUNKING) र पद वर्णन (PARSING) गर्न सहज बन्दछ। किनकि जसरी हामीले लिखित ग्रन्थको आधार लिएर आफ्नो शोध
वा अध्ययनको कार्य सक्षम बनाउँदछौँ त्यस्तै प्रकारले प्राकृतिक भाषा प्रसोधनको निम्ति
कर्पस (usually electronically
stored and processed) को
खोचो पर्दछ। यसरी लेकसिपिडिया (LEXIPEDIA), वर्डनेट (WORDNET), व्याकरण जाँचकी (GRAMMAR CHECKER), हिज्जे परिक्षक (SPELL CHECKER), स्वचालित शब्दवर्ग ट्यागर (AUTOMATIC
POS TAGGER), रूप विश्लेषक (MORPH
ANALYZER) जस्ता विभिन्न विषयको निर्माण गर्न सकिन्छ।
सन्दर्भ :
१. डेल, रोबर्ट, मोइसल, हर्मन. ह्यान्डबुक अफ् न्याच्युरल
ल्याङ्ग्वेज प्रोसेसिङ्ग,
३. अरू ई-स्रोतबाट