कुतूहल : भाषा प्रक्रियेचे अंतरंग…

यंत्रे मानवी भाषा कशी समजून घेतात याबद्दल म्हणजेच कृत्रिम बुद्धिमत्तेच्या क्षेत्रात ज्याला नैसर्गिक भाषा प्रक्रिया म्हणतात त्या प्रक्रियेत नक्की काय घडते याचे आपल्याला कुतूहल असते. ही प्रक्रिया या छोट्या लेखात समग्र समजून घेणे जरी अशक्य असले तरी त्याची एक रूपरेषा आपण पाहूया.

यंत्राला पुरवलेला मजकूर हा यंत्रासाठी फक्त एक चिन्हांची आगगाडी असते. त्यातून अर्थ शोधण्याकरिता त्यावर काही प्रक्रिया कराव्या लागतात. त्यातली पहिली पायरी म्हणजे मजकुरातील वाक्ये व वाक्यातील शब्द वेगळे करणे (सेगमेंटेशन). उदाहरणार्थ, ‘‘राम आंबा खातो’’ या वाक्यातील शब्द वेगळे करून त्यांचा (राम, आंबा, खातो) असा सदिश (व्हेक्टर) बनवला जातो. सदिशातील सर्व घटकांना अंकीय किंमत दिली की यंत्रांना समजेल व प्रक्रिया करता येईल असा अंकीय घटकांचा सदिश मिळतो. पूर्णविराम वापरून वाक्ये आणि रिकामी जागा वापरून शब्द वेगळे करता येतात.

यानंतर शब्दांमधील विभक्ती प्रत्ययांची छाटणी करून शब्दांचे संक्षिप्त रूप मिळवतात. यासाठी स्टेमिंग अथवा लॅमेटायझेशन अशा दोन पद्धती वापरतात. त्यातही गंमत आहे. उदाहरणार्थ, ‘‘पत्राचे उत्तर‘‘ यातील पत्राचे शब्दावर स्टेमिंग प्रक्रिया केल्यास ‘पत्रा’ शब्द उरेल. त्याऐवजी लॅमेटायझेशन प्रक्रिया केल्यास ‘पत्र’ ही मूळ संज्ञा मिळेल.

हेही वाचा >>> कुतूहल : भाषापटू यंत्रांची करामत

यानंतर पार्सिंग प्रक्रियेत प्रत्येक शब्दाला कर्ता, कर्म, क्रियापद, नाम, विशेषनाम अशा घटकांत विभागले जाते व प्रत्येक शब्द संबंधित व्याकरण घटकाच्या संबोधपट्टीशी (टोकन) जोडला जातो.

यानंतरची पायरी म्हणजे अर्थसंदिग्धता दूर करणे. उदाहरणार्थ, ‘‘शरद चितळेनी चितळे बंधूंकडून श्रीखंड मागवले.’’ यात चितळेचा पहिला उल्लेख हा व्यक्तीचे नाम आहे, तर दुसरा दुकानाचे नाव आहे. या दोन्ही शब्दांना योग्य ती संबोधपट्टी जोडून ही संदिग्धता दूर करता येते.

मजकुरावर अशाप्रकारचे विश्लेषणपूर्व संस्करण झाल्यानंतर नैसर्गिक भाषा प्रक्रियेचे विशिष्ट प्रारूप त्या संस्कारित विदावर (डेटा) प्रक्रिया सुरू करते. ही प्रारूपे मुख्यत: तीन प्रकारची असतात. नियमांवर आधारित प्रारूप, संख्याशास्त्र व यंत्रांचे स्वयंशिक्षण (मशीन लर्निंग) वापरणारे प्रारूप अथवा न्यूरल नेटवर्क वापरणारे प्रारूप. पहिल्या प्रारूपात आपल्यालाच भाषा प्रक्रियेचे व व्याकरणाचे नियम प्रारूपाला पुरवावे लागतात, तर इतर दोन्ही प्रारूपे दिलेल्या भाषेच्या नमुन्यांवरून स्वत: नियम शोधून मजकुराचे अर्थ निर्णयन करतात. अशा प्रकारे यंत्रांना भाषेचे आकलन होते.

प्रा. माणिक टेंबे

मराठी विज्ञान परिषद

ईमेल : [email protected]

सकेंतस्थळ : http://www.mavipa.org

2024-05-07T19:53:26Z dg43tfdfdgfd