Tuesday, May 10, 2011

கணினி ஆய்வில் தமிழ் அத்தியாயம் - 1

கல் தோன்றி மண்தோன்றா காலத்திற்கு முன் தோன்றியது தமிழ் என்பதை நாம் ஆணித்தரமாக சொல்ல நம் முன்னோர்கள் நமக்காக விட்டு சென்ற கல்வெட்டுக்களே ஆதாரம். காலம் நாகரீகத்தோடு கைக் கோர்த்துக் கொண்டு பயணித்ததால் ஓலைச் சுவடி, தாள்(பேப்பர்) என தனது இருப்பை புதிது போல் நீடித்து வந்த தமிழ் இன்று அதிகம் வசிப்பது கணினியில். நமக்கு முன் முன்னோர்கள் தொகுத்தளித்த தமிழை நாம் எதிர்வரும் புதிய தலைமுறைகளுக்கு தொகுத்தளிக்க வேண்டும் அல்லவா? கண்டிப்பாக வேண்டும். இது தமிழ் படிக்க, எழுத தெரிந்த ஒவ்வொரு சாமான்யனின் தார்மீக கடமையாகும்.

நான் அண்ணா பல்கலைக் கழகத்தில் ஆராய்ச்சி மாணவியாக சேர்ந்த பிறகுதான், அது எவ்வளவு கடினமான செயல் என்று புரிந்தது. தமிழில் கணினி சம்பந்தப்பட்ட ஆய்வு மற்றும் ஆராய்ச்சி (பி.ஹெச்.டீ) செய்பவர்கள் பெரும்பாலும் பொறியியலில் இளநிலை, முதுநிலை பட்டதாரிகளாகவே இருக்கிறார்கள். அதே போல் மைய அரசின் உதவியுடன் செய்யப்படும் பல ஆராய்ச்சித் திட்டங்கள் தமிழை மையமாகக் கொண்டு ஆய்வு செய்யப்படுவது வியப்புக்குரிய சங்கதி. அண்ணா பல்கலைக்கழக கணினி பிரிவில் தமிழை மையமாகக் கொண்டு பல ஆய்வுகள் நடைபெற்றுக் கொண்டிருக்கின்றன. தமிழை கணினி ஆய்வின் கோணத்தில் பார்க்கும்போது என்னென்ன சிக்கல்கள் உள்ளன, என்னென்ன ஆய்வுகள் தமிழில் செய்யப்பட்டுள்ளன போன்ற விபரங்களை ஒவ்வொன்றாக பார்ப்போம்.

முதலாவதாக தமிழில் ஆய்வு செய்வதில் இருக்கும் சிக்கல் தமிழில் இருக்கும் பல்வேறு எழுத்துருக்கள் (பான்ட்டுகள்) ஆகும். தமிழை பிராசஸ் செய்ய ஒரு கருவி வடிவமைக்கும் போது அனைத்து எழுத்துருக்களையும் அரவணைத்து வடிவமைப்பது கடினம். ஒரு தேடு பொறி(சர்ச் எஞ்சின்) உருவாக்கும் போது வலைத்தள ஆவணங்கள் ஒவ்வொன்றும் வித விதமான எழுத்துருவில் இருப்பதால் அனைத்து ஆவணங்களையும் பிராசஸ் செய்வது கடினம். முதலில் டேப் என்கோடிங் முறையில் பல ஆவணங்கள் வலைத்தளத்தில் இருந்தன. டேப் அண்ணா, டேப் மதுரம் போன்ற எழுத்துருக்களை நீங்கள் உபயோகித்திருப்பீர்கள். இப்பொழுது யூனிகோடு என்கோடிங் முறை பெரும்பாலும் பயன்படுத்தபடுகிறது. 'லதா' என்கிற எழுத்துரு யூனிகோடு எழுத்துரு ஆகும். இதன் காரணமாக முதலில் டேப் எழுத்துக்களை பிராசஸ் செய்த மொழிக்கருவிகள் யாவையும் யூனிகோடு எழுத்துருக்களை பிராசஸ் செய்ய பிரத்யேக கன்வெர்டர்கள் மூலம் மாற்ற நேர்ந்தது. அனைத்து வலைத்தளங்களும் யூனிகோடு முறையை பின்பற்றினால் இனி மேற்கொள்ளப்படும் ஆய்வுகளுக்கு வசதியாக இருக்கும் என்பது எனது சிரம் தாழ்ந்த வேண்டுகோள்.

இப்படி பல எழுத்துரு சிரமங்கள் இருப்பினும் தமிழ் மொழியில் பிற இந்திய மொழிகளை காட்டிலும் அதிக வலைத்தள ஆவணங்கள் இருப்பது பெருமைக்குரிய விஷயமாகும். தமிழிலில் இருக்கும் விக்கிபீடியா ஆவணங்கள் மட்டுமே ஒரு தமிழ் தேடு பொறியை வடிவமைக்க ஓரளவிற்கு போதுமானது. அவ்வளவு விக்கிபீடியா ஆவணங்கள் தமிழில் உள்ளன. உலகெங்கும் உள்ள தமிழர்களின் தமிழ் ஆர்வமே இதன் முக்கிய காரணம் என்பதை நான் குறிப்பிடத் தேவையில்லை. தமிழ் கணினி ஆய்வில் உள்ள பிற சிக்கல்களை அடுத்த கட்டுரையில் பாப்போம்.

வாழ்க தமிழ்! வளர்க தமிழ்!!

-சுபலலிதா.
My sister

1 comment:

சேக்காளி said...

தொடருங்கள் சுபலலிதா.சிக்கல்களை தெரிந்து கொண்டால் சிக்கெடுப்பது சுலபமானதாய் மாறிவிடும்.