தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 10. கணினிக்குத் தமிழ் கற்றுக் கொடுப்போம் வாருங்கள்

பண்டைய காலத் தமிழர் இலக்கியப் படைப்புகளை மனப்பாடம் செய்து காத்தனர்

இறையனார் களவியல் அல்லது அகப்பொருள் உரையை உருவாக்கியவர் நக்கீரர். இவரது காலம் கி.பி. 7-ம் நூற்றாண்டு வாக்கில். இவர் தாம் செய்த களவியல் உரையை வாய்மொழியாகத் தம் மகனார் கீரங்கொற்றனாருக்கு உரைத்தார். கீரம் கொற்றனார் தேனூர் கிழாருக்கு உரைத்தார். இவ்வாறாக இந்த உரை அடுத்தடுத்து மனப்பாடமாக எட்டு தலைமுறைக்கு ஒப்படைக்கப்பட்டது. இறுதியில் கி.பி. 10-ம் நூற்றாண்டு வாக்கில் முசிரி நீலகண்டன் இந்த உரையை ஓலைச்சுவடியில் எழுதி வைத்தார்.

அடுத்து அவை ஓலைச்சுவடியில் கையால் எழுதிப் பாதுகாக்கப்பட்டன

நீண்ட காலம் அழியாதிருக்க வேண்டும் எனக் கருதப்பட்ட செய்திகள் கற்களில் வெட்டப்பட்டன. பெரும்பாலும், மன்னர்களின் ஆணைகள், அவர்கள் செய்த பணிகள் போன்றவை கல்வெட்டுக்களாகப் பொறிக்கப்பட்டன. தென்னிந்திய அரச மரபினரால் வழங்கப்பட்ட பல கொடைகள் குறித்த பதிவுகள் செப்பேடுகளில் எழுதப்பட்டன. இலக்கியம், இலக்கணம் போன்ற நீண்ட உரைகள் பனையோலையில் எழுதப்பட்டன. இவற்றை எழுத்தோலை அல்லது ஓலைச்சுவடி என்று கூறுகிறோம்.

பின்னர் அச்சு இயந்திரம் மூலம் பல படிகள் எடுக்க வழி கிடைத்தது

உ. வே. சாமிநாதையர் பல தமிழ் இலக்கியங்களின் ஓலைச்சுவடிகளை மிகவும் மெனக்கெட்டு சேகரித்து அச்சில் வெளியிட்டார் என்பது பரவலாகத் தெரிந்ததுதான். ஆனால் சேலம் இராமசாமி முதலியார் ”இதெல்லாம் படித்து என்ன பிரயோசனம்? இவைகளெல்லாம் பிற்கால நூல்கள், இவைகளுக்கு மூலமான நூல்களைக் கற்றுள்ளீர்களா?” என்று அவரைக் கேட்டு, சில மூல நூல்களையும் கொடுத்து, அவற்றின் பொருள் பற்றி அவரிடம் விவாதித்து அவர் பல சங்கத் தமிழ் இலக்கியங்களைக் கண்டுபிடித்து பதிப்பிக்க தூண்டுகோலாக இருந்தார் என்பது உ.வே.சா. சுயசரிதையைப் படித்தவர்களுக்கு மட்டும்தான் தெரியும். அவருக்குப் பல ஆண்டுகள் முன்னரே அரிய தொல்காப்பிய உரைகள், இறையனார் அகப்பொருள், கலித்தொகை போன்ற பல பண்டைய சங்கத் தமிழ் நூல்களை அச்சிட்டு வாழ வைத்த தமிழ்ப் பதிப்புத்துறையின் முன்னோடி யாழ்ப்பாணம் சி. வை. தாமோதரம்பிள்ளை பற்றி பலருக்குத் தெரியாது.

அடுத்து இணையத்தில் மின்தொகுப்பாக்கிப் பகிர்கிறோம்

பண்டைய இலக்கியப் படைப்புகளை இணையத்தில் அனைவரும் அணுக இயலும் மின் வடிவத்தில் மாற்றும் முயற்சிகள் பல உலகளவில் முன்னெடுக்கப்பட்டன. முனைவர் கு. கல்யாணசுந்தரம் தலைமையில் நடக்கும் மதுரை தமிழ் இலக்கிய மின்தொகுப்புத் திட்டம் இவற்றில் முக்கியமானதொன்றாகும். நூலகம் திட்டம் சுமார் 7000 நூல்களையும் மற்றும் பல்லாயிரக் கணக்கான இதழ்கள், செய்தித்தாள்கள் ஆகியவற்றையும் மின் தொகுப்புகளாகப் பதிவேற்றி உள்ளது. தமிழ் இணையக் கல்விக்கழகம் பல சங்க இலக்கியங்கள், காப்பியங்கள், நெறி நூல்கள் முதலியவற்றை இணையதளத்தில் அளிக்கிறது. தற்போது விக்கிப்பீடியாவின் விக்கிமூலம் தளத்தில் தமிழக அரசின் நாட்டுடைமையாக்கப்பட்ட நூல்கள் பதிவேற்றத் திட்டம் நடந்து கொண்டிருக்கிறது. 91 ஆசிரியர்களின் 2217 நூல்கள் எழுத்துணரி மூலம் பதிவேற்றப்பட்டு தன்னார்வலர்களால் கூட்டு முயற்சியாக மெய்ப்புப் பார்க்கப்படுகிறது. ஆர்வமுள்ளவர்கள் முகப்புப் பக்கத்திலிருக்கும் இந்த மாதத்தின் புத்தகத்திற்குப் பங்களிக்கலாம். தமிழில் மின்னூல்களை இலவசமாக வெளியிடும் இந்தத் தளம் பல எழுத்தாளர்கள் தங்கள் படைப்புகளை வெளியீடு செய்ய உதவியிருக்கிறது. 400 நூல்கள் மொத்தம் சுமார் 6 மில்லியன் பதிவிறக்கம் செய்யப்பட்டுள்ளன.

இயல்மொழி ஆய்வுதான் தமிழின் பரிணாம வளர்ச்சியின் அடுத்த கட்டம்

பல்லாயிரக்கணக்கான ஆவணங்கள் இணையத்திலும், சமூக ஊடகங்களிலும் தினமும் சேர்கின்றன. இவற்றையெல்லாம் ஒவ்வொன்றாகப் படித்துப் பிரித்தெடுப்பதென்பது ஆகக்கூடிய வேலையில்லை. இதேபோன்று வானொலியிலும், தொலைக்காட்சியிலும், யூடியூபிலும் பல்லாயிரக்கணக்கான சொற்பொழிவுகளும், உரையாடல்களும், நேர்காணல்களும் வந்துகொண்டேயிருக்கின்றன. நிறுவனங்களும், கல்வியாளர்களும், அரசாங்கமும், நீங்களும், நானும் இவற்றைப் பயன்படுத்த வேண்டுமானால் இவற்றை வகைப்படுத்தவும், திறவுச்சொல் பிரித்தெடுக்கவும், சுருக்கம் தயாரிக்கவும் கணினியால் இவற்றைப் பகுப்பாய்வு செய்ய இயலவேண்டும். இதற்கு இயல்மொழிக் கருவிகளும் வளங்களும் தேவை.

நம்முடைய இயல்மொழியைப் புரிந்து கொள்ளக் கணினிகளைப் பழக்கி விட முடியும்

இது ஒரு புறமிருக்க, இதுநாள்வரை கணினிகளைப் பயன்படுத்துவது எப்படி என்று நாம் கற்றுக் கொள்ள வேண்டியிருந்தது. ஆனால் செயற்கை நுண்ணறிவு மற்றும் இயந்திரக் கற்றலின் சாத்தியம் என்னவென்றால் நம்முடைய இயல்மொழியைப் புரிந்து கொள்ளக் கணினிகளைப் பழக்கி விட முடியும் என்பதுதான். இதுநாள்வரை கணினிகளைப் பயின்றவர்கள்தான் அவற்றின் திறனைப் பயன்படுத்த முடியும் என்றிருக்கிறது. நம்முடைய இயல்மொழியைப் புரிந்து கொள்ளக் கணினிகளைப் பழக்கி விட்டால் பாமர மக்களும் கணினிகளின் திறனை நேரடியாக அணுக இயலும். இதற்கும் இயல்மொழிக் கருவிகளும் வளங்களும்தான் அடிப்படைத் தேவைகளாக அமைகின்றன.

கணினிக்குத் தமிழ் கற்றுக் கொடுப்போம்

கணினிக்குத் தமிழ் கற்றுக் கொடுப்போம்

இயற்கையான மொழியைப் பயன்படுத்திக் கணினிகள் மற்றும் பிற சாதனங்களை மனிதர்கள் எளிதாக இயக்குவதற்கான செயலிகளை உருவாக்குவதுதான் இயல்மொழி ஆய்வின் குறிக்கோள். எடுத்துக்காட்டாக ஆங்கிலத்தில் கணினிகளுடன் உரை அரட்டையும் பேச்சு உரையாடலும் வந்து விட்டது. கூகிள் போன்ற பெரிய நிறுவனங்கள் தமிழிலும் சில சேவைகளைத் தொடங்கியுள்ளன. இந்தக் குறிக்கோளை அடையும் முதல் படியாக உரை மற்றும் பேச்சு போன்ற இயற்கையான மொழிகளில் உட்பொதிக்கப்பட்ட தகவல்களை கணினி மூலம் பிரித்தெடுக்க வேண்டும்.

மற்றும் கணினியில் மொழிபெயர்ப்பு முன்னேற்றங்கள் வரவர ஒரு பொதுவான மொழியின் தேவை குறைந்துவிடும். உங்கள் உலாவி உங்கள் மொழியில் தானியங்கியாக மொழிபெயர்ப்பு செய்யமுடியும் என்றால், அல்லது உங்கள்  திறன்பேசி மொழிபெயர்ப்பாளராக இயங்க முடியும் என்றால் ஏன் இன்னொரு மொழியைக் கற்க முயற்சி போடுவோம்?

செயற்கை நுண்ணறிவும் இயந்திரக் கற்றலும் ஆழ்ந்த கற்றலும்

இயந்திரக் கற்றல் என்பது செயற்கை நுண்ணறிவின் ஒரு பகுதிக்கு வழங்கப்படும் பெயர். இது தரவுகளைப் பார்த்துக் கற்றுக் கொள்ளும் மற்றும் மேம்படுத்தும் வினைச்சரங்கள் சம்பந்தப்பட்டது. இந்த இயந்திரக் கற்றல் வினைச்சரத்துக்கு நாம் இயல்மொழி தரவுகளை பெரும்பாலும் உரை வடிவத்தில் கொடுக்கிறோம். இந்த உரை நாம் செய்யும் கற்றல் பணிக்குத் தொடர்புடைய குறிப்பிட்ட அம்சங்களை முன்னிலைப்படுத்துமாறு குறியீடு செய்யப்பட்டுமிருக்கலாம்.

இயல்மொழி ஆய்வுத் துறையில் தரவுத் தொகுப்புகளுடன் பணி புரியும்போது, பொதுவாக மூன்று முக்கிய வகையான இயந்திரக் கற்றல் நெறிமுறைகள் பயன்படுத்தப்படுகின்றன. கையால் குறியீடு செய்த உரையைப் பயன்படுத்திக் கற்பித்தலை நாம் மேற்பார்வையில் கற்றல் என்று சொல்கிறோம். குறியீடு செய்யாத உரையைப் பயன்படுத்திக் கற்பித்தலை மேற்பார்வையற்ற கற்றல் என்றும் இரண்டும் கலந்தது என்றால் அரை மேற்பார்வை என்றும் சொல்கிறோம்.

தொகுப்பில் இருக்கும் ஒரு உருபொருளை அடையாளம் காண்பதை வகைப்படுத்தல் என்கிறோம். எடுத்துக்காட்டாக, உங்கள் மின்னஞ்சல் அகப்பெட்டியில் வீண்செய்திகளை வேறுபடுத்துவதற்கு வகைப்படுத்தல் வினைச்சரம் பயன்படுகிறது. ஜிமெயில், யாஹூ, ஹாட்மெயில் போன்றவற்றில் உங்களுக்கு வரும் மின்னஞ்சல்களில் எது வீண்செய்தி என்று அடையாளம் செய்தால் அதிலுள்ள சக்தி வாய்ந்த வகைப்படுத்தல் வினைச்சரம் உடன் கற்றுக் கொள்ளும்.

நீங்கள் ஐந்து ஆவணங்களைப் படித்து விட்டு உரைச் சுருக்கம் எழுதக்கூடும். ஐயாயிரம் ஆவணங்கள் என்றால்? ஒவ்வொரு ஆவணத்திலும் இருக்கும் மையக்கருத்துக்கள் மற்றும் முக்கிய சொற்றொடர்கள் தெரிந்தால் அவற்றை பயனர்கள் தானியங்கியாக அடையாளமிடவும், வகைப்படுத்தவும், முறைப்படுத்தவும் இயலும்.  இது ஆய்வாளர்களுக்கும் தரவுத்தள மேலாளர்களுக்கும் மிகவும் உதவியாக இருக்கும். ஆவணங்களில் மையக்கருத்துக்கள் மற்றும் முக்கிய சொற்றொடர்களைக் கணினி மூலம் கண்டுபிடிப்பதைத் தலைப்புப் பிரித்தெடுத்தல் (topic extraction) என்கிறோம். 

ஆழ்ந்த கற்றல் மேலும் மனித மூளையை ஒத்திருக்கிறது. மூளை மண்டலத்தின் ஆழத்தில் உள்ள நரம்பணுக்கள் போல நுணுக்கமான கட்டமைப்புகளை அடையாளம் காண்கிறது. இவற்றைப் பற்றி விரிவாகப் பின்வரும் கட்டுரைகளில் காண்போம்.

இது பார்வையாளர் விளையாட்டல்ல, சட்டைக் கைகளை மடக்கி விட்டுக் கொண்டு களத்தில் இறங்குங்கள்

அனைத்து மொழி பேசுவோரும் சமமான நிலைப்பாட்டில் பங்கேற்பதை உறுதி செய்ய உரை மற்றும் பேச்சுத் தொழில்நுட்பம் பயன்படுத்தப்படும். ஆங்கிலம், ஸ்பானிஷ், பிரஞ்சு, ஜெர்மன் போன்ற வர்த்தக ரீதியாக முக்கியமான மொழிகளைப் பற்றிக் கவலைப்பட வேண்டியதில்லை என்பது தெளிவாகத் தெரிகிறது. இந்த மொழிகளைப் பொறுத்தவரை ஒரு பெரிய செல்வந்த சந்தை சாத்தியமானது. அதனால் பெரிய சந்தை நிறுவனங்கள் இந்த மொழிகளைக் கவனித்துக்கொள்வார்கள். சிறிய மொழிகளில் சிறிய தேசிய, வட்டார பொருளாதாரங்கள்தானே உள்ளன. ஆனால் சந்தை அதைச் செய்யாவிட்டால் தமிழ் மொழிக்கு முறையான தொழில்நுட்பங்களை யார் வழங்குவார்? தீர்வு: சமூக முயற்சி, தன்னார்வலர்கள், திறந்த மூலம், திறந்த தரவுகள், திறந்த ஆய்வு. இது பார்வையாளர் வேடிக்கை பார்க்கும் விளையாட்டல்ல, சட்டைக் கைகளை மடக்கி விட்டுக் கொண்டு களத்தில் இறங்குங்கள்.

————————–

இத்தொடரில் அடுத்த கட்டுரை: பெரு நிறுவனங்களின் இலவசத் தமிழ் சேவைகளை நம்பியே இருக்கலாமா?

தமிழில் தட்டச்சும் சொல்வதெழுதலும், ஒளி எழுத்துணரி. மொழிபெயர்ப்புச் செயலி. சொல் வில்லை. உரையாடல் செயலி. உரை-ஒலி-மாற்றி. உதவியாளர். பெரிய நிறுவனங்களின் இம்மாதிரியான இலவசத் தமிழ் சேவைகளையே நம்பி இருப்பதில் குறைபாடுகள் என்ன?

%d bloggers like this: