தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 25. தமிழ் – ஆங்கிலம் இயந்திர மொழிபெயர்ப்பு

இயந்திர மொழிபெயர்ப்புக்கு மூன்று வகையான அணுகல்கள் உள்ளன. இவை விதி சார்ந்த இயந்திர மொழிபெயர்ப்பு (Rule-Based Machine Translation – RBMT), புள்ளிவிவர இயந்திர மொழிபெயர்ப்பு (Statistical Machine Translation – SMT) மற்றும் கலப்பு (Hybrid) இயந்திர மொழிபெயர்ப்பு.

விதி சார்ந்த இயந்திர மொழிபெயர்ப்பு

விதி சார்ந்த இயந்திர மொழிபெயர்ப்பில் இந்த இரண்டு வகைகள் உண்டு. மேலோட்டமான மொழிமாற்றம் (Shallow transfer) மற்றும் ஆழ்ந்த மொழிமாற்றம் (Deep transfer). அபெர்டியம் (Apertium) ஒரு கட்டற்ற திறந்த மூல விதி சார்ந்த இயந்திர மொழிபெயர்ப்பு தளம் ஆகும். இது குனு பொது உரிமத்தின் கீழ் வெளியிடப்பட்டுள்ளது. இது ஒரு மேலோட்டமான-மொழிமாற்ற இயந்திர மொழிபெயர்ப்பு அமைப்பு ஆகும். தற்பொழுது, அபெர்டியம், இந்தி – உருது சேர்த்து, 40 நிலையான மொழி இணைகளை வெளியிட்டுள்ளது,

இது இந்தி – உருது போன்ற நெருக்கமாக தொடர்புடைய மொழிகளுக்கு இடையில் மொழிபெயர்க்கவே வடிவமைக்கப்பட்டது, இருப்பினும் இது சமீபத்தில் மாறுபட்ட மொழி இணைகளுக்கும் விரிவாக்கப்பட்டுள்ளது. ஒரு புதிய இயந்திர மொழிபெயர்ப்பு அமைப்பு உருவாக்க, XML வடிவங்களில் மொழி தொடர்பான தரவுகளை (அகராதிகள், விதிகள்) மட்டும் உருவாக்க வேண்டும்.

தமிழ் ஒரு கட்டற்ற சொல் வரிசை மொழி. ஆகவே தமிழிலிருந்து ஆங்கிலத்துக்கு மொழிபெயர்ப்பதில் துல்லியம் குறைவு. ஆங்கிலத்திலிருந்து தமிழுக்கு மொழிபெயர்ப்பதில் துல்லியம் அதிகம்.

மூல மொழியில் ஒரு சொற்பகுப்பியல் ஆய்வியும் இலக்கு மொழியில் ஒரு சொற்பகுப்பியல் உருவாக்கியும் அபெர்டியம் இயந்திர மொழிபெயர்ப்பை தமிழுக்கு செயற்படுத்த முக்கியமானவை. ஹைதராபாத் பல்கலையில் பரமேஸ்வரி இவற்றை உருவாக்க செய்த முயற்சியின் முடிவுகள் இங்கே. சுமார் 68 ஆயிரம் சொற்கள் கொண்ட அகராதியைப் பயன்படுத்தி இருவேறு உரைத்தொகுப்புகளில் 85% சொற்களை மொழிபெயர்ப்பு செய்ய முடிந்ததாம்.

இயந்திர மொழிபெயர்ப்பு செய்முறை வரிசை

விதி சார்ந்த இயந்திர மொழிபெயர்ப்புக்கு கீழ்க்கண்ட செய்முறை வரிசையைப் பின்பற்றுகிறோம்:

  1. பகுப்பாய்வு: பகுப்பாய்வின் போது, உள்ளீட்டைப் பாகுபடுத்த மூல மொழியில் செயலிகளும், இலக்கணம் மற்றும் அகராதியும் தேவை.
  2. மொழிமாற்றம்:
    1. வாக்கியக் கட்டமைப்பு மாற்றத்திற்கு ஒரு இலக்கணம் தேவை.
    2. சொற்களை மொழிமாற்றம் செய்ய இருமொழி அகராதி தேவை.
  3. உருவாக்கம்: கடைசியாக, இலக்கு மொழியில் உருவாக்க இலக்கணமும், அகராதியும் இறுதி மொழிபெயர்ப்புக்குத் தேவை.
தமிழ் - ஆங்கிலம் இயந்திர மொழிபெயர்ப்பு

தமிழ் – ஆங்கிலம் இயந்திர மொழிபெயர்ப்பு

புள்ளிவிவர இயந்திர மொழிபெயர்ப்பு

மருத்துவ, நிதி அல்லது தொழில்நுட்பம் போன்ற குறிப்பிட்ட துறைக்கான பயிற்சி தரவுகளைப் பயன்படுத்தி பயிற்றுவித்தால், புள்ளிவிவர இயந்திர மொழிபெயர்ப்பு இயந்திரம் உயர் வெளியீடு தரத்தை நிரூபித்துள்ளது.

ஒரு குறிப்பிட்ட துறைக்கு குறைந்த பட்சம் இரண்டு மில்லியன் சொற்கள் தேவை என்று பொதுவாகக் கருதப்பட்டாலும், அதைவிடக் குறைந்த தரவுகளை வைத்தே ஏற்றுக்கொள்ளத்தக்க தரத்தை அடைய முடியும் என்று சொல்கிறார்கள். நல்ல தரமான சீரமைக்கப்பட்ட இருமொழித் தொகுப்புகள் உருவாக்க செலவு அதிகம். எனினும் உருவாக்கிய பின்னர் அது நிறுவனத்துக்கு மதிப்பு மிக்க சொத்தாகும்.

புள்ளியியல் இயந்திர மொழிபெயர்ப்புக்கு மோசஸ் (Moses) ஒரு திறந்த மூல மென்பொருள். ஒரு மூல மொழியிலிருந்து ஒரு இலக்கு மொழிக்கு உரைகளை மொழிபெயர்ப்பு செய்ய புள்ளிவிவர மாதிரிகளை பயிற்றுவிக்க பயன்படுகிறது. பயிற்றுவித்த இந்த மாதிரிகளை வைத்து மூல மொழி உரைகளை மொழிபெயர்க்கலாம். பயிற்சி கொடுக்க இரண்டு மொழிகளில் வாக்கியங்கள் சீரமைக்கப்பட்ட ஒரு இணை உரைத்தொகுப்பு வேண்டும்.

இது LGPL உரிமத்தின் கீழ் வெளியீடு செய்யப்பட்டுள்ளது. விண்டோஸ், மேக் மற்றும் லினக்ஸ் கணினிகளில் ஓடும். ஐரோப்பிய ஒன்றிய நிதியுதவியில் உருவாக்கப்பட்டது.

கலப்பு இயந்திர மொழிபெயர்ப்பு

கலப்பு (Hybrid) இயந்திர மொழிபெயர்ப்பில் பொதுவாக RBMT மற்றும் SMT இரண்டும் உண்டு. இதை SYSTRAN போன்ற தனியுரிம நிறுவனங்களே பெரும்பாலும் பயன்படுத்துகின்றன.

நரம்பியல் இயந்திர மொழிபெயர்ப்பு

நரம்பியல் இயந்திர மொழிபெயர்ப்பு (Neural Machine Translation – NMT) என்பது ஒரு பெரிய செயற்கை நரம்பியல் பிணையத்தைப் பயன்படுத்தி அடுத்து வரும் சொற்களின் தொடர்ச்சியைக் கணிக்கிறது. இது பொதுவாக ஒருங்கிணைந்த முன்மாதிரியை வைத்து முழு வாக்கியங்களை உருவாக்க முயற்சிக்கிறது. நரம்பியல் இயந்திர மொழிபெயர்ப்பு என்பது புள்ளிவிவர இயந்திர மொழிபெயர்ப்பில் (SMT) வழக்கமாகச் செய்வதைவிடத் தலைகீழான மாற்றம் அல்ல. ஆகவே இதுவும் புள்ளிவிவர இயந்திர மொழிபெயர்ப்பில் ஒரு வகைதான். ஆனால் மிகவும் மேம்படுத்தப்பட்ட வகை.

இதில் மொழி மாதிரியும், மொழிபெயர்ப்பு மாதிரியும், மறு சீரமைப்பு மாதிரியும் தனித்தனியாகக் கிடையாது. ஆனால் அடுத்து வரும் ஒவ்வொரு சொல்லாகக் கணிக்கும் ஒரு தனி வரிசைமுறை மாதிரி மட்டும் உண்டு. முழு மூல வாக்கியத்தையும் மற்றும் ஏற்கனவே தயாரிக்கப்பட்ட இலக்கு சொல் வரிசைமுறையையும் வைத்து இந்த வரிசைக் கணிப்பு நிர்ணயிக்கப்படுகிறது. ஆழமான NMT இதனுடைய நீட்டிப்பு ஆகும். ஒரே ஒரு அடுக்குக்குப் பதிலாக இது பல நரம்பியல் பிணைப்பு அடுக்குகளை செயல்படுத்துகிறது. இதை ஆழ்ந்த கற்றல் (Deep Learning) என்றும் சொல்கிறார்கள்.

இயந்திர மொழிபெயர்ப்பில் நரம்பியல் பிணையங்களைப் பயன்படுத்துவதற்கான முதல் அறிவியல் அறிக்கை 2014 இல் வெளிவந்தது. முதன்முதலாக 2015 ஆம் ஆண்டில், பொது இயந்திர மொழிபெயர்ப்பு போட்டியில் NMT அமைப்பு இருந்தது. அடுத்த ஆண்டு வெற்றியாளர்களில் 90% NMT பயன்படுத்தியவர்கள். 2016 க்குள், சிறந்த இயந்திர மொழிபெயர்ப்பு அமைப்புகளில் பெரும்பாலானவை NMT அமைப்புகள்தான். கூகிள், மைக்ரோசாப்ட் மற்றும் யாண்டெக்ஸ் மொழிபெயர்ப்பு சேவைகள் இப்போது NMT ஐயே பயன்படுத்துகின்றன.

திறந்த மூல நரம்பியல் இயந்திர மொழிபெயர்ப்பு அமைப்பு, OpenNMT, ஹார்வர்ட் இயல்மொழி ஆய்வுக் குழுவால் வெளியிடப்பட்டது. OpenNMT என்பது நரம்பியல் இயந்திர மொழிபெயர்ப்புக்கான திறந்த மூல முன்முயற்சியாகும். இது அண்மைய ஆழ்ந்த கற்றல் தொழில்நுட்பத்தையே பயன்படுத்துகிறது. இது தற்போது 3 முக்கிய செயலாக்கங்கள் கொண்டது: லுவா (Lua), பைதான் – பைடார்ச்(PyTorch), பைதான் – டென்சார்ஃப்ளோ(TensorFlow). இவை மூன்றுமே தற்போது பராமரிக்கப்படுகின்றன. மூல நிரல்கள் கிட்ஹப்பில் பகிரப்பட்டுள்ளன. OpenNMT MIT உரிமத்தின் கீழ் வெளியிடப்பட்டுள்ளது.

பங்களிப்போர் எண்ணிக்கையையும், பயனர் ஆர்வத்தைக் குறிக்கும் விண்மீன் குறியீடுகளையும் பார்த்தால் கூகிளின் டென்சார்ஃப்ளோதான் (TensorFlow) சவாலில்லாமல் முதலிடத்திலுள்ளது. இது அபாச்சி 2.0 திறந்த மூல உரிமத்தின் கீழ் வெளியிடப்பட்டுள்ளது. இது பைதான் மொழியில் எழுதப்பட்டுள்ளது. ஆனால் கருநிரல் C ++ மற்றும் CUDA வில் எழுதப்பட்டுள்ளது. CUDA என்பது வரைபடச் செயலகம் (GPU) நிரலாக்கம் செய்ய என்விடியா (Nvidia) மொழி.

OpenNMT மென்பொருளை பயன்படுத்தி பயிற்றுவிக்க உங்களுக்கு இரண்டு கோப்புகள்தான் தேவை – மூல மொழிக்கோப்பு மற்றும் இலக்குமொழிக்கோப்பு. ஒவ்வொரு வரியிலும் ஒரு வாக்கியம்தான் இருக்க வேண்டும். சொற்களுக்கு இடையில் இடைவெளி இருக்க வேண்டும்.

வரைபடச் செயலகம் (GPU) சில்லு உள்ள கணினி தேவை

OpenNMT நிரலைப் பயன்படுத்தி பயிற்றுவிக்க NVIDIA நிறுவனத்தால் தயாரிக்கப்பட்ட வரைபட செயலாக்கச் (GPU) சில்லு உள்ள கணினி தேவை. அதுவும் CUDA என்ற கருவித்தொகுதி மென்பொருள் ஓடக்கூடியதாக இருக்க வேண்டும். உங்கள் கணினியில் இவை உள்ளனவா என்று பார்க்க இங்கே செல்லவும். பெரிய அளவில் தரவைச் செயலாக்க வேண்டியிருப்பதால், பொதுவாக எந்த இயந்திர கற்றல் திட்டத்திற்கும் வரைபடச் செயலகம் சில்லு வைத்த கணினி தேவைப்படுகிறது.

இயந்திர மொழிபெயர்ப்பு அணுகல்களில் நல்லதும் கெட்டதும்

RBMT அமைப்புகள் மொழியின் மூன்று முக்கியமான குறைபாடுகளை எதிர்கொள்கின்றன:

1) ஒரு இயந்திரத்தைப் பொருத்தவரை மொழியின் உள்ளார்ந்த தெளிவின்மை. மனிதர்களைப் போல சொல்லின் பொருள் சார்ந்த உள்ளுணர்வு இயந்திரங்களுக்குக் கிடையாது.

2) விலக்கு அடிப்படையிலான இலக்கண அமைப்பு.

3) எப்போதும் விரிவாகிக்கொண்டிருக்கும் கலைச்சொற்கள் அகராதி.

NMT அணுகுமுறை மொழி கட்டமைப்பை நன்றாகக் கற்றுக் கொள்ளும், ஆனால் RBMT அல்லது SMT போல் நீண்ட சொல் பட்டியலை ஞாபகம் வைத்துக் கொள்வதில் அவ்வளவு சிறப்பாக இல்லை. சொற்களின் பட்டியலை RBMT  நன்றாகக் கையாளும், ஆனால் வாக்கிய அமைப்பு சரியாக வராது. SMT இவற்றுக்கு இடையில் உள்ளது. வாக்கியங்கள் சரளமாக வருவது போலிருக்கும், ஆனால் சில நேரங்களில் மொழிபெயர்ப்பு முற்றிலும் தவறானதாக இருக்கலாம்.

NMT பற்றிய சுவாரசியமான அம்சம் என்னவென்றால், PBSMT (சொற்றொடரை அடிப்படையாகக் கொண்ட SMT) யை விட இரைச்சல் மிகுந்த தரவுக்கு சகிப்புத்தன்மை அதிகம். பொதுவான NMT அமைப்புகளில் ஒரு குறிப்பிடத்தக்க பலவீனம் என்னவென்றால் மிகவும் அரிதான வார்த்தைகளை அவை சரியாக மொழிபெயர்ப்பதில்லை.

ashokramach@gmail.com

—————–

இத்தொடரில் அடுத்த கட்டுரை: சொற்பிழைத் திருத்தி

தமிழுக்குச் சொல்திருத்தியே தேவையில்லை என்றொரு கருத்து. உரையில் சொற்பிழை சரிபார்ப்பு பின்வரும் படிகளைக் கொண்டுள்ளது. வேட்பு சொற்கள். ஹன்ஸ்பெல் திறந்த மூல சொற்பிழைத் திருத்தி. தமிழுக்கு நான் உருவாக்கிய ஹன்ஸ்பெல் பின்னொட்டு விதிகள். லேங்குவேஜ் டூல் திறந்த மூல சொற்பிழைத் திருத்தி.