Weka எனும் கட்டற்ற கருவியின்மூலம், எவரும் இயந்திரக் கற்றலின் திறனைப் பயன்படுத்தி, அதன் தாக்கத்தை ஏற்படுத்தக்கூடிய கணிப்புகளைச் செய்யலாம். Weka ஐ நிறுவுகைசெய்வதுகுறித்தும் அதனை பயன்படுத்திடுவதன் மூலம் இயந்திர கற்றல் மாதிரிகளை சிரமமின்றி உருவாக்க பரிசோதிக்க இந்தக் கட்டுரை வழிகாட்டிடும்.
இன்று, செயற்கை நுண்ணறிவு (AI), இயந்திர கற்றல் (ML) எவ்வளவு பிரபலமாகவும் முக்கியமானதாகவும் மாறியுள்ளது என்பதை நாம் அறிவோம்.எதிர்காலத்தில் செநு(AI)ஐ ஒவ்வொரு துறையிலும் கண்டிப்பாக பயன்படுத்த வேண்டிய சூழ்நிலைநிலை ஏற்படவிருக்கின்றது , மேலும் பல்வேறு தொழில்களின் முன்னேற்றங்களைச் கொண்டுவருவதில் தரவு அறிவியலானது முக்கிய பங்கு வகிக்கவும் இருக்கின்றது. அதனோடு வணிகநிறுவனங்களை மேம்படுத்தவும், இயற்கைசூழலை மேம்படுத்தவும், இயற்கை பேரழிவுகளை முன்கூட்டியே கணிப்பதன் மூலம் நாம் வாழும் இவ்வுலகத்தை பாதுகாப்பானதாக இருப்பதை உறுதிப்படுத்தவும் தரவு அறிவியல் பயன்படுத்தப்படுகிறது. இதன் விளைவாக, தற்போதுதரவு அறிவியல்களுக்கான தேவை உயர்ந்துள்ளது. அதனால் ChatGPT , போன்ற பிற கட்டணத்துடனான ML மென்பொருள் பயன்பாடுகளின் வளர்ச்சியுடன், தரவு அறிவியல் துறையில் இவைகளுக்கு சமமான சக்திவாய்ந்த திறமூல கருவிகளின் தேவையும் இப்போது அதிகமாக எழுந்துள்ளது.
அதனை ஈடுசெய்வதற்கான Weka எனப்படும் ஒரு அற்புதமான திறமூல தரவு அறிவியல் கருவியை இந்தக் கட்டுரையில் ஆய்வுசெய்திடுவோம்.இந்த Weka இன் நிறுவுகைசெய்து பயன்பாடுத்துவதன் மூலம் எளிய இயந்திர கற்றல் மாதிரியை உருவாக்குவதற்கும் பரிசோதனை செய்வதற்கும் வழிகாட்டுவதே இந்த கட்டுரையின் முக்கியநோக்கமாகும். குறிப்பாக, கருவிழிப் பூவின் (iris flower) முன்கணிப்புச் சிக்கலைப் பயிற்றுவிப்பதற்கும் பரிசோதிப்பதற்கும் Wekaவைப் பயன்படுத்திகொள்வோம்.
இந்த Weka ஆனது அடிப்படையில் பல்வேறு தரவு அறிவியலின் சிக்கல்களைத் தீர்வுசெய்திட உதவுகின்ற இயந்திர கற்றல் வழிமுறைகளின் விரிவான தொகுப்பை வழங்குகின்ற ஒரு கருவியாகும்! ‘அறிவு பகுப்பாய்வுக்கான வைகாடோ சூழல்’ Waikato Environment for Knowledge Analysis’ என்பதையே சுருக்கமாக Weka எனஅழைக்கப்படுகின்றது . இந்த கருவி நியூசிலாந்தில் உள்ள வைகாடோ பல்கலைக்கழகத்தில் உருவாக்கப்பட்டுள்ளது. இந்த கட்டற்ற கட்டணமற்ற மென்பொருளின் குறிமுறைவரிகள் ஜாவாஎனும் கணினிமொழியில் எழுதப்பட்டதாகும், இது எந்தவொரு தளத்திலும் நன்றாக இயங்கக்கூடியது மேலும் பெரும்பாலான இயக்க முறைமைகளுடன் இணக்கமானது. முக்கியமாக, நம்முடைய சொந்த ஜாவா குறிமுறைவரிகளிலிருந்து இயந்திரக் கற்றல் மாதிரிகளை அழைத்திடுகின்றபணி இந்த Weka வுடன் ஒரு தென்றலாக இருக்கின்றது! இப்போது நிறுவுகை செயல்முறையுடன் துவங்கிடுவோம்.
படம் 1
இந்த Weka ஐ நிறுவுகைசெய்வதே முதல் படிமுறையாகும். இதற்காக prdownloads.sourceforge.net/weka/weka-3-9-6-azul-zulu-windows.exe என்ற இணைப்பைப் பயன்படுத்தி இதன் நிறுவியைப் பதிவிறக்கம் செய்திடுக . இந்த நிறுவியைப் பயன்படுத்தி Weka ஐ நிறுவுகை செய்திடலாம்.
தொடர்ந்து இந்த திரையில் ‘Next’. எனும் பொத்தானை தெரிவுசெய்து சொடுக்குவதன் மூலம் நிறுவுகை பணியைதொடர்ந்திடுக, அடுத்து தோன்றிடுகின்றதிரையில் கூறுகின்ற விதிமுறைகளையும் நிபந்தனைகளையும் ஏற்றுகொள்வதாக உறுதிசெய்க, உடன் இதன் நிறுவுகை செயல்முறை துவங்கும். இப்போது இந்த Weka எனும் கருவியை நம்முடைய கணினியில் நிறுவுகைசெய்ய வேண்டிய இடத்தைத் தேர்ந்தெடுத்து, ‘Next’. எனும் பொத்தானை தெரிவுசெய்து சொடுக்குக..
தொடர்ந்து இதனை நிறுவகைசெய்வதற்கான இடத்தை தேர்ந்தெடுத்து ‘Next’. எனும் பொத்தானை தெரிவுசெய்து சொடுக்குதல் செய்தவுடன், இதனை நிறுவுகை செய்திடும் பணி தானாகவே நிறைவடையும்.
இப்போது இதன் நிறுவுகைசெயதிடுகின்ற முடிவடைந்ததால் நம்முடைய பயன்பாடுகளிலிருந்து Weka ஐத் செயல்படுத்திடவும் அதைப் பயன்படுத்திடவும் துவங்கலாம்.
‘Explorer’ எனும் பொத்தானைதெரிவுசெய்து சொடுக்குதல் செய்வது அடுத்த படிமுறையாகும்.
இப்போது கருவிழி(iris) தரவு தொகுப்பை பதிவிறக்கம் செய்யலாம். இந்த தரவுத் தொகுப்பு(iris flower)இன் துணை இனங்களைக் குறிக்கின்ற iris-setosa, iris-versicolor , iris-virginica ஆகிய மூன்று முக்கிய இனங்களைக் கொண்டுள்ளது: தரவுத் தொகுப்பின் இயல்புகளில் petal ,sepal ஆகியவற்றின் அகலம் , நீளம் ஆகியவைகளும் அடங்கும். கொடுக்கப்பட்ட பூவை மூன்று இனங்களுக்குள் ஏதேனும் ஒன்றாக வகைப்படுத்து வதே நமது குறிக்கோள். இதை அடைய, நான்கு இயல்புகளைப் பயன்படுத்தி இதன் மாதிரியைப் பயிற்றுவிக்கப்படுகின்றது, மேலும் ஒரு புதிய மலர் வந்தால் கணிப்புகளைச் செய்ய இந்த மாதிரியைப் பயன்படுத்திகொள்ளலாம்.
தரவுத் தொகுப்பை gist.github.com/myui/143fa9d05bd6e7db0114 எனும் இதனுடைய இணையதளமுகவரியிலிருந்து பதிவிறக்கம் செய்யலாம். நாம் இந்த தரவைப் பதிவிறக்கம்செய்தவுடன், அதை Weka எனும் கருவியால் அணுகக்கூடிய இடத்தில் சேமிக்க முடியும்.
பயன்பாட்டின் பயனாளர்இடைமுக(UI)தரவுத் தொகுப்புகளை பதிவேற்றம்செய்திடுக, பல்வேறு தருக்கங்களைப் பயன்படுத்திகொள்க, இது கொத்தாக்கம்செய்தல், காட்சிப்படுத்தல் போன்ற பல்வேறு பணிகளைச் செய்யவும் உதவுகிறது. இந்த கட்டுரையில், மாதிரியைப் பயிற்றுவிப்பதற்கும் அதை பரிசோதிப்பதற்கும் மட்டுமே நாம் கவனம் செலுத்திடுவோம்.
இப்போது பதிவிறக்கம் செய்யப்பட்ட தரவை பயன்பாட்டில் பதிவேற்றிடலாம். இதன் Explore எனும் பக்கத்தில், ‘Open’ எனும் கோப்பைத் தேர்வுசெய்து கொண்டு, .arff எனும் கோப்பு இருக்கும் இடத்திற்குச் சென்று, arff எனும் கோப்பைத் தேர்ந்தெடுத்திடுக.
இவ்வாறு தரவு தொகுப்பை பதிவேற்றுகின்ற பணி முடிந்ததும், ‘Open’ என்பதை தெரிவுசெய்து சொடுக்குக,பின்னர் பதிவேற்றம் செய்யபபட்ட தரவு தொகுப்பினை . படம் 2 இல் கண்டுள்ளவாறு, நெடுவரிசைகள் , சராசரிகள் என்பன போன்ற தரவுத் தொகுப்பின் அடிப்படை காட்சிப்படுத்தலை, புள்ளிவிவரங்களை கருவி வழங்குகின்றது.
படம் 2:
அடுத்து, பொருத்தமான தருக்கத்தை(algorithm) தேர்ந்தெடுத்திடுக. இதற்கு நாம் நமது பணிக்குத் தேவைப்படும் தாவலின்திரைக்குச் செல்ல வேண்டும். இது ஒரு வகைப்படுத்தல் பணி என்பதால், நாம் Classifஎனும் தாவலின் திரைக்குச் செல்வோம். இங்கே, முன்னிருப்பாக, ZeroR எனும் தருக்கம் தேர்ந்தெடுக்கப் பட்டுள்ளது. இது ஒரு விதி அடிப்படையிலான தருக்கமாகும். இருப்பினும், படம் 3 இல் கண்டுள்ளவாறு வேறு பல வாய்ப்புகளிலிருந்து தேர்வு செய்யலாம்.
படம் 3
பரிசோதனை வாய்ப்பில் test option குறுக்கு சரிபார்ப்பு(cross-validation) எனும் வாய்ப்பு பத்து மடிப்புகளுடன் இயல்பாக தேர்ந்தெடுக்கப்பட்டிருப்பதை காணலாம். அதாவது, தரவை பத்து பகுதிகளாகப் பிரித்து, ஒன்பது பாகங்களைப் பயன்படுத்தி மாதிரியைப் பயிற்றுவித்து, கடைசி ஒரு பகுதியை மாதிரியில் பரிசோதிக்கப் பயன்படுத்துகிறோம். ஒவ்வொரு பகுதியும் பரிசோதனைத் தரவுத் தொகுப்பாக இருப்பதற்கான வாய்ப்பைப் பெறும் வரை இந்த செயல்முறையை மீண்டும் மீண்டும் செய்கிறோம்
தருகத்தை தேர்ந்தெடுத்ததும், ‘Start எனும் பொத்தானை தெரிவுசெய்து சொடுக்குதல் செய்திடுக. இப்போது மாதிரியானது பயிற்சி பெறத் துவங்குகிறது, மேலும் பரிசோதனைத் துல்லியம் ,confusion matrices ஆகியவற்றினை பெறுகிறோம். இந்த பணிக்காகவென அதிக குறிமுறைவரிகள் தேவைப்படாததால் இது மிகவும் எளிமையாக உள்ளது. குறைந்தபட்ச நிபுணத்துவம் கொண்ட நபர்கள்கூட இந்த அற்புதமான கருவியைப் பயன்படுத்தி இயந்திர கற்றல் மாதிரியை உருவாக்க முடியும்!
ZeroR எனும் தருகத்தைப் பயன்படுத்தும் போது, படம் 4 இல் கண்டுள்ளவாறு முடிவுகள் இருக்கும். இது ஒரு குறிப்பிட்டவிதி அடிப்படையிலான தருக்கம் என்பதால், துல்லியங்கள் மிகவும் குறைவாக இருப்பதைக் காணலாம் -இதில் 150 தரவுகளிகளில் 50 மட்டுமே சரியாகக் கணிக்கப்பட்டுள்ளன.
படம் 4:
எனவே, இப்போது இதன் துல்லியத்தை மேம்படுத்த, சிறந்த தருகத்திற்கு மாறிடுவோம். அதற்காக random forest algorithm ஐப் பயன்படுத்திகொள்வோம். ‘ZeroR’ என்பதை தெரிவுசெய்துசொடுக்குக .உடன் ஒரு கீழிறங்கு பட்டியலை பெறுவோம். இந்த கீழிறங்கு பட்டியிலின் ‘trees’என்பதை தெரிவுசெய்து சொடுக்குதல்செய்தால் , random forest எனும் வாய்ப்பினைக் காணலாம். அதைத் தேர்ந்தெடுத்து, நாம் ஏற்கனவே ZeroR என்பதற்கு செய்தது போன்ற ‘Start’ எனும் பொத்தானை தெரிவுசெய்து சொடுக்குக. படம் 5 இல் கண்டுள்ளவாறு பயிற்சிக்குப் பிறகு விரைவில் முடிவுகளைப் பெற்றிடுவோம். நாம் காணும்படி, துல்லியமானது அதிகமாக மேம்பட்டுள்ளது, இப்போது ஏழு தவறான கணிப்புகள் மட்டுமே உள்ளன.
படம் 5:
தரவுத் தொகுப்புபோன்ற பலவற்றில் வெவ்வேறு தருக்கங்களை ஆராய்ந்து ஒப்பீடு காணஇந்த Weka எனும் கருவியை பயன்படுத்திகொள்ளலாம். கூடுதலாக, கிடைக்கக்கூடிய பல்வேறு வழிமுறைகளையும் ஆராய்ந்திடலாம் மேலும் பிற வாய்ப்புகளான regression , மேற்பார்வை செய்யப்படாத தருக்கங்களானclustering. ஆகியவற்றினை காணலாம்.