Author Archives: நித்யா

எளிய தமிழில் Generative AI – 11

Traditional Vectorization இப்பொழுது நடைமுறையில் இருக்கும் எம்பெடிங் வெக்டருக்கு முன், என்னென்ன பழமையான நடைமுறைகள் இருந்தது, அதிலிருந்த பிரச்சனைகள் என்னென்ன, எதனால் இந்த எம்பெடிங் நடைமுறை உருவானது என்பதையெல்லாம் இப்பகுதியில் காணலாம். ஒருவருக்கு கோபம் வந்துவிட்டால், மனசுல இருக்குற எல்லாவற்றையும் கொட்டித் தீர்க்கிறேன் என்று அனைத்து வார்த்தைகளையும் போட்டு ஒரு மணி நேரம் பேசுவார்களே! அதைப் போன்றதுதான் இந்த bag of words. அதுவே நாலு வார்த்தை கேட்டாலும் நச்சுன்னு கேட்பார்களே! அது nltk பேக்கேஜ். பயிற்சிக்கு… Read More »

எளிய தமிழில் Generative AI – 10

முக்கோணவியல் – வெக்டார் கணிதம் பொதுவாக எண்களை மட்டும் கையாள முக்கோணவியல் தேவையில்லை. ‘இரண்டும் மூன்றும் சமமா?’ என்று கேட்டால் இல்லை எனக் கூறி விடுவோம். ஆனால் (1,2) என்பதும் (2,3) என்பதும் சமமா எனக் கேட்டால் அப்போதுதான் முக்கோணவியல் நோக்கிச் செல்வோம். உடனே ஒரு graph போட்டு (1,2) க்கு ஒரு புள்ளியும் (2,3) ஒரு புள்ளியும் வைத்து நமது கணக்கீடுகளைத் துவங்குவோம். அங்குதான் முக்கோணவியல் அறிமுகம் ஆகிறது. இதுபோன்ற set of எண்களுக்கு வெக்டர்… Read More »

எளிய தமிழில் Generative AI – 9

Word2vec, FastText, Glove இம்மூன்றும் embedding வேலையை செய்வதற்கான pre-trained மாடல்கள் ஆகும். இதில் Word2vec எனும் pre-trained மாடலை பயன்படுத்தி Embedding செய்வதற்கான எடுத்துக்காட்டு பின்வருமாறு. This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about… Read More »

எளிய தமிழில் Generative AI – 8

Sequential vs N-gram Training data இதுவரை நாம் உருவாக்கியுள்ள பயிற்சி டேட்டா அனைத்தையும், முதல் வார்த்தையிலிருந்து துவங்கி கொஞ்சம் கொஞ்சமாக சொற்களை அதிகரிக்கும் வண்ணமே அமைத்துள்ளோம். எடுத்துக்காட்டாக, தமிழ்நாடு இந்தியாவின் தமிழ்நாடு இந்தியாவின் தெற்கே தமிழ்நாடு இந்தியாவின் தெற்கே அமைந்த தமிழ்நாடு இந்தியாவின் தெற்கே அமைந்த ஒரு தமிழ்நாடு இந்தியாவின் தெற்கே அமைந்த ஒரு அழகிய என்று ஒவ்வொரு முறையும் முதல் வார்த்தையிலிருந்தே ஆரம்பிக்கின்றோம். இதன் காரணமாக திடீரென இடையிடையே உள்ள சொற்களைக் கொடுத்து “அடுத்து… Read More »

எளிய தமிழில் Generative AI – 7

Next Word Prediction மேற்கண்ட அனைத்தையும் டென்சார் ஃப்ளோவின் ஒரு பகுதியாக விளங்கும் keras மூலம் செய்வது பற்றி இப்பகுதியில் காண்போம். ஒரு வார்த்தை என்பது ஸ்கேலார் போன்றது, பல வார்த்தைகளின் தொகுப்பான வாக்கியம் என்பது வெக்டார் ஆகியது, பல வாக்கியங்களின் தொகுப்பான உரைநடையானது டென்சார் ஆக மாறியது என்பது இப்போது நாம் அறிந்ததே! இவைகளுக்கிடையே நிகழும் கணக்கீடுகள் தான் டென்சார் ஃப்ளோ ஆகும். இதில் நியூரல் நெட்வொர்க் உருவாக்கத்திற்கென டென்சார் ஃப்ளோவில் விளங்கும் ஒரு மாடியூல்தான்… Read More »

எளிய தமிழில் Generative AI – 6

Training Data from words முதலில் இரண்டு வாக்கியங்களை மட்டும் எடுத்துக் கொண்டு, அதற்கான ட்ரெய்னிங் டேட்டா உருவாக்குவது பற்றிக் காண்போம். இங்கு ‘சூரியன்’ எனக்கொடுத்தால், வரவிருக்கும் அடுத்த வார்த்தை ‘உதிக்கும்’; இவ்விரண்டும் சேர்ந்தால் வரவிருக்கும் அடுத்த வார்த்தை திசை. இதே முறையில், எந்தெந்த வார்த்தைகளைத் தொடர்ந்து, என்னென்ன வார்த்தைகள் வரலாம் எனும் பயிற்சிக்குத் தேவையான டேட்டா, ஒரு வாக்கியத்தில் உள்ள அனைத்து வார்த்தைகளையும் மடக்கி மடக்கி தயாரிக்கப்படுகிறது. இதே போல கோடிக்கணக்கான வாக்கியங்களுக்குச் செய்யும்போது, சூரியனைத்… Read More »

எளிய தமிழில் Generative AI – 5

Computer Vision ஒரு படத்தில் உள்ள வெவ்வேறு objects-ஐ அடையாளம் கண்டுபிடிக்க உதவும் முறைக்கு  Computer Vision என்று பெயர். YOLO (You Only Look Once) எனும் அல்காரிதம் இதற்காகப் பயன்படுகிறது. ஒரு படத்தில் தென்படுகிற ஒவ்வொரு object-இன் மீதும் bounding boxes-ஐத் துல்லியமாக அமைக்க, Intersection over union, Non-max suppression போன்ற வழி வகைகளைக் கையாள்கிறது. அடையாளம் காண வேண்டிய படத்தை Anchor இமேஜ் என வைத்துக்கொண்டு, அதனுடன் பொருந்துகிற பாசிட்டிவ் இமேஜ்… Read More »

எளிய தமிழில் Generative AI – 4

Neural Network  நியூரல் நெட்வொர்க்கும் லாஜிஸ்டிக் ரெக்ரேஷனும் ஒரே மாதிரிதான் கற்றுக் கொள்கிறது. ஆனால் ட்ரெய்னிங் டேட்டாவை ஒன்று ஒன்றாகப் பயன்படுத்தி, அதனடிப்படையில் அடுத்தடுத்த ரெக்கார்டுக்கு பெராமீட்டரை மாற்றுவது, பல ஜோடி பெராமீட்டர்களினால் உருவாக்கப்படும் மதிப்புகளை திறம்படக் கையாள்வது என்பது போன்ற பல விதத்தில் நியூரல் நெட்வொர்க் வேறுபடுகிறது. “லாஜிஸ்டிக் ரெக்ரேஷன் என்பது லீனியர் ரெக்ரேஷன் முறையிலேதான் கற்றுக் கொள்கிறது. ஆனால் predict செய்ய வேண்டிய மதிப்பினை மட்டும் 1 அல்லது 0 என மாற்ற sigmoid… Read More »

எளிய தமிழில் Generative AI – 3

Gradient Descent இதன் cost மதிப்பு infinity என்பதால், இதைக் குறைப்பதற்கு ஒன்றுமில்லை, இருந்தாலும் gradient descent முறையில் சரியான பெராமீட்டர்ஸ் கண்டுபிடிக்கலாம். லீனியர் ரெக்ரேஷனில் ஒரு குறிப்பிட்ட error மதிப்பு கொஞ்சம் கொஞ்சமாகக் குறைந்து கொண்டே வரும்போது, அதற்கான வரைபடமானது கின்னம் போன்று குவிந்த நிலையில் அமையும். இந்நிலைக்கு convex என்று பெயர். ஆகவே அக்குவிநிலையின் அடிப்பாகமே குளோபல் ஆப்டிமம் ஆகும். ஆனால் லாஜிஸ்டிக் ரெக்ரேஷனில் error மதிப்பு 0,1 0,1 என ஏறியிறங்கி ஏறியிறங்கி… Read More »

எளிய தமிழில் Generative AI – 2

Polynomial Features லீனியர் அல்காரிதம் போடும் கோடு, ஒரிஜினல் டேட்டாவுக்கு மத்தியில் இல்லாமல், எங்கோ ஒரு ஓரமாகக் காணப்படின் underfitting என்று பெயர். அந்த ஓரத்தில் உள்ள டேட்டாவை மட்டும் அல்காரிதம் cover செய்கிறது என்று அர்த்தம். டேட்டா Non-linear ஆக இருப்பின் இவ்வாறு அமைந்துவிடும். இது போன்ற சமயங்களில் அல்காரிதம் உருவாக்கும் கோடு, நேர்கோடாக இல்லாமல் வளைந்து நெளிந்து அனைத்து மூலைகளில் உள்ள டேட்டாவையும் கவர் செய்யுமாறு அமைப்பதற்கு polynomial Regression என்று பெயர். அன்டர்ஃபிட்டிங் … Read More »