பெரிய மொழி மாதிரி (Large Language Model (LLM) என்றால் என்ன

திறமூலசெநு(OpenAI) ஆனது2022இல் ChatGPT ஐ வெளியிட்ட பிறகு, நாம் வாழும் இவ்வுலகம் புதிய தொழில்நுட்ப முன்னேற்றங்களைக் கண்டுவருகின்றது, மேலும் இவ்வாறான தொழில்நுட்பவளர்ச்சிக்கு முடிவே இல்லை என்றும் தெரிய வருகிறது. AIஇன் Chatbotsஆனவை Google, Microsoft, Meta, Anthropic போன்ற நிறுவனங்களால் வெளியிடப்பட்டுள்ளன. இவ்வனைத்து சாட்போட்களும் பெரிய மொழி மாதிரிகளின் (LLM) மூலமாகவே இயக்கப்படுகின்றன. இந்நிலையில் பெரிய மொழி மாதிரி என்றால் என்ன, அது எவ்வாறு செயல்படுகிறது? என்ற கேள்விகள் நம்மனதில் எழும் நிற்க இதனைப்(LLM)பற்றிய விவரங்களை இந்த கட்டுரையில் காணலாம்
1. LLM இன் அடிப்படை வரையறை
பெரிய மொழி மாதிரி(LLM) என்பது ஒரு வகை செயற்கை நுண்ணறிவு (AI) ஆகும், இது ஒரு பெரிய தரவுத்தொகுப்பில் பயிற்சியளிக்கப்படுகிறது. இது நிகழ்தகவு கொள்கைகளின் அடிப்படையில் நம்மால் பேசப்படுகின்ற மனித மொழியைப் புரிந்துகொண்டு அம்மனித மொழியை உருவாக்கிடுமாறு வடிவமைக்கப் பட்டுள்ளது. இது அடிப்படையில் ஒரு ஆழ் கற்றல் வழிமுறையாகும். ஒரு LLM ஆனது நம்மைபோன்றே கட்டுரைகள், கவிதைகள், கடிதங்கள், ஆகியவற்றினை உருவாக்குகின்ற திறன்மிக்கது; இதன் வாயிலாக கணினியின் பயன்பாட்டிற்கான குறிமுறைவரிகளை உருவாக்குதல்;உரைகளை ஒரு மொழியிலிருந்து மற்றொரு மொழிக்கு மொழிபெயர்த்தல், உரைகளை நாம் விரும்பியஅளவிற்கு மூன்றில் ஒருபகுதியளவு சுருக்குதல் போன்ற பல்வேறு பணிகளையும் செயல்படுத்தி பயன்பெறமுடியும்.

பயிற்சி தரவுத்தொகுப்பு பெரியதாக இருந்தால், LLM இன் இயல்பான மொழி செயலாக்க (NLP) திறன்கள் மிகச்சிறப்பாக இருக்கும். பொதுவாக, 2 பில்லியன் அல்லது அதற்கு மேற்பட்ட அளவுருக்கள் (parameters)கொண்டவைகள் “large ” மொழி மாதிரிகள் என்று செநு(AI) ஆய்வாளர்கள் வகைப்படுத்திடுகின்றனர். இந்நிலையில் ஒரு அளவுரு(parameter) என்றால் என்ன என்ற சந்தேகம் நம்மனதில் எழும் நிற்க, அளவுரு(parameter)என்பது மாதிரியானது பயிற்சியளிக்கப்பட்ட மாறிகளின் எண்ணிக்கையாகும். அளவுருவின்அளவானது பெரியஅளவாக இருந்ததெனில், அந்த மாதிரியும் பெரியதாக இருக்கும், மேலும் அதிக திறன்களைக் கொண்டிருக்கும். எடுத்துக்காட்டாக, OpenAI ஆனது 2019 இல் GPT-2 இல்LLM ஐ வெளியிட்டபோது, அது 1.5 பில்லியன் அளவுருக்களில் பயிற்சியளிக்கப்பட்டது. பின்னர் 2020 இல், GPT-3 இல் 175 பில்லியன் அளவுருக்களில் பயிற்சியளிக்கப்பட்டு, 116x அளவுபெரிய மாதிரியுடன் வெளியிட்டது.தற்போதுஅதிநவீன GPT-4 மாதிரி 1.76 டிரில்லியன் அளவுருக்களில் பயிற்சியளிக்கப்பட்டுள்ளது. என்ற தகவலையும் மனதில் கொள்க. தொடர்ந்து, காலப்போக்கில், இதன் அளவுருக்களின் அளவு பெரியதாகி விரிந்து உயர்ந்து கொண்டேவருகிறது, இதன் மூலம் பெரிய மொழி மாதிரிகளுக்கு மேம்பட்ட, சிக்கலை தீர்வுசெய்திடுகின்ற திறன்களைக் கொண்டு வருகிறது.
2. LLMகள் எவ்வாறு செயல்படுகின்றன:
இதனுடைய பயிற்சி செயல்முறையின்போது எளிமையான சொற்களில், ஒரு சொற்றொடரில் அடுத்த சொல்லைக் கணிக்க இவை (LLMs) கற்றுக்கொள்கின்றன. புத்தகங்கள், கட்டுரைகள், செய்திகள், இணையதளங்கள், விக்கிப்பீடியா ,போன்ற பலவற்றிலிருந்தும் விரிவான உரைவடிவத் தரவுகள் உட்பட பெரிய அளவிலான உரையில் இம்மாதிரிகளுக்கு பயிற்சியளிக்கப்படுகின்றது இந்த கற்றல் செயல்முறை முன் பயிற்சி(pre-training) என்று அழைக்கப்படுகிறது.
இந்த முன் பயிற்சி (pre-training) செயல்பாட்டில், மனிதர்கள் பேசுகின்ற ஒரு மொழி எவ்வாறு செயல்படுகிறது, அதன் இலக்கணம், தொடரியல்(syntax),, உலகத்தைப் பற்றிய உண்மை/கள், பகுத்தறியும் திறன்கள், வடிவங்கள் போன்ற பலவற்றை ஒரு மாதிரி கற்றுக்கொள்கிறது. இவ்வாறான முன் பயிற்சி முடிந்ததும், ஒரு மாதிரி நன்றாக-ஒத்திசைவான(fine-tuning) செயல்முறைக்கு செல்கிறது. இம்மாதிரிகளால் நன்றாக ஊகிக்க முடியும் என, குறிப்பிட்ட தரவுத்தொகுப்புகளில் நன்றாக-ஒத்திசைவான(fine-tuning) செயல்படுமாறு செய்யப்படுகிறது. எடுத்துக்காட்டாக, LLM ஆனது கணினியின் குறிமுறைவரிகளில் சிறப்பாக இருக்க வேண்டும் என விரும்பினால், விரிவான நிரலாக்க குறிமுறைவரிகளின் தரவுத்தொகுப்புகளில் அதை நன்றாக-ஒத்திசைவாக(fine-tuning) செயல்படுமாறு செய்திடபடுகின்றது. இதேபோன்று, படைப்பாற்றலுடன் எழுதுவதில் மாதிரி நன்றாக இருக்க வேண்டும் என்று விரும்பினால், இலக்கியங்கள், கவிதைகள் ,சிறுகதை ,நாவல் போன்றவற்றின் ஒரு பெரிய இலக்கிய தொகுப்புகளுடன் (corpus) மீது அதை நன்றாக-ஒத்திசைவாக(fine-tuning) செயல்படுமாறு செய்திடப்படுகின்றது..
3.LLMகளுக்கான உருமாற்றியின்கட்டமைப்பு(TransformerArchitecture)என்றால் என்ன?
கிட்டத்தட்ட அனைத்து நவீன LLMகளும் உருமாற்றியின்கட்டமைப்பில் கட்டமைக்கப் பட்டுள்ளன, ஆனால் அது மிக்ததுல்லிமாக இருக்குமா? இதனை உறுதிபடுத்திடுவதற்குமுன் LLM களின் வரலாற்றை சுருக்கமாககாண்போம். உருமாற்றிக்கு முந்தைய காலத்தில், தொடர்செயல்நரம்பியல் வலைபின்னல் (Recurrent Neural Network(RNN) ), வழக்கமான நரம்பியல் வலைபின்னல்(Convolutional Neural Network(CNN)) போன்ற பல்வேறு நரம்பியல் வலைபின்னலின் கட்டமைப்புகள் இருந்தன. இருப்பினும், 2017 ஆம் ஆண்டில், கூகுளின் பிரைன் எனும்குழுவைச் சேர்ந்த ஆய்வாளர்கள் “கவனம் உங்களுக்குத் தேவை(Attention is All You Need)” (வாஸ்வானிஉம் பலரும் சேர்ந்து) என்ற தலைப்பில் ஒரு ஆய்வறிக்கையை வெளி யிட்டனர். இந்த ஆய்வறிக்கைதான உருமாற்றியின் கட்டமைப்பை முதன் முதல் இவ்வுலகிற்கு அறிமுகப்படுத்தியது, இதுவே தற்போது இயற்கை மொழி செயலாக்க பணிகளை கையாளும் அனைத்து LLM களின் அடித்தளமாக மாறி அமைந்துள்ளது. இது உருமாற்றிகட்டமைப்பின் முக்கிய ஆலோசனையின் சுயமான கவனமுடையதாகும்

இது ஒரு சொற்றொடரில் உள்ள அனைத்து சொற்களையும் இணையாக செயலாக்கிடுகின்ற திறன்மிக்கது, சொற்களுக்கு இடையிலான சூழலையும் உறவையும் புரிந்து கொள்கின்ற திறன்மிக்கது. இது இணையான தன்மையைத் திறப்பதால் திறமையான பயிற்சிக்கும் வழிவகுக்கிறது. இந்த ஆய்வறிக்கை வெளியான பிறகு, கூகுள் 2018 இல் BERT எனப்படும் முதல் உருமாற்றியின் அடிப்படையிலான LLM ஐ வெளியிட்டது. பின்னர், OpenAI ஆனது அதனோடு இணைந்து அதே கட்டமைப்பில் அதன் முதல் GPT-1 மாதிரியை வெளியிட்டது.
4.LLMகளின் பயன்பாடுகள்
LLMகள் தற்போது ChatGPT, Gemini, Microsoft Co pilot , போன்றபல்வேறு AIஇன் சாட்போட்களை இயக்குகின்றன என்பதை நாம் ஏற்கனவே அறிவோம். இது உரை உருவாக்கம், மொழிபெயர்ப்பு, உரையை சுருக்கமாக்குதல், குறிமுறைவரிகளின் உருவாக்கம், கதைகள், கவிதைகள் எழுதுதல் போன்ற NLP பணிகளைச் செய்கின்ற திறன்மிக்கது. உரையாடுகின்ற உதவியாளர்களுக்கும் இந்த LLMகள் பயன்படுத்தப் படுகின்றன.

சமீபத்தில், OpenAI ஆனது அதன் GPT-4o எனும் புதிய மாதிரி செயல்முறையை வெளியிட்டுள்ளது, இது உரையாடல்களில் ஈடுபடுவதில் குறிப்பிடத்தக்கது. அதுமட்டுமின்றி, நமக்காக நம்முடைய பணிகளைச் செய்யக்கூடிய AI முகவர்களை உருவாக்க LLMகள் ஏற்கனவே பரிசோதிக்கப்பட்டு வருகின்றன. OpenAI , Google ஆகிய இரண்டும் எதிர்காலத்தில் AI முகவர்களை நம்முடைய நடைமுறை பயன்பாட்டிற்குள் கொண்டு வருவதற்கான முயற்சிகளை செய்துவருகின்றன. ஒட்டுமொத்தமாக,LLMகள் வாடிக்கை யாளரின் சாட்போட்களாக பரவலாகப் பயன்படுத்தப்பட்டு, உள்ளடக்க உருவாக்கத் திற்கும் பயன்படுத்தப்படுகின்றன. தற்போது இவ்வாறான பெரிய மொழி மாதிரிகள் அதிகரித்து வரும் நிலையில், ML ஆய்வாளர்கள் AGI ஐ அடைய மற்றொரு முன்னேற்றம் தேவை என்று நம்புகிறார்கள் – இது மனிதர்களை விட புத்திசாலித்தனமான AI அமைப்பாகும். தற்போதைய உருவாக்க AI சகாப்தத்தில் இதுபோன்ற திருப்புமுனையுடனான முன்னேற்றங்களை நாம் இதுவரை காணவில்லை, இருப்பினும், சில ஆய்வாளர்கள் மிகப் பெரிய LLM க்கு பயிற்சியளிப்பது AI மாதிரிகளில் குறிப்பிட்ட அளவிலான விழிப்புணர்விற்கு வழிவகுக்கும் என்று நம்புகின்றனர்

%d bloggers like this: