திறமூலசெநு(OpenAI) ஆனது2022இல் ChatGPT ஐ வெளியிட்ட பிறகு, நாம் வாழும் இவ்வுலகம் புதிய தொழில்நுட்ப முன்னேற்றங்களைக் கண்டுவருகின்றது, மேலும் இவ்வாறான தொழில்நுட்பவளர்ச்சிக்கு முடிவே இல்லை என்றும் தெரிய வருகிறது. AIஇன் Chatbotsஆனவை Google, Microsoft, Meta, Anthropic போன்ற நிறுவனங்களால் வெளியிடப்பட்டுள்ளன. இவ்வனைத்து சாட்போட்களும் பெரிய மொழி மாதிரிகளின் (LLM) மூலமாகவே இயக்கப்படுகின்றன. இந்நிலையில் பெரிய மொழி மாதிரி என்றால் என்ன, அது எவ்வாறு செயல்படுகிறது? என்ற கேள்விகள் நம்மனதில் எழும் நிற்க இதனைப்(LLM)பற்றிய விவரங்களை இந்த கட்டுரையில் காணலாம்
1. LLM இன் அடிப்படை வரையறை
பெரிய மொழி மாதிரி(LLM) என்பது ஒரு வகை செயற்கை நுண்ணறிவு (AI) ஆகும், இது ஒரு பெரிய தரவுத்தொகுப்பில் பயிற்சியளிக்கப்படுகிறது. இது நிகழ்தகவு கொள்கைகளின் அடிப்படையில் நம்மால் பேசப்படுகின்ற மனித மொழியைப் புரிந்துகொண்டு அம்மனித மொழியை உருவாக்கிடுமாறு வடிவமைக்கப் பட்டுள்ளது. இது அடிப்படையில் ஒரு ஆழ் கற்றல் வழிமுறையாகும். ஒரு LLM ஆனது நம்மைபோன்றே கட்டுரைகள், கவிதைகள், கடிதங்கள், ஆகியவற்றினை உருவாக்குகின்ற திறன்மிக்கது; இதன் வாயிலாக கணினியின் பயன்பாட்டிற்கான குறிமுறைவரிகளை உருவாக்குதல்;உரைகளை ஒரு மொழியிலிருந்து மற்றொரு மொழிக்கு மொழிபெயர்த்தல், உரைகளை நாம் விரும்பியஅளவிற்கு மூன்றில் ஒருபகுதியளவு சுருக்குதல் போன்ற பல்வேறு பணிகளையும் செயல்படுத்தி பயன்பெறமுடியும்.
பயிற்சி தரவுத்தொகுப்பு பெரியதாக இருந்தால், LLM இன் இயல்பான மொழி செயலாக்க (NLP) திறன்கள் மிகச்சிறப்பாக இருக்கும். பொதுவாக, 2 பில்லியன் அல்லது அதற்கு மேற்பட்ட அளவுருக்கள் (parameters)கொண்டவைகள் “large ” மொழி மாதிரிகள் என்று செநு(AI) ஆய்வாளர்கள் வகைப்படுத்திடுகின்றனர். இந்நிலையில் ஒரு அளவுரு(parameter) என்றால் என்ன என்ற சந்தேகம் நம்மனதில் எழும் நிற்க, அளவுரு(parameter)என்பது மாதிரியானது பயிற்சியளிக்கப்பட்ட மாறிகளின் எண்ணிக்கையாகும். அளவுருவின்அளவானது பெரியஅளவாக இருந்ததெனில், அந்த மாதிரியும் பெரியதாக இருக்கும், மேலும் அதிக திறன்களைக் கொண்டிருக்கும். எடுத்துக்காட்டாக, OpenAI ஆனது 2019 இல் GPT-2 இல்LLM ஐ வெளியிட்டபோது, அது 1.5 பில்லியன் அளவுருக்களில் பயிற்சியளிக்கப்பட்டது. பின்னர் 2020 இல், GPT-3 இல் 175 பில்லியன் அளவுருக்களில் பயிற்சியளிக்கப்பட்டு, 116x அளவுபெரிய மாதிரியுடன் வெளியிட்டது.தற்போதுஅதிநவீன GPT-4 மாதிரி 1.76 டிரில்லியன் அளவுருக்களில் பயிற்சியளிக்கப்பட்டுள்ளது. என்ற தகவலையும் மனதில் கொள்க. தொடர்ந்து, காலப்போக்கில், இதன் அளவுருக்களின் அளவு பெரியதாகி விரிந்து உயர்ந்து கொண்டேவருகிறது, இதன் மூலம் பெரிய மொழி மாதிரிகளுக்கு மேம்பட்ட, சிக்கலை தீர்வுசெய்திடுகின்ற திறன்களைக் கொண்டு வருகிறது.
2. LLMகள் எவ்வாறு செயல்படுகின்றன:
இதனுடைய பயிற்சி செயல்முறையின்போது எளிமையான சொற்களில், ஒரு சொற்றொடரில் அடுத்த சொல்லைக் கணிக்க இவை (LLMs) கற்றுக்கொள்கின்றன. புத்தகங்கள், கட்டுரைகள், செய்திகள், இணையதளங்கள், விக்கிப்பீடியா ,போன்ற பலவற்றிலிருந்தும் விரிவான உரைவடிவத் தரவுகள் உட்பட பெரிய அளவிலான உரையில் இம்மாதிரிகளுக்கு பயிற்சியளிக்கப்படுகின்றது இந்த கற்றல் செயல்முறை முன் பயிற்சி(pre-training) என்று அழைக்கப்படுகிறது.
இந்த முன் பயிற்சி (pre-training) செயல்பாட்டில், மனிதர்கள் பேசுகின்ற ஒரு மொழி எவ்வாறு செயல்படுகிறது, அதன் இலக்கணம், தொடரியல்(syntax),, உலகத்தைப் பற்றிய உண்மை/கள், பகுத்தறியும் திறன்கள், வடிவங்கள் போன்ற பலவற்றை ஒரு மாதிரி கற்றுக்கொள்கிறது. இவ்வாறான முன் பயிற்சி முடிந்ததும், ஒரு மாதிரி நன்றாக-ஒத்திசைவான(fine-tuning) செயல்முறைக்கு செல்கிறது. இம்மாதிரிகளால் நன்றாக ஊகிக்க முடியும் என, குறிப்பிட்ட தரவுத்தொகுப்புகளில் நன்றாக-ஒத்திசைவான(fine-tuning) செயல்படுமாறு செய்யப்படுகிறது. எடுத்துக்காட்டாக, LLM ஆனது கணினியின் குறிமுறைவரிகளில் சிறப்பாக இருக்க வேண்டும் என விரும்பினால், விரிவான நிரலாக்க குறிமுறைவரிகளின் தரவுத்தொகுப்புகளில் அதை நன்றாக-ஒத்திசைவாக(fine-tuning) செயல்படுமாறு செய்திடபடுகின்றது. இதேபோன்று, படைப்பாற்றலுடன் எழுதுவதில் மாதிரி நன்றாக இருக்க வேண்டும் என்று விரும்பினால், இலக்கியங்கள், கவிதைகள் ,சிறுகதை ,நாவல் போன்றவற்றின் ஒரு பெரிய இலக்கிய தொகுப்புகளுடன் (corpus) மீது அதை நன்றாக-ஒத்திசைவாக(fine-tuning) செயல்படுமாறு செய்திடப்படுகின்றது..
3.LLMகளுக்கான உருமாற்றியின்கட்டமைப்பு(TransformerArchitecture)என்றால் என்ன?
கிட்டத்தட்ட அனைத்து நவீன LLMகளும் உருமாற்றியின்கட்டமைப்பில் கட்டமைக்கப் பட்டுள்ளன, ஆனால் அது மிக்ததுல்லிமாக இருக்குமா? இதனை உறுதிபடுத்திடுவதற்குமுன் LLM களின் வரலாற்றை சுருக்கமாககாண்போம். உருமாற்றிக்கு முந்தைய காலத்தில், தொடர்செயல்நரம்பியல் வலைபின்னல் (Recurrent Neural Network(RNN) ), வழக்கமான நரம்பியல் வலைபின்னல்(Convolutional Neural Network(CNN)) போன்ற பல்வேறு நரம்பியல் வலைபின்னலின் கட்டமைப்புகள் இருந்தன. இருப்பினும், 2017 ஆம் ஆண்டில், கூகுளின் பிரைன் எனும்குழுவைச் சேர்ந்த ஆய்வாளர்கள் “கவனம் உங்களுக்குத் தேவை(Attention is All You Need)” (வாஸ்வானிஉம் பலரும் சேர்ந்து) என்ற தலைப்பில் ஒரு ஆய்வறிக்கையை வெளி யிட்டனர். இந்த ஆய்வறிக்கைதான உருமாற்றியின் கட்டமைப்பை முதன் முதல் இவ்வுலகிற்கு அறிமுகப்படுத்தியது, இதுவே தற்போது இயற்கை மொழி செயலாக்க பணிகளை கையாளும் அனைத்து LLM களின் அடித்தளமாக மாறி அமைந்துள்ளது. இது உருமாற்றிகட்டமைப்பின் முக்கிய ஆலோசனையின் சுயமான கவனமுடையதாகும்
இது ஒரு சொற்றொடரில் உள்ள அனைத்து சொற்களையும் இணையாக செயலாக்கிடுகின்ற திறன்மிக்கது, சொற்களுக்கு இடையிலான சூழலையும் உறவையும் புரிந்து கொள்கின்ற திறன்மிக்கது. இது இணையான தன்மையைத் திறப்பதால் திறமையான பயிற்சிக்கும் வழிவகுக்கிறது. இந்த ஆய்வறிக்கை வெளியான பிறகு, கூகுள் 2018 இல் BERT எனப்படும் முதல் உருமாற்றியின் அடிப்படையிலான LLM ஐ வெளியிட்டது. பின்னர், OpenAI ஆனது அதனோடு இணைந்து அதே கட்டமைப்பில் அதன் முதல் GPT-1 மாதிரியை வெளியிட்டது.
4.LLMகளின் பயன்பாடுகள்
LLMகள் தற்போது ChatGPT, Gemini, Microsoft Co pilot , போன்றபல்வேறு AIஇன் சாட்போட்களை இயக்குகின்றன என்பதை நாம் ஏற்கனவே அறிவோம். இது உரை உருவாக்கம், மொழிபெயர்ப்பு, உரையை சுருக்கமாக்குதல், குறிமுறைவரிகளின் உருவாக்கம், கதைகள், கவிதைகள் எழுதுதல் போன்ற NLP பணிகளைச் செய்கின்ற திறன்மிக்கது. உரையாடுகின்ற உதவியாளர்களுக்கும் இந்த LLMகள் பயன்படுத்தப் படுகின்றன.
சமீபத்தில், OpenAI ஆனது அதன் GPT-4o எனும் புதிய மாதிரி செயல்முறையை வெளியிட்டுள்ளது, இது உரையாடல்களில் ஈடுபடுவதில் குறிப்பிடத்தக்கது. அதுமட்டுமின்றி, நமக்காக நம்முடைய பணிகளைச் செய்யக்கூடிய AI முகவர்களை உருவாக்க LLMகள் ஏற்கனவே பரிசோதிக்கப்பட்டு வருகின்றன. OpenAI , Google ஆகிய இரண்டும் எதிர்காலத்தில் AI முகவர்களை நம்முடைய நடைமுறை பயன்பாட்டிற்குள் கொண்டு வருவதற்கான முயற்சிகளை செய்துவருகின்றன. ஒட்டுமொத்தமாக,LLMகள் வாடிக்கை யாளரின் சாட்போட்களாக பரவலாகப் பயன்படுத்தப்பட்டு, உள்ளடக்க உருவாக்கத் திற்கும் பயன்படுத்தப்படுகின்றன. தற்போது இவ்வாறான பெரிய மொழி மாதிரிகள் அதிகரித்து வரும் நிலையில், ML ஆய்வாளர்கள் AGI ஐ அடைய மற்றொரு முன்னேற்றம் தேவை என்று நம்புகிறார்கள் – இது மனிதர்களை விட புத்திசாலித்தனமான AI அமைப்பாகும். தற்போதைய உருவாக்க AI சகாப்தத்தில் இதுபோன்ற திருப்புமுனையுடனான முன்னேற்றங்களை நாம் இதுவரை காணவில்லை, இருப்பினும், சில ஆய்வாளர்கள் மிகப் பெரிய LLM க்கு பயிற்சியளிப்பது AI மாதிரிகளில் குறிப்பிட்ட அளவிலான விழிப்புணர்விற்கு வழிவகுக்கும் என்று நம்புகின்றனர்