செயற்கை நுண்ணறிவு [Artificial Intelligence (AI)] மாடல். இதை உருவாக்கியவர் Liang Wenfeng. இதன் புதிய பதிப்பு ஜனவரி 20 அன்று வெளியாகி AI தொழில்நுட்ப வல்லுநர்களை ஆச்சரியத்தில் ஆழ்த்தியுள்ளது.
OpenAI போன்ற முன்னணி நிறுவனங்கள் அதிக செலவில் advanced chips-ஐ பயன்படுத்தி AI மாடல்களை உருவாக்குகின்றன. ஆனால் DeepSeek குறைந்த computational resources-ஐ மட்டும் பயன்படுத்தி அதே அளவிற்கு திறமையான AI மாடலை உருவாக்கியிருக்கிறது. இதன் சிறப்பம்சம் மிக குறைந்த செலவில் உருவாக்கப்பட்டுள்ளது. DeepSeek மொத்தம் $6 million செலவில் train செய்யப்பட்டது, அதே நேரத்தில் OpenAI-ன் GPT-4 போன்ற மாடல்கள் $100 million செலவாகின்றன. குறைவான memory footprint-ஐ கொண்டதால் இது computational efficiency-யை அதிகரிக்கிறது.
இதனால் Nvidia போன்ற chip-making நிறுவனங்கள் பெரும் நஷ்டத்தைச் சந்தித்தன. ஜனவரி 27 அன்று Nvidia-வின் பங்கு மதிப்பு $600 billion வரை சரிந்தது, இது அமெரிக்காவின் வரலாற்றிலேயே மிகப்பெரிய ஒரு நாள் இழப்பு ஆகும்.
DeepSeek-ன் தொழில்நுட்ப அடிப்படை DeepSeek ஒரு Generative AI ஆகும், இது ChatGPT போன்ற chatbots போன்றே செயல்படும். இது Natural Language Processing (NLP) தொழில்நுட்பத்தை பயன்படுத்தி மனிதர்களைப் போல பதிலளிக்க முடியும். DeepSeek Mixture-of-Experts (MoE) எனப்படும் தொழில்நுட்பத்தை பயன்படுத்துகிறது. இது 671 billion parameters கொண்ட ஒரு மாடல் ஆக இருந்தாலும், எந்த ஒரு குறிப்பிட்ட பணிக்காக மட்டும் 37 billion parameters-ஐ செயல்படுத்தும் வகையில் வடிவமைக்கப்பட்டுள்ளது.
எடுத்துக்காட்டு:
ஒரு மொழிபெயர்ப்பு (Translation) செயலில் MoE System எப்படி செயல்படுகிறது என்பதை பார்ப்போம்.
-
ஆங்கிலத்தில் உள்ள “The weather is pleasant today” என்ற ஒரு வாக்கியத்தை தமிழ் மொழிக்கு மொழிபெயர்க்க வேண்டும் என்று வைத்துக் கொள்ளலாம்.
-
ஒரு பொதுவான LLM மாடல் அனைத்துப் parameters-ஐ செயல்படுத்தும்.
-
ஆனால் MoE அமைப்பில்:
-
ஒரு set of parameters “Weather-related translations”-ஐ கவனிக்கும்.
-
இன்னொரு set “Sentence structure”-ஐ பார்க்கும்.
-
மற்றொரு set “Context-based translation”-ஐ கவனிக்கும்.
-
-
இதனால் MoE முறை சரியான மொழிபெயர்ப்பை வழங்கும். இதுவே task-specific precision-ஐ மேம்படுத்துகிறது.
இதன் மூலம்:
-
கணிப்பொறி திறன் (Computational Efficiency) அதிகரிக்கிறது.
-
சிக்கனமான செயல் முறை (Cost-Effective Processing) உருவாக்கப்படுகிறது.
DeepSeek-ன் Multi-Head Latent Attention (MLA) திறமை, இது பல்வேறு தகவல்களை ஒரே நேரத்தில் ஆராய்ந்து நுண்ணிய தொடர்புகளை கண்டறிந்து, சிறப்பான முடிவுகளை வழங்க உதவுகிறது. DeepSeek அதிக நீளமான context-ஐ பாதுகாக்கும் திறனைக் கொண்டுள்ளது. இது 128K tokens வரை விவரங்களை புரிந்துகொள்ள முடியும்.
இது ஒரு Open-Source AI Model ஆகும், இது GPT-4 போன்ற மாடல்களுக்கு மாற்றாக இருக்கும். இது 95% குறைந்த செலவில் செயல்படுகிறது.
DeepSeek-ன் வளர்ச்சி அமெரிக்க நிதி சந்தையை அதிகமாக பாதித்துள்ளது. DeepSeek-ன் வெற்றியால் அமெரிக்கா மற்றும் மேற்கத்திய நாடுகள் அதிர்ச்சியடைந்துள்ளன.
-
Nasdaq Index 3% வீழ்ச்சியடைந்தது.
-
Nvidia-வின் Market Capitalization $3.5 trillion-ல் இருந்து $2.9 trillion-ஆக குறைந்தது.
-
Apple, Microsoft போன்ற நிறுவனங்களும் பங்குச் சந்தையில் பாதிக்கப்பட்டன.
DeepSeek இப்போது சீனாவின் AI Renaissance (மறுமலர்ச்சி) எனக் கருதப்படுகிறது. ஆனால் Western market-ல் இது regulatory scrutiny (ஒழுங்குமுறை சோதனை) மற்றும் security concerns-ஐ எதிர்கொள்வதற்கான வாய்ப்பு உள்ளது.
தொடர்ந்து, DeepSeek AI உலகளவில் முக்கியமான AI போட்டியாளராக
முனைவர் ப. தமிழ் அரசன்