வலுவூட்டல் கற்றல் (RL) என்பது இயந்திரக் கற்றலின் ஒரு கவர்ச்சிகரமான கிளையாகும், அங்கு ஒரு முகவர் தனது சூழலுடன் தொடர்புகொள்வதன் மூலம் கற்றுக்கொள்கிறார், விரும்பத்தக்க செயல்களுக்கு பரிசுகளையும் விரும்பத்தகாத செயல்களுக்கு தண்டனைகளையும் பெறுகிறார். இந்தக் கட்டுரை RL இன் அடிப்படைகளை ஆராய்கிறது, Q-கற்றல், ஆழ்ந்த Q-வலைபின்னல்கள் (DQN) ,படித்திறன்கொள்கையை ஆராய்கிறது. விளையாட்டில் செய்யறிவு (AI) , இயந்திரமனிதன் போன்ற நடப்பு உலக பயன்பாடுகளையும் விவாதிப்போம்.
1. வலுவூட்டல் கற்றல் ( Reinforcement Learning (RL)) என்றால் என்ன?
RL இல், ஒரு முகவர் ஒரு சூழலில் நடவடிக்கைகளை எடுத்து காலப்போக்கில் ஒட்டுமொத்த பரிசுகளை மேம்படுத்துவதன் மூலம் ஒரு இலக்கை அடைய கற்றுக்கொள்கிறார்.
RL இன் முக்கிய கூறுகள்:
முகவர்: முடிவெடுப்பவர் (எ.கா., ஒரு இயந்திரமனிதன் அல்லது விளையாட்டு பாத்திரம்).
சூழல்: முகவர் செயல்படும் இடம்.
நிலை: சூழலின் தற்போதைய சூழ்நிலை.
செயல்: முகவர் செய்யக்கூடிய தேர்வுகள்.
வெகுமதி: முகவரின் செயல்களுக்கான கருத்தமைவு.
கொள்கை: செயல்களுக்கான நிலைகளை வரைபடமாக்கும் உத்தி.
மதிப்பு செயல்பாடு: ஒரு நிலையிலிருந்து எதிர்கால பரிசுகளை மதிப்பிடுகிறது.
2. RL இல் முக்கிய கருத்தமைவுகள்
அ. RL செயல்முறை
முகவர்ஆனவர்சூழலின் தற்போதைய நிலையைக் கவனிக்கிறார்.
அது அதன் கொள்கையின் அடிப்படையில் ஒரு செயலைத் தேர்ந்தெடுக்கிறது.
சூழல்ஆனது ஒரு புதிய நிலைக்கு மாறி ஒரு பரிசை வழங்குகிறது.
இந்தக் கருத்தமைவுகளின் அடிப்படையில் முகவர் தனது கொள்கையைப் புதுப்பிக்கிறார்.
ஆ. ஆய்வு ,சுரண்டல் ஆகியவற்றிற்கிடையிலான வேறுபாடு
ஆய்வு: அவற்றின் விளைவுகளைக் கண்டறிய புதிய செயல்களை முயற்சித்தல்.
சுரண்டல்: பரிசுகளை அதிகரிக்க நன்கு அறியப்பட்ட செயலைத் தேர்ந்தெடுப்பது.
3. பொதுவான RLஇன் நுட்பங்கள்
அ. Q-கற்றல்
எதிர்பார்க்கப்படும் ஒட்டுமொத்த பரிசைக் குறிக்கும், ஒவ்வொரு செயல்-நிலையின் இரட்டைக்கும் முகவர் ஒரு Q-மதிப்பைக் கற்றுக் கொள்கின்ற மாதிரி இல்லாத வழிமுறையாகும்.
Q-மதிப்பு பின்வருவனவற்றைப் பயன்படுத்தி புதுப்பிக்கப்படுகிறது:
[
Q(s, a) \gets Q(s, a) + \alpha \left( r + \gamma \max_a Q(s’, a) – Q(s, a) \right)
]
இதில்:
( Q(s, a) ): Q-நிலைக்கான மதிப்பு( s ) ஆகும் ( a )எனும் செயலியாகும்.
( \alpha ): கற்றலின் அளவு.
( r ): உடனடி பரிசு ஆகும்.
( \gamma ): எதிர்கால வசதிக்காக கழிவுக்காரணையாகும்
ஆ. ஆழ்ந்த Q-வலைபின்னல்கள் (DQN)
Q-மதிப்புகளை தோராயமாக மதிப்பிட ஒரு நரம்பியல் வலைபின்னலைப் பயன்படுத்துகிறது, கானொளிகாட்சி விளையாட்டுகள் போன்ற சிக்கலான, உயர் பரிமாண சூழல்களை RL கையாள உதவுகிறது.
இ. கொள்கை படித்திறன் (Gradient) வழிமுறைகள்
மதிப்பு செயல்பாடுகளைக் கற்றுக்கொள்வதற்குப் பதிலாக, இந்த வழிமுறைகள் எதிர்பார்க்கப்படும் பரிசை அதிகரிப்பதன் மூலம் கொள்கையை நேரடியாக மேம்படுத்துகின்றன. REINFORCE ம, Proximal Policy Optimization (PPO) போன்ற வழிமுறைகள் இந்த வகையின் கீழ் வருகின்றன.
4. நடைமுறை எடுத்துக்காட்டு: ஒரு முகவரை ஒரு விளையாட்டை விளையாட பயிற்சி செய்தல்
படிமுறை1: நூலகங்களை நிறுவுகைசெய்தல்
pip install gym tensorflow keras
படிமுறை2: சூழலை வரையறுத்தல்
RL பணிகளுக்கான கருவித்தொகுப்பான OpenAI Gym ஐப்பயன்படுத்திடுக:
import gym
env = gym.make(‘CartPole-v1’) # Balancing a pole on a cart
state = env.reset()
print(state) # Example state observation
படிமுறை 3: Q-கற்றலை செயல்படுத்துதல்
import numpy as np
Parameters
state_space = env.observation_space.shape[0]
action_space = env.action_space.n
q_table = np.zeros((state_space, action_space))
alpha = 0.1 # Learning rate
gamma = 0.99 # Discount factor
Training loop
for episode in range(1000):
state = env.reset()
done = False
while not done:
action = np.argmax(q_table[state]) # Exploitation
next_state, reward, done, _ = env.step(action)
Update Q-value
q_table[state, action] += alpha * (reward + gamma * np.max(q_table[next_state]) – q_table[state, action])
state = next_state
படிமுறை 4: DQN உடன் பயிற்சி பெறுக
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense
Neural network for DQN
model = Sequential([
Dense(24, input_shape=(state_space,), activation=’relu’),
Dense(24, activation=’relu’),
Dense(action_space, activation=’linear’)
])
model.compile(optimizer=’adam’, loss=’mse’)
5. நடப்பு உலக பயன்பாடுகள்
விளையாட்டின் செய்யறிவு(AI): சதுரங்கம், கோ , அடாரி போன்ற விளையாட்டுகளில் மனிதர்களை விட சிறப்பாக செயல்படுகின்ற முகவர்களுக்கு பயிற்சி அளிக்க RL பயன்படுத்தப்படுகிறது.
இயந்திரமனிதன்: இடங்களுக்குச் செல்ல, பொருட்களை எடுக்க அல்லது சீரற்ற நிலப்பரப்பில் சமநிலைப்படுத்த இயந்திரமனிதர்களுக்குக் கற்பித்தல்.
சுயமாக கார்களைஓட்டுதல்: மாறும் சூழல்களில் முடிவெடுத்தல்.
வள மேலாண்மை: மேககணினியிகில் வள ஒதுக்கீட்டை மேம்படுத்துதல்.
6. RL இல் உள்ள சவால்கள்
மாதிரி செயல்திறன்: RL பெரும்பாலும் சுற்றுச்சூழலுடன் அதிக எண்ணிக்கையிலான தொடர்புகளைக் கோருகிறது.
வெகுமதி வடிவமைப்பு: முறையற்ற பரிசு சமிக்ஞைகள் விரும்பத்தகாத நடத்தைக்கு வழிவகுக்கும்.
நிலைத்தன்மையும் ஒருங்கிணைப்பும்: பயிற்சிக்கு உகந்த கொள்கைகளுக்கு ஒன்றிணைவதை உறுதி செய்தல்.
தொடரும்