நாமே நம்முடைய சொந்த செய்யறிவை(AI) உருவாக்குதல் -பயிற்சித் தொடர்-பகுதி 10: வலுவூட்டல் கற்றல்:பரிசுகளின் மூலம் செய்யறிவில்(AI) கற்பித்தல்

வலுவூட்டல் கற்றல் (RL) என்பது இயந்திரக் கற்றலின் ஒரு கவர்ச்சிகரமான கிளையாகும், அங்கு ஒரு முகவர் தனது சூழலுடன் தொடர்புகொள்வதன் மூலம் கற்றுக்கொள்கிறார், விரும்பத்தக்க செயல்களுக்கு பரிசுகளையும் விரும்பத்தகாத செயல்களுக்கு தண்டனைகளையும் பெறுகிறார். இந்தக் கட்டுரை RL இன் அடிப்படைகளை ஆராய்கிறது, Q-கற்றல், ஆழ்ந்த Q-வலைபின்னல்கள் (DQN) ,படித்திறன்கொள்கையை ஆராய்கிறது. விளையாட்டில் செய்யறிவு (AI) , இயந்திரமனிதன் போன்ற நடப்பு உலக பயன்பாடுகளையும் விவாதிப்போம்.
1. வலுவூட்டல் கற்றல் ( Reinforcement Learning (RL)) என்றால் என்ன?
RL இல், ஒரு முகவர் ஒரு சூழலில் நடவடிக்கைகளை எடுத்து காலப்போக்கில் ஒட்டுமொத்த பரிசுகளை மேம்படுத்துவதன் மூலம் ஒரு இலக்கை அடைய கற்றுக்கொள்கிறார்.
RL இன் முக்கிய கூறுகள்:
முகவர்: முடிவெடுப்பவர் (எ.கா., ஒரு இயந்திரமனிதன் அல்லது விளையாட்டு பாத்திரம்).
சூழல்: முகவர் செயல்படும் இடம்.
நிலை: சூழலின் தற்போதைய சூழ்நிலை.
செயல்: முகவர் செய்யக்கூடிய தேர்வுகள்.
வெகுமதி: முகவரின் செயல்களுக்கான கருத்தமைவு.
கொள்கை: செயல்களுக்கான நிலைகளை வரைபடமாக்கும் உத்தி.
திப்பு செயல்பாடு: ஒரு நிலையிலிருந்து எதிர்கால பரிசுகளை மதிப்பிடுகிறது.
2. RL இல் முக்கிய கருத்தமைவுகள்
அ. RL செயல்முறை
முகவர்ஆனவர்சூழலின் தற்போதைய நிலையைக் கவனிக்கிறார்.
அது அதன் கொள்கையின் அடிப்படையில் ஒரு செயலைத் தேர்ந்தெடுக்கிறது.
சூழல்ஆனது ஒரு புதிய நிலைக்கு மாறி ஒரு பரிசை வழங்குகிறது.

இந்தக் கருத்தமைவுகளின் அடிப்படையில் முகவர் தனது கொள்கையைப் புதுப்பிக்கிறார்.
ஆ. ஆய்வு ,சுரண்டல் ஆகியவற்றிற்கிடையிலான வேறுபாடு
ஆய்வு: அவற்றின் விளைவுகளைக் கண்டறிய புதிய செயல்களை முயற்சித்தல்.
சுரண்டல்: பரிசுகளை அதிகரிக்க நன்கு அறியப்பட்ட செயலைத் தேர்ந்தெடுப்பது.
3. பொதுவான RLஇன் நுட்பங்கள்
அ. Q-கற்றல்
எதிர்பார்க்கப்படும் ஒட்டுமொத்த பரிசைக் குறிக்கும், ஒவ்வொரு செயல்-நிலையின் இரட்டைக்கும் முகவர் ஒரு Q-மதிப்பைக் கற்றுக் கொள்கின்ற மாதிரி இல்லாத வழிமுறையாகும்.
Q-மதிப்பு பின்வருவனவற்றைப் பயன்படுத்தி புதுப்பிக்கப்படுகிறது:
[
Q(s, a) \gets Q(s, a) + \alpha \left( r + \gamma \max_a Q(s’, a) – Q(s, a) \right)
]
இதில்:
( Q(s, a) ): Q-நிலைக்கான மதிப்பு( s ) ஆகும் ( a )எனும் செயலியாகும்.
( \alpha ): கற்றலின் அளவு.
( r ): உடனடி பரிசு ஆகும்.
( \gamma ): எதிர்கால வசதிக்காக கழிவுக்காரணையாகும்
ஆ. ஆழ்ந்த Q-வலைபின்னல்கள் (DQN)
Q-மதிப்புகளை தோராயமாக மதிப்பிட ஒரு நரம்பியல் வலைபின்னலைப் பயன்படுத்துகிறது, கானொளிகாட்சி விளையாட்டுகள் போன்ற சிக்கலான, உயர் பரிமாண சூழல்களை RL கையாள உதவுகிறது.
இ. கொள்கை படித்திறன் (Gradient) வழிமுறைகள்
மதிப்பு செயல்பாடுகளைக் கற்றுக்கொள்வதற்குப் பதிலாக, இந்த வழிமுறைகள் எதிர்பார்க்கப்படும் பரிசை அதிகரிப்பதன் மூலம் கொள்கையை நேரடியாக மேம்படுத்துகின்றன. REINFORCE ம, Proximal Policy Optimization (PPO) போன்ற வழிமுறைகள் இந்த வகையின் கீழ் வருகின்றன.
4. நடைமுறை எடுத்துக்காட்டு: ஒரு முகவரை ஒரு விளையாட்டை விளையாட பயிற்சி செய்தல்
படிமுறை1: நூலகங்களை நிறுவுகைசெய்தல்
pip install gym tensorflow keras
படிமுறை2: சூழலை வரையறுத்தல்
RL பணிகளுக்கான கருவித்தொகுப்பான OpenAI Gym ஐப்பயன்படுத்திடுக:
import gym
env = gym.make(‘CartPole-v1’) # Balancing a pole on a cart
state = env.reset()
print(state) # Example state observation
படிமுறை 3: Q-கற்றலை செயல்படுத்துதல்
import numpy as np

Parameters

state_space = env.observation_space.shape[0]
action_space = env.action_space.n
q_table = np.zeros((state_space, action_space))
alpha = 0.1 # Learning rate
gamma = 0.99 # Discount factor

Training loop

for episode in range(1000):
state = env.reset()
done = False
while not done:
action = np.argmax(q_table[state]) # Exploitation
next_state, reward, done, _ = env.step(action)

Update Q-value

q_table[state, action] += alpha * (reward + gamma * np.max(q_table[next_state]) – q_table[state, action])
state = next_state
படிமுறை 4: DQN உடன் பயிற்சி பெறுக
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense

Neural network for DQN

model = Sequential([
Dense(24, input_shape=(state_space,), activation=’relu’),
Dense(24, activation=’relu’),
Dense(action_space, activation=’linear’)
])
model.compile(optimizer=’adam’, loss=’mse’)
5. நடப்பு உலக பயன்பாடுகள்
விளையாட்டின் செய்யறிவு(AI): சதுரங்கம், கோ , அடாரி போன்ற விளையாட்டுகளில் மனிதர்களை விட சிறப்பாக செயல்படுகின்ற முகவர்களுக்கு பயிற்சி அளிக்க RL பயன்படுத்தப்படுகிறது.
இயந்திரமனிதன்: இடங்களுக்குச் செல்ல, பொருட்களை எடுக்க அல்லது சீரற்ற நிலப்பரப்பில் சமநிலைப்படுத்த இயந்திரமனிதர்களுக்குக் கற்பித்தல்.
சுயமாக  கார்களைஓட்டுதல்: மாறும் சூழல்களில் முடிவெடுத்தல்.
வள மேலாண்மை: மேககணினியிகில் வள ஒதுக்கீட்டை மேம்படுத்துதல்.
6. RL இல் உள்ள சவால்கள்
மாதிரி செயல்திறன்: RL பெரும்பாலும் சுற்றுச்சூழலுடன் அதிக எண்ணிக்கையிலான தொடர்புகளைக் கோருகிறது.
வெகுமதி வடிவமைப்பு: முறையற்ற பரிசு சமிக்ஞைகள் விரும்பத்தகாத நடத்தைக்கு வழிவகுக்கும்.
நிலைத்தன்மையும் ஒருங்கிணைப்பும்: பயிற்சிக்கு உகந்த கொள்கைகளுக்கு ஒன்றிணைவதை உறுதி செய்தல்.
தொடரும்