நாமே நம்முடைய சொந்த செய்யறிவை(AI) உருவாக்குதல் -பயிற்சித் தொடர்–பகுதி 8: தொடர் தரவுகளுக்கான தொடர்ச்சியான நரம்பியல் வலைபின்னல்கள் (RNNகள்)

தொடர்ச்சியான நரம்பியல் வலைபின்னல்கள் (RNNs) என்பது நரம்பியல் வலைபின்னல்களின் ஒரு இனமாகும், இது தொடர்ச்சியான தரவை செயலாக்கிடுவதற்காக வடிவமைக்கப்பட்டுள்ளது, அங்கு தகவலின் வரிசை அவசியமாகு. இந்தக் கட்டுரை RNNகளின் அடிப்படைகள், LSTM, GRUs போன்ற அவற்றின் மேம்பட்ட மாறுபாடுகளையும் மொழி மாதிரியின், உணர்வு பகுப்பாய்வு போன்ற பிற நேரத்தைச் சார்ந்த பணிகளில் அவற்றின் பயன்பாடுகளை ஆராய்கிறது.

1. RNNகள் என்றால் என்ன?

RNNகள் ஒரு வகையான நரம்பியல் வலைபின்னலாகும், இதில் முந்தைய படிமுறைகளின் வெளியீடு தற்போதைய படிமுறைக்கான உள்ளீடாகப் பயன்படுத்தப்படுகிறது. காலப் படிநிலைகளில் அளவுருக்களைப் பகிர்வதன் மூலம் அவை நினைவகத்தைபராமரிக்கின்றன, இது போன்ற தொடர்ச்சியான அல்லது தற்காலிகத் தரவைச் செயலாக்குவதற்கு அவை சிறந்தவை:

நேரத் தொடர் தரவு (.கா., பங்கு விலைகள், வானிலை)

இயற்கை மொழி (.கா., உரை, பேச்சு)

கானொளிகாட்சி தரவு (.கா., செயலின் ஏற்புகை)

2. RNNகள் வ்வாறு செயல்படுகின்றன

RNNகள் தரவை தொடர்ச்சியாக செயலாக்குகின்றன:

உள்ளீடு: ஒவ்வொரு கால கட்டத்திலும், RNN ஒரு உள்ளீட்டு திசையனையும் (vector), ஒரு மறைக்கப்பட்ட நிலையையும் (துவக்கத்தில் பூஜ்யம்) எடுக்கும்.

மறைக்கப்பட்ட நிலையை புதுப்பித்தல்: இது உள்ளீட்டை, முந்தைய மறைக்கப்பட்ட நிலையைப் பயன்படுத்தி மறைக்கப்பட்ட நிலையை மேம்படுத்துகிறது.

வெளியீடு: ஒவ்வொரு கால கட்டத்திற்கும் ஒரு வெளியீட்டை உருவாக்குகிறது (விரும்பினால்).

கணித உருவகிப்பு(Representation):

உள்ளீட்டு வரிசைக்கு ( X = [x_1, x_2, …, x_t] ):

( h_t = f(W_{xh}x_t + W_{hh}h_{t-1} + b_h) )

( y_t = g(W_{hy}h_t + b_y) )

இதில்:

( f ): என்பது செயல்படுத்தும் செயலியாகும் (.கா., tanh)

( W_{xh}, W_{hh}, W_{hy} ): அணிளின் எடையளவாகும்

(b_h, b_y): என்பவை சார்புகளாகும்

3. அடிப்படை RNNகளுடன் உள்ள சவால்கள்

மறைந்து போகும் படித்திறனின் பிரச்சனை: நீண்ட வரிசைகளில் படித்திறன் குறைந்து, தொலைதூர காலப் படிகளில் சார்புகளை கைப்பற்றுவது RNNகளுக்கு கடினமாகிறது.

படித்திறன்நம்பிக்கையை தகர்த்தப்பட்ட: படித்திறனானது கட்டுப்பாடில்லாமல் வளரும், பயிற்சியை சீர்குலைக்கின்றது.

இந்தச் சிக்கல்களைத் தீர்க்க, LSTMகள்,ம் GRUகள் போன்ற மேம்பட்ட RNN வகைகள் உருவாக்கப்பட்டுள்ள.

4. மேம்பட்ட RNN மாறுபாடுகள்(Variants)

. நீண்ட குறுகிய கால நினைவகம் (LSTM)

நீண்ட கால சார்புகளை சிறப்பாக கையாள LSTMகள் நினைவக கலண்ளையும் ,வாயில்களையும் அறிமுகப்படுத்துகின்றன:

வாயிலை மறந்துவிடுதல்: எந்த தகவலை நிராகரிக்க வேண்டும் என்பதை தீர்மானிக்கிறது.

உள்ளீட்டு வாயில்: எந்த புதிய தகவலைச் சேமிக்க வேண்டும் என்பதைத் தீர்மானிக்கிறது.

வெளியீட்டு வாயில்: வெளியீட்டிற்கான தகவலைத் தேர்ந்தெடுக்கிறது.

. வாயிலாக்கப்பட்ட தொடர்ச்சியான அலகுகள் (GRU)

GRUகள் மறந்துவிடுதல், உள்ளீட்டு வாயில்களை ஒரேயொரு புதுப்பிப்பு வாயிலில் இணைப்பதன் மூலம் LSTMsகளை எளிதாக்குகின்றன.

5. டப்பு உலக பயன்பாடுகள்

மொழி மாதிரி: ஒரு சொற்றொடரில் அடுத்த சொல்லை கணித்தல்.

உணர்வு பகுப்பாய்வு: உரையின் உணர்வை வகைப்படுத்திடுதல் (.கா. நேர்மறை, நடுநிலை, எதிர்மறை).

நேரத் தொடர் முன்கணிப்பு: கடந்த காலப் போக்குகளின் அடிப்படையில் எதிர்கால மதிப்புகளைக் கணித்தல்.

பேச்சொலியை ஏற்புகைசெய்தல்: பேச்சொலியை உரையாக மாற்றிடுதல்.

இசை உருவாக்கம்: இசைத் தொடர்களை உருவாக்கிடுதல்.

6. RNN ஐ செயல்படுத்துதல்: மொழி மாதிரியாக்க எடுத்துக்காட்டு

படிமுறை 1: நூலகங்களை நிறுவுகைசெய்திடுக

pip install tensorflow

படிமுறை 2: நூலகங்களை பதிவிறக்கம செய்திடுக

import numpy as np

import tensorflow as tf

from tensorflow.keras.models import Sequential

from tensorflow.keras.layers import SimpleRNN, LSTM, GRU, Dense, Embedding

படிமுறை 3: தரவை உருவாக்கிடுக

எளிமைக்காக, ஒரு வரிசையில் அடுத்த எழுத்தைக் கணிப்பதே இலக்காக இருக்கின்ற உரையின் தரவுத்தொகுப்பைப் பயன்படுத்திடுவோம்.

# Example text data

text = “hello world”

chars = sorted(list(set(text)))

# Create char-to-index and index-to-char mappings

char_to_index = {char: idx for idx, char in enumerate(chars)}

index_to_char = {idx: char for char, idx in char_to_index.items()}

# Convert text to numerical sequence

sequence = [char_to_index[char] for char in text]

X = sequence[:-1] # Input sequence

y = sequence[1:] # Target sequence

படிமுறை 4: RNN உருவாக்கிடுக

model = Sequential([

Embedding(input_dim=len(chars), output_dim=8, input_length=len(X)),

SimpleRNN(32, return_sequences=False),

Dense(len(chars), activation=’softmax’)

])

படிமுறை 5: மாதிரியை தொகுத்து பயிற்சி செய்திடுக

model.compile(optimizer=’adam’, loss=’sparse_categorical_crossentropy’, metrics=[‘accuracy’])

model.fit(np.array([X]), np.array([y]), epochs=100, verbose=1)

படிமுறை 6: கணிப்புகளைச் செய்திடு

# Predict the next character

input_seq = np.array([X])

predicted_index = np.argmax(model.predict(input_seq), axis=1)

print(f”Next character: {index_to_char[predicted_index[0]]}”)

7. பயிற்சி RNNகளுக்கான உதவிக்குறிப்புகள்

நம்பிக்கையை தகர்த்தலின் படித்திறன்களை நிர்வகிக்க Gradient Clipping ப் பயன்படுத்திடுக.

அதிகப்படியான பொருத்துதலைக் குறைக்க Dropout அடுக்குகளைப் பயன்படுத்திடுக.

உரை அடிப்படையிலான பணிகளுக்கு முன் பயிற்சி பெற்ற உட்பொதிவுகளை (.கா., GloVe, Word2Vec) பயன்படுத்திடுக.

8. ஒப்பீடு: RNN , LSTM , GRU ஆகியவற்றிற்கிடையிலான வேறுபாடுகளின் ஒப்பீடு

இயலபுகள் RNN LSTM GRU
நீண்டகால சார்புகளை கையாளக்கூடியதா இல்லை ஆம் ஆம்
பயிற்சி காலம் விரைவானது அளவானது LSTMஐவிட விரைவானது
கடுஞ்சிக்கலானநிலை குறைந்த மிகஉயர்ந்த அளவான
பயன்பாட்டு வழக்கமுறைமைகள் குறுகிய வரிசை முறை நீண்ட வரிசை முறை நீண்ட வரிசைமுறை

தொடரும்