நாமே நம்முடைய சொந்த செய்யறிவை(AI) உருவாக்குதல் -பயிற்சித் தொடர்–பகுதி 8: தொடர் தரவுகளுக்கான தொடர்ச்சியான நரம்பியல் வலைபின்னல்கள் (RNNகள்)

தொடர்ச்சியான நரம்பியல் வலைபின்னல்கள் (RNNs) என்பது நரம்பியல் வலைபின்னல்களின் ஒரு இனமாகும், இது தொடர்ச்சியான தரவை செயலாக்கிடுவதற்காக வடிவமைக்கப்பட்டுள்ளது, அங்கு தகவலின் வரிசை அவசியமாகு. இந்தக் கட்டுரை RNNகளின் அடிப்படைகள், LSTM, GRUs போன்ற அவற்றின் மேம்பட்ட மாறுபாடுகளையும் மொழி மாதிரியின், உணர்வு பகுப்பாய்வு போன்ற பிற நேரத்தைச் சார்ந்த பணிகளில் அவற்றின் பயன்பாடுகளை ஆராய்கிறது.

1. RNNகள் என்றால் என்ன?

RNNகள் ஒரு வகையான நரம்பியல் வலைபின்னலாகும், இதில் முந்தைய படிமுறைகளின் வெளியீடு தற்போதைய படிமுறைக்கான உள்ளீடாகப் பயன்படுத்தப்படுகிறது. காலப் படிநிலைகளில் அளவுருக்களைப் பகிர்வதன் மூலம் அவை “நினைவகத்தை” பராமரிக்கின்றன, இது போன்ற தொடர்ச்சியான அல்லது தற்காலிகத் தரவைச் செயலாக்குவதற்கு அவை சிறந்தவை:

நேரத் தொடர் தரவு (எ.கா., பங்கு விலைகள், வானிலை)

இயற்கை மொழி (எ.கா., உரை, பேச்சு)

கானொளிகாட்சி தரவு (எ.கா., செயலின் ஏற்புகை)

2. RNNகள் எவ்வாறு செயல்படுகின்றன

RNNகள் தரவை தொடர்ச்சியாக செயலாக்குகின்றன:

உள்ளீடு: ஒவ்வொரு கால கட்டத்திலும், RNN ஒரு உள்ளீட்டு திசையனையும் (vector), ஒரு மறைக்கப்பட்ட நிலையையும் (துவக்கத்தில் பூஜ்யம்) எடுக்கும்.

மறைக்கப்பட்ட நிலையை புதுப்பித்தல்: இது உள்ளீட்டை, முந்தைய மறைக்கப்பட்ட நிலையைப் பயன்படுத்தி மறைக்கப்பட்ட நிலையை மேம்படுத்துகிறது.

வெளியீடு: ஒவ்வொரு கால கட்டத்திற்கும் ஒரு வெளியீட்டை உருவாக்குகிறது (விரும்பினால்).

கணித உருவகிப்பு(Representation):

உள்ளீட்டு வரிசைக்கு ( X = [x_1, x_2, …, x_t] ):

( h_t = f(W_{xh}x_t + W_{hh}h_{t-1} + b_h) )

( y_t = g(W_{hy}h_t + b_y) )

இதில்:

( f ): என்பது செயல்படுத்தும் செயலியாகும் (எ.கா., tanh)

( W_{xh}, W_{hh}, W_{hy} ): அணிகளின் எடையளவாகும்

(b_h, b_y): என்பவை சார்புகளாகும்

3. அடிப்படை RNNகளுடன் உள்ள சவால்கள்

மறைந்து போகும் படித்திறனின் பிரச்சனை: நீண்ட வரிசைகளில் படித்திறன் குறைந்து, தொலைதூர காலப் படிகளில் சார்புகளை கைப்பற்றுவது RNNகளுக்கு கடினமாகிறது.

படித்திறன்நம்பிக்கையை தகர்த்தப்பட்ட: படித்திறனானது கட்டுப்பாடில்லாமல் வளரும், பயிற்சியை சீர்குலைக்கின்றது.

இந்தச் சிக்கல்களைத் தீர்க்க, LSTMகள்,ம் GRUகள் போன்ற மேம்பட்ட RNN வகைகள் உருவாக்கப்பட்டுள்ளன.

4. மேம்பட்ட RNN மாறுபாடுகள்(Variants)

அ. நீண்ட குறுகிய கால நினைவகம் (LSTM)

நீண்ட கால சார்புகளை சிறப்பாக கையாள LSTMகள் நினைவக கலண்களையும் ,வாயில்களையும் அறிமுகப்படுத்துகின்றன:

வாயிலை மறந்துவிடுதல்: எந்த தகவலை நிராகரிக்க வேண்டும் என்பதை தீர்மானிக்கிறது.

உள்ளீட்டு வாயில்: எந்த புதிய தகவலைச் சேமிக்க வேண்டும் என்பதைத் தீர்மானிக்கிறது.

வெளியீட்டு வாயில்: வெளியீட்டிற்கான தகவலைத் தேர்ந்தெடுக்கிறது.

ஆ. வாயிலாக்கப்பட்ட தொடர்ச்சியான அலகுகள் (GRU)

GRUகள் மறந்துவிடுதல், உள்ளீட்டு வாயில்களை ஒரேயொரு புதுப்பிப்பு வாயிலில் இணைப்பதன் மூலம் LSTMsகளை எளிதாக்குகின்றன.

5. நடப்பு உலக பயன்பாடுகள்

மொழி மாதிரி: ஒரு சொற்றொடரில் அடுத்த சொல்லை கணித்தல்.

உணர்வு பகுப்பாய்வு: உரையின் உணர்வை வகைப்படுத்திடுதல் (எ.கா. நேர்மறை, நடுநிலை, எதிர்மறை).

நேரத் தொடர் முன்கணிப்பு: கடந்த காலப் போக்குகளின் அடிப்படையில் எதிர்கால மதிப்புகளைக் கணித்தல்.

பேச்சொலியை ஏற்புகைசெய்தல்: பேச்சொலியை உரையாக மாற்றிடுதல்.

இசை உருவாக்கம்: இசைத் தொடர்களை உருவாக்கிடுதல்.

6. RNN ஐ செயல்படுத்துதல்: மொழி மாதிரியாக்க எடுத்துக்காட்டு

படிமுறை 1: நூலகங்களை நிறுவுகைசெய்திடுக

pip install tensorflow

படிமுறை 2: நூலகங்களை பதிவிறக்கம் செய்திடுக

import numpy as np

import tensorflow as tf

from tensorflow.keras.models import Sequential

from tensorflow.keras.layers import SimpleRNN, LSTM, GRU, Dense, Embedding

படிமுறை 3: தரவை உருவாக்கிடுக

எளிமைக்காக, ஒரு வரிசையில் அடுத்த எழுத்தைக் கணிப்பதே இலக்காக இருக்கின்ற உரையின் தரவுத்தொகுப்பைப் பயன்படுத்திடுவோம்.

# Example text data

text = “hello world”

chars = sorted(list(set(text)))

# Create char-to-index and index-to-char mappings

char_to_index = {char: idx for idx, char in enumerate(chars)}

index_to_char = {idx: char for char, idx in char_to_index.items()}

# Convert text to numerical sequence

sequence = [char_to_index[char] for char in text]

X = sequence[:-1] # Input sequence

y = sequence[1:] # Target sequence

படிமுறை 4: RNN ஐ உருவாக்கிடுக

model = Sequential([

Embedding(input_dim=len(chars), output_dim=8, input_length=len(X)),

SimpleRNN(32, return_sequences=False),

Dense(len(chars), activation=’softmax’)

])

படிமுறை 5: மாதிரியை தொகுத்து பயிற்சி செய்திடுக

model.compile(optimizer=’adam’, loss=’sparse_categorical_crossentropy’, metrics=[‘accuracy’])

model.fit(np.array([X]), np.array([y]), epochs=100, verbose=1)

படிமுறை 6: கணிப்புகளைச் செய்திடுக

# Predict the next character

input_seq = np.array([X])

predicted_index = np.argmax(model.predict(input_seq), axis=1)

print(f”Next character: {index_to_char[predicted_index[0]]}”)

7. பயிற்சி RNNகளுக்கான உதவிக்குறிப்புகள்

நம்பிக்கையை தகர்த்தலின் படித்திறன்களை நிர்வகிக்க Gradient Clipping ஐப் பயன்படுத்திடுக.

அதிகப்படியான பொருத்துதலைக் குறைக்க Dropout அடுக்குகளைப் பயன்படுத்திடுக.

உரை அடிப்படையிலான பணிகளுக்கு முன் பயிற்சி பெற்ற உட்பொதிவுகளை (எ.கா., GloVe, Word2Vec) பயன்படுத்திடுக.

8. ஒப்பீடு: RNN , LSTM , GRU ஆகியவற்றிற்கிடையிலான வேறுபாடுகளின் ஒப்பீடு

இயலபுகள்	RNN	LSTM	GRU
நீண்டகால சார்புகளை கையாளக்கூடியதா	இல்லை	ஆம்	ஆம்
பயிற்சி காலம்	விரைவானது	அளவானது	LSTMஐவிட விரைவானது
கடுஞ்சிக்கலானநிலை	குறைந்த	மிகஉயர்ந்த	அளவான
பயன்பாட்டு வழக்கமுறைமைகள்	குறுகிய வரிசை முறை	நீண்ட வரிசை முறை	நீண்ட வரிசைமுறை

தொடரும்

Like this:

Related

Leave a ReplyCancel reply

பகிர்ந்து கொள்க

Like this:

Related

Leave a ReplyCancel reply