Word2vec, FastText, Glove

இம்மூன்றும் embedding வேலையை செய்வதற்கான pre-trained மாடல்கள் ஆகும். இதில் Word2vec எனும் pre-trained மாடலை பயன்படுத்தி Embedding செய்வதற்கான எடுத்துக்காட்டு பின்வருமாறு.

	import numpy as np
	import tensorflow as tf
	from tensorflow.keras.preprocessing.text import Tokenizer
	from tensorflow.keras.models import Sequential
	from tensorflow.keras.layers import Embedding, LSTM, Dense, Bidirectional, SimpleRNN
	from tensorflow.keras.preprocessing.sequence import pad_sequences

	x = "தமிழ்நாடு இந்தியாவின் தெற்கே அமைந்த ஒரு அழகிய மாநிலமாகும். இது பல்வேறு கலாச்சார பாரம்பரியங்களையும், செழிப்பான சாகுபடிமுறையையும் கொண்டுள்ளது. தமிழ்நாட்டின் தலைநகரமான சென்னை, தொழில்நுட்பம் மற்றும் கல்வியில் முன்னணி வகிக்கிறது. மாமல்லபுரம், தஞ்சாவூர் பெரிய கோயில் போன்ற வரலாற்று முக்கியத்துவம் வாய்ந்த இடங்கள் சுற்றுலாப் பயணிகளை ஈர்க்கின்றன. தமிழ்நாட்டின் கலை, இலக்கியம் மற்றும் இசை உலகளாவிய புகழ் பெற்றவை"

	tokens = Tokenizer()
	tokens.fit_on_texts([x])
	dictionary = tokens.word_index

	x_n_grams = []
	for line in x.split('.'):
	line_tokens = tokens.texts_to_sequences([line])[0]
	for i in range(1, len(line_tokens)):
	n_grams = line_tokens[:i+1]
	x_n_grams.append(n_grams)

	max_line_len = max([len(i) for i in x_n_grams])
	training_data = np.array(pad_sequences(x_n_grams, maxlen=max_line_len, padding='pre'))
	train_X = training_data[:, :-1]
	train_y = training_data[:, -1]

	total_words = len(dictionary) + 1
	y = np.array(tf.keras.utils.to_categorical(train_y, num_classes=total_words))

	model = Sequential()
	from gensim.models import Word2Vec
	vec = Word2Vec(sentences=[i.split() for i in x.split('.')], vector_size=100, window=5, min_count=1, workers=1)
	embeds = np.zeros((total_words, 100))
	for word, i in dictionary.items():
	if word in vec.wv:
	embeds[i] = vec.wv[word]
	model.add(Embedding(total_words, 100, input_length=max_line_len – 1, weights=[embeds], trainable=False))
	model.add(LSTM(150))
	model.add(Dense(total_words, activation='softmax'))
	model.build(input_shape=(None, max_line_len-1))
	print(model.summary())

	model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
	model.fit(train_X, y, epochs=100, verbose=1)

	input_text = "தமிழ்நாடு"
	predict_next_words= 3

	for _ in range(predict_next_words):
	input_token = tokens.texts_to_sequences([input_text])[0]
	input_x = pad_sequences([input_token], maxlen=max_line_len-1, padding='pre')
	predicted = np.argmax(model.predict(input_x), axis=-1) # Greedy. tensorflow.random.categorical(input_token,num_samples=1) for sampling for beam search
	output_word = ""
	for word, index in tokens.word_index.items():
	if index == predicted:
	output_word = word
	break
	input_text += " " + output_word

	print(input_text)

	"""
	Run above code after running below line
	!pip install –force-reinstall scipy pandas gensim
	"""

view raw

03_word2vec_implementation.py

hosted with ❤ by GitHub

இந்த மாடலுக்கான சம்மரியில் non-trainable params என்பது ஒரு குறிப்பிட்ட எண்ணிக்கையிலான பெராமீட்டர்களை வெளிப்படுத்துவதைக் காணலாம். இது Word2vec மாடலில் உள்ள frozen லேயருக்கான பெராமீட்டர்கள் ஆகும்.

Word embeddings

முதலில் எம்பெடிங் செய்யப்படுவதன் பின்னணியில் இருக்கும் தத்துவத்தைப் பற்றி புரிந்து கொள்வோம். “யாரு மனசுல யாரு? அவருக்கு என்ன பேரு?” என்று ஒரு நிகழ்ச்சி உள்ளது. அதில் கலந்து கொள்ளும் இருவரில் ஒருவர், ஏதாவதொரு பிரபலமான நபரைப் பற்றி நினைத்துக் கொள்வார். மற்றவர் அதைக் கண்டுபிடிக்க வேண்டும். ஆனால் நினைத்துக் கொண்டுள்ளவருக்கு ஆம்/இல்லை போன்ற பதில்களை மட்டுமே கூற அனுமதி உண்டு. இதை வைத்தே மற்றவர் அதைக் கண்டுபிடிக்க வேண்டும். எனவே கேள்வி கேட்கும் நபர் சாதுர்யமாக “அவர் விளையாட்டுத் துறையைச் சேர்ந்தவரா?” என்பார். “ஆம்!” என பதில் வந்தால் உடனே “கால் பந்து வீரரா?” என்பார். இதற்கும் “ஆம்!” என பதில் வந்தால் “இந்திய நாட்டுக்காரரா?” என்பார். “இல்லை” என பதில் வந்தால் வேறு நாட்டின் பெயரைச் சொல்லிக் கேட்பார். இதேபோல பல்வேறு கேள்விகளை எழுப்பி எழுப்பி இறுதியில் அவர் யார் என்பதைக் கண்டுபிடித்து விடுவார். இவர் கேட்கும் கேள்விகள் அனைத்தும், அவர் மனதில் உள்ளதைக் கண்டுபிடிப்பதற்கான features ஆகும். இதே தத்துவம் தான் Embedding லேயரிலும் பயன்படுகிறது.
நமது vocabulary-யில் உள்ள ஒவ்வொரு வார்த்தையையும் 100 எனும் fixed size கொண்ட வெக்டருக்குள் அர்த்தம் பொதிந்த நிலையில் சேமிப்பதே Embedding என்று பார்த்தோம். ஒரு வார்த்தையின் அர்த்தத்தைப் புரிந்து கொள்ள, மறைமுகமாக கேட்கப்படும் பல்வேறு கேள்விகளே இந்த 100 வகையான features ஆகும். உதாரணத்துக்கு ‘தெற்கே’ எனும் வார்த்தையை சேமிக்க, அது நாடா? உயர்திணையா? திசையா? உணவுப் பொருளா? கால நேரமா? போன்ற நூறு வகையான கேள்விகள் மூலம் அந்த வார்த்தை சேமிக்கப்படுகின்றது. எனவே ஒரே மாதிரியான வார்த்தைகளுக்கு கிட்டத்தட்ட ஒரே மாதிரியான பதில்கள் கிடைப்பதால், அவை ஒரே மாதிரியான வெக்டர்களை உருவாக்குகின்றன.
Euclidean distance என்பது இரண்டு வெக்டர்களுக்கிடையே ஆன தூரத்தைக் கணக்கிட உதவும். எனவே ஒரே மாதிரியான வெக்டர்களுக்கான இடைவெளி குறைவாகவும், எதிர்மறையான வெக்டர்களுக்கான இடைவெளி அதிகமாகவும் இருக்கும். இதை வைத்தே ஒரே மாதிரியான வார்த்தைகள், எதிரெதிரான வார்த்தைகள் போன்றவற்றைக் கணக்கிட்டுக் கூற இயலும். Word2vec, FastText, Glove போன்றவற்றில் இதை செய்து பார்க்கலாம்.

Architectural Difference

Word2vec என்பது கீழ்க்கண்ட இரு கட்டமைப்புகளைக் கொண்டு எம்பெடிங் செய்கிறது.

CBOW – continuous bag of words
Skip-grams

“உன் நண்பர்கள் யார் எனச் சொல்; நான் உன்னை பற்றிச் சொல்கிறேன்” என்று ஒரு வாசகம் வருமே! அதேபோல, ஒரு வார்த்தைக்கு முன்னும் பின்னும் உள்ள வார்த்தைகளின் அடிப்படையில், நடுவில் உள்ள வார்த்தையைக் கண்டுபிடிக்க முயல்வது CBOW ஆகும். அதுவே, “உன்ன மாதிரிதான டா, உன் கூட்டாளியும் இருப்பான்” என்போமே! அதைப்போல, நடுவில் உள்ள வார்த்தையை வைத்து அதற்கு முன்னும் பின்னும் உள்ள வார்த்தைகளைக் கண்டுபிடிக்க முயல்வது skip-gram ஆகும். இரண்டுமே கிட்டத்தட்ட ஒன்றுதான்! ஆனால், எதை வைத்து எதை முடிவு செய்கிறார்கள் என்பதைப் பொறுத்து context window எது? target word எது? என்பதில் வேறுபடுகிறது. விண்டோ சைஸ் என்பது ஒரு வார்த்தைக்கு முன்னும் பின்னும் எத்தனை வார்த்தைகள் வரை கணக்கில் கொள்ளலாம் என்பதைக் குறிக்கிறது.

Word2vec மாடலில் ஒரு சில மேன்மைகளைச் செய்து ஃபேஸ்புக் நிறுவனம் வெளியிட்டதே FastText எனும் மாடல் ஆகும். இது out of syllabus-ல் உள்ள வார்த்தைகளையும் கண்டுபிடிக்க வல்லது. ஏனெனில் இது பயிற்சி எடுத்துக் கொள்ளும் போதே வார்த்தைகளை பிரித்து மேய்ந்து விடுகிறது. ஒரு பாடத்திட்டத்தை படித்து முடிக்கும் ஒருவனை விட, பிரித்து மேயும் ஒருவனால் தான் out of syllabus-ல் கேள்வி கேட்டாலும் பதில் அளிக்க முடியும். அதைப்போல, வார்த்தை வார்த்தையாக அல்லாமல் எழுத்தெழுத்தாகப் பிரித்து மேய்ந்து இது கற்றுக் கொள்கிறது. விண்டோ சைஸ் என்பது இங்கு எழுத்துக்களின் எண்ணிக்கையைக் குறிக்கிறது. எனவே தான் பகுதி எழுத்துக்களைக் கோர்த்து vocabulary-யில் இல்லாத புதிய வார்த்தையையும் இதனால் உருவாக்க முடிகிறது. எடுத்துக்காட்டாக, [தமிழ், மிழ்நா, ழ்நாடு, நாடுஇ, டுஇந், இந்தி, ந்தியா, தியாவி, யாவின்…] என்பதுபோல மும்மூன்று எழுத்துக்களாகப் பிரித்து பயிற்சி எடுத்துக் கொள்ளும். இதனுடன் வேறு வார்த்தையிலிருந்து பிரிந்த மும்மூன்று எழுத்துக்களான ஈழம், த்துவா ஆகியவை சேரும் பொழுது. தமிழீழம், இந்துத்துவா போன்ற புதிய வார்த்தைகள் உருவாக வாய்ப்புள்ளது. இதுதான் FastText மாடலின் சிறப்பு!

Glove என்பது குளோபல் வெக்டர் ஆகும். Word2vec -ல் நான் குறிப்பிட்டது போல உன்னைப் பொறுத்து உன் நண்பர்களை முடிவு செய்வதும், உன் நண்பர்களைப் பொறுத்து உன்னை முடிவு செய்வதும் லோக்கல் context. அதுவே “இதெல்லாம் இப்படித்தான் முடியும்னு எனக்கு ஏற்கனவே தெரியும்” என்று ஒரு சிலர் கூறுவார்களே! அதுவே குளோபல் கான்டெக்ஸ்ட். உதாரணத்துக்கு ‘மசூதி இடிப்பு’ பற்றி செய்தித்தாளில் படித்துக் கொண்டிருக்கும் ஒருவர், “இவனுங்க மாஞ்சி மாஞ்சி இராமாயணமும் மகாபாரதமும் டி.வி.யில ஒளிபரப்பும்போதே நெனச்சேன்; இதெல்லாம் இப்படித்தான் முடியும்னு” என்று இரண்டையும் சம்பந்தப்படுத்தி பேசுவார். ஆனால் செய்தித்தாளில் இராமாயணமோ மகாபாரதமோ “மசூதி இடிப்பு” எனும் வார்த்தைக்கு முன்னோ பின்னோ காணப்படாது. இருந்தாலும், அவருடைய மொத்த வாழ்க்கையும் ட்ரெய்னிங் டேட்டாவாக எடுத்துக்கொண்டு, பக்தி இயக்கங்களின் வளர்ச்சிக்கும் – கலவரங்களின் வெடிப்புக்குமான frequency-யை கணக்கிட்டுக் கொண்டே வந்து, இறுதியில் அவருடைய குளோபல் கான்டெக்ஸ்ட் மூலம் “இரண்டும் தொடர்புடைய நிகழ்வுகள் தான்!” என்பதை கண்டுபிடித்து விடுவார். இதே முறையைத்தான் Glove பின்பற்றுகிறது. ஒரு வார்த்தையை கண்டுபிடிக்க அதற்கு அருகாமையில் உள்ளவற்றைக் கணக்கில் கொள்ளாமல், மொத்த டேட்டாவிலும் அருகருகே அமைகின்ற வார்த்தைகளின் frequency-யை பொறுத்துக் கண்டுபிடிக்கிறது. king – man + woman என்று கொடுத்தால் queen என்று வெளிப்படுத்துவதெல்லாம் glove செய்யும் வேலைதான்!

Sample programs

word2vec – இல் உள்ள ஒரு சில முக்கியமான ஃபங்க்ஷன் பற்றி இங்கு காணலாம்

	!pip install gensim
	pip install numpy==1.23.5

	from gensim.models import word2vec
	import nltk
	nltk.download('stopwords')
	nltk.download('punkt_tab')

	paragraph = "Periyar was a social reformer in Tamil Nadu. He founded the Self-Respect Movement. This movement aimed to promote equality and end caste discrimination. Today, he is celebrated as a key figure in the fight for social justice and equality in Tamil Nadu"
	lines = [i for i in paragraph.split('.')]
	x= [[word for word in nltk.word_tokenize(each_line) if word.lower() not in nltk.corpus.stopwords.words('english')] for each_line in lines]

	model = word2vec.Word2Vec(x, window=10, vector_size=5, min_count=1, sg=1, sample=1e-3)

	print (model.wv.index_to_key)
	print (model.wv['Periyar'])
	print (model.wv.similarity('Self-Respect', 'equality'))
	print (model.wv.most_similar(positive=['Periyar'],topn=2))
	#print (model.wv.most_similar(positive=['Peri'],topn=2))

view raw

05_word2vec.py

hosted with ❤ by GitHub

wv[] என்பது ஒரு வார்த்தைக்கான வெக்டரை வெளியிடுகிறது.
wv.index_to_key என்பது வெக்டராக மாற்றப்படும் வார்த்தைகளின் பட்டியலை வெளியிடுகிறது. வார்த்தைகள் அதன் ஃப்ரீக்குவன்சியை பொறுத்து பட்டியலில் முதலிடம் பெறுகின்றன. அதிக முறை இடம் பெற்றுள்ள வார்த்தைகள் முதலாவதாகவும், மற்றவை அதனைத் தொடர்ந்தும் அமைகின்றன. இதில் is, was, between போன்ற ஆங்கிலத் துணைச் சொற்கள் இல்லாததை கவனிக்கவும். ஏனெனில் அதனை வெக்டராக்கி ஒரு பிரயோஜனமும் இல்லை.
wv.similarity() என்பது இரு வார்த்தைகள் எந்த அளவுக்கு தொடர்புடையவை எனும் மதிப்பினை வெளியிடுகின்றன. இது 1 என வெளிப்படுத்தினால் அதிக தொடர்புடையவை என்றும், 0 என்றால் தொடர்பில்லாதவை என்றும், -1 என்றால் எதிர்மறையாகத் தொடர்புடையது என்றும் அர்த்தம்.
இம்மதிப்புகளைத் தழுவியே wv.most_similar() எனும் ஃபங்ஷனும் செயல்படுகிறது. இதற்குள் பாசிட்டிவ் எனக் கொடுத்தால் அதிக தொடர்புடைய வார்த்தைகளையும், நெகட்டிவ் எனக் கொடுத்தால் எதிர்மறையாகத் தொடர்புடைய வார்த்தைகளையும், கொடுக்கப்பட்டுள்ள எண்ணிக்கைக்கு ஏற்ப வெளிப்படுத்தும்.
இரு வார்த்தைகள் எந்த அளவுக்கு தொடர்புடையவை என்பதைக் குறிக்க வெளிப்படும் மதிப்பு, அதனுடைய வெக்டர்களால் உருவாகும் கோணத்தின் cos similarity மதிப்பினை பொறுத்து அமையும். இதைப்பற்றி முக்கோணவியல் பகுதியில் இன்னும் விரிவாகக் காணலாம்.

model.wv.index_to_key

[‘social’, ‘Tamil’, ‘Nadu’, ‘equality’, ‘justice’, ‘aimed’, ‘reformer’, ‘founded’, ‘Self-Respect’, ‘Movement’, ‘movement’, ‘promote’, ‘fight’, ‘end’, ‘caste’, ‘discrimination’, ‘Today’, ‘,’, ‘celebrated’, ‘key’, ‘figure’, ‘Periyar’]

model.wv[‘Periyar’]

[-0.1233535 0.02211227 0.12094565 -0.05680101 -0.12347045]

model.wv.similarity(‘Self-Respect’, ‘equality’)

0.31390482

model.wv.most_similar(positive=[‘Periyar’],topn=2)

[(‘Tamil’, 0.8870946764945984), (‘reformer’, 0.8688445687294006)]

negative:

[(‘key’, 0.8121072053909302), (‘,’, 0.5541471838951111)]

positive=[‘Peri’]
KeyError: “Key ‘Peri’ not present in vocabulary”

word2vec என்பது வார்த்தை வார்த்தையாகப் பிரித்து வெக்டர்களை உருவாக்கும் என்பதை அறிவோம். ஆகவே, ஒரு வார்த்தையின் முதல் சில எழுத்துக்களை மட்டும் கொடுத்து, அதற்குத் தொடர்பான வார்த்தையை வெளிப்படுத்தக் கூறினால், பிழைச்செய்தி வெளிப்படும். அதுவே FastText என்பது எழுத்தெழுத்தாகப் பிரித்துச் சேமிப்பதால், அது தொடர்புடைய வார்த்தையை வெளிப்படுத்தும். இந்த ஒரு வித்தியாசத்தைத் தவிர மற்ற அனைத்தும் இரண்டிலும் ஒன்றுதான்!

	from gensim.models.fasttext import FastText

	paragraph = "Periyar was a social reformer in Tamil Nadu. He founded the Self-Respect Movement. This movement aimed to promote equality and end caste discrimination. Today, he is celebrated as a key figure in the fight for social justice and equality in Tamil Nadu"
	lines = [i for i in paragraph.split('.')]
	x= [[word for word in nltk.word_tokenize(each_line) if word.lower() not in nltk.corpus.stopwords.words('english')] for each_line in lines]

	model = FastText(x, window=20, min_count=1, sg=1, sample=1e-3)

	print (model.wv.index_to_key)
	print (model.wv['Periyar'])
	print (model.wv.similarity('Self-Respect', 'equality'))
	print (model.wv.most_similar(positive=['Periyar'],topn=2))
	print (model.wv.most_similar(positive=['Peri'],topn=2))

view raw

06_fasttext.py

hosted with ❤ by GitHub

model.wv.most_similar(positive=[‘Peri’],topn=2)

[(‘Periyar’, 0.4749273955821991), (‘social’, 0.2427682876586914)]

Glove என்பது குளோபல் கான்டெக்ஸ்ட் ஆகும். கேரளாவில் “பெரியார் நதி” என்று ஒன்று உள்ளது. ஆகவே பெரியார் என்பதைக் கொடுத்து அதற்குத் தொடர்புடைய வார்த்தைகளை வெளிப்படுத்த கூறினால், அதனை நதியின் பெயராகக் கருதி வேறு இரு நதிகளின் பெயரை வெளிப்படுத்துவதைக் காணலாம்.
Periyar River is a major river in Kerala, India. That’s why it’s returning other rivers like ‘teesta’ (India), ‘neris’ (Europe).

எளிய தமிழில் Generative AI – 9

Word2vec, FastText, Glove

Word embeddings

Architectural Difference

Sample programs

Like this:

Related

Leave a ReplyCancel reply

Word2vec, FastText, Glove

Word embeddings

Architectural Difference

Sample programs

பகிர்ந்து கொள்க

Like this:

Related

Leave a ReplyCancel reply