உணர்வு பகுப்பாய்வு (sentiment analysis) அல்லது கருத்து சுரங்க வேலை (opinion mining) என்பது ஒரு பேச்சாளரின் அல்லது எழுத்தாளரின் மனோபாவத்தைத் தீர்மானிப்பது. ஒரு தலைப்பைப் பற்றியோ அல்லது ஒரு ஆவணத்தை ஒட்டுமொத்தமாகவோ ‘நேர்மறை (positive)’ அல்லது ‘எதிர்மறை (negative)’ என்று கணிக்கிறோம். இம்மாதிரி நேரெதிரான இரண்டு தன்மைகள் இருந்தால் அவற்றை முனைவு (polarity) என்று சொல்கிறோம். சில வேலைகளுக்கு மூன்றாவதாக ‘நடுநிலை (neutral)’ என்றும் கணிக்க வேண்டியிருக்கலாம். இது தவிர உயர்நிலை உணர்வு பகுப்பாய்வில் “கோபம்”, “சோகம்”, மற்றும் “மகிழ்ச்சி” போன்ற வகைப்பாடுகளும் செய்ய இயலும்.
இணையப் பக்கங்கள், செய்திகள், விவாதங்கள், விமர்சனங்கள், வலைப்பதிவுகள், மற்றும் சமூக ஊடகங்கள் உள்ளிட்ட ஆவணங்களின் பெரிய சேகரிப்புகளில் இம்மாதிரி உணர்வு பகுப்பாய்வு செய்ய வேண்டுமானால் கணினி உதவி தேவைப்படுகிறது. பொதுவாக சமூக ஊடகங்களில் யாவரும் தங்கள் கருத்துகளை வெளிப்படையாகப் பகிர்ந்து கொள்வதால், இம்மாதிரி கருத்து சுரங்க வேலை செய்யும் போது, சமூக ஊடக உள்ளடக்கம் மிகவும் பயனுள்ளதாக இருக்கிறது. மேலும் நிகழ் நேர கருத்துகள் தேவையெனில் ட்விட்டர் கீச்சுகளுக்கு நிகரில்லை.
ரசிகர்களின் கருத்துக் கணிப்பு
எடுத்துக்காட்டாக, இணையம் மற்றும் சமூக ஊடகங்கள் வருவதற்கு முந்தைய காலத்தில் ஒரு திரைப்படம் வெளியிடப்படுகிறது என்று வைத்துக் கொள்வோம். அந்தப் படத்தைப் பற்றி ரசிகர்களின் கருத்து என்ன என்று அதன் தயாரிப்பாளர்கள் அறிய விரும்பினால் முதல் காட்சி முடிந்து வெளியே வரும் ரசிகர்களிடம் நேரடியாகக் கருத்துக் கணிப்பு செய்வார்களாம். அதிகம் போனால் ஒருசில திரையரங்குகளில்தான் இப்படிச் செய்ய முடியும்.
இன்று ரசிகர்களோ தங்கள் விமர்சனங்களைப் படம் முடிந்தவுடன் (முடியும் முன்னரே?) கீச்சத் தொடங்குகின்றனர். இன்று படங்களும் உலகம் முழுவதும் ஒரே நேரத்தில் வெளியிடப்படுகின்றன. கீச்சுகளை உணர்வு பகுப்பாய்வு செய்தால் கருத்துகளை உடன் அறிய முடியும். மக்களின் ரசனைக்குத் தகுந்தவாறு வெவ்வேறு வட்டாரங்களில் வெவ்வேறு வகையாக வினியோகமும் விளம்பரங்களும் செய்யலாம். திரைப்படங்களுக்கு மட்டுமல்ல, நுகர்பொருள்களுக்கும் ஆடை அலங்காரங்களுக்கும் மற்றும் பல ரசனை அடிக்கடி மாறும் வணிகப் பொருட்களுக்கும் சேவைகளுக்கும் இம்மாதிரி உணர்வு பகுப்பாய்வு தேவைப்படுகிறது.
தேர்தல் சமயங்களிலும் மற்ற நேரங்களிலும் அரசியல்வாதிகளும், அரசு சாரா நிறுவனங்களும் மற்றவர்களும் முறைசாரா கருத்துக் கணிப்புகளுக்கும் இம்மாதிரி செயல்முறைகளைப் பயன்படுத்தலாம்.
கருத்தைக் கணித்து அதற்கேற்ப தானியங்கியாக செயல்படுதல்
இரைச்சலை வடிகட்டுதல், உரையாடல்களைப் புரிந்துகொள்ளுதல், பொருத்தமான உள்ளடக்கத்தை அடையாளம் காணுதல் மற்றும் அதற்கேற்ப செயல்படுதல் போன்ற செயல்களைத் தானியங்கியாக வணிக நிறுவனங்கள் செய்ய முயற்சிக்கும் போது, அவர்களது கவனம் உணர்ச்சி பகுப்பாய்வு துறைக்கு திரும்பத் தொடங்கியுள்ளது.
மின்வணிக இணையதளங்களில் நீங்கள் ஒரு பொருளைத் தேடி எடுத்தீர்களானால், அந்தப் பொருளுடன் வாங்கக் கூடிய மற்ற பொருள்களையும் பரிந்துரை செய்கிறார்கள். இதைப் பரிந்துரை இயந்திரம் (Recommendation Engine) அல்லது அமைப்பு என்று சொல்கிறார்கள்.
பரிந்துரை அமைப்புக்கு, உணர்வு பகுப்பாய்வு ஒரு மதிப்புமிக்க நுட்பமாக நிரூபிக்கப்பட்டுள்ளது. பயனரின் விருப்பங்களை அறிந்து அதற்குத் தோதாக பரிந்துரை செய்ய இது உதவுகிறது.
நடைமுறை எடுத்துக்காட்டு: ட்விட்டர் கீச்சுகளை எடுத்து உணர்வு பகுப்பாய்வு
இந்தக் காணொலி ஆங்கில உரையைப் பற்றியது. இருப்பினும் தமிழில் விளக்கங்கள் எளிதாக இருப்பதால் இது நல்ல எடுத்துக்காட்டாக உதவும். ஒரு குறிப்பிட்ட தலைப்புக்கு கீச்சுகளை சேகரிக்க வேண்டுமானால் ட்விட்டரின் பயன்பாட்டு நிரலாக்க இடைமுகம் மூலம் எடுக்க முடியும். பைதான் நிரல் எழுதி எப்படி அதைச் செய்வது என்று இந்தக் காணொலியில் விளக்குகிறார்.
இதற்கு முன்தேவையாக apps.twitter.com சென்று நீங்கள் ஒரு செயலி உருவாக்கிக் கொள்ள வேண்டும். இந்த செயலியிலிருந்து நுகர்வோர் திறவி (API Key), நுகர்வோர் இரகசியம் (API Secret) அணுகல் அடையாளச் சின்னம் (Access Token), அணுகல் அடையாளச் சின்ன இரகசியம் (Access Token Secret) ஆகிய நான்கையும் படியெடுத்துக் கொள்ளவும். இவற்றை வைத்து பைதானிலுள்ள tweepy என்ற நிரலகத்தைப் பயன்படுத்தினால் நீங்கள் கொடுத்த சொல் பற்றிய கீச்சுகளை தேடித்தரும். இந்த கீச்சுகளை ஒன்றொன்றாக TextBlob என்ற நிரலகத்தைப் பயன்படுத்தி உணர்ச்சி பகுப்பாய்வு செய்ய முடியும்.
ஆங்கிலத்தில் இயல்மொழி ஆய்வுக்கான வளங்கள் மிகுதியாக உள்ளன
இது எப்படி ஒரே வரியில் பகுப்பாய்வு செய்ய முடிந்தது, மாய வேலை போலிருக்கிறதே என்கிறீர்களா? இதனால்தான் ஆங்கிலத்தில் வளங்கள் அதிகமாக உள்ளன, ஆனால் தமிழில் மிகக்குறைவு என்று சொல்கிறோம். இந்த வேலையைச் செய்ய TextBlob ஒரு அகராதியுடன் வருகிறது.
இந்த அகராதியில் ஒவ்வொரு சொல்லும் கீழ்க்கண்ட மதிப்பெண்களைக் கொண்டுள்ளது.
- முனைவு: எதிர்மறையா அல்லது நேர்மறையா
- அகநிலைப்பாடு: தற்சார்புடைய (subjective) அல்லது தற்சார்பற்ற (objective)
- தீவிரம் (intensity): அடுத்த சொல்லை மாற்றியமைக்கிறது (எடுத்துக்காட்டாக, “மிக” ஒரு மாற்றியமைக்கும் சொல்)
ஒரு தனிப்பட்ட குறிப்பு. பகுப்பாய்வு செய்யும்போது TextBlob ஓரெழுத்துச் சொற்களைப் பொருட்படுத்தாது. மற்ற சில இயல்மொழி ஆய்வுகளில் ஈரெழுத்துச் சொற்களையும் விட்டு விடுகிறார்கள். ஏனெனில் ஆங்கிலத்தில் இவை வாக்கியத்தின் பொருளுக்கு அவசியமில்லாத stop words என்று சொல்கிறார்கள். ஆனால் தமிழிலோ ஆ, ஈ, தீ, கை, மா, வா, போ, வை போன்ற ஓரெழுத்துச் சொற்கள் மிக அவசியமானவை. எனினும் ஆங்கிலத்துடன் ஒப்பிடுகையில் ஆ, ஈ மட்டுமே ஓரெழுத்துச் சொற்கள். ஒரு மெய்யெழுத்தும் ஒரு உயிரெழுத்தும் சேர்ந்துள்ளதால் மற்ற உயிர்மெய் எழுத்துகள் ஈரெழுத்துச் சொற்களே.
தேசிய அறிவியல் அறக்கட்டளை (NSF) மானியமும், ஆல்ஃபிரெட் பி. ஸ்லோன் ஆய்வு உதவித் தொகையும் பெற்று கார்னெல் பல்கலையில் சில ஆய்வாளர்கள் உணர்வு பகுப்பாய்வு சோதனைகளில் பயன்படுத்த தரவுகளைத் தயாரித்தனர். இந்த தரவுத்தளத்தில் இணைய திரைப்பட தரவுத்தளம் (IMDB), rec.arts.movies.reviews செய்திக்குழு, அழுகிய தக்காளிகள் (Rotten Tomatoes) திரைப்படங்கள் மற்றும் தொலைக்காட்சிகளை மதிப்பாய்வு மற்றும் திரட்டு செய்யும் அமெரிக்க இணையதளம் ஆகியவற்றிலிருந்து எடுக்கப்பட்ட விமர்சனங்கள் உள்ளன.
- 1000 நேர்மறை மற்றும் 1000 எதிர்மறை சீர் செய்யப்பட்ட திரைப்பட விமர்சனங்கள்.
- 5331 நேர்மறை மற்றும் 5331 எதிர்மறை சீர் செய்யப்பட்ட வாக்கியங்கள் மற்றும் துண்டுகள்.
- 5000 தற்சார்புடைய (subjective) மற்றும் 5000 தற்சார்பற்ற (objective) சீர் செய்யப்பட்ட வாக்கியங்கள்.
சமூக ஊடகத் தரவுகளை இயல்மொழி ஆய்வு செய்வதில் எழும் சவால்கள்
சமூக இயங்குதளங்களின் கட்டுப்பாடற்ற சூழல்கள் பயனர்கள் பேச்சுவழக்கு, தனிப்பட்ட சொற்கள் மற்றும் அஃகுப்பெயர்களைப் (acronyms) பயன்படுத்துவதை ஊக்குவிக்கின்றன. சில எடுத்துக்காட்டுகள் ஜுஜூபி, மரண மொக்கை, ROFL ஆகியவை. இவற்றைப் புரிந்து கொள்வதற்காக தமிழ் அகராதியில் சேர்ப்பதா, ROFL போன்ற சுருக்கங்களை முன்செயலாக்கத்தில் விரித்து எழுதி மொழிபெயர்ப்பு செய்வதா போன்ற பிரச்சினைகள் சமூக ஊடகத் தரவுகளில் எழும். பெரும்பாலும் இவற்றை உணர்வு பகுப்பாய்வு திட்டங்களால் புரிந்து கொள்ள முடிவதில்லை. ஆகவே சூழல் மற்றும் உணர்வை விளக்குவது கடினமாக உள்ளது.
இருப்பினும், நிறுவனங்கள் தங்கள் வாடிக்கையாளர்களுடன் நேரடியாகத் தொடர்பு கொள்ளவும், அவர்களின் விருப்பங்களைப் புரிந்துகொள்ளவும் சமூக ஊடகங்கள் மிகச் சிறந்த வழிமுறையாகவே உள்ளன. திறமையான முறையில் கையாண்டால், அது நீண்ட கால வணிக வளர்ச்சிக்கு நுண்ணறிவு உருவாக்க பயன்படும் தரவுகளை சேகரிக்க நிறுவனங்களுக்கு ஒரு சக்திவாய்ந்த கருவியாகும்.