கேட்பொலியை படியெடுத்திட OpenAI இன் Whisper எனும் கருவி

தற்போது கணினியை பயன்படுத்துபவர்களின் அனைவரின் விவாதங்களிலும் உருவாக்க செநு(Generative AI) என்பதே முதன்மையான தலைப்பாக மாறியுள்ளது இது கணினி மட்டுமல்லாத அனைத்து தொழில்நுட்பத் துறையிலும் அதிக சலசலப்பைக் கொண்டுவந்துள்ளது. அதனால் உருவாக்க செநு (GenAI) என்பது என்ன, அதை எவ்வாறு சிறந்த முறையில் செயல்படுத்தி பயன்பெறுவது என்ற விவரங்களையே அனைவரும் அறிய விரும்புகிறார்கள். உருவாக்க செநு (GenAI) என்பது அடிப்படையில் செயற்கை நுண்ணறிவின் ஒரு துணைப் புலமாகும், இது உருவப்படங்கள், உரை, கேட்பொலி அல்லது பைனரி அல்லது பைனரி அல்லாத வேறு எந்தவொரு வடிவமாக இருந்தாலும், அதில் புதிய உள்ளடக்கத்தை உருவாக்கிடுவதற்காகவே வடிவமைக்கப்பட்டுள்ளது. இது பயிற்சியளிக்கப்பட்ட முன்மாதிரி தரவுகளுக்கு இணங்க செயல்படுமாறு அமைந்துள்ளது. அதனோடு தற்போது நாம்அனைவரும் மிகஆர்வமாக அறிந்து கொள்ள விரும்புகின்ற OpenAI இன் ChatGPT என்பது மிகவும் பிரபலமான உருவாக்கசெநு (GenAI) இன் மாதிரிகளில் ஒன்றாகும். அதற்கடுத்ததாக தற்போது OpenAI ஆனது Whisper எனப்படும் புதியதொரு மிக அற்புதமான மாதிரியையும் வெளியிட்டுள்ளது, இதுகுறித்து விவரங்களை தெரிந்துகொள்வோமா.
Whisper என்பது ஒரு திறமூல இயந்திர கற்றல் (machine learning) மாதிரியாகும், இதன் மூலம் கேட்பொலியை அடையாளம் கண்டு உரையாக படியெடுத்திட முடியும், மேலும் இதன் வாயிலாக தற்போது நாம் பேசுவதற்காக. பயன்படுத்தப்பட்டுவருகின்ற பரந்த அளவிலான பல்வேறு மொழிகளிலும் கேட்பொலியை அடையாளம் கண்டு உரையாகபடியெடுத்திட முடியும். எந்தவொரு கேட்பொலியையும் இதில் உள்ளீடு செய்தால்,உடன் இது தொடர்புடைய மொழியைக் கண்டறிந்து, அந்த மொழியில் உரையை படியெடுத்திடுகின்ற பணியை உருவாக்கி, அதை ஆங்கிலத்தில் மொழிபெயர்த்திடுகின்றது.
கேட்பொலியை ஏற்புகைசெய்வது எவ்வாறு என்பதுதான் கணினியின் மிகநீண்ட காலமான ஆராய்ச்சியின் தலைப்பாகும். இதற்காக தொடக்ககால வழிமுறைகளில் நேரத்தை உருமாற்றுதல் மறைக்கப்பட்ட மார்கோவ் மாதிரிகள் (Hidden Markov Models (HMM)) போன்ற தொழில்நுட்பங்கள் பயன்படுத்தி கொள்ளப்பட்டன. இறுதியில், தரவு அறிவியலின் பெரும்பாலான பயன்பாடுகளைப் போன்றே, ஆழ் கற்றல்(deep learning) அணுகுமுறைகளும் இந்தத் துறையில் பரவலாக பயன்பாட்டில் இருந்தன. பேரளவுதரவு தொழில்நுட்பங்களின் உதவியுடன், ஆழ்கற்றல்ஆனது மிகவும் பயனுள்ளதாக இருந்தது. வழக்கப்படியான நரம்பியல்வலைபின்னல்கள் ( Conventional neural networks (CNNs)) ,மீள்தொடர் நரம்பியல் வலைபின்னல்கள் (recurrent neural networks (RNNs)) ஆகியன முக்கியமாகப் பயன்படுத்தப்பட்டன. அதனை தொடர்ந்து கூகுள் நிறுவனம் அறிமுகப்படுத்திய மொழிமாற்றி (Transformers) எனும் நூலகம் ஆனது நம்பமுடியாத அளவிற்கு பயனுள்ளதாக இருந்ததால் இது பெரும்பாலான இயந்திர கற்றல் பணிகளையும் பயன்பாடுகளையும் சீர்குலைத்தது. தற்போது கூகுளின் இந்த மொழிமாற்றி(Transformers) எனும் நூலகத்தைப் பயன்படுத்தியே புதியதாக விஸ்பர் என்பது உருவாக்கப்பட்டு வெளியிடப்பெற்றள்ளது, இது குறியீடாக்கி-குறிமொழிமாற்றி எனும் வடிவமைப்பை அடிப்படையாகக் கொண்டது. புதியதான இந்த விஸ்பர் என்பது,கேட்பொலியை உரையாகமாற்றிடுகின்ற துறையில் ஒரு முக்கிய மைல்கல் ஆகும்.
எனவே விஸ்பரை எவ்வாறு பயன்படுத்துவது எனஇப்போது அறிந்து கொள்வோமா.
முதலில்,பின்வருமாறான கட்டளைவரிகளைப் பயன்படுத்தி இந்தவிஸ்பரை நிறுவுகைசெய்திடுக:
pip install whisper

(base) sk-MacBook-Air:~ sk$ pip install whisper
Collecting whisper
Downloading whisper-1.1.10.tar.gz (42 kB)
Preparing metadata (setup.py) … done
Requirement already satisfied: six in ./anaconda3/lib/python3.11/site-packages (from whisper) (1.16.0)
Building wheels for collected packages: whisper
Building wheel for whisper (setup.py) … done
Created wheel for whisper: filename=whisper-1.1.10-py3-none-any.whl size=41121 sha256-8c8051947499458bc06c3b1ab1cff2f 3005604624c1fca58271356f596241070
Stored in directory: /Users/skaurav/Library/Caches/pip/wheels/21/65/ee/4e6672aabfa486d3341a39a04f8f87c77e5156149299b5a7d0

Successfully built whisper
Installing collected packages: whisper
Successfully installed whisper-1.1.10
அடுத்து, நாம் ffmpeg என்பதை நிறுவுகைசெய்திட வேண்டும். அதற்காக பின்வருமாறான கட்டளைவரியைப் பயன்படுத்திகொள்க:
sudo apt update && sudo apt install ffmpeg
இப்போது நாம்இந்த விஸ்பர் மாதிரியைப் பயன்படுத்தத் தயாராக உள்ளோம்,
தொடர்ந்து இதனை செயல்படுத்திட பின்வருமாறான கட்டளைவரிகளை பயன்படுத்திடுக. பதிவு செய்யப்பட்ட ஒரு மாதிரி கேட்பொலியை இங்கே பயன்படுத்திகொள்ளலாம் . மாற்றாக, இணையத்திலிருந்து கூட ஏதேனும் கேட்பொலி கோப்புகளையும் பயன்படுத்திகொள்ளலாம்.
whisper sample_audio.wav
(base) sk-MacBook-Air: downloads sk$ whisper audio_sample.wav
/Users/skaurav/anaconda3/lib/python3.11/site-packages/whisper/transcribe.py:126: UserWarning: FP16 is not supported on CPU; using FP32 instead
warnings.warn(“FP16 is not supported on CPU; using FP32 instead”)
Detecting language using up to the first 30 seconds. Use –language to specify the language
Detected language: English
[00:00.000 –> 00:07.000] hi this is sk what are you doing today
உடன்கேட்பொலியை, படியெடுத்திடுகின்ற பணி சரியாக செயற்படுத்தி மிகச்சரியான உரையாக மாறியுள்ளதை காணலாம்.
நாம் விரும்பினால் இதை மற்ற மொழிகளிலும் முயற்சி செய்யலாம்.
ஒரு கேட்பொலி கோப்பை தமிழில் பதிவு செய்து பின்வருமாறான கட்டளைவரிகளைப் பயன்படுத்தியதன் விளைவாக இது சரியாக படியெடுத்து வழங்குவதைகூட காணலாம்
whisper audio_sample_tamil.wav –language Tamil
(base) sk-MacBook-Air: downloads sk$ whisper audio_sample_tamil.wav –language Tamil
/Users/sk/anaconda3/lib/python3.11/site-packages/whisper/transcribe.py:126: UserWarning: FP16 is not supported on CPU; using FP32 instead
warnings.warn(“FP16 is not supported on CPU; using FP32 instead”)

[00:00.000 –> 00:05.000] என்பெயர் sk நான் மிகமதிப்புமிக்கவன்

(base) sk-MacBook-Air: downloads sk $
மொழியின் மதிப்புருவைப் பயன்படுத்தி நாம் பயன்படுத்திகொள்ளவிரும்பும் மொழியைக் குறிப்பிடலாம் அல்லது கேட்பொலி கோப்புடன் நேரடியாக விஸ்பரை வழங்கலாம், மேலும் அது கேட்பொலி கோப்பினை முதல் சில வினாடிகளில் அதை ஆய்வுசெய்தபின்னர் தானாகவே அந்த கேட்பொலி கோப்பில் பயன்படுத்தப் பட்டுள்ள மொழியைக் கண்டறிந்து உரையை படியெடுத்து நமக்கு வழங்குகின்றது.
மேலும் பின்வருமாறான கட்டளைவரிகளைப் பயன்படுத்தி ஆங்கில மொழிபெயர்ப்பையும் பெறலாம். இந்த நோக்கத்திற்காக – மொழிபெயர்ப்பு அளவுருவை ஒரு மதிப்புருவாகப் பயன்படுத்திகொள்ளலாம் என்ற செய்தியையும் காண முடியும் , சரியான மொழிபெயர்ப்பையும் பெற்றிடமுடியும்.
[(base) sk-MacBook-Air: downloads sk$ whisper audio_sample_tamil.wav –language Tamil –task translate ]
/Users/sk /anaconda3/lib/python3.11/site-packages/whisper/transcribe.py:126: UserWarning: FP16 is not suppo
rted on CPU; using FP32 instead
warnings.warn(“FP16 is not supported on CPU; using FP32 instead”)
[00:00.000 –> 00:05.000] My name is sk and I am a very good person.
(base) sk-MacBook-Air: downloads sk$
அதனோடு பைதானின் குறிமுறைவரிகளைப் பயன்படுத்தியும் விஸ்பரை இயக்கி பயன்பெறலாம். மிகஅதிக எண்ணிக்கையிலான கோப்புகளில் அதை இயக்க விரும்பினால், அதற்கான அடிப்படை குறிமுறைவரிகள் பின்வருமாறு. இதனை தொகுப்பான செயலாக்கம் போன்றவற்றுக்குப் பயன்படுத்திகொள்க. இந்தக் குறிமுறைவரிகளை மேலும் மேம்படுத்தி பயன்படுத்தி கூடுதல் பயன் பெற்றிடுக.
import whisper

model = whisper.load_model(“base”)
result = model.transcribe(“audio_sample.wav”)
print(result[“text”])
இதுவரை கண்டுவந்தவைகளே OpenAI இன் Whisper எனும்மாதிரியை பயன்படுத்தி கொள்வதற்கான வழிமுறைகளாகும்! நாம் கேட்பொலியை -உரையாக படியெடுத்தலை செய்ய, OpenAI இன் Whisper எனும் மாதிரியை இப்போது வெற்றிகரமாகப் பயன்படுத்திகொண்டோம். இதில் வாடிக்கையாளர் சேவையை மேம்படுத்துவது முதல் அதிகாரப்பூர்வமான படியெடுத்தல் பணிகளைப் பெறுவது வரை கேட்பொலி முதல் உரையாக செய்வது வரை பல்வேறு பயன்பாடுகள் உள்ளன. அத்தகைய செயல்முறைகளை தானியக்கமாக்கு வதற்கான பணியின் முதல் படியை தற்போது கடந்துவிட்டோம். இதை ஒரு அடித்தளமாகப் பயன்படுத்தி விஸ்பருக்கான வேறுபல வழிமுறைகளைப் பயன்படுத்தி மேலும் அதிக பயன்பாடுகளை உருவாக்கி கொள்ள openai.com/research/whisper , github.com/openai/whisper ஆகிய இணையதள முகவரிக்களுக்கு செல்க..

%d bloggers like this: