இயந்திரக் கற்றலுக்கு படத்தரவுகள் அவசியம்
இயந்திரக் கற்றல் முறையில் பல்லாயிரம் படங்களையும் அவற்றைக் கைமுறையாக வகைப்படுத்திய தரவுகளையும் உள்ளீடு செய்யவேண்டும் என்று முன்னர் பார்த்தோம். இம்மாதிரி படங்களும், தரவுகளும் நமக்கு எங்கிருந்து கிடைக்கும்?
எம்னிஸ்ட் (MNIST)
இது கையால் எழுதப்பட்ட இலக்கங்களின் பெரிய தரவுத்தளமாகும். இது பொதுவாக பல்வேறு இயந்திரக் கற்றல் பட வகைப்படுத்தல் (classification) முறைகளில் பயிற்றுவிக்கவும், சோதனை செய்யவும் பயன்படுகிறது.
சிஃபார் (CIFAR)
இந்தத் தரவுத்தளத்தில் வானூர்திகள், சீருந்துகள், பறவைகள், பூனைகள், மான்கள், நாய்கள், தவளைகள், குதிரைகள், கப்பல்கள் மற்றும் சரக்குந்துகள் ஆக பத்து வெவ்வேறு வகைகளில் படங்கள் கிடைக்கும்.
நார்ப் (NORB)
இந்தத் தரவுத்தளத்தில் பல்வேறு ஒளி மற்றும் தோற்ற அமைவில் பொம்மைகளின் தொலைநோக்கிப் படங்கள் (binocular images) உள்ளன. முப்பரிமாணப் பொருட்களை அடையாளம் கண்டுகொள்ளும் சோதனைகளுக்காக இந்த தரவுத்தளம் வடிவமைக்கப்பட்டுள்ளது. இதில் விலங்குகள், மனித உருவங்கள், வானூர்திகள், சரக்குந்துகள் மற்றும் சீருந்துகள் வகைகளைச் சேர்ந்த ஐம்பது பொம்மைகளின் படங்கள் உள்ளன.
லேபல்-மி (Labelme)
எம்ஐடி (MIT) பல்கலை இந்த குறிப்புரைகள் கூடிய படங்களின் தரவுத்தொகுப்பை வெளியிடுகிறது. இது பல்வேறு கோணங்கள், அளவுகள் மற்றும் நோக்குநிலைகளில் படங்களைக் கொண்டுள்ளது. பலகோண எல்லைப் பெட்டியை (polygon bounding box) வரைவதன் மூலம் ஒரு படத்திற்குள் பல பொருட்களைக் குறிக்க இது அனுமதிக்கிறது.
தெருவிலிருந்து தெரியும் வீட்டு எண்கள் (Street View House Numbers – SVHN)
கூகிள் சாலை வரைபடங்களில் நீங்கள் தெருவிலிருந்து தெரியும் வீடுகளின் படங்களைப் பார்த்திருக்கலாம். இந்தப் படங்களில் தெரியும் வீட்டு எண்களின் படங்கள் மட்டும் இந்தத் தரவில் கிடைக்கின்றன.
கோகோ (COCO – Common Objects in Context)
கோகோ என்பது ஒரு பெரிய அளவிலான பொருள் கண்டறிதல், பகுதிப் பிரிப்பு (segmentation) மற்றும் படவிளக்கம் கொடுத்தல் (captioning ) தரவுத்தொகுப்பு ஆகும். இதில் பொருட்களைச் சுற்றி எல்லைப் பெட்டிகளும் உள்ளன.
படவலை (ImageNet)
சொல்வலை (Wordnet) என்பது சொற்களுக்கு இடையிலான சொற்பொருள் உறவுகளைச் சித்தரிக்கும் தரவுத்தளம். சொல்வலையில் உள்ள ஒவ்வொரு பொருளுள்ள கருத்தும், பல சொற்கள் அல்லது சொற்றொடர்களால் விவரிக்கப்படலாம். இது “ஒத்த தொகுப்பு (synset)” என்று அழைக்கப்படுகிறது. சொல்வலையில் ஒரு லட்சத்துக்கும் மேற்பட்ட ஒத்த தொகுப்புகள் உள்ளன. இவற்றில் பெரும்பாலானவை பெயர்ச்சொற்கள்.
படவலை என்பது சொல்வலை வரிசைக்கு ஏற்ப ஒழுங்கமைக்கப்பட்ட ஒரு படத் தரவுத்தொகுப்பு. படவலையில் ஒவ்வொரு ஒத்த தொகுப்பையும் விளக்குவதற்கு சுமார் ஆயிரம் படங்கள் கிடைக்கும். பெரும்பாலான படங்களுக்கு குறிப்புரைகளும், எல்லைப் பெட்டிகளும் உண்டு.
நன்றி
இத்தொடரில் அடுத்த கட்டுரை: கற்றல் தரவு சேகரித்தல்
புதிய பணியாளருக்குப் பயிற்சி கொடுப்பது போலவேதான். தரவுத்தளங்களில் உள்ள படங்களை முடிந்தால் பயன்படுத்தலாம். தரவுகளை வகைப்படுத்தலும் குறியிடுதலும் (Classifying and labeling). படக் குறிப்புரைக் (annotation) கருவிகள்.