தரவு அறிவியலுக்கான ஐந்து மறைக்கப்பட்ட இரத்தினம் போன்ற பைதானின் நூலகங்கள்

தரவு அறிவியல் மிகவும் வளர்ச்சியடைந்துள்ளது, பணிச்சுமையை குறைத்து செயல்திறனை மேம்படுத்த பைதான் சூழல் அமைப்பை நம்புவது கிட்டத்தட்ட அவசியமாகும். அதனால்தான் தரவு அறிவியல் பணிகளுக்கு இடமளிக்கின்ற வகையில் பல்வேறு பைதான் நூலகங்களும் உருவாக்கப்பட்டுவெளியிடுகின்றன.
இருப்பினும், Pandas, Scikit-learn, Seaborn போன்ற பிற பிரபலமான நூலகங்களால் மறைக்கப்படும் போது பிரபலமாகாத வேறபல பெரிய நூலகங்கள் யாருக்கும் பயன்படமுடியாமல் தத்தளிக்கலாம். உண்மையில், பிரபலமான நூலகங்களை விட பல மறைக்கப்பட்ட நூலகங்கள் வேறுசில சூழ்நிலைகளில் சிறப்பாக செயல்படுகின்றன என்பதே உண்மையான களநிலவரமாகும்.

இந்த கட்டுரை நம்முடைய பணிக்கு உதவக்கூடிய தரவு அறிவியலுக்கான மறைக்கப்பட்ட இரத்தினம்போன்று சிறந்த ஐந்து பைதான் நூலகங்களை ஆராய்கின்றது.
1. Cleanlab :தரவு அறிவியல் என்பது தரவு பற்றியது. நம்மிடம் மோசமான தரமற்ற தரவு இருந்தால், நம்முடைய பகுப்பாய்வும் மாதிரியும் மோசமாகவே இருக்கும். “குப்பை உள்ளே சென்றால், குப்பைதானே வெளியே வரும்” என்று ஒரு பழமொழி கூட உள்ளது. அதனால்தான் நமது தரவின் தரத்தை நாம் நன்றாக நிர்வகிக்க வேண்டும். Cleanlab என்பது தரவு தரத்தை மேம்படுத்த உதவும் ஒரு நூலகமாகும்.

Cleanlab தானாகவே நம்முடைய தரவுத்தொகுப்புகளை சுத்தம் செய்து இலக்கு முகவரிச்சீட்டில் உள்ள சிக்கல்களை அடையாளம் காணுகின்றது. தரவுத்தொகுப்பில் உள்ள சிக்கல்களைக் கண்டறிவதற்கும், மாதிரியின் செயல்திறனை மேம்படுத்த பிழைகளைக் கையாளுவதற்கும் இந்த நூலகம் சிறப்பாகச் செயல்படுகிறது. நமக்கு தரவுச் சிக்கல் அதிகமாக இருந்தால், Cleanlab நூலகத்தைப் பயன்படுத்திகொள்ள தயங்க வேண்டாம்.

  1. H3 Uber :புவியியலின் தரவு அறிவியலானது மிகவும் உற்சாகமான செயல்திட்டங்களில் ஒன்றாக இருக்கலாம், இருப்பினும் இதனை செயலாக்குவது மிகவும் கடினமான ஒன்றாகும். துல்லியமான இடத்தினைசார்ந்த தரவை அடைய தரவை தொடர்ந்து பராமரிப்பது சவாலானது, ஏனெனில் இந்தபிரிவு பொதுவாக ஒழுங்கற்றது காலப்போக்கில் மாறிகொண்டேயிருக்கிறது.
    Uber இன் திறமூல H3 நூலகம் புவியியல் தரவைப் பயன்படுத்துவதை எளிதாக்க உதவுகின்றது. இந்த H3 நூலகம் அறுகோண வலை அமைப்பைப் பயன்படுத்தி கொள்கிறது, தரவை அறுகோண கலண்களாக , கட்டமைப்புகளாகப் பிரித்து நிலையான இருப்பிடத் தரவைப் பெறுகிறது. எந்தவொரு துல்லியமான இருப்பிட அடிப்படையிலான பகுப்பாய்விற்கும், புவியியல் பயன்பாடுகளை மேம்படுத்துவதற்கும் இவ்வாறான தரவினை பயன்படுத்திகொள்ளலாம்.

  2. IceCream :இது ஒரு இனிப்பு அன்று.பைதான் நூலகத்தில் IceCream என்பது பிழைத்திருத்த செயல்முறையை மேம்படுத்துவதன் மூலம் நம்முடையதரவு அறிவியல் பணியை மேம்படுத்துகின்ற ஒரு இனிமையான விருந்தாகும். பொதுவாக,பெரும்பாலான நிரலாக்க செயலிகள் பின்னணியிலேயே செயல்படுகின்றன, மேலும் தரவு அமைப்பு, செயலாக்கம் உட்பட என்ன நடக்கிறது என்பதை நாம் கண்ணால் காணமுடியாது IceCreamஆனது எளிய அச்சு செயலியை சிறந்த தகவலை உருவாக்கக்கூடிய பிழைத்திருத்த இயந்திரமாக மாற்றுகிறது. வெளியீட்டு தொடரியல் சிறப்பம்சமாக இருக்கும்போது செயலியின் அல்லது மாறியின் பெயர்கள் இரண்டையும் அவற்றின் மதிப்புகளுடன் அச்சிடுகின்ற வெளியீட்டை உருவாக்குவது போன்ற பல செயல்களை இந்த நூலகத்தால் செய்ய முடியும். தரவு கட்டமைப்புகளை அழகாக அச்சிடுவதும் நல்லதொருபணியாக இருக்கிறது, சமன்பாட்டிலிருந்து குழப்பத்தையும் எடுத்துக்கொள்கிறது. கூடுதலாக, இது நிரலின் ஒட்டுமொத்த செயல்பாட்டை ஆய்வு செய்ய உதவுகின்றது.

  3. Fairlearn :தரவு அறிவியல் செயல்திட்டங்கள் வணிகநிறுவனங்களுக்கு பயனுள்ளதாக இருக்கின்றன, ஆனால் நாம் பயன்படுத்துகின்ற பல்வேறு தரவுத்தொகுப்புகள் மனிதர்களுடன் பல்வேறு வழிகளில் தொடர்புடையவை என்பதையும் நினைவில் கொள்க. நாம் நிறுவுகைசெய்திடுகின்ற மாதிரி அமைப்பு முடிந்தவரை பக்கச்சார்பற்றதாக இருக்க வேண்டும், சில சமூக குழுக்களுக்கு எதிராக பாகுபாடு காட்டக்கூடிய சாத்தியக்கூறுகளை அகற்ற வேண்டும். மாதிரி உருவாக்கத்தின் போது எந்தவொரு சார்பு மதிப்பீட்டைச் செய்வது நம்முடைய முதல் உள்ளுணர்வு அன்று, ஆனால் அது எப்போதும் பக்கசார்பற்றதாக இருக்க வேண்டும். அங்குதான் Fairlearn நமக்கு உதவ தயாராக இருக்கின்றது.

Fairlearnஎன்பது ஒரு பைதான் நூலகமாகும், இது நம்முடைய இயந்திர கற்றல் அமைப்புகளில் உள்ள நியாயமற்ற சிக்கல்களைக் குறைக்க உதவுகிறது. இந்நூலகம் நியாயமான அளவீடுகளை , தருக்கங்களைக் கொண்டுள்ளது. மாதிரியால் எந்தக் குழுக்கள் எதிர்மறையாகப் பாதிக்கப்பட்டுள்ளன என்பதையும் ஒட்டுமொத்தமாக அது எவ்வளவு நியாயமானது என்பதையும் நியாயமான அளவீடுகள் மதிப்பிடுகின்றன. அதே நேரத்தில்,ஒரு பக்கச்சார்புடைய , நியாயமற்ற தன்மையைக் குறைப்பதற்கான தணிப்பு நுட்பங்களை இந்த தருக்கம் வழங்குகிறது.
5. Scikit-posthocs: தரவு அறிவியலில் நிறைய புள்ளியியல் பகுப்பாய்வுகள் அடங்கியுள்ளன, குறிப்பாக தரவுத்தொகுப்புகளை குழுக்களை ஒப்பிடுவது ஆகும். தரவு அறிவியல் என்பது இயந்திர கற்றல் மாதிரியை பற்றியது என்று பொதுமக்கள் நினைக்கலாம், ஆனால் எளிய புள்ளிவிவரங்களின்மூலம் பல்வேறு செயல்திட்டங்களை தீர்க்க முடியும். ஒரு பொதுவான பகுப்பாய்வு ANOVA போன்ற குழுக்களிடையே கருதுகோள் பரிசோதனை ஆகும்.

ANOVA இன் துவக்கப் பகுப்பாய்விற்குப் பிறகு அல்லது பகுப்பாய்வின் போது முக்கியத்துவம் கண்டறியப்பட்டால், பிந்தைய தற்காலிக பகுப்பாய்வு செய்யப்படுகிறது.
Scikit-posthocs என்பது ஒரு பைதான் நூலகமாகும், இது நம்முடைய பணிப்பாய்வுகளில் பிந்தைய பகுப்பாய்வை எளிதாக்குகிறது. Scikit-learn போன்ற API உடன் அளவுரு ,அளவுரு அல்லாத பரிசோதனைகளைச் செய்ய பயன்படுத்தக் கூடிய அனைத்து கருவிகளையும் இது வழங்குகிறது. பரிசோதனை முடிவுகளைச் சரிபார்க்க விரும்பினால், இந்த நூலகத்தைப் பயன்படுத்திகொள்க.

முடிவாக இந்த கட்டுரையில், தரவு அறிவியலுக்கான ஐந்து வெவ்வேறு பைதான் நூலகங்களை நாம் ஆய்வுசெய்தோம், அவைகுறித்த விவரங்கள் இதுவரை நமக்குதெரியாமல் இருக்கலாம். இந்த மறைக்கப்பட்ட இரத்தினங்களைப் நம்முடைய அன்றாட பயன்பாட்டில் பயன்படுத்த முயற்சித்திடுக

%d bloggers like this: