தரவு ஏரிகள்(Data Lakes)
ஒரு பெரிய அளவிலான தரவு ஆனது சமூக ஊடகங்கள், IoT , தொழில் நுட்பம் ஆகியன போன்றவற்றின் வருகையுடன் இணைந்து உருவாக்கப்பட்டு வளர்ச்சியடைகின்றது. இந்தத் தரவிலிருந்து அதிகபட்ச நன்மைகளைப் பிரித்தெடுப்பதற்காக தரவு ஏரிகளின் கருத்தமைவானது வெளியிடப் பட்டுள்ளது – மேம்படுத்தப்பட்ட தகவமைப்பு , வலுவான தரவு பகுப்பாய்விற்காக. தரவு ஏரி என்பது ஒழுங்கமைக்கப்பட்ட , கட்டமைக்கப்படாத பன்முகத் தரவைச் சேமிப்பதற்கான சேமிப்பகமாகும். இது ஒரு நிறுவனத்திற்குள் மூலத் தரவினை கைபற்றுதல், தூய்மைபடுத்துதல் , ஆய்வுசெய்தல் ஆகிய பணிகளை மேம்படுத்துகிறது. தரவுஆனது அதன் அசல் வடிவத்திலேயே சேமித்து வைக்கப்படுகிறது, மேலும் தரவுகளின் கட்டமைப்பானது பயன்பாட்டின் போது வரையறுக்கப் படுகிறது, சிக்கலான , விலையுயர்ந்த தரவு மாதிரியாக்கத்தை நீக்குகிறது. பாரம்பரிய முடிவெடுத்தல் ஆதரவு அமைப்புகளானவை (Traditional decision support systems (DSS)) பல்வேறு ஆதாரங்களால் உருவாக்கப்பட்ட கட்டமைக்கப்பட்ட, கட்டமைக்கப்படாத அல்லது பகுதி-கட்டமைக்கப்பட்ட தரவைக் கையாளும் திறன் கொண்டவை அல்ல. தரவுக் கிடங்கு (DW) என்பது DSS ஆல் பயன்படுத்தப்படுகின்ற தீர்வாகும். இங்கே, முன் வரையறுக்கப்பட்ட செயல்திட்டங்களின்படி தரவு பிரித்தெடுக்கப்பட்டு, மாற்றப்பட்டு பதிவேற்றம் செய்யப்படுகிறது (ETL செயல்முறைகள்). இருப்பினும், தரவின் அளவும் ,சிக்கலும்அதிகரிக்கும் போது DW இன் விலை கணிசமாக அதிகரிக்கிறது, மேலும் ETL செயல்முறைகளின் மூலம் சில தகவல்கள் இழக்கப்படுகின்றன.
தரவு ஏரியின் கட்டமைப்பு
தரவு ஏரி கட்டமைப்பைப் புரிந்துகொள்வது ஆனதுமிகவும் திறமையான தரவு சேமிப்பு, விரைவான செயலாக்கம், சிறந்த முடிவெடுப்பதற்கு வழிவகுக்கும். தரவு ஏரி கட்டமைப்பானது இரண்டு பதிப்புகளைக் கொண்டுள்ளது.
ஒற்றைபகுதி (Mono–zone): இது ஒரு தட்டையான கட்டமைப்பாகும், இது தரவை அதன் சொந்த வடிவத்தில் சேமிக்கிறது. இந்தக் கட்டமைப்பானது தரவைச் செயலாக்குவதில்லை அல்லது பயனர் செயல்பாடுகள் எதையும் பதிவு செய்யாது. இது ஐந்து தரவு குளங்களைக் கொண்டுள்ளது, அவை அவற்றின் பண்புகளின்படி தரவைச் சேமிக்கின்றன:
மூலத்தரவு குளங்கள் இவை மூலத்தரவுகளை சேமித்து வைக்கின்றன
ஒப்புமை தரவு குளங்கள், இவை தரவுகளின் ஒப்புமை வகைகளை சேமிக்கின்றன
பயன்பாட்டுத் தரவு குளங்கள், இவை பயன்பாட்டுத் தரவைச் சேமிக்கின்றன
உரைவடிவியலானதரவு குளங்கள்,இவை உரைவடிவிலான தரவினை சேமிக்கின்றன
காப்பக தரவு குளங்கள், இவைபயன்பாட்டில் இல்லாத தரவுகளை சேமிக்கின்றன
2. பல்வகைபகுதி (Multi-zone) : பல்வகைபகுதி கட்டமைப்பு ஆனது பின்வரும் பகுதிகளைக் கொண்டுள்ளது.
தன்மயமாக்குதல்: மூலத் தரவைக் கொண்டுள்ளது.
சேமிப்பகம்: தன்மயமாக்கப்பட்ட மூலத் தரவு இங்கே சேமிக்கப்படுகிறது. செயலாக்கம்செய்தல்: தரவு ஆனது செயலாக்கப்படும் போதெல்லாம், அது இங்கு சேமிக்கப்படும். இதை மேலும் பின்வருமாறானஇரு துணை பகுதிகளாகப் பிரிக்கலாம்
. தொகுதி செயலாக்கமும் ,நிகழ்நேர செயலாக்கமும்
இந்தப்பகுதி தரவு பாதுகாப்பு, தரவு தரம், மீப்பெரும்தரவுமேலாண்மை , தரவு வாழ்க்கை சுழற்சியை கட்டுப்படுத்துகிறது.
தரவு ஏரி சேமிப்பு அமைப்புகள் வணிகநிறுவனங்கள் தங்கள் தரவை எவ்வாறு சேமித்து நிர்வகிக்கின்றன என்பதற்கான செயல்பாட்டினை தரவு ஏரிகளானவை தனிப்பட்ட தரவுத்தளங்கள் ,விரிதாட்கள் ஆகியவற்றிற்குப் பதிலாக மாற்றியமைக்கின்றன.,
தரவுஏரிஅமைவுகளானவை நம்மை பெரிய அளவிலான தரவை ஒரே இடத்தில் சேமித்து வைத்து அதனை நாம் அனுக அனுமதிக்கின்றன, நிகழ்நேரத்தில் அதை பகுப்பாய்வு செய்வதற்கான நெகிழ்வுத்தன்மையை நமக்கு வழங்குகின்றன. இதை அடைய அவை பல்வேறு வகையான சேமிப்பு அமைப்புகளைப் பயன்படுத்துகின்றன. இவை பின்வருமாறு
. கோப்பு அடிப்படையிலான சேமிப்பக அமைப்புகள்: Hadoopஇன் விநியோகிக்கப்பட்ட கோப்பு முறைமை ( Hadoop Distributed File System (HDFS)) ,மைக்ரோசாப்ட் வழங்கும் Azure Data Lake ஆகியவை தரவு சேமிப்பிற்காகப் பயன்படுத்தப்படுகின்ற கோப்பு அடிப்படையிலான தரவு ஏரிகள் ஆகும்.
ஒற்றைத் தரவு சேமிப்பு: இந்த வகையிலான தரவு அங்காடிகள் குறிப்பிட்ட வகையிலான தரவுகளில் கவனம் செலுத்துகின்றன , அவற்றின் சேமிப்பிற்காக ஒற்றைத் தரவுத்தள அமைப்பைப் பயன்படுத்திகொள்கின்றன.
மேககணினி அடிப்படையிலான தரவு ஏரிகள்: Amazon Web Services (AWS), Azure Data Lake Store, Google Cloud Platform (GCP), Alibaba Cloud, Snowflake ஆகியவற்றிலிருந்து தரவின் மேககணினி போன்ற மேககணினியின் உள்கட்டமைப்புகளில் பெரிய அளவிலான வணிகத் தரவு ஏரிகள் கிடைக்கின்றன.
தரவு ஏரிகளின் நன்மைகள் தரவு ஏரிகள் நிறுவனங்களுக்கு நுண்ணறிவுகளைப் பெறவும், செயல்படக்கூடிய உத்திகளை உருவாக்கவும் அதிகாரம் அளிக்கின்றன. இருப்பினும், அவைகள் செயல்படுவதற்கான வாய்ப்பு இன்னும் நிறைய இருக்கின்றது.
செலவு குறைந்தவை: பாரம்பரிய முடிவெடுத்திடஉதவிடுகின்ற தரவுத் தளங்களைக் காட்டிலும், தரவு ஏரிகள் வரிசைப்படுத்துவதற்கு குறைந்த செலவாகும்.
தரவின் நம்பகத்தன்மை: தரவின் முன் செயலாக்கம் , உருமாற்ற செயல்பாடுகளால் ஏற்படக்கூடிய தரவு இழப்பைத் தவிர்க்க அவை அசல் தரவைப் பாதுகாக்கின்றன. எவ்வாறாயினும், இதில்தரவின் நம்பகத்தன்மையானது, எந்தவொரு மாற்றமும் இல்லாமல் பல்வேறுபட்ட மூலங்களிலிருந்து தரவு ஒருங்கிணைப்பு காரணமாக தரவு ஏரிகளில் தரவு முரண்பாட்டின் அதிக அபாயத்தை அறிமுகப்படுத்துகிறது. நெகிழ்வுத்தன்மையும் , விரைவாகசெயல்படும்தன்மையும்: தரவு ஏரிகளானவை ஒரு படிப்பதற்கான அமைப்புமுறைகள் (schema-on-read) அனுகுமுறையைக் கொண்டுள்ளன; அதனால் அவை எந்தவொரு தரவு வகையின்,வடிவமைப்பையும் படிக்க முடியும். எனவே, தரவுக் கிடங்குகள் தரவுச் சந்தைகள் போன்ற பாரம்பரிய முடிவெடுக்கும் தரவுத்தளங்களைக் காட்டிலும் தரவு ஏரிகள் பரந்த அளவிலான பகுப்பாய்வுகளை செயல்படுத்துகின்றன, மேலும் சிறந்த நெகிழ்வுத்தன்மையையும் விரைவாக செயல்படுகின்ற தன்மையையும்கொண்டுள்ளன.
நிகழ்நேர தரவு தன்மயமாக்குதல்: தரவானது எந்தவொரு மாற்றமும் இல்லாமல் தரவு ஏரியில் தன்மயமாக்கப்படுகிறது, இது ஆதாரங்களில் இருந்து பிரித்தெடுக்கப்பட்ட தரவு, தரவுத்தளங்களிலிருந்து தன்மயமாக்குதல் ஆகியவற்றுக்கு இடையேயான கால தாமதத்தை குறைக்கிறது.
உயர்மட்ட அளவிடுதல்: விநியோகிக்கப்பட்ட தொழில்நுட்பங்களைப் பயன்படுத்தி தரவு ஏரிகள் செயல்படுத்தப்படுவதால், அவை அதிக அளவிடக்கூடிய தன்மையை வழங்குகின்றன.
தவறுகளின் சகிப்புத்தன்மை: தரவு ஏரிகளின் அடிப்படை தொழில் நுட்பங்கள் வன்பொருள், மென்பொருள் ஆகிய இரண்டில் ஏற்படுகின்ற தோல்விகளுக்கும் அதிக மீளும்தன்மையை வழங்குகின்றன, இதன் விளைவாக இதில் சிறந்த தவறுகளின் சகிப்புத்தன்மை உள்ளது. சுருக்கமாக கூறுவதெனில், தரவு ஏரிகளானலை நிறுவனங்களின் தரவுகளிலிருந்து மதிப்புமிக்க நுண்ணறிவுகளை வெளிக்கொணர அதிகாரம் அளிக்கிறது, எண்ணிம யுகத்தில் தரவு சார்ந்த முடிவெடுப்பதற்கும் வழி வகுக்கிறது.