மீப்பெரும் தரவு(Big Data) என்பது நிறுவனங்களால் சேகரிக்கப்பட்ட பகுதி-கட்டமைக்கப்பட்ட ,முழுவதும் கட்டமைக்கப் பட்ட அல்லது கட்டமைக்கப்படாத தரவுகளின் கலவையாகும், அவைகளை இயந்திர கற்றல், முன்கணிப்பு மாதிரியாக்கம், மோசடி கண்டறிதல், உணர்வு பகுப்பாய்வு ,பிற மேம்பட்ட பகுப்பாய்வு போன்ற பல்வேறுபயன்பாடுகளுக்குப் பயன்படுத்திகொள்ளலாம்.
சமீபத்திய நாட்களில் மீப்பெரும் தரவின் தீர்வுகளைப் பயன்படுத்தும் நிறுமங்கள்(companies) , நிறுவனங்கள்(organisations) , ஆய்வு கழகங்கள்(institutions) ஆகியவற்றின் எண்ணிக்கை, நாளுக்குநாள் சேகரிக்கப்பட்ட தரவுகளின் அளவைப் போலவே மீப்பெரும் அளவாக உயர்ந்துவருகின்றன. இவ்வாறு தினசரி உருவாக்கப்படும் தரவுகளின் மொத்த அளவானது 2.5 டிரில்லியன் பைட்டுகளாக இருக்கலாம் எனசில மதிப்பீடுகள் கூறுகின்றன! அவற்றை பயன்படுத்துவது ஒருபுறம் இருக்கட்டும் அத்தகைய மீப்பெரும் எண்களை பற்றி புரிந்துகொள்வது மிகக்கடினமாகும்,ஆனால் பல்வேறுநிறுவனங்கள் தங்களுடைய உயர்ந்த இலக்குகளுக்காக மீப்பெரும்தரவு பகுப்பாய்வுகளை ஆர்வத்துடன் ஏற்றுக் கொண்டுள்ளன.அதனடிப்படையில் மீப்பெரும்தரவு எவ்வளவு புரட்சிகரமானதாக இருக்கும் என்பதை நாம் இப்போதுதான் சிறிது சிறிதாகபுரிந்து கொள்ளத் தொடங்கு கின்றோம், மேலும் அது உண்மையில் உயர்ந்து வளர்ந்துவருவதால், வரும் ஆண்டுகளில் வணிகம் எவ்வாறு செய்யப்படுகிறது என்பதைப் பொறுத்து பல மாற்றங்களை எதிர்பார்க்கலாம். மீப்பெரும்தரவை பகுப்பாய்வு செய்ய NoSQL, Hadoop, Cassandra போன்ற பல்வேறு கருவிகள் உள்ளன. எண்ம பல்லூடகம், இணையச் சேவைகள், வணிகப் பயன்பாடுகள், இயந்திரப் பதிவுத் தரவு போன்ற பலதரப்பட்ட மூலங்களி லிருந்து பல்வேறு வகையான தரவுகளைச் சேகரிக்க இந்தக் கருவிகள் நம்மை அனுமதிக்கின்றன.
மீப்பெரும்தரவு(Big Data) என்பது ஒவ்வொரு நாளும் கிடைக்கின்ற , வளர்ந்து வருகின்ற மிகப்பெரிய, பலதரப்பட்ட தகவல்களைக் குறிக்கிறது. இதில் தரவின் அளவு, அது உருவாக்கப்பட்ட , சேகரிக்கப்படும் வேகம் சேகரிக்கப்பட்ட தரவுப் புள்ளிகளின் வகை ஆகியவைகளும் உள்ளடங்கியதாகும். இது பல ஆதாரங்களில் இருந்து வருகிறது பல வடிவங்களில் வருகிறது (csv, tsv, html, json, parquet, avro). மீப்பெரும்தரவு(Big Data) என்பது டெராபைட், ஜெட்டாபைட் அல்லது எக்ஸா-பைட்டின் அளவாக இருக்க வேண்டும் என்ற தவறான கருத்துகூட ந்ம்மிடம் பரவலாக இருந்தவருகின்றது – ஆனால் உண்மையில் மீப்பெரும்தரவு(Big Data) என்பது அவ்வாறானது அன்று. அதாவது குறிப்பிட்ட தரவு எங்கு பயன்படுத்தப் படுகிறது என்பதைப் பொறுத்து அது மீப்பெரும்தரவா(Big Data) அல்லது சாதாரண தரவா எனத் தெரிய வரும். எடுத்துக்காட்டாக, நம்மிடம் 50MB அளவுள்ள கோப்பு ஒன்று உள்ளது எனக்கொள்க , அதை மின்னஞ்சலில் இணைப்பாக அனுப்ப விரும்புகின்றோம், ஆனால் மின்னஞ்சலை பொறுத்தவரையில் அது மிகப் பெரியதாக இருப்பதால் நம்மால் அவ்வாறு மின்ன்ஞ்சலுடன் இணைத்து அனுப்பிட முடியாது. இந்த சூழ்நிலையில், இந்த ‘50MB’ கோப்பானது மின்னஞ்சலை பொறுத்தவரையில் மீப்பெரும் தரவு (Big Data)என குறிப்பிடப்படுகிறது.
தற்போது இவ்வாறான மீப்பெரும் தரவு வழங்குநர்களின் எண்ணிக்கை அதிகரித்து வருவதால் இந்த மீப்பெரும் தரவைப் பயன்படுத்துவது எளிதாகி விட்டது. இன்று நாமெல்லோரும் மீப்பெரும் தரவின் (Big Data) யுகத்தில் வாழ்ந்துவருகின்றோம், இதில் பல்வேறு முன்னேற்றங்களும் புரட்சிகரமான மாற்றங்களும் ஒரேசீரான இடைவெளியில் நடைபெறுகின்றன.
நிறுவனங்கள் தங்கள் செயல்பாடுகளை மேம்படுத்தவும், சிறந்த முடிவுகளை எடுக்கவும், சிறந்த வாடிக்கையாளர் சேவையை வழங்கவும், குறிப்பிட்ட வாடிக்கையாளர் விருப்பங்களின் அடிப்படையில் தனிப்பயனாக்கப்பட்ட சந்தைப்படுத்தல் பிரச்சாரங்களை உருவாக்கவும், இறுதியில் இலாபத்தை அதிகரிக்கவும் இந்த மீப்பெரும் தரவினை (Big Data) பயன்படுத்துகின்றன. இதனைப் பயன்படுத்துகின்ற நிறுவனங்களுக்கு, இதுஇல்லாத நிறுவனங்களை விட ஒரு நன்மை உள்ளது, அதாவது அவர்கள் சிறந்த தகவலுடனும் த்ங்களுடைய வணிகமுடிவுகளை விரைவாகவும் சரியாகவும் எடுக்க முடியும்.எடுத்துக் காட்டாக, மீப்பெரும் தரவானது (Big Data) நிறுவனங்களுக்கு வாடிக்கை யாளர்களைப் பற்றிய மதிப்புமிக்க தகவல்களை வழங்குகின்றன, இது வாடிக்கையாளர் ஈடுபாடு, மாற்று விகிதங்களை அதிகரிக்கவும் சந்தைப்படுத்தலுக்கான பிரச்சாரங்களை செம்மைப்படுத்தவும் பயன்படுகிறது.
மீப்பெரும் தரவின்(Big Data)பயன்பாடுகள்
மீப்பெரும் தரவு (Big Data)ஆனது நிறுவனங்களை வாடிக்கையாளர் மீது அதிக கவனம் செலுத்த அனுமதிக்கிறது. நிகழ்வுநேரதரவுகள், வரலாற்றுத் தரவுகள் ஆகிய வற்றினை மாறிவரும் நுகர்வோர் விருப்பங்களை மதிப்பிடுவதற்குப் பயன் படுத்தி கொள்ளலாம், நிறுவனங்கள் தங்களுடைய சந்தைப்படுத்தல் உத்திகளை மேம்படுத்தவும் வாடிக்கையாளர் தேவைகளையும் அத்தேவைகளுக்கு மிகவும் பதிலளிக்கக்கூடியதாகவும் இருக்க அனுமதிக்கிறது.மருத்துவ ஆராய்ச்சி யாளர்களும் மருத்துவர்களும் மீப்பெரும் தரவை(Big Data) பயன்படுத்தி நோய்களுக்கான ஆபத்துக் காரணிகளைக் கண்டறிந்து, நோயாளிகள் தங்களுடைய நோய்களிலிருந்து விடுபட உதவுகிறார்கள். கூடுதலாக, மின்னணு மருத்துவப் பதிவுகள், சமூக ஊடகங்கள், இணையம் , பிற ஆதாரங்களில் இருந்து பெறப்பட்ட தரவு, தொற்று நோய் அச்சுறுத்தல்கள் அல்லது தொற்று நோய் பரவுதல்கள் பற்றிய உடனடித் தகவல்களை சுகாதார நிறுவனங்களுக்கும், அரசு நிறுவனங் களுக்கும் வழங்குகிறது. ஆற்றல் துறையில், மீப்பெரும் தரவு (Big Data) எண்ணெய் நிறுவனங்களுக்கும் , எரிவாயு நிறுவனங்களுக்கும் சாத்தியமான துளையிடும் இடங்களைக் கண்டறிந்து அவற்றை எடுத்துசெல்ல உதவிடுகின்ற குழாய்களின் செயல்பாடுகளை கண்காணிக்க உதவுகிறது; இதேபோல், மின் கட்டமைப்புகளை கண்காணிக்க இதைப் பயன்படுத்து கின்றன .நிதிநிறுவனங்களும் காப்பீட்டு நிறுவனங்களும் இடர் மேலாண்மை, சந்தை தரவுகள் ஆகியவற்றை கொண்ட மீப்பெரும் தரவினை (Big Data) நிகழ்வுநேர பகுப்பாய்விற்காக பயன்படுத்தி கொள்கின்றன. உற்பத்தியாளர்கள் , தளவாட நிறுவனங்கள் தங்கள் விநியோகச் சங்கிலிகளை நிர்வகிக்கவும், விநியோக வழிகளை மேம்படுத்தவும் இதை நம்பியுள்ளன. அவசரகாலஉதவிகள், குற்றத்தடுப்பு, திறனுடைய நகர முன்முயற்சிகள் ஆகியவை அரசாங்கத்தின் பிற பயன்பாடுகளில் அடங்கும்.
ஒப்பீட்டு பகுப்பாய்வு: இதில் பயனாளர் நடத்தை அளவீடுகளை ஆராய்வதும் ஒரு நிறுவனத்தின் தயாரிப்புகள், சேவைகள் , வணிகசின்னங்களின் விழிப்புணர்வை அதன் போட்டியாளர்களுடன் ஒப்பிடுவதற்கும் நிகழ்நேரத்தில் வாடிக்கையாளர் ஈடுபாட்டைக் கவனிப்பதும் உள்ளடங்கும்.
சமூக வலைப்பின்னல்கள் கோருவது: ஒரு குறிப்பிட்ட நிறுவனம் அல்லது தயாரிப்பைப் பற்றி மக்கள் சமூக ஊடகங்களில் என்ன சொல்கிறார்கள் என்பது பற்றிய தகவலாகும், இது ஒரு கணக்கெடுப்பில் வழங்கக்கூடியதைத் தாண்டியது. பல்வேறு ஆதாரங்களில் இருந்து குறிப்பிட்ட தலைப்புகள் தொடர்பான செயல் பாட்டைக் கவனிப்பதன் மூலம் சந்தைப்படுத்தல் பிரச்சாரங்களுக்கான இலக்கு பார்வையாளர்களை அடையாளம் காண உதவுவதற்காக இந்தத் தரவுகளை பயன்படுத்திகொள்ளலாம்.
சந்தைப்படுத்தல் பகுப்பாய்வு: புதிய தயாரிப்புகளை, சேவைகளை , முன் முயற்சிகளை தகவலறிந்த, புதுமையானதாக மாற்ற இந்தத் தகவல் பயன்படுத்தலாம்.
வாடிக்கையாளர் திருப்தி: சேகரிக்கப்பட்ட அனைத்து தகவல்களும் வாடிக்கை யாளர்கள் ஒரு நிறுவனம் அல்லது வணிகசின்னங்களைப் பற்றி என்ன நினைக்கிறார்கள், சாத்தியமான சிக்கல்கள் ஏற்பட்டால் வணிகசின்னத்தின் விசுவாசத்தை எவ்வாறு பாதுகாக்கலாம் , வாடிக்கையாளர் சேவை முயற்சிகளை எவ்வாறு மேம்படுத்தலாம் என்பதை வெளிப்படுத்தலாம்.
மீப்பெரும் தரவின் (Big Data)சவால்கள்
மீப்பெரும் தரவு (Big Data) பற்றிய புரிதல் இல்லாமை: பொதுவாக தரவு வல்லுநர்கள் என்ன நடக்கிறது என்பதை அறிந்திருக்கலாம், மற்றவர்கள் வெளிப்படையான அதுபற்றிய விவரம் எதுவும் அறியாமல இருக்கலாம்.ஆயினும் தரவு என்றால் என்ன, அது எவ்வாறு சேமிக்கப்படுகிறது, எவ்வாறு செயலாக்க ப்படுகிறது, எங்கிருந்து வருகிறது என்பன போன்ற தரவுபற்றிய தெளிவான புரிதல் இல்லாததாலும் பணியாளர்களுக்குத் தெரியாததாலும் நிறுவனங்களின்மீப்பெரும் தரவு (Big Data) முயற்சிகளில் தோல்வியடைகின்றன.
மீப்பெரும் தரவு (Big Data) கருவியைத் தேர்ந்தெடுப்பதில் குழப்பம்: பெரிய தரவை பகுப்பாய்வு செய்வதற்கும் சேமிப்பதற்கும் எளிமையான கருவியைத் தேர்ந்தெடுக்கும்போது நிறுவனங்கள் பெரும்பாலும் குழப்பமடைகின்றன. HBase அல்லது Cassandra ஆகிய இவ்விரண்டில் எது பயன்படுத்த எளிதான தரவு சேமிப்பு தொழில்நுட்பத்தை கொண்டது? Hadoop MapReduce என்பது சரியாக பொருத்தமாக இருக்குமா அல்லது தரவு பகுப் பாய்விற்கும் சேமிப்பிற்கும் Spark சிறந்த வாய்ப்பாக அமையுமா?ஆகிய இந்த கேள்விகள் நிறுவனங்களை எரிச்சலூட்டு கின்றன, சில சமயங்களில் அவர்களால் பதில்களைக் கண்டுபிடிக்க முடியாத நிலை ஏற்படுகின்றது. எனவே அவர்கள் தவறான முடிவுகளை எடுத்து தவறான தொழில்நுட்பத்தை தேர்வு செய்கின்றனர். இதனால் பணம், நேரம், உழைப்பு மனிதநாட்கள் வீணாகின்றன.
தரவு பாதுகாப்பு: இவ்வளவு பெரிய அளவிலான தரவினைப் பாதுகாப்பதும் ஒரு பெரிய சவாலாகும். நிறுவனங்கள் தங்கள் தரவுத் தொகுப்புகளைப் புரிந்து கொள்வதிலும், சேமித்து வைப்பதிலும், பகுப்பாய்வு செய்வதிலும் மும்முரமாக இருப்பதால், அவை தரவுப் பாதுகாப்பு மீதான நடவடிக்கையைத் தள்ளிப் போடுகின்றன, தீங்கிழைக்கும் தாக்குதல் செய்பவர்களால் பாதிக்கப்படுகின்றன.
வணிகத்தில் மேலும் சாதிக்க விரும்பினால், மீப்பெரும் தரவு (Big Data) AIஐ மேம்படுத்துவது இன்றைக்கு அவசியமானதாக உள்ளது அல்லது நிறுவனம் வழியில் விழும் அபாயம் உள்ளது.
மீப்பெரும் தரவு (Big Data) பகுப்பாய்விற்காக உதவிடுகின்ற திறமூலக் கருவிகள்
1.Apache Hadoopஇது கணினிகளின் கொத்துகளில்(clusters) பெரிய தரவுத் தொகுப்புகளை விநியோகிக்கப்பட்ட செயலாக்கத்தை அனுமதிக்கிறது. ஒற்றை சேவையகங்களிலிருந்து ஆயிரக்கணக்கான கணினிகளுக்கு அளவிட வடிவமைக் கப்பட்ட சிறந்த மீப்பெரும்தரவுகருவிகளில் இதுவும் ஒன்றாகும்.முக்கிய வசதி வாய்ப்புகள்: இதனுடையகொத்து(clusters)மிகவும் அளவிடக் கூடியது தவறுகளை பொறுத்துக் கொள்ளக்கூடியது. இது ‘தரவின் இடஅமைவு’ எனும் கருத்தை அடிப்படையாகக் கொண்டது. இது விரைவான தரவு செயலாக்கத்தை அனுமதிக்கிறது.மேலும் விவரங்களுக்கும் இதனுடைய சேவையை பயன்படுத்தி கொள்ளவும் hadoop.apache.org/releases.html எனும் இதனுடைய இணையதளமமுகவரிக்கு செல்க
2.CassandraApache Cassandra எனும் தரவுத்தளமானது பெரிய அளவிலான தரவுகளை திறம்பட நிர்வகிப்பதற்காக இன்று பரவலாகப் பயன்படுத்தப்படுகிறது. முக்கிய வசதிவாயப்புகள்: இதுபல தரவு மைய நகலெடுப்பை ஆதரிக்கிறது. தரவானது தானாகவே பல முனைகளுக்கு நகலெடுக்கப்b படுகிறது.தரவு மையம் முழுமையாக செயலிழந்தாலும், தரவை இழக்க முடியாது என விரும்பும் நிறுவனங்களுக்கு இதுமிகவும் பொருத்தமானது.மேலும் விவரங்களுக்கும் இதனுடைய சேவையை பயன்படுத்தி கொள்ளவும் cassandra.apache.org/ எனும் இதனுடைய இணையதள முகவரிக்கு செல்க
3.Hiveஇது Hadoop இல் பெரிய தரவுத் தொகுப்புகளை ஆய்வு செய்யநிரலாளர்களை அனுமதிக்கிறது. பெரிய தரவுத் தொகுப்புகளை விரைவாக வினவவும் நிர்வகிக்கவும் இது உதவுகிறது. முக்கிய வசதிவாயப்புகள்: இது SQL போன்ற வினவல் மொழி (HQL – Hive Query Language)என அழைக்கப்படுகிறது இதுதொடர்பு தரவு மாதிரியாக் கத்தினை ஆதரிக்கிறது.இது பகிர்வு, தொகுப்பு, அட்டவணைகள் ஆகியவற்றினை ஆதரிக்கிறது. இது கட்டமைக்கப்பட்ட தரவை மட்டுமே நிர்வகிப்பதற்கும் வினவுவதற்கும் வடி வமைக்கப் பட்டுள்ளது. இது Java தரவுத்தள இணைப்பு (JDBC) இடைமுகத்தை வழங்குகிறது.மேலும் விவரங்களுக்கும் இதனுடைய சேவையை பயன்படுத்தி கொள்ளவும் hive.apache.org/எனும் இதனுடைய இணையதளமுகவரிக்கு செல்க