பெரும் தரவு (பிக் டேட்டா)
பகுதி – 3 HADOOP
அனைவருக்கும் வணக்கம். நாம் முந்தைய இரண்டு கட்டுரைகளில் பெரும் தரவு என்றால் என்ன அதன் பண்புகள், பெரும் தரவு கட்டமைப்பில்லுள்ள பல்வேறு கூறுகள், நவீன தரவு செயலாக்கம் மற்றும் மேலாண்மை எப்படி பாரம்பாிய தரவு செயலாக்கத்தில் இருந்து வேறுபடுகிறது என்று கண்டோம். அந்த வரிசையில் Hadoop என்றால் என்ன, அது எப்படி மிகப்பொிய பெரும் தரவு பிரச்சினையை சமாளிக்கிறது என்பதனை இந்த கட்டுரையில் விரிவாக காண்போம்.
Hadoop என்றால் என்ன…??
Hadoop என்பது ஒரு open source framework ஆகும். இதில் சேமிப்பு மற்றும் செயலாக்கம் என்னும் இரண்டு கூறுகள் உள்ளது. எடுத்துக்காட்டாக Hadoopபை ஓரு நாணயமாக நினைத்துக்கொள்ளுங்கள். அந்த நாணயத்தின் ஒரு பக்கம் சேமிப்பு மறு பக்கம் செயலாக்கமாகும். இதில் சேமிப்பிற்கான வேலையை Hadoop Distributed File System (HDFS) மற்றும் செயலாக்கத்தின் வேலையை MapReduce பாா்த்துக்கொள்கின்றன.
Hadoop = HDFS + MapReduce
Hadoop பின் வரலாறு :
முதலில் கூகுள் நிறுவனம் தான் Google’s distributed computing framework என்ற பெயாில் நவீன தரவு செயலாக்கம் மற்றும் மேலாண்மை கட்டமைப்பை உருவாக்கி பயன்படுத்தி வந்தது. அதில் Google File System (GFS) சேமிப்பிற்காவும் மற்றும் Google’s MapReduce பெரும் தரவுகளின் செயலாக்கத்தையும் பாா்த்துக்கொண்டிருந்தன. Google நிறுவனம் 2004ஆம் ஆண்டு அவற்றின் ஆராய்ச்சித்தாள்களை மக்கள் முன் சுதந்திரமாக வெளியிட்டது. அந்த ஆராய்ச்சித்தாள்களை மையமாக கொண்டு yahoo நிறுவனம் Hadoop திட்டத்தை open-source உரிமத்தில் அனைவருக்கும் பொதுவாக வெளியிட்டது. பிறகு அந்த திட்டம் yahoo விடமிருந்து Apache நிறுவனத்திற்கு கைமாறியது. அன்று முதல் இன்று வரை Apache நிறுவனத்திடம் தான் இத்திட்டம் இருந்து வருகிறது.
எப்படி Hadoop மிகப்பெரிய பெரும் தரவு பிரச்சினையை சமாளிக்கிறது :
1) Hadoop-ன் வடிவமைப்பு :
ஆம் Hadoop framework பல்வேறு எந்திரங்களில் இயங்கும் வண்ணம் வடிவமைக்கப்பட்டுள்ளது. எடுத்துக்காட்டாக நாம் சில தரவுகளை சேமிக்க வேண்டும் என்றால் அதனை முதலில் ஒற்றை சேமிப்பு வட்டில் சேமிக்க தொடங்குவோம். அந்த வட்டு சேமிக்க மிகாமல் போனால் அதே இயந்திரத்தில்லுள்ள அடுத்த சேமிப்பு வட்டிற்கு செல்வோம் மொத்த இயந்திரமும் மிகாமல் போனால் அடுத்த இயந்திரத்தில்லுள்ள சேமிப்பு வட்டிற்கு செல்வோம்.
இதே அடிப்படையை மையமாக கொண்டுத்தான் Hadoop உருவாக்கப்பட்டது.
2) Hadoop-ன் அளவீடு அவற்றின் கிடைமட்ட அளவிற்கு சமம்
நமக்கு சேமிப்பு மற்றும் செயலாக்கத்தின் திறனின் அளவை அதிகப்படுத்த வேண்டும் என்றால் அவற்றின் node யின் எண்ணிக்கையை அதிகப்படுத்த வேண்டும்.
3) Hadoop சேமிப்பு மற்றும் செயலாக்கம் இரண்டையும் அளிக்கிறது
நாம் முன்பே பாா்த்தது போல hadoop framework சேமிப்பு மற்றும் செயலாக்கம் என்னும் இரண்டு கூறுகளை கொண்டு உள்ளது. இதன் மூலம் நாம் எத்தனை பெரிய தரவாயினும் மிக எளிய முறையில் சேமித்து செயலாக்கம் செய்வதில் சிரமம் இல்லை.
இனி வரும் கட்டுரைகளில் HDFS மற்றும் MapReduce பற்றி விரிவாக காணலாம் நன்றி.
–-(தொடரும்)
Jagadeesan A S