Category Archives: Big Data

தரவுத்தள மேலாண்மையும், மேம்படுத்துதலும்

நாம் வாழும் தற்போதைய தரவுகளால் இயக்கப்படும் உலகில், பயனுள்ள தரவுத்தள மேலாண்மை, உகப்பாக்கத்தின்(optimisation) மூலம் அதன் உண்மையான திறனைப் பயன்படுத்துதல் என்பது, நிறுவனங்கள் வளர்ச்சியடைவதற்கும், புதுமைப்படுத்துவதற்கும் , போட்டித்தன்மையை பெறுவதற்கும் செயல்முறைத்திறன்(strategic) கட்டாயமாகிறது. தற்போதைய விரைவான எண்ணிம சகாப்தத்தில், தரவு ஆனதுவணிக நிறுவனங்களின் உயிர்நாடியாக வெளிப்பட்டுள்ளது(emerged), முக்கியமான முடிவெடுக்கும் செயல்முறைகளைத் தூண்டுகிறது, மேலும் வளர்ச்சியைத் தூண்டுகிறது. அதனுடன் பயனுள்ள தரவுத்தள மேலாண்மை , உகப்பாக்கம் ஆகியவை தரவுகளின் உண்மையான திறனைப் பயன்படுத்து வதற்கான முதன்மையான இடத்தில் உள்ளது.… Read More »

மீப்பெரும் தரவு(Big Data)

மீப்பெரும் தரவு(Big Data) என்பது நிறுவனங்களால் சேகரிக்கப்பட்ட  பகுதி-கட்டமைக்கப்பட்ட ,முழுவதும் கட்டமைக்கப் பட்ட அல்லது கட்டமைக்கப்படாத தரவுகளின் கலவையாகும், அவைகளை இயந்திர கற்றல், முன்கணிப்பு மாதிரியாக்கம், மோசடி கண்டறிதல், உணர்வு பகுப்பாய்வு ,பிற மேம்பட்ட பகுப்பாய்வு போன்ற பல்வேறுபயன்பாடுகளுக்குப் பயன்படுத்திகொள்ளலாம். சமீபத்திய நாட்களில் மீப்பெரும் தரவின் தீர்வுகளைப் பயன்படுத்தும் நிறுமங்கள்(companies) , நிறுவனங்கள்(organisations) , ஆய்வு கழகங்கள்(institutions)  ஆகியவற்றின் எண்ணிக்கை, நாளுக்குநாள் சேகரிக்கப்பட்ட தரவுகளின் அளவைப் போலவே  மீப்பெரும் அளவாக உயர்ந்துவருகின்றன.  இவ்வாறு தினசரி உருவாக்கப்படும் தரவுகளின்… Read More »

Video on Machine Learning Algorithms in Tamil – இயந்திர வழிக் கற்றல் நெறிமுறைகள் அறிமுகம் – காணொளி

Introduction to Machine Learning Algorithms in Tamil Simple Linear regression Multiple Linear Regression இயந்திர வழிக் கற்றல் நெறிமுறைகள் அறிமுகம் மேலும் அறிய, பின் வரும் இணைப்புகள், நிரல்களைக் காண்க.   www.kaniyam.com/machine-learning-part-4/ This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden… Read More »

Machine Learning – 4 – Linear Regression

Simple & Multiple Linear Regressions Simple Linear என்பது இயந்திர வழிக் கற்றலில் உள்ள ஒரு அடிப்படையான algorithm ஆகும். இதில் இரண்டு விவரங்கள் எவ்வாறு தொடர்பு படுத்தப்படுகின்றன, algorithm எவ்வாறு தனது புரிதலை மேற்கொள்கிறது, அந்தப் புரிதல் எந்த அளவுக்கு சரியாக உள்ளது என்பது போன்ற விஷயங்களையெல்லாம் ஒருசில தரவுகளை வைத்து செயல்முறையில் செய்து பார்க்கப் போகிறோம். உதாரணத்துக்கு ஒரு பிட்சாவின் அளவினைக் கொண்டு அதன் விலையை எவ்வாறு நிர்ணயிப்பது என இப்பகுதியில் காணலாம். இதுவரை… Read More »

Machine Learning – 1 – அறிமுகம்

இயந்திரவழிக் கற்றல் என்பது தற்போது அதிகமாக வளர்ந்து வருகின்ற ஒரு துறை. ஒரு கணினிக்கு கற்பிப்பது, அதற்கு அறிவு புகட்டுவது, புகட்டப்பட்ட அறிவின் அடிப்படையில் கணினிகளையே முடிவினை மேற்கொள்ளுமாறு செய்வது போன்ற பல்வேறு விஷயங்களை இயந்திரவழிக் கற்றலில் காணலாம். மனிதன் செய்கின்ற வேலையை வெறும் நிரல்கள் எழுதி கணினியைச் செய்யவைப்பதன் பெயர் இயந்திரவழிக் கற்றல் ஆகாது. அதன் பெயர் தானியக்கம் (Automation). மனிதனைப் போன்று கணினிகளை யோசிக்க வைத்து, முடிவுகளையும் அதனை வைத்தே எடுக்க வைப்பது, அவ்வாறு… Read More »

Hadoop – spark – பகுதி 5

Spark என்பது hadoop-ன் துணைத்திட்டமாக 2009-ம் ஆண்டு உருவாக்கப்பட்டது. பின்னர் 2010-ல் திறந்த மூல மென்பொருள் கருவியாக BSD உரிமத்தின் கீழ் வெளியிடப்பட்டது. 2013-ம் ஆண்டு இது அறக்கட்டளையுடன் இணைந்தது முதல் சிறப்பாக செயல்பட்டு வருகிறது. இதிலும் தரவுகளை சேமிக்க hdfs-தான் பயன்படுகிறது. ஆனால் சேமிக்கப்பட்டுள்ள தரவுகளை அணுகுவதற்கு வெறும் mapreduce-யோடு நின்று விடாமல் spark sql, spark streaming,graphx, MLlib (Machine Learning Library) போன்ற பல்வேறு அம்சங்களை வழங்குகிறது. மேலும் java, scala, python… Read More »

Hadoop – hive – பகுதி 4

Facebook நிறுவனம் hadoop-ஐ பயன்படுத்தத் துவங்கிய காலங்கள் முதல், அதனிடம் வந்து சேரும் தரவுகளின் அளவு 1GB, 1TB, 15TB என உயர்ந்து கொண்டே சென்றது. அப்போது அவற்றினை அலசி தரவுச் சுருக்கங்களைத் தேர்ந்தெடுப்பதற்கு oracle database-ஐயும் பைதான் மொழியையும் பயன்படுத்தியது. ஆனால் வருகின்ற மூலத் தரவுகளின் அளவும், வடிவங்களும் அதிகரிக்க அதிகரிக்க data analysis தேவைக்கென ஒரு புதிய முறை கண்டுபிடித்தாக வேண்டி இருந்தது. அப்போதுதான் facebook நிறுவனம் இத்தகைய datawarehouse தேவைகளைப் பூர்த்தி செய்வதற்கென்றே… Read More »

Hadoop – pig – பகுதி 3

2006-ஆம் ஆண்டு Yahoo நிறுவனத்தின் ஒரு ஆய்வுத் திட்டமாக Pig என்பது உருவாக்கப்பட்டது. இது குறிப்பாக mapreduce வேலைகளைச் செய்வதற்காகப் பயன்படுத்தப்பட்டது. பின்னர் Apache நிறுவனம் 2008-ல் இதனை திறந்த மூல மென்பொருள் கருவியாக அறிவித்து வெளியிட்டது. Pig என்பது java, python போன்ற நிரலாக்க மொழிகளின் துணையில்லாமல், வெறும் SQL-ஐ வைத்து hadoop-ல் உள்ள தரவுகளை அணுக உதவும் கருவி ஆகும். Hadoop பற்றிய அடிப்படை அறிவு பெற்றிருந்தால் போதும். இதனைச் சுலபமாகக் கற்றுக் கொள்ளலாம்.… Read More »

Hadoop – hdfs,mapreduce – பகுதி 2

ஒரே ஒரு கணினியில் hadoop-ஐ நிறுவினால் அது single node cluster-எனவும், பல்வேறு server-களை இணைத்து நிறுவினால் அது multi-node cluster எனவும் அழைக்கப்படும். இங்கு Ubuntu 16.04 எனும் கணினியில் நிறுவுவது பற்றி பார்க்கலாம். 1. Hadoop எனும் கட்டமைப்பு Java-ல் எழுதப்பட்டிருப்பதால், முதலில் நமது கணினியில் Java நிறுவப்பட்டுள்ளதா என்பதை $ java -versionஎனக் கொடுத்து சோதிக்கவும். இது பின்வருமாறு ஒரு வெளியீட்டைக் கொடுத்தால் java நிறுவப்பட்டுள்ளது என்று அர்த்தம். இல்லையெனில் பின்வருமாறு கொடுத்து… Read More »