எண்ணிம நூலகவியல் 3 – இணைப்புத் தரவு (Linked Data)

சமூகத்தின் அறிவு வளங்களை தொகுத்து, வகைப்படுத்தி, அணுக்கப்படுத்துவதில் நினைவு நிறுவனங்கள் முக்கிய பங்கினை ஆற்றிவருகின்றன.  கணினி, இணையம் ஆகியவை பரவலான பயன்பாட்டுக்கு வந்த பொழுது, அவை நூலவியல் சீர்தரங்கள், தொழில்நுட்பங்கள் சார்ந்து பெரும் பாதிப்பை ஏற்படுத்தின.  முன்பு ஒர் ஆய்வு மாணவர் நூலகம் சென்று, அவருக்குத் தேவையான வளங்களை கண்டு பிடித்து, பிரதி எடுத்து பயன்படுத்தினார்.  இப்பொழுது, எங்கிருந்தும், எப்பொழுதும் தகவல்களை தேடுவதற்கான வசதியை இணையம் ஏற்படுத்திக் கொடுத்துள்ளது.  இத்தகைய தரவு மயப்படுத்தப்பட்ட தேடலுக்கும் பயன்பாட்டுக்கும் மரபார்ந்த நூற்பட்டியலாக்க சீர்தரங்கள், தொழில்நுட்பங்கள் ஈடுகொடுக்க முடியவில்லை என்பது 2000 களின் தொடக்கத்தில் நன்கு உணரப்பட்டது.  நீண்டகாலம் பயன்பாட்டில் இருந்த ஆங்கிலோ-அமெரிக்க பட்டியலாக்க விதிகள் (Anglo-American Cataloguing Rules 2) மற்றும் மார்க் குறியீட்டு சீர்தரங்களின் (MARC coding standards) அடுத்த தலைமுறை சீர்தரங்களாக  Resource Description and Access (RDA) பட்டியலாக்க சீர்தரம் மற்றும் BIBFRAME 2.0 குறியீட்டு (www.loc.gov/bibframe/) சீர்தரம் ஆகியவை முன்வைக்கப்பட்டு அமுலாக்கப்பட்டு வருகின்றன.  RDA பட்டியலாக்க சீர்தரம் IFLA Library Reference Model இனை அடிப்படையாகக் கொண்டது. இந்த புதிய சீர்தரங்கள் இணைப்புத் தரவு (Linked Data) எங்கிற தரவு மாதிரியையும் (data model) தொழில்நுட்பங்களையும் அடிப்படையாகக் கொண்டவை.

ஆவணங்களை, அவற்றுக்கு இடையேயான இணைப்புக்களை உரலிகள் அல்லது வலை முகவரிகளைப் (URL) பயன்படுத்தி இணையம் (Internet) ஊடாக அணுகுவதற்கான நுட்பக் கட்டமைப்பே உலகளாவிய வலை (World Wide Web) ஆகும்.  இதன் நீட்சியாக, பொருளுணர் வலை (Semantic Web) அல்லது இணைப்புத் தரவு (Linked Data) தொழில்நுட்பங்கள் விளங்குகின்றன.  நாம் எண்ணிம வளங்களை அல்லது தரவுகளை வெளியிடும் (publishing), பரிமாறும் (data exchange), ஒருங்கிணைக்கும் (integration), கண்டுபிடிக்கும் (discovery), பயன்படுத்தும் முறைகளில் பாரிய மாற்றங்களையும் வாய்ப்புக்களையும் இது கொண்டுவருகின்றது. பெருந்தரவை ஒழுங்குபடுத்தவும் (structuring big data), தரவுகளைப் பகுத்தறியவும் (reasoning with data), தரவுகளைப் பற்றி துல்லியமான கேள்விகளைக் கேக்கவும், முடிவுகளை எடுக்கவும் இணைப்புத் தரவு நுட்பங்கள் உதவுகின்றன.

தரவுகளை அடையாளப்படுத்த (identify), அவை பற்றிய விபரங்களை வழங்க (de-reference), தொடர்புடைய தரவுகளை இணைக்க (link related data), அவற்றுக்கு இடையேயான உறவுகளை விபரிக்க (describe relationships between data) இணைப்புத் தரவு நெறிமுறைகள் உதவுகின்றன.  இணைப்புத் தரவுக்கான நான்கு கொள்கைகளை உலகளாவிய வலையின் கண்டுபிடிப்பாளாரான ரிம் பேர்னேர்ஸ்-லீ 2006 இல் பின்வருமாறு முன்வைத்தார்:

  • வளங்களை அல்லது பொருட்களை யு.ஆர்.ஐ (URI) பெயர் கொண்டு அடையாளங்காட்டுதல்.
  • எச்.ரி.ரி.பி (HTTP) ஊடாக அந்த வளங்களைப் பற்றிய தகவல்களைக் கண்டறிய உதவுதல் (dereferencing using http)
  • ஒருவர் யு.ஆர்.ஐ அணுகும் போது, பயன்படக்கூடிய தகவல்களைத் திறந்த சீர்தரங்களைப் பயன்படுத்தி வழங்குதல் (எ.கா ஆர்.டி.எப் (RDF))
  • பிற வளங்களுக்கு இணைப்புத் தருதல். இதன் ஊடாக மேலதக வளங்களைக் கண்டறிய உதவுதல்.

வலை ஆவணங்கள் உலகளாவிய வலைக்கு அடிப்படையாக அமைந்தன என்றால், இணைப்புத் தரவுக்குப் பொருட்கள் (things) அல்லது பொருட்களைப் பற்றிய விபரிப்புக்கள் அடிப்படையாக அமைகின்றன. பொருட்கள் ஒரு படைப்பாக, நபராக, இடமாக, கருத்தாக, நிகழ்வாக, எதுவாகவும் அமையலாம்.  இந்தப் பொருட்களைப் பற்றியும், அவற்றுக்கு இடையேயான தொடர்புகளை விபரிக்கவும் பயன்படும் அடிப்படைத் தொழில்நுட்பமே வள விபரிப்புச் சட்டகம் (Resource Description Framework – RDF – ஆர்.டி.எப்) ஆகும்.  வள விபரிப்புச் சட்டகம் ஒரு பொருளை எழுவாய் – பயனிலை – செயற்படுபொருள் (subject-predicate-object) என்ற இயற்கை மொழி வசனத்தின் அமைப்பைக் கொண்ட கூற்றுக்களால் (statements) அல்லது மும்மைகளால் (triples) விபரிக்கிறது.  ஒவ்வொரு பொருளும் ஒரு தனித்துவமான உரலியால் அடையாளம் காணப்படுகின்றது.  இந்த உரலியே அவற்றை இணைக்கப் பயன்படுத்தப்படுகின்றது. வள விபரிப்பு மும்மைகள் மும்மைத் தரவுத்தளம் (Triplestore) ஒன்றில் சேமிக்கப்பட்டு,  எசுபார்க்கிள் (SPARQL – SPARQL Protocol and RDF Query Language) போன்ற மொழிகள் ஊடாக வினவப்படலாம்.

வள விபரிப்புச் சட்டகம் எளிமையானது.  ஒரு பொருளை பலர் வெவ்வேறான முறைகளில் உருவகிக்க முடியும் (represent/model) விபரிக்க (describe) முடியும்.  இதனால் தரவுகளைப் பகிர்வதில், பயன்படுத்துவதில் தடைகள் ஏற்பட்டன.  ஒரு பொதுவான, பகிரப்படக் கூடிய அணுகுமுறை அல்லது கருத்தோற்ற முறைமை (schema) தேவை என்பது நன்கு உணரப்பட்டது.  இவ்வாறு ஒரு குறிப்பிட்ட துறை பற்றிய தரவுகளை அல்லது அறிவை உருமாதிரியாக்கப் (model) பயன்படும் வகுப்புகள் (classes/types/sets), பண்புகள் (properties/attributes) மற்றும் உறவுகளைக் (relationships) கொண்ட சட்டகத்தை கருத்து மாதிரி (conceptual model) அல்லது மெய்ப்பொருளியம் (ontology) எனலாம்.  இத்தகைய இணைப்புத் தரவுக்கான மெய்ப்பொருளியங்களை வள விபரிப்புச் சட்டக கருத்தேற்ற முறைமை (RDF Schema), வலை மெய்ப்பொருளிய மொழி (OWL), எளிய அறிவு ஒழுங்கமைப்பு முறைமை (SKOS) போன்ற மொழிகளைப் பயன்படுத்தி உருவாக்க முடியும்.

Geonames, UniProt போன்ற அறிவுத் தளங்களில் இருந்து, கூட்டாக உருவாக்கப்படும் விக்கித் தரவு (wikidata), கூகிளின் அறிவு வரைபடம் (knowledge graph) என்று இணைப்புத் தரவு பல பயன்பாடுகளைக் கொண்டது.  இதே போன்று, BIBFRAME 2.0, IFLA Library Reference Model , Records in Contexts, CIDOC Conceptual Reference Model ஆகியவை நூலகம், ஆவணகம், அருங்காட்சியம் போன்றவற்றால் பயன்படுத்தப்படும் இணைப்புத் தரவு அடிப்படையிலான சீர்தரங்கள் ஆகும்.  முன்பு ஒரு நூல்விபரப் பதிவு ஒரு தட்டையான கோப்பாக (flat document) இருந்தது.  இணைப்புத் தரவு அடிப்படையில் நூற்பட்டியல்களும், அதிகார வரையறைகளும் வெளியிடப்படும் பொழுது, அவற்றை இணையம் ஊடாக எளிதாக கண்டுபிடிக்க முடியும் (discoverability), இணையத்தில் உள்ள இதர தகவல் மூலங்களோடு இணைத்துப் பார்க்க முடியும் (interoperability).  இயந்திர முறையில் எளிதாக கையாள முடியும்.

எடுத்துக்காட்டாக மரபார்ந்த வகையில் தொகுக்கப்பட்டுள்ள யாழ் நூலுக்கான தமிழிணையம் – மின்னூலகத்தின் நூல் விபரத்தைப் இங்கு பார்க்க: tamildigitallibrary.in/book-detail.php?id=jZY9lup2kZl6TuXGlZQdjZh3lJh2.  இதில் அந்த நூலின் ஆசிரியர் பற்றியோ, பொருட்துறை பற்றியோ, அது வெளியிட்ட இடம் பற்றியோ மேலும் அறிவிவது கடினம்.  யாழ் நூலுக்கான இணைப்புத் தரவு அடிப்படையிலான விக்கித் தரவு பதிவைப் இங்கு பார்க்க: www.wikidata.org/wiki/Q16310463.  இங்கு இணைப்புக்கள் ஊடாகச் சென்று ஆசிரியர், பொருட் துறை, வெளியிடப்பட்ட இடம் உட்பட்ட விடயங்கள் தொடர்பாக மேலும் அறிய முடியும். கூகிள் அறிவு வரைபடத்தின் இணைப்பையும் அங்கு காணலாம். மேலதிக தகவல்களை query.wikidata.org சென்று வினவ முடியும்.

முழுமையான இணைப்புத் தரவு அடிப்படையிலான சீர்தரங்களைப் பயன்படுத்த விட்டாலும் கூட, ஒவொரு பொருளுக்கும் அதற்கான அடையாளங்காட்டி (URI), அந்தப் பொருளைப் பற்றிய தகவலை இணையம் ஊடாக வழங்குதல், அந்தத் தகவல்களை RDF சீர்தரங்களிலும் வழங்குதல், தொடர்புடைய இதர பொருட்களுக்கான இணைப்புக்களைத் தருதல் ஆகிய அடிப்படைகளை தமிழ் எண்ணிம நூலகங்கள், ஆவணகங்கள், அருங்காட்சியங்களை கவனத்தில் கொள்வது மேற்குறிப்பிட்ட பல பயன்களைக்த் தரும். சிறிய எண்ணிம நூலகங்களுக்கு பயன்படக் கூடிய Dublin Core, MODS ஆகிய சீர்தரங்களும் இணைப்புத் தரவு அடிப்படையில் நாம் பயன்படுத்த முடியும்.  இத்தகைய மீதரவுச் சீர்தரங்கள் பற்றி அடுத்த பதிவில் பார்ப்போம்.

உசாத்துணைகள்

Tim Berners-Lee (2006-07-27). “Linked Data”. Design Issues. W3C. Retrieved July 15, 2017 from www.w3.org/DesignIssues/LinkedData.html

(2012). “Bibliographic Framework as a Web of Data: Linked Data Model and Supporting Services.” Library of Congress. Retrieved March 12, 2024 www.loc.gov/bibframe/pdf/marcld-report-11-21-2012.pdf

Hallo, M., Luján-Mora, S., Maté, A., & Trujillo, J. (2016). Current state of Linked Data in digital libraries. Journal of Information Science, 42(2), 117-127. doi.org/10.1177/0165551515594729

OCLC Research. (n.d.). Linked Data Overview. Retrieved from www.oclc.org/research/areas/data-science/linkeddata/linked-data-overview.html

Patricia Martín Chozas. (2024). Exploring the Potential of Linguistic Linked Data in the LLM Era,”. data.europa.eu. Retrieved from www.youtube.com/watch?v=5psiI-U2Xg8

%d bloggers like this: