Pandoc எனும் கட்டற்ற கட்டணமற்ற ஆவண மாற்றியை முயற்சித்திடுக

By | November 23, 2025

உள்ளடக்கங்களின் சுருக்கம் பின்வருமாறு:
சொல் செயலிகளில் (word processors) ‘Save As’ எனும் செயலி அல்லது பல்வேறு இணையத்தின் மாற்றிகள் போன்ற ஆவணங்களை ஒரு வடிவத்திலிருந்து மற்றொரு வடிவத்திற்கு மாற்றுவதற்கு முடிவற்ற வாய்ப்புகள் உள்ளன. தொடர்ந்து பயன்படுத்தி வரும் பணிக்கு கட்டற்ற பயன்பாடுகூட உள்ளது:
Pandoc. இது தன்னை “ஒரு உலகளாவிய ஆவண மாற்றி” என்று அழைக்கிறது, இது டஜன் கணக்கான markup வடிவங்களுக்கும், ஆவண வகைகளுக்கும் ஆதரவு தருகிது. இதன்மூலம் Microsoft Word கோப்புகள், Markdown இன் பல்வேறு மாறுபாடுகள், PDFகள், OpenDocument கோப்புகள் (முதன்மையாக LibreOffice ஆல் பயன்படுத்தப்படுகிறது),இதன்மூலம் Jupyter குறிப்பேடுகள், MediaWiki markup, EPUB, PowerPoint விளக்கக்காட்சிகள், LaTeX ,போன்ற பல்வேறு வடிவங்களைக் கையாள முடியும். சில கோப்பு வடிவங்களை பதிவிறக்கம் அல்லது பதிவேற்றம் செய்வதற்கு மட்டுமே இதனை பயன்படுத்த முடியும், இரண்டு வழிகளிலும் அல்லஎன்ற செய்தியை மனதில்கொள்க.
இது பல்வேறு லினக்ஸ் விநியோகங்களுக்கான தொகுப்பு மேலாளர்களில் கிடைக்கிறது, மேலும் Windows இருந்தால், Pandoc இன் இணையதளத்திலிருந்து தொகுப்பு நிறுவுகையைப் பதிவிறக்கம்செய்திடலாம் அல்லது Chocolatey , Winget போன்ற தொகுப்பு மேலாளர்களுடன் அதை நிறுவுகைசெய்திடலாம்.
Pandocஇன்அடிப்படை பயன்பாடு
Pandoc என்பது ஒரு கட்டளை வரி பயன்பாடு, ஆனால் பெரும்பாலான ஆவண மாற்றங்களுக்கு இரண்டு அளவுருக்கள் தேவை. அதற்கு உள்ளீட்டு கோப்பிற்கான பாதையைக் கொடுக்கவேண்டியுள்ளது, மேலும் மாற்றப்பட்ட கோப்பு எங்கு சேமிக்கப்பட வேண்டும் என்பதைக் கூற -o எனும் அளவுருவைப் பயன்படுத்திடுக. Markdown கோப்பை HTML ஆக மாற்றுவதற்கான அடிப்படை எடுத்துக்காட்டு பின்வருமாறு:
pandoc “readme.md” -o “readme.html”
இது மிகவும் எளிமையாக, இருக்கின்றதில்லையா? Pandoc உள்ளீடு, வெளியீட்டு கோப்பு வடிவங்களை தானாகவே கண்டறிய முயற்சிக்கிறது, எனவே ஒவ்வொரு முறையும் அவற்றை வரையறுக்க வேண்டியதில்லை.
தானியங்கி சரிபார்ப்பு செய்யாத நேரங்கள் உள்ளன, இருப்பினும்—ஒருவேளை Markdown கோப்பில் .TXT நீட்டிப்பு இருக்கலாம், அல்லது வெளியீட்டு கோப்பில் கோப்பு நீட்டிப்பு அல்லது வேறு ஏதுவும் இருக்கக்கூடாது. அந்த சந்தர்ப்பங்களில், -f உடன் உள்ளீட்டு வடிவமைப்பையும் -t உடன் வெளியீட்டு வடிவமைப்பையும் பின்வருமாறு வரையறுக்கலாம்:
pandoc “readme.md” -f markdown -t html -o “readme.html”
ஒருவேளை ஒரு நீண்ட உரை கோப்பை EPUB வடிவத்திற்கு மாற்ற விரும்புகின்றோமெனில் அதை eReader இல் திறக்கலாம்? Pandoc பின்வரும்கட்டளைவரியின்மூலம் இதைச் செய்ய முடியும்:
pandoc “readme.txt” -o “readme_converted.epub”
HTML ஆக மாற்ற வேண்டிய சில Word ஆவணங்கள் இருக்கலாம், இதனால் Word எனும் பயன்பாட்டினை நிறுவுகைசெய்யாதவர்கள் அவற்றை இணையஉலாவியில் பார்க்கலாம். எந்த பிரச்சனையும் இல்லை, Pandocஇல்பின்வரும்கட்டளைவரி மூலம் அதைக் கையாள முடியும்:
pandoc “manual.docx” -o “manual.html”
இந்தக் கட்டளைவரி, எந்த பாணி வடிவமைப்பும் இல்லாமல், உரைக்கான அடிப்படை HTML இன் markup ஐ உருவாக்குகிறது. பதிவேற்றம் செய்யப்பட்ட HTML கோப்பை, பதிலளிக்கக்கூடிய பக்க விளிம்புகள், பிற படிக்கக்கூடிய மேம்பாடுகளுடன் ஒருமுழுமையான ஆவணமாக விரும்பினால், -s எனும் அளவுருவைப் பின்வருமாறுபயன்படுத்தலாம்:
pandoc “manual.docx” -s -o “manual.html”
பதிவேற்றம் செய்யப்பட்ட HTML-க்கு ஒரு குறிப்பிட்ட CSS இன் stylesheet ஐப் பயன்படுத்துதல், ஆவணங்களுக்குள் குறிமுறைவரிகளின் தொகுதிகளை வடிவமைத்தல், LaTeX கோப்புகளிலிருந்து எவ்வாறு மாற்றப்படுகிறது என்பதை மாற்றுதல் போன்ற பல்வேறு Pandoc-க்கு இன்னும் பல்வேறு வாய்ப்புகள் உள்ளன. Pandoc-ன் இணையதளத்தில் உள்ள மாதிரிகானொளிகாட்சிகளின் பக்கம், கருவி ஆகியவற்றின் திறன்களைப் பற்றிய சிறந்த ஆலோசனையை நமக்கு வழங்குகின்றன.
கோப்புகளை மொத்தமாக மாற்றுவதற்கான உள்ளமைக்கப்பட்ட வாய்ப்பு Pandoc-க்கு இல்லை, ஆனால் அதை ஒரு சிறிய Bashஇன் உரைநிரலில் அல்லது ஒரு கோப்பகத்தில் உள்ள ஒவ்வொரு கோப்பின் மீதும் மீண்டும் மீண்டும் செய்யும் PowerShellஇன் உரைநிரலில் மடிக்கலாம். நூற்றுக்கணக்கான Word ஆவணங்களை Word-ல் தனித்தனியாகத் திறப்பதை விட இது மிக விரைவான முறையாக இருக்கும்.
பணியை விரைவுபடுத்துதல்
கட்டுரைகளை எழுதுவதற்கு MS-DOS பயன்படுத்த முயற்சிக்கும்போது Pandoc-ஐக் பயன்படுத்திடலாம் இது ஒரு எளிய உரை திருத்தி, ஆனால் ஆவணத்தில் இணைப்புகள், தலைப்புகள் போன்ற பிற வடிவமைப்புகளைச் சேர்க்க Markdown இல் தட்டச்சு செய்யலாம். சேமிக்கப்பட்ட Markdown இன் உரையை உள்ளடக்க மேலாண்மை அமைப்பு (CMS) பயன்படுத்தும் HTML வடிவத்திற்கு மாற்ற இன்னும் ஒரு விரைவான வழி தேவைப்படுகின்றது.
இந்தப் பணிக்காக Pandoc சரியாக செயல்படாது, இருப்பினும் சில சின்னங்கள் சரியாகக் காட்டப்படுவதற்கு –ascii=true எனும்அளவுருவைச் சேர்க்க வேண்டியிருக்கும்போது. ஒரு கோப்பில் வெளியிடுவதற்குப் பதிலாக, வெளியீட்டை pbcopy எனும்கட்டளையில் பின்வருமாறு செய்திடும்போது, இது HTML உரையை clipboard.க்கு கொண்டுசெல்கிறது.
pandoc “/Users/corbin/Documents/DOS/MAIN.TXT” -f markdown -t html –ascii=true | pbcopy
இந்த முழு கட்டளைவரியையும் ஒரு குறுக்குவழியில்செய்திடலாம் நாம்செய்ய வேண்டியதெல்லாம் ஆவணத்தைச் சேமித்து, குறுக்குவழியை இயக்கி, பின்னர் HTML ஐ பணியின் CMS இல் உள்ள மூலக் காட்சியில் ஒட்டுவதுதான். MS-DOS உடனான இந்த குறிப்பிட்ட சோதனை நீண்ட காலம் நீடிக்கவில்லை, ஆனால் மற்றொரு பண்டைய உரைதிருத்தியை முயற்சிக்கும்போது அதை மீண்டும் கண்டுபிடித்திடமுடியும்.
இப்போது, மீண்டும் கட்டுரைகளை மைக்ரோசாஃப்ட் வேர்டில் எழுதத் தொடங்கிடலாம். உரையை வேர்டில் இருந்து நேரடியாக நகலெடுத்து படைப்பின் CMS அல்லது வேறு ஏதேனும் rich text editor இல் ஒட்டும்போது, ​​அதில் அனைத்து வடிவமைப்பும் அடங்கும். ஆவணத்தின் தலைப்புகள், இணைப்புகள் போன்ற பிற முக்கியமான வடிவமைப்புகள் பாதுகாக்கப்பட வேண்டும் , ஆனால் டஜன் கணக்கான சீரற்ற குறிச்சொற்களில் சரியான எழுத்துரு, எழுத்துருவின் அளவு சேமிக்கப்படக்கூடாது.
நல்வாய்ப்பாக, இந்தப் பணிக்கு Pandoc சரியாக செயல்படுகிறது. scratchpad ஆவணத்தை HTML ஆக மாற்றும் ஒரு சிறிய உரைநிரலை உருவாக்கி, அசல் கோப்பிலிருந்து வரி முறிவுகளை அகற்றி, பின்னர் முடிவை clipboard:க்கு சேமிக்கலாம் அதற்கான கட்டளைவரி பின்வருமாறு:
pandoc -f docx -t html –ascii=true –extract-media=”$HOME/Desktop/” “$HOME/Documents/Scratch Pad.docx” –wrap=none | pbcopy
ஒரே பிரச்சனை என்னவென்றால், இந்த உரைநிரல் scratchpad ஆவணத்தில் hardcoded செய்யப்பட்டுள்ளது. நீண்ட வழிகாட்டிகளுக்கும் மதிப்புரைகளுக்கும், வழக்கமாக வரைவுகள் கோப்புறையில் ஒரு புதிய வேர்டு ஆவணத்தை உருவாக்கிடலாம். தேவைப்படும்போது அவற்றை மாற்ற ஒரு முனைமத்தில் திறக்க முடியும், ஆனால் குறுக்குவழிகள் மீண்டும் மீட்புக்கு வந்துவிடுகின்றன.
ஒரு புதிய குறுக்குவழியாக Finder இல் உள்ள ஆவணங்களுக்கு ‘Copy as HTML’ என்ற சுட்டியின்வலதுபுற சொடுக்குதலால் தோன்றிடுகின்ற வாய்ப்புகளின் பட்டியிலில் சேர்க்கிறது. அது இயங்கும் போது, ​​குறுக்குவழி கோப்பின் பாதையை Pandoc க்கு அனுப்புகிறது, இது மாற்றப்பட்ட HTML ஐ clipboard:க்குக்கு ஒட்டுகிறது. Pandoc தானாகவே கோப்பு வடிவமைப்பைக் கண்டறிய முடியும் என்பதால், இது Word ஆவணங்களை விட பலவற்றிற்கு செயல்படுகிறது.
வடிவமைப்பு பிழைகள் போன்ற தலைவலிகளை உருவாக்காமல் விரும்பும் உரைதிருத்திகளில் எழுதுவதை Pandoc மிகவும் எளிதாகவும் விரைவாகவும் ஆக்கியுள்ளது. இது பல வெளியீட்டு , காப்பக பயன்பாட்டு நிகழ்வுகளுக்கும் உதவியாக இருக்கும். அடுத்த முறை சில ஆவணங்களை மாற்ற வேண்டியிருக்கும் போது, ​​இதை ஒரு முயற்சித்துப் பார்த்திடுக.

Leave a Reply