Monday, September 28, 2015

ලිනක්ස් ඉගෙන ගමු (Linux) - 28

Scanner සැකසීම

කොලයක තිබෙන දෙයක් පරිගණකය තුළට ගැනීමට ඇති හොඳම ක්‍රමය මෙය වේ. ස්කැනර් එකක් නැති අවස්ථාවක ෆෝන් එකේ කැමරාවෙන් හෝ වෙනත් කැමරාවකින් එම කොලයේ ෆොටෝ එකක් ගෙන එය පරිගණය තුළට ගැනීමට හැකියි. එවිට හොඳම කොලිටියෙන් ෆොටෝ එක ගැනීම වැදගත්. අද පවතින ස්කැනර් usb පෝට් එකකින් පරිගණකයට සම්බන්ධ කෙරේ. ඔබ කොමියුනිකේෂන්වල නිතර දකින ෆොටෝකොපි යන්ත්‍රයද ස්කැනරයක් හා ප්‍රින්ටරයක් යන දෙකම එකට පවතින උපකරණයකි. එහිදී ඔබ දැක ඇති එම යන්ත්‍රයේ පියනක් ඔසවා කොපි කළ යුතු කොලය තබයි. එවිට එම කොලය ස්කෑන් වී එහි ඇති ලේසර් ප්‍රින්ටරයෙන් ප්‍රින්ට් වේ. පරිගණකයකට ස්කැනර් එකක් ගැනීමේදී අර ෆොටෝකොපි මැෂින් එකේදී මෙන් පියන ඇර කොලය තැන්පත් කළ හැකි ආකාරයේ එකක් ගැනීමට වගබලා ගන්න (flatbed scanner). ඔබ දැක තිබෙනවා ෆැක්ස් මැෂින්. එහිත් ඇත්තටම ස්කැනර් එකක් හා ප්‍රින්ටරයක් ඇත. එහෙත් මෙහිදී ෆැක්ස් කළ යුතු කොලය ඇතුලු කරන්නේ සිහින් ට්‍රේ එකක් තුළටය. එවිට එම කොලය එම ට්‍රේ එකේ කැරකෙන රෝලර් අතරින් ගමන් කරයි. මේ ආකාරයට සාදා තිබෙන ස්කැනර්ද ඇත. එහෙත් එවැන්නකට වඩා ඉහත ෆ්ලැට්බෙඩ් ස්කැනර් එකක් ගැනීම උචිතයි. ෆ්ලැට්බෙඩ් වර්ගයේ එකකින් ඕනෑම ගණකමක් සහිත දෙයක් ස්කෑන් කර ගන්නට හැකියි (පාස්පෝට් වැනි දේවල් පවා; කැමති නම් ඔබේ අතේ අත්ල පවා). එහෙත් අර ට්‍රේ එකකින් කොලය යන ජාතියේ ඒවායේ තුනී (සාමාන්‍ය) කොල පමණයි ස්කෑන් කළ හැක්කේ.


බොහෝ ස්කැනර් (ප්‍රින්ටර්වල මෙන්ම) ඉබේම ලිනක්ස්වලින් ඩිටෙක්ට් කරනවා (ඒ කියන්නේ ලිනක්ස්වල වැඩ කරනවා). ස්කැනර් එක පරිගණකයට කනෙක්ට් කරන්න. සමහර ස්කැනර්වලට පිටින් විදුලිය ලබා දිය යුතු අතර, තවත් ඒවාට එලෙස පිටතින් විදුලිය අවශ්‍ය නැත; පරිගණකයේ usb පෝට් එකෙන්ම ඊට අවශ්‍ය විදුලිය ලබා ගනී. ඉන්පසු සුදුසු ස්කෑන් සොෆ්ට්වෙයාර් එකකින් ස්කෑන් කටයුත්ත කළ හැකියි. ඒ සඳහා ඉතා සරල හා පහසු Simple Scan යන ප්‍රෝග්‍රෑම් එක ඉන්ස්ටෝල් කරගත හැකියි (පහත රූපය).


ස්කෑන් කිරීමට අවශ්‍ය කොලය ස්කැනර් එක මත නිවැරදිව තබන්න. ඉන්පසු Scan කියන ටූල් බට්න් එක මත ක්ලික් කරන්න. දැන් එය ස්කෑන් වේවි (එය ස්කෑන් වෙන ගමන් තිරය මතද කුඩාවට එය පෙන්වාවි). ඉන්පසු එය ෆයිල් එකක් ලෙස සේව් කළ හැකියි Save යන බට්න් එක ක්ලික් කර. PDF හා තවත් ඉමේජ් ෆෝමැට් කිහිපයකින්ම ස්කෑන් ඉමේජ් එක සේව් කරගත හැකියි. තවත් ස්කෑන් එකක් කිරීමට වම් කෙළවරම ඇති ටූල් එක ක්ලික් කර පෙර සේම අලුත් කොලය ස්කැනර් එකට දමා Scan ටූල් එක ඔබා ඉනපසු Save ටූල් එකෙන් සේව් කරගත හැකියි. ස්කෑන් වෙච්ච කොලය වමට හෝ දකුණට කරකැවීමටද (rotate) ටූල් බට්න් දෙකක් ඇත. සමහර අවස්ථාවල ස්කෑන් කරපු සම්පූර්ණ කොලයම වෙනුවට ඉන් කොටසක් පමණක් ඔබට සේව් කිරීමට අවශ්‍ය විය හැකියි. එවිට Crop ටූල් එක ඉහත රූපයේ ටූල්බාර් එකේ දකුණු කෙළවරම ඇත. අවශ්‍ය නම්, ස්කෑන් කරපු එකක් කෙලින්ම ප්‍රින්ට් කර ගන්නට හැකියි Document → Print මඟින්.

සාමාන්‍යයෙන් ස්කෑන් කරන විට අකුරු බහුල කොලයක් ස්කෑන් කරනවාට (text mode) වඩා රූප බහුල කොල ස්කෑන් කිරීම (image/photo mode) තරමක් වෙනස්ය. රූපයේ කොලිටියට හානි නොවීමට ඉතා හොඳින් (වැඩි කාලයක් ගෙන) එය ස්කෑන් කිරීම සුදුසුය. රූපයක්ද නැතිනම් අකුරුද ස්කෑන් කරන්නේ කියා ඔබට ස්කැනර් එකට පැවසීමට සිදු වේ. ඒ සඳහා ඉහත රූපයේ Scan බට්න් එකට පසුව පෙනෙන කුඩා ඊහිස මත ක්ලික් කරන්න. එවිට මෙනු එකක් මතු වේවි. එහි Text, Photo යනුවෙන් අයිටම් දෙකක් පෙනේවි. ඉන් කැමති එක තෝරන්න. ඔබ ස්කෑන් කරන තනි තනි කොලය තනි තනිවයි ඉහත සේව් කළේ. ඔබට අවශ්‍ය නම්, ස්කෑන් කරන සියලු කොල තනි එක ෆයිල් එකක් ලෙස සේව් කළ හැකියි නිකංම Scan බට්න් එක ක්ලික් නොකර ඉහත ඊහිස මත ක්ලික් කර ඉන් Single Page යන්න තේරුවොත්. ස්කෑන් කරන සෑම කොලයක් පාසාම මෙලෙස සිදු කරන්න.

ස්කැනර් එකේ යම් යම් සෙටිංස් සැකසියද හැකියි. ඒ සඳහා Document → Preferences යන්න. එවිට පහත රූපය ලැබේවි. මෙහි උඩින්ම Scan Source යන්නෙන් පෙන්වන්නේ ස්කැනර් එකයි. Text Resolution යනු ටෙක්ස්ට් මෝඩ් එකෙන් ස්කෑන් කරන විට, එය ස්කෑන වන කොලිටිය මෙයින් සැකසේ. මෙහි dpi (dots per inch) යනු කොලයේ වර්ග අඟලක ප්‍රමාණයක් ගත් විට එහි ස්ථාන (පොයින්ට්ස්) කීයක්ද (කීයක් ස්කෑන් කළ යුතුද) යන්නයි. මෙහි අගය වැඩිවන තරමට කොලිටිය වැඩි වේ. ස්කෑන් වීමට ගතවන කාලයද වැඩි වේ. සේව් කරන විට ෆයිල් සයිස් එකද වැඩි වේ. Photo Resolution යන්නෙහි සෙට් කරන්නේ ෆොටෝ මෝඩ් එකෙන් ස්කෑන් කරන විට, කොච්චර කොලිටියක් තිබිය යුතුද යන්නයි. පෙරත් මා සඳහන් කළා සාමාන්‍යයෙන් එහි කොලිටිය ටෙක්ස්ට් මෝඩ් එකට වඩා වැඩි බව. Brightness, Contrast, Quality යනුද ඔබ දන්නා සෙටිං තුනක් ස්කෑන් වන රූපයේ ආලෝක මට්ටම (සුදු ගතිය), කලු-සුදු දෙක අතර කැපී පෙනීම, හා කොලිටිය සෙට් කිරීමට යොදා ගන්නා.


OCR

ස්කෑන් කරපු ලියකියවිලිවල අකුරු හා රූප ලෙස පෙනෙන සියලු දේවල් පරිගණකය තුළ සේව් වන්නේ රූප වශයෙනි. එමනිසා එම අකුරු සාමාන්‍ය ටෙක්ස්ට් ෆයිල් එකක කරන්නාක් සේ එහි ඇති අකුරු වෙනස් කළ නොහැකියි. ඔබට එවැනි ඉමේජ් ෆෝමැට් එකෙන් තිබෙන ලියවිලි සාමාන්‍ය ටෙක්ස්ට් බවට පත් කිරීමට අවශ්‍ය නම්, ඊට ඇති එකම පහසු ක්‍රමය නම් OCR (Optical Character Recognition) ලෙස හැඳින්වේ. මෙහිදී පළමුවෙන්ම ස්කෑන් කරපු ෆයිල් එකක් (pdf, gif, jpeg, tiff වැනි) ඉමේජ් ෆෝමැට් එකකින් තිබීම අත්‍යවශ්‍ය වේ. තවද, එම ඉමේජ් එකේ තිබෙන අකුරු පැහැදිලිව කියවිය හැකි මට්ටමේ තිබිය යුතුය. ඔබට වුවත් බැහැ නේද අකුරු පැහැදිලි නැති අකුරු කියවන්න. ඉතිං පරිගණකය ගැන කවර කතාද?

ඕසීආර් කිරීමට වෙනමම ප්‍රෝග්‍රෑම් ඇත. සාමාන්‍යයෙන් මෙම ඕසීආර් ක්‍රියාවලිය සිදු කරන කොටසට OCR engine ලෙස සඳහන් කෙරෙනවා. වැදගත්ම එමෙන්ම ඇත්තටම ඉමේජ් ටෙක්ස්ට් බවට පත් කරන කොටස එයයි. Tesseract යන නමින් එවැනි ඉතා හොඳ ෆ්‍රී ඕසීආර් එන්ජින් එකක් තිබෙනවා. සිනැප්ටික් එකෙන් එය (Tesseract-OCR) ඉන්ස්ටෝල් කරගත හැකියි. එන්ජින් එකට අමතරව ඒ ඒ භාෂාව වෙනුවෙන්ද කොටස් ඉන්ස්ටෝල් කිරීමට සිදු වේ. උදාහරණයක් ලෙස, ඔබ ඕසීආර් කරන්නේ ඉංග්‍රිසි අක්ෂර නම්, ඉංග්‍රිසි අක්ෂරවලට අදාල කොටසද ඉන්ස්ටෝල් කර ගන්න. ඒ ලෙසට ප්‍රංශ, ජර්මන්, ස්වාහිලි වැනි ලෝකයේ ප්‍රසිද්ධ භාෂාවන්/අක්ෂර සඳහා ටෙසරැක්ට් එන්ජින් එක සමග වැඩකරන භාෂා කොටස්ද සාදා තිබෙනවා. සිනැප්ටික් එකෙන්ම tesseract කියා ටයිප් කළ විට, එම භාෂාවන්ට අදාල ටෙසරැක්ට් කොටස්/ප්‍රෝග්‍රෑම් පෙන්වාවි. ඉන් තමන් කැමැති භාෂාව/භාෂාවන්ද ඉන්ස්ටෝල් කර ගන්න.


ඉන්පසු ග්‍රැෆිකල් ආකාරයට මෙම ටෙසරැක්ට් සමග වැඩ කිරීමට තවත් ප්‍රෝග්‍රැම් එකක් අවශ්‍ය වේ. ඒ සඳහා OCR Feeder නම් භාවිතා කළ හැකියි (පහත රූපය). jpeg, jif වැනි රූපයක් (දැනටමත් ස්කෑන් කර තිබෙන) ප්‍රෝග්‍රැම් එකට එකතු කර ගත හැකියි File → Add Image යන්න මඟින්. එලෙසම pdf (ඉමේජ්) ෆයිල් එකක් ප්‍රෝග්‍රැම් එකට එකතු කර ගත හැකියි File → Import PDF මඟින්. ඒවිතරක්ද නොවේ, කෙලින්ම ස්කැනර් එකෙන් ෆයිල් එකක් මීට එකතු කර ගත හැකියි File → Import Page from Scanner යන්නෙන්.



ඉහත ආකාරයට අවශ්‍ය ෆයිල් ප්‍රෝග්‍රැම් එකට එකතු කරගත් පසු, දැන් එය ඕසීආර් කළ යුතුය. ප්‍රෝග්‍රැම් එකේ වම් පැත්තේ පෙන්වනවා එක ඉමේජ් එකක් හෝ කිහිපයක්. ඉන් තමන් කැමති එක් ඉමේජ් එකක් තෝරා Document → Recognize Page යන්න තේරීමෙන් එම ඉමේජ් ෆයිල් එක ඕසීආර් කළ හැකියි. අවශ්‍ය නම් එකතු කර තිබෙන සියලුම ෆයිල් ඕසීආර් කළ හැකියි Document → Recognize Document යන්න තේරීමෙන්. එවිට ඉහත වින්ඩෝ එකේම දකුණු පසින් පෙන්වාවි ඩොක්‍යුමන්ට් එකේ ටෙක්ස්ට් (අක්ෂර). සමහර අවස්ථාවල ඉතා නිවැරදිවම අක්ෂර හඳුනාගෙන නොතිබේවි. එවිට එවැනි තැන් අතින් (මැනුවලි) නිවැරදි කළ හැකියි. ඉන්පසු එම ටෙක්ස්ට් කොපි කර ගත හැකියි. නැතිනම් File → Export මඟින් odt, html වැනි ෆෝමැට් එකකින් සේව් කර ගතද හැකියි.

No comments:

Post a Comment