دانلود اپلیکیشن:
آیا تابهحال فکر کردهاید که چگونه متن اسناد فیزیکی، به فرمت دیجیتال تبدیل میشود؟ پاسخ این سوال فناوری OCR است. OCR مخفف Optical Character Recognition (بهمعنای تشخیص کاراکتر نوری) است که به رایانهها امکان میدهد متن را از تصاویر، اسناد اسکنشده، PDF و سایر منابع بخوانند و تشخیص دهند.
در این مقاله به اصول اولیه فناوری OCR، نحوه عملکرد و کاربردهای آن در صنایع مختلف خواهیم پرداخت. بنابراین، اگر در مورد تبدیل PDF به متن کنجکاو هستید، این مقاله را تا انتها بخوانید.
OCR چیست؟
OCR یا Optical Character Recognition فناوری است که به ما امکان میدهد تصاویر را با متن داخل آنها پردازش کنیم، متن را استخراج کرده و آن را به فرمت قابل خواندن توسط ماشین تبدیل نماییم. این بدان معناست که اشخاص میتوانند از رسیدها، فاکتورها، پلاکها، شماره کانتینرهای حملونقل و غیره عکس بگیرند؛ از فناوری OCR برای استخراج اطلاعات مفید در این تصاویر استفاده کنند و آنها را در قالبی قرار دهند که رایانه بتواند آن را بخواند. متن استخراجشده قابل ویرایش و فهرستبندی است و میتوان آن را بهشکل متن، برای استفاده در آینده ذخیره کرد.
فناوری OCR چگونه عمل میکند؟
روشهای قدیمیتر OCR از تکنیکهای بینایی کامپیوتری مانند آستانهگذاری و تشخیص کانتور برای جداکردن کاراکترها از بقیه تصویر استفاده میکردند. اما با پیشرفت تکنولوژی، روشهای تشخیص حروف نیز تا حد زیادی تغییر کرده و بر یادگیری ماشین و هوش مصنوعی استوار شده است.
اکنون، فناوری OCR از قدرت شبکههای عصبی عمیق برای بومیسازی و تشخیص خودکار متن موجود در یک تصویر استفاده میکند. این شبکههای عصبی قبل از اینکه روی دادههای اصلی مورد استفاده قرار گیرند، بر روی تصاویر مختلفی آموزش داده میشوند.
نرمافزار OCR معمولاً مراحل زیر را برای تبدیل یک سند اسکنشده به فرمت دیجیتال دنبال میکند:
- پیشپردازش: نرمافزار OCR اغلب تصاویر را پیش پردازش میکند تا اعوجاج و نویز را کاهش دهد و کیفیت تشخیص را بالا ببرد.
- تشخیص متن: سند اسکنشده به تصاویر روشن و تاریک تقسیم میشود. نواحی روشنتر تصاویر، بهعنوان پسزمینه و نواحی تاریک بهعنوان متنی که نیاز به رمزگشایی دارند، شناسایی میشوند. سپس مناطق تیرهتر برای تعیین مکان حروف یا ارقام تجزیه و تحلیل میشوند. این حروف یا ارقام با استفاده از یک الگوریتم شناسایی میشوند
- پسپردازش: برخی از ابزارهای OCR از فهرستی از کلمات (به نام واژگان) استفاده میکنند که مجاز به استفاده در یک سند هستند تا دقت خروجی را افزایش دهند، اما اگر سند حاوی اسمهای مناسب یا زبان فنی باشد که بخشی از لیست نیستند، ممکن است مشکلاتی ایجاد کند.
تاریخچه فناوری OCR
اولین استفاده از تشخیص کاراکتر نوری را میتوان در فناوری تلگراف و دستگاههای خواندن برای نابینایان ردیابی کرد.
امانوئل گلدبرگ (Emanuel Goldberg) ماشینی را که فناوری شبیه به OCR داشت، اختراع کرد. این ماشین کاراکترها را میخواند و آنها را به کد استاندارد تلگراف، تبدیل میکرد.
تقریباً در همان زمان، ادموند فورنیر دالبه (Edmund Fournier d’Albe) اپتوفون (Optophone) را اختراع کرد. اپتوفون این یک اسکنر دستی بود که هنگام حرکت در صفحه، صداهایی مطابق با حروف یا کاراکترهای خاص تولید میکرد.
در طول اواخر دهه 1920 تا اوایل دهه 1930، گلدبرگ ماشینی را برای جستوجوی آرشیوهای میکروفیلم با استفاده از تشخیص کد نوری توسعه داد. او آن را «ماشین آماری» خود نامید. در سال 1931، او این اختراع را به ثبت رساند که بعداً آیبیام به آن دست یافت.
پس از آن در سال 1974، فردی به نام Ray Kurzweil شرکت Kurzweil Computer Products Inc را تأسیس کرد و Omni-font OCR را توسعه داد، فناوری که میتوانست متن چاپشده با اکثر فونتها را تشخیص دهد. کورزویل معتقد بود بهترین کاربرد فناوری OCR برای نابینایان است؛ زیرا میتوانست متن نوشته شده را با صدای بلند بخواند.
اما یکی از اولین مشتریانش، LexisNexis، این برنامه را برای آپلود اسناد قانونی و اخبار برای پایگاههای داده آنلاین خود خریداری کرد.
پس از آن فناوری OCR به رشد خود ادامه دارد و با ظهور گوشیهای هوشمند و هوش مصنوعی، به کمال خود رسید.
چرا OCR مهم است؟
بیشتر کسبوکارها از فرمهای چاپی استفاده میکنند. اگرچه دنیا بهسمت دیجیتالیشدن حرکت میکند، اما هنوز بسیاری از اسناد بهشکل دستی هستند و از این گذشته، همیشه اسناد تایپشده چاپی وجود دارند که نیاز است آنها را برای تغییرات بیشتر به متن تبدیل کرد. در چنین دنیایی، فناوری OCR نقش بسیار مهمی دارد. در اینجا برخی از دلایل اهمیت فناوری OCR را آوردهایم.
مدیریت متنهای چاپی و دستنویس
تعداد بسیار زیادی متون چاپی یا دستنویس وجود دارد که مدیریت آنها در دنیای دیجیتالی، به OCR وابسته است. برای مثال اطلاعات چاپشده روی یک بنر، شماره تلفنهای روی کارت ویزیت، آدرس روی یک بیلبورد تبلیغاتی و… همگی برای استفاده بهینه به فناوری OCR نیازمند هستند.
سادهسازی تلاشهای انطباق
در صنایعی که رعایت مقررات ضروری است، فناوری OCR نقشی حیاتی در سادهسازی فرآیندهای تصحیح دارد. بسیاری از اسناد مانند برچسبها، هشدارها و متون روی بستهبندی حاوی اطلاعات دقیقی هستند که تایپ مجدد آنها علاوهبر نیاز به صرف وقت زیاد، میتواند از دقت متن بکاهد. با استفاده از OCR سازمانها میتوانند خطر خطاهای انطباق را کاهش دهند، به استانداردهای قانونی پایبند باشند و هزینههای مرتبط و تعهدات احتمالی را بهحداقل برسانند.
افزایش کارایی در کنترل کیفیت
فناوری تشخیص کاراکتر نوری به شناسایی خطاهای تایپی، اشکال قالببندی یا متون مفقود، کمک میکند. این کارایی نه تنها در زمان مورد نیاز برای تصحیح متون صرفهجویی میکند، بلکه احتمال خطاهای پرهزینه چاپ و چاپ مجدد را نیز کاهش میدهد.
نگهداری اسناد
نگهداری اسناد کاغذی و در مرحله بعدی، پیداکردن اطلاعات در آنها با چالش زیادی همراه است. اما ذخیرهسازی متن نیاز به حافظه بسیار کمی داشته و با استفاده از یک هارد کوچک میتوان حجم بسیاری از اسناد را ذخیره کرد. این نوع ذخیرهسازی، هدررفت کاغذ را کاهش داده، در فضا صرفهجویی میکند و امکان دسترسی به اطلاعات را در یک چشمبههمزدن فراهم میسازد.
فناوریOCR چه کاربردهایی دارد؟
هرجا که نیاز به استخراج اطلاعات متنی از عکس باشد، فناوریOCR قابل استفاده است. این فناوری بهطور وسیعی در موارد زیر استفاده میشود:
- تشخیص شماره پلاک: اداره راهنمایی و رانندگی میتواند از تشخیص پلاک توسط فناوریOCR برای اجرای قوانین راهنمایی و رانندگی، ردیابی خودروها در پارکینگ، افزایش امنیت در فضاهای عمومی، ساختمانهای شرکتی، مراکز خرید و غیره استفاده کند.
- بررسی اسناد حقوقی: قوه قضائیه میتواند از فناوریOCR برای بررسی اشکال مختلف اسناد (مبایعه نامه، سند ملکی، عقد نامه و…) استفاده کرده، متن آنها را استخراج کند و در دیتا بیس خود برای استفادههای بعدی ذخیره نماید. این فناوری، حتی میتواند با استفاده از الگوریتم های تشخیص دست خط، اسنادی که بهشکل دستخط هستند را نیز بررسی کرده و متن آنها را استخراج نماید.
- استخراج جدول: سازمانهای مختلف میتوانند با استفاده از فناوریOCR بهطور خودکار جداول را در یک سند شناسایی کنند، متن داخل هر سلول، سرفصل ستونها، دادههای داخل جدول و… را به متن تبدیل کرده و بهشکل جدول تایپشده ذخیره کنند.
- بانکداری: تجزیه و تحلیل چکها، خواندن و بهروزرسانی دفترچههای بانک، اطمینان از انطباق با KYC، تجزیه و تحلیل محتواهای مختلف مربوط به وام، حسابها و… از جمله استفادههای سیستم بانکداری از فناوریOCR است.
- دیجیتالیکردن منو: استخراج اطلاعات از منوی رستورانهای مختلف و قراردادن آنها در قالبی همگن، یکی دیگر از استفادههای رایج از فناوریOCR است. در حال حاضر، رستورانهای بسیاری از این ویژگی برای تولید منوی آنلاین و تغییر آن در طول زمان استفاده میکنند.
- مراقبتهای بهداشتی: سوابق پزشکی بیماران، پرونده، تشخیصها، داروها و غیره را میتوان با استفاده از این روش بهشکل متنی تبدیل کرده و برای پزشکان و پرستاران قابل استفاده نمود. با استفاده از OCR اطلاعات پروندههای بیمار، آزمایشات و تشخیصها، هرگز از بین نرفته و برای همیشه قابل ذخیره، جستوجو و دسترسی خواهد بود. با فناوری OCR دیگر نیازی به نگهداری پروندههای حجیم کاغذی نیست.
- فاکتورها: خواندن صورتحسابها، فاکتورها و رسیدها، استخراج محصولات، قیمتها، دادههای تاریخ، نام شرکت/خدمت برای خردهفروشیها و صنعت لجستیک اهمیت زیادی دارد. فناوریOCR این امکان را برای این شرکتها فراهم میسازد و هزینه بررسی دستی این مدارک را تا حد زیادی کاهش میدهد.
تفاوت OCR کامل (Full OCR) با OCR ناحیهای (Zonal OCR)
Zonal OCR یک فناوری است که شامل استخراج فیلدهای داده یا اطلاعات خاص از مناطق تعیینشده در یک سند است. OCR ناحیهای بهجای پردازش کل سند، بر استخراج دادهها از مناطق از پیش تعریفشده روی سند متمرکز میشود.
در مقابل، Full OCR یا OCR کامل، کل سند را میخواند. سپس، یک لایه متنی را در بالای سند ایجاد میکند. لایههای متنی امکان جستوجو در کل محتوای سند را فراهم میکنند. این نوع OCR برای گزارشها، قراردادها یا هر سندی که تمام آن نیاز به تبدیل به متن دارد، استفاده میشود.
سخن آخر
فناوری OCR یک فناوری رو به تکامل برای تبدیل عکس به متن است. این فناوری میتواند در صنایع مختلف بهکار رفته و زندگی را برای انسانها آسانتر کند. در حال حاضر، انواع مختلف نرم افزارهای تبدیل عکس به متن وجود دارد که با فناوری OCR کار میکنند. یکی از آنها نرم افزار اسکنیفای است که امکان تبدیل عکس و پیدیاف فارسی را به متن فراهم میسازد. از آنجا که این نرمافزار بومی زبان فارسی است، برای افرادی که قصد دارند دستخطها و متون چاپی فارسی را به متن قابل ویرایش تبدیل کرده و ذخیره کنند، بسیار مناسب است.
https://nanonets.com/ocr-technology
https://docparser.com/blog/what-is-ocr/
https://www.hyperscience.com/knowledge-base/optical-character-recognition-ocr/https://medium.com/@cardscanner.co/why-is-optical-character-recognition-ocr-important-for-businesses-and-what-benefits-does-it-e19ccc5bbd0d