فناوری OCR چیست

فناوری ocr

آیا تا‌به‌حال فکر کرده‌اید که چگونه متن اسناد فیزیکی، به فرمت دیجیتال تبدیل می‌شود؟ پاسخ این سوال فناوری OCR است. OCR مخفف Optical Character Recognition (به‌معنای تشخیص کاراکتر نوری) است که به رایانه‌ها امکان می‌دهد متن را از تصاویر، اسناد اسکن‌شده، PDF و سایر منابع بخوانند و تشخیص دهند.

در این مقاله به اصول اولیه فناوری OCR، نحوه عملکرد و کاربردهای آن در صنایع مختلف خواهیم پرداخت. بنابراین، اگر در مورد تبدیل PDF به متن کنجکاو هستید، این مقاله را تا انتها بخوانید.

OCR چیست؟

OCR یا Optical Character Recognition فناوری است که به ما امکان می‌دهد تصاویر را با متن داخل آن‌ها پردازش کنیم، متن را استخراج کرده و آن را به فرمت قابل خواندن توسط ماشین تبدیل نماییم. این بدان معناست که اشخاص می‌توانند از رسیدها، فاکتورها، پلاک‌ها، شماره کانتینرهای حمل‌و‌نقل و غیره عکس بگیرند؛ از فناوری OCR برای استخراج اطلاعات مفید در این تصاویر استفاده کنند و آن‌ها را در قالبی قرار دهند که رایانه بتواند آن را بخواند. متن استخراج‌شده قابل ویرایش و فهرست‌بندی است و می‌توان آن را به‌شکل متن، برای استفاده در آینده ذخیره کرد.

فناوری OCR چگونه عمل می‌کند؟

روش‌های قدیمی‌تر OCR از تکنیک‌های بینایی کامپیوتری مانند آستانه‌گذاری و تشخیص کانتور برای جدا‌کردن کاراکترها از بقیه تصویر استفاده می‌کردند. اما با پیشرفت تکنولوژی، روش‌های تشخیص حروف نیز تا حد زیادی تغییر کرده و بر یادگیری ماشین و هوش مصنوعی استوار شده است.

اکنون، فناوری OCR از قدرت شبکه‌های عصبی عمیق برای بومی‌سازی و تشخیص خودکار متن موجود در یک تصویر استفاده می‌کند. این شبکه‌های عصبی قبل از اینکه روی داده‌های اصلی مورد استفاده قرار گیرند، بر روی تصاویر مختلفی آموزش داده می‌شوند.

نرم‌افزار OCR معمولاً مراحل زیر را برای تبدیل یک سند اسکن‌شده به فرمت دیجیتال دنبال می‌کند:

  1. پیش‌پردازش: نرم‌افزار OCR اغلب تصاویر را پیش پردازش می‌کند تا اعوجاج و نویز را کاهش دهد و کیفیت تشخیص را بالا ببرد.
  2. تشخیص متن: سند اسکن‌شده به تصاویر روشن و تاریک تقسیم می‌شود. نواحی روشن‌تر تصاویر، به‌عنوان پس‌زمینه و نواحی تاریک به‌عنوان متنی که نیاز به رمزگشایی دارند، شناسایی می‌شوند. سپس مناطق تیره‌تر برای تعیین مکان حروف یا ارقام تجزیه و تحلیل می‌شوند. این حروف یا ارقام با استفاده از یک الگوریتم شناسایی می‌شوند
  3. پس‌پردازش: برخی از ابزارهای OCR از فهرستی از کلمات (به نام واژگان) استفاده می‌کنند که مجاز به استفاده در یک سند هستند تا دقت خروجی را افزایش دهند، اما اگر سند حاوی اسم‌های مناسب یا زبان فنی باشد که بخشی از لیست نیستند، ممکن است مشکلاتی ایجاد کند.

تاریخچه فناوری OCR

اولین استفاده از تشخیص کاراکتر نوری را می‌توان در فناوری تلگراف و دستگاه‌های خواندن برای نابینایان ردیابی کرد.

امانوئل گلدبرگ (Emanuel Goldberg) ماشینی را که فناوری شبیه به OCR داشت، اختراع کرد. این ماشین کاراکترها را می‌خواند و آن‌ها را به کد استاندارد تلگراف، تبدیل می‌کرد.

تقریباً در همان زمان، ادموند فورنیر دالبه (Edmund Fournier d’Albe) اپتوفون (Optophone) را اختراع کرد. اپتوفون این یک اسکنر دستی بود که هنگام حرکت در صفحه، صداهایی مطابق با حروف یا کاراکترهای خاص تولید می‌کرد.

در طول اواخر دهه 1920 تا اوایل دهه 1930، گلدبرگ ماشینی را برای جست‌و‌جوی آرشیوهای میکروفیلم با استفاده از تشخیص کد نوری توسعه داد. او آن را «ماشین آماری» خود نامید. در سال 1931، او این اختراع را به ثبت رساند که بعداً آی‌بی‌ام به آن دست یافت.

پس از آن در سال 1974، فردی به نام Ray Kurzweil شرکت Kurzweil Computer Products Inc را تأسیس کرد و Omni-font OCR را توسعه داد، فناوری که می‌توانست متن چاپ‌شده با اکثر فونت‌ها را تشخیص دهد. کورزویل معتقد بود بهترین کاربرد فناوری OCR برای نابینایان است؛ زیرا می‌توانست متن نوشته شده را با صدای بلند بخواند.

اما یکی از اولین مشتریانش، LexisNexis، این برنامه را برای آپلود اسناد قانونی و اخبار برای پایگاه‌های داده آنلاین خود خریداری کرد.

پس از آن فناوری OCR به رشد خود ادامه دارد و با ظهور گوشی‌های هوشمند و هوش مصنوعی، به کمال خود رسید.

فناوری OCR

چرا OCR مهم است؟

بیشتر کسب‌وکارها از فرم‌های چاپی استفاده می‌کنند. اگرچه دنیا به‌سمت دیجیتالی‌شدن حرکت می‌کند، اما هنوز بسیاری از اسناد به‌شکل دستی هستند و از این گذشته، همیشه اسناد تایپ‌شده چاپی وجود دارند که نیاز است آن‌ها را برای تغییرات بیشتر به متن تبدیل کرد. در چنین دنیایی، فناوری OCR نقش بسیار مهمی دارد. در اینجا برخی از دلایل اهمیت فناوری OCR را آورده‌ایم.

مدیریت متن‌های چاپی و دست‌نویس

تعداد بسیار زیادی متون چاپی یا دست‌نویس وجود دارد که مدیریت آن‌ها در دنیای دیجیتالی، به OCR وابسته است. برای مثال اطلاعات چاپ‌شده روی یک بنر، شماره تلفن‌های روی کارت ویزیت، آدرس روی یک بیلبورد تبلیغاتی و… همگی برای استفاده بهینه به فناوری OCR نیازمند هستند.

ساده‌سازی تلاش‌های انطباق

 در صنایعی که رعایت مقررات ضروری است، فناوری OCR نقشی حیاتی در ساده‌سازی فرآیندهای تصحیح دارد. بسیاری از اسناد مانند برچسب‌ها، هشدارها و متون روی بسته‌بندی حاوی اطلاعات دقیقی هستند که تایپ مجدد آن‌ها علاوه‌بر نیاز به صرف وقت زیاد، می‌تواند از دقت متن بکاهد. با استفاده از OCR سازمان‌ها می‌توانند خطر خطاهای انطباق را کاهش دهند، به استانداردهای قانونی پایبند باشند و هزینه‌های مرتبط و تعهدات احتمالی را به‌حداقل برسانند.

افزایش کارایی در کنترل کیفیت

فناوری تشخیص کاراکتر نوری به شناسایی خطاهای تایپی، اشکال قالب‌بندی یا متون مفقود، کمک می‌کند. این کارایی نه تنها در زمان مورد نیاز برای تصحیح متون صرفه‌جویی می‌کند، بلکه احتمال خطاهای پرهزینه چاپ و چاپ مجدد را نیز کاهش می‌دهد.

نگهداری اسناد

نگهداری اسناد کاغذی و در مرحله بعدی، پیداکردن اطلاعات در آن‌ها با چالش زیادی همراه است. اما ذخیره‌سازی متن نیاز به حافظه بسیار کمی داشته و با استفاده از یک هارد کوچک می‌توان حجم بسیاری از اسناد را ذخیره کرد. این نوع ذخیره‌سازی، هدررفت کاغذ را کاهش داده، در فضا صرفه‌جویی می‌کند و امکان دسترسی به اطلاعات را در یک چشم‌به‌هم‌زدن فراهم می‌سازد.

فناوریOCR چه کاربردهایی دارد؟

هرجا که نیاز به استخراج اطلاعات متنی از عکس باشد، فناوریOCR قابل استفاده است. این فناوری به‌طور وسیعی در موارد زیر استفاده می‌شود:

  • تشخیص شماره پلاک: اداره راهنمایی و رانندگی می‌تواند از تشخیص پلاک توسط فناوریOCR برای اجرای قوانین راهنمایی و رانندگی، ردیابی خودروها در پارکینگ، افزایش امنیت در فضاهای عمومی، ساختمان‌های شرکتی، مراکز خرید و غیره استفاده کند.
  • بررسی اسناد حقوقی: قوه قضائیه می‌تواند از فناوریOCR  برای بررسی اشکال مختلف اسناد (مبایعه نامه، سند ملکی، عقد نامه و…) استفاده کرده، متن آن‌ها را استخراج کند و در دیتا بیس خود برای استفاده‌های بعدی ذخیره نماید. این فناوری، حتی می‌تواند با استفاده از الگوریتم های تشخیص دست خط، اسنادی که به‌شکل دست‌خط هستند را نیز بررسی کرده و متن آن‌ها را استخراج نماید.
  • استخراج جدول: سازمان‌های مختلف می‌توانند با استفاده از فناوریOCR  به‌طور خودکار جداول را در یک سند شناسایی کنند، متن داخل هر سلول، سرفصل ستون‌ها، داده‌های داخل جدول و… را به متن تبدیل کرده و به‌شکل جدول تایپ‌شده ذخیره کنند.
  • بانکداری: تجزیه و تحلیل چک‌ها، خواندن و به‌روز‌رسانی دفترچه‌های بانک، اطمینان از انطباق با KYC، تجزیه و تحلیل محتواهای مختلف مربوط به وام، حساب‌ها و… از جمله استفاده‌های سیستم بانکداری از فناوریOCR است.
  • دیجیتالی‌کردن منو: استخراج اطلاعات از منوی رستوران‌های مختلف و قراردادن آن‌ها در قالبی همگن، یکی دیگر از استفاده‌های رایج از فناوریOCR است. در حال حاضر، رستوران‌های بسیاری از این ویژگی‌ برای تولید منوی آنلاین و تغییر آن در طول زمان استفاده می‌کنند.
  • مراقبت‌های بهداشتی: سوابق پزشکی بیماران، پرونده، تشخیص‌ها، داروها و غیره را می‌توان با استفاده از این روش به‌شکل متنی تبدیل کرده و برای پزشکان و پرستاران قابل استفاده نمود. با استفاده از OCR  اطلاعات پرونده‌های بیمار، آزمایشات و تشخیص‌ها، هرگز از بین نرفته و برای همیشه قابل ذخیره، جست‌و‌جو و دسترسی خواهد بود. با فناوری OCR دیگر نیازی به نگهداری پرونده‌های حجیم کاغذی نیست.
  • فاکتورها: خواندن صورت‌حساب‌ها، فاکتورها و رسیدها، استخراج محصولات، قیمت‌ها، داده‌های تاریخ، نام شرکت/خدمت برای خرده‌فروشی‌ها و صنعت لجستیک اهمیت زیادی دارد. فناوریOCR این امکان را برای این شرکت‌ها فراهم می‌سازد و هزینه بررسی دستی این مدارک را تا حد زیادی کاهش می‌دهد.
فناوری OCR

تفاوت OCR کامل (Full OCR) با OCR ناحیه‌ای (Zonal OCR)

Zonal OCR یک فناوری است که شامل استخراج فیلدهای داده یا اطلاعات خاص از مناطق تعیین‌شده در یک سند است. OCR ناحیه‌ای به‌جای پردازش کل سند، بر استخراج داده‌ها از مناطق از پیش تعریف‌شده روی سند متمرکز می‌شود.

در مقابل، Full OCR یا OCR کامل، کل سند را می‌خواند. سپس، یک لایه متنی را در بالای سند ایجاد می‌کند. لایه‌های متنی امکان جست‌و‌جو در کل محتوای سند را فراهم می‌کنند. این نوع OCR برای گزارش‌ها، قراردادها یا هر سندی که تمام آن نیاز به تبدیل به متن دارد، استفاده می‌شود.

سخن آخر

فناوری OCR یک فناوری رو به تکامل برای تبدیل عکس به متن است. این فناوری می‌تواند در صنایع مختلف به‌کار رفته و زندگی را برای انسان‌ها آسان‌تر کند. در حال حاضر، انواع مختلف نرم افزارهای تبدیل عکس به متن وجود دارد که با فناوری OCR کار می‌کنند. یکی از آن‌ها نرم افزار اسکنیفای است که امکان تبدیل عکس و پی‌دی‌اف فارسی را به متن فراهم می‌سازد. از آنجا که این نرم‌افزار بومی زبان فارسی است، برای افرادی که قصد دارند دستخط‌ها و متون چاپی فارسی را به‌ متن قابل ویرایش تبدیل کرده و ذخیره کنند، بسیار مناسب است.

https://nanonets.com/ocr-technology

https://docparser.com/blog/what-is-ocr/

https://www.hyperscience.com/knowledge-base/optical-character-recognition-ocr/https://medium.com/@cardscanner.co/why-is-optical-character-recognition-ocr-important-for-businesses-and-what-benefits-does-it-e19ccc5bbd0d

اسکرول به بالا