وضعیت: بسته
شماره سند:
تاریخ انتشار: ۱۴۰۰/۰۹/۲۸
مهلت ارسال پیشنهاد: ۱۴۰۰/۱۰/۱۵
فرصتها: براساس پیشنهادها قابل مذاکره خواهد بود.
تماس : ۰۲۱۸۸۳۹۸۵۶۳ – ۰۲۱۸۸۳۹۸۵۴۳
ارسال پروپوزالها: https://ghazal.inif.ir/grant
همگام با پیشرفت اتوماسیون اداری و تبدیل مستندات کاغذی به فایلهای دیجیتالی، نیاز به نرمافزارهای هوشمند برای ورود اطلاعات به رایانه، بدون دخالت انسان ضروری به نظر میرسد. با کمک فناوری تشخیص کاراکتر به صورت نوری (نویسهخوان نوری) یا OCR میتوان متن را از داخل عکس استخراج نمود. متون فارسی به دو صورت چاپی و دستنویس موجود هستند که در حال حاضر، با استفاده از OCR، تصویر متون تایپی در روزنامه، مجلات، کتابها و اسناد دیگر قابلیت تبدیل به متن را دارند. البته متون دستنوشته نیز امکان بازشناسی دارند، اما تبدیل این دسته از اسناد به متن، کار دشوارتری است، زیرا نحوه نوشتن انسانها باهم بسیار متفاوت بوده و تشخیص نماد و حروف در این اسناد مشکل است.
متون دستنویس به دو صورت «گسسته» و «پیوسته» وجود دارند؛
متن دستنویس گسسته شامل کلیه متون نگارشیافته با دست است که حروف در آن از قالب و شکل ثابتی پیروی نمیکند. این متون، شامل نوشتههایی هستند که حروف، جدا از هم و به صورت گسسته نوشته شدهاند (بهعنوان نمونه؛ وارد نمودن نام و نامخانوادگی در فرمهایی که هر حرف از کلمه، داخل یک کادر نوشته میشود). در حالت پیوسته، حروف به صورت پیوسته نوشته میشوند و کلمات و جملات را تشکیل میدهند.
فناوری OCR در متون دستنویس گسسته تنها قادر به تشخیص حروف است، اما این فناوری در مورد متون دستنویس پیوسته، یعنی همان نوشتههای رایجی که با دست بر روی کاغذ نوشته میشود، باید قادر به تشخیص کلمات باشد.
هدف از این طرح تحقیقاتی، توسعه سامانهای جهت تبدیل تصویر دستنویس پیوسته فارسی به متن است. سامانه توسعهیافته باید قادر به تشخیص انواع فرمهای دستنویس و استخراج اطلاعات متنی و عددی از متون دستنویس پیوسته فارسی باشد. این سامانه، تصاویر اسکن شده را بهعنوان ورودی دریافت نموده و پس از پردازش آنها با سرعت بالا، اطلاعات متنی، عددی و همچنین علائم نگارشی موجود بر روی متن یا فرم را تشخیص داده و وارد بانک اطلاعاتی مینماید.
سامانه موردنیاز بایستی قابلیت تبدیل متون دستخط پیوسته فارسی به متن تایپشده را داشته باشد. همچنین باید قادر به تشخیص انواع اعداد، نمادها، کاراکترها و علائم نگارشی و حروف و کلمات فارسی باشد و قابلیت تبدیل آنها به متن تایپشده را داشته باشد. تنوع جملات ورودی به این سامانه محدود به دامنه خاصی نبوده و عمومی است.
تفاوت قابلملاحظه این سامانه با سامانههای دیگر، کاهش محدودیتهاست. محدودیتهایی ازجمله اینکه در متون موردنظر، باید حتماً با خودکار یا مدادی با رنگ مشخص پر شود و همچنین بخشهای مختلف متون بایستی با رنگ خاصی مانند قرمز نگارش شوند تا ارقام داخل آن قابلتشخیص باشد. علاوه بر این، بسیاری از سامانههای مشابه نسبت به چرخش یا تغییر اندازه فرمها حساس هستند. حال اینکه در سامانه مورد انتظار این محدودیت باید رفع شود.
سرعت پردازش در این سامانه بایستی بسیار بالا باشد؛ به شکلی که بتواند متون بسیاری را با استفاده از دستگاههای اسکنر با سرعت بالا وارد سامانه نموده و بهسرعت پردازش نماید. سرویس مورد نظر میبایست امکان انجام OCRبر روی 20 تصویر از جملات دستنویس را در حداکثر 1 ثانیه داشته باشد. در واقع، تصویر هر جمله میبایست در کمتر از 50 میلی ثانیه تبدیل به متن شود.
در این بخش به مشکلات خط فارسی، یا درواقع ویژگیهای خاص این خط پرداخته میشود؛
پروپوزالها صرفاً باید در چارچوب موردنظر صندوق نوآوری و شکوفایی، تدوین و حداکثر تا تاریخ 15 دی ماه 1400 در سامانه غزال به آدرس https://ghazal.inif.ir/grant ارسال شوند. پروپوزالهایی که در چارچوبی غیرازآن، یا به روشهای دیگر به دست صندوق برسند، وارد فرایند ارزیابی نخواهند شد.