توسعه موتور جستجوی معنایی مبتنی بر هوش مصنوعی

اشتراک گذاری با دوستان

وضعیت: بسته

شماره سند:

تاریخ انتشار: ۱۴۰۰/۰۹/۰۶

مهلت ارسال پیشنهاد: ۱۴۰۰/۰۹/۲۰

فرصت‌ها: براساس پیشنهاد‌ها قابل‌ مذاکره خواهد بود.

تماس : ۰۲۱۸۸۳۹۸۵۶۳ – ۰۲۱۸۸۳۹۸۵۴۳

ارسال پروپوزال‌ها: https://ghazal.inif.ir/grant

ضرورت مسئله

با گذر زمان و افزایش سرعت توسعه تکنولوژی، حجم اطلاعات قابل ذخیره‌سازی در هر سازمان و کسب‌وکار افزایش یافته است. موتور جستجو یکی از مهم‌ترین سرویس‌هایی است که در بازیابی اسناد اطلاعاتی ذخیره‌شده در پایگاه‌های داده سازمان (در مقیاس کلان‌داده) نقش بسزایی ایفا می‌نماید.

جست‌وجوی سنتی که اغلب در نرم‌افزارها و وب‌سایت‌ها استفاده می‌شود، جست‌وجوی مبتنی بر کلمات کلیدی است. در این روش، نتایجی حاوی آن کلمه کلیدی بدون درک معنای کلمه یا عبارت مورد جست‌وجو نشان داده می‌شود؛ بدیهی است این نوع جست‌وجو، زاویه دید محدودی داشته و ممکن است نتایج جامعی ارائه ندهد و تعدادی از نتایج ارزشمند از بین منابع دانشی را نادیده بگیرد.

این چالش در سال‌های اخیر پژوهشگران را به سمت روش‌های جست‌وجوی معنایی سوق داده که با درک معنای عبارت موردنظر، جست‌وجو را به‌صورت هوشمند انجام می‌دهد. به‌طور خلاصه می‌توان گفت در جست‌وجوی مبتنی بر کلمات کلیدی، سیستم آنچه کاربر می‌نویسد را می‌یابد ولی موتور جست‌وجوی معنایی، آنچه کاربر می‌خواهد را در پاسخ‌های نهایی به نمایش درمی‌آورد.

هدف از این پروژه تحقیقاتی، توسعه موتور جستجوی مبتنی بر تحلیل و پردازش متن است که نتایج را بر اساس انتخاب مناسب‌ترین و نزدیک‌ترین منابع دانشی، از بین مقالات تعریف‌شده به لحاظ مشابهت نوشتاری یا معنایی ارائه دهد.

انتظار می‌رود این موتور جستجوی معنایی با ایجاد گراف دانش معنایی یا روش‌های دیگر، مرتبط‌ترین منابع را با توجه به نیاز کاربر ارائه دهد .

مشروح مسئله تحقیقاتی

موضوع اصلی این طرح تحقیقاتی، توسعه یک موتور جستجوی مبتنی بر هوش مصنوعی است که در محصولات مختلف شرکت متقاضی کاربرد خواهد داشت. مخاطبین محصولات این شرکت، سازمان‌ها و کسب‌وکارهای خصوصی هستند که هر یک، بسته به نوع فعالیت خود منابع دانشی متفاوتی دارند. مدیران این مجموعه‌ها، اطلاعات خود را در قالب مقالات دانشی دسته‌بندی‌شده در بانک‌های اطلاعاتی شرکت متقاضی ثبت می‌نمایند و از آن پس، کاربران محصولات شرکت متقاضی(کارکنان درون سازمان یا مشتریان بیرون از سازمان) با استفاده از امکانات جستجوی تعبیه‌شده در سامانه، با واردکردن موضوع به‌صورت یک سؤال یا عبارتی حاوی کلمات کلیدی موردنظر، نیازهای خود را جستجو می‌کنند.

با توجه به اینکه کاربران این نرم‌افزارها دارای سطح آگاهی، تحصیلات و تخصص‌های مختلفی هستند، برای جستجو و یافتن نزدیک‌ترین و مرتبط‌ترین مقالات براساس نیاز کاربر، نمی‌توان عملیات جستجو را صرفاً بر اساس روش‌های سنتی مبتنی بر زبان SQL انجام داد، زیرا جستجوی انجام‌شده در این روش، از دقت و کیفیت بالایی برخوردار نیست و اغلب کاربر برای رسیدن به خواسته و مفهوم موردنظر خود باید مدت‌زمان بیشتری را صرف جستجوهای متعدد نماید.

مهم‌ترین راهکار برای حل این چالش، استفاده از روش‌های نوین مبتنی بر هوش مصنوعی مانند گراف دانش معنایی است. به‌این‌ترتیب، انتظار می‌رود تا در نتایج نهایی، نزدیک‌ترین مقالات به عبارت مورد جستجوی کاربر به لحاظ معنایی حاصل شوند.

شرکت متقاضی، در راستای توسعه و ارتقاء سطح کیفی نرم‌افزارهای تولیدشده خود علاقمند به چنین موتور جستجویی است تا بازیابی اطلاعات ذخیره‌شده در سامانه‌های خود را نه‌تنها بر اساس جستجوی عینی عبارت، بلکه بر اساس مشابهت معنایی با عبارات مورد جستجو انجام دهد.

در پیاده‌سازی موتور جستجوی موردنیاز در این طرح، توجه به این نکته ضروری است که ممکن است محتوای مورد جستجوی کاربر هدف و مفهوم یکسانی داشته باشند اما مانند مثال زیر در ساختارهای زبانی، متفاوت نوشته شده باشند:

1) عبارت جستجو شده : روش اتصال سامانه به سرور ایمیل

2) عبارت جستجو شده: چطور می‌توان از SMTP Server سازمان برای استفاده در نرم‌افزار استفاده نمود؟

با توجه به مثال فوق، واضح است که کاربران می‌توانند یک مفهوم و نیاز مشخص را به اشکال مختلف و با ساختارهای زبانی متفاوت مورد جستجو قرار دهند؛ با استفاده از موتور جستجوی هوشمند مبتنی بر هوش مصنوعی، انتظار می‌رود تا مقالات انتخاب‌شده مرتبط با انواع مختلف سؤالات یکسان باشند.

علاوه بر مورد فوق، این احتمال وجود دارد که محتوای متنی ذخیره‌شده در بانک‌های اطلاعاتی حاوی اطلاعات چندین زبان مختلف باشند، بنابراین در فاز اولیه پیاده‌سازی این موتور جستجو، وجود داده‌های زبان انگلیسی در کنار زبان فارسی مورد نیاز خواهد بود و انتظار می‌رود که نرم‌افزار موردنظر، قابلیت درک متون حاوی نوشته‌های چندزبانه (عربی و انگلیسی) را داشته باشد. به عنوان مثال عبارت زیر را درنظر بگیرید:

عبارت جستجو شده: فاکتورهای ISO 10002

مقالات احتمالی پیدا شده در نتیجه استفاده از موتور جستجو:

عوامل تأثیرگذار در اخذ استانداردهای مرتبط با رضایت‌مندی مشتریان
چگونه مشتریانی راضی و وفادار به سازمان خود داشته باشیم؟
آشنایی با انواع گواهینامه‌های استاندارد ISO و کاربردهای آن‌ها در سازمان
اصول تعامل با شرکت‌های عرب‌زبان جهت افزایش کیفیت خدمات‌رسانی به آن‌ها

شایان ذکر است، با توجه به اینکه نرم‌افزار استفاده‌کننده از این سرویس، در گذر زمان نیازمند به‌روزرسانی مدل و داده‌های خود می‌باشد، تشریح نحوه مدیریت این تغییرات در طرح پیشنهادی بسیار حائز اهمیت است و مکانیزم بروزرسانی باید به‌صورت شفاف تشریح و شرایط اجرای آن فراهم شود.

همچنین هدف سیستم موردنظر در این طرح تحقیقاتی، ایجاد سیستم پرسش و پاسخ (Question Answering) همانند سایت Stackoverflow نیست بلکه توسعه موتور جستجوی معنایی با هدف یافتن نزدیک‌ترین مقالات دانشی به نیاز و جستجوی کاربر در خروجی نهایی پروژه موردنظر خواهد بود.

گام‌های تحقیق

پیش بینی می‌شود اجرای این پروژه مستلزم اجرای گام‌های احتمالی زیر باشد: (شایسته است که مجری تحقیق، به‌صورت شفاف گام‌های طراحی شده توسط خود را برای اجرای پروژه، اعلام نماید و صرفاً اعلام این گام‌ها، به‌صورت پیشنهادی است.)

ایجاد مجموعه داده

مهم‌ترین گام در طراحی سیستم‌های هوشمند مبتنی بر هوش مصنوعی، مرحله جمع‌آوری و اعتبارسنجی داده‌ها است. در این مرحله مجری تحقیق، باید ابتدا نیازهای داده‌ای خود از قبیل حجم، نوع، ساختار و حوزه تخصصی داده‌های موردنیاز برای حل مسائل را شناسایی کند. در ادامه، نحوه نظارت بر جمع‌آوری داده‌های موردنیاز و سپس صحت‌سنجی مجموعه دادگان جمع‌آوری شده، اهمیت بسیار زیادی خواهد داشت. انتظار می‌رود در این مرحله مجری طرح، نحوه اکتساب مجموعه دادگان موردنیاز خود و همچنین روش‌های اعتبارسنجی آن به همراه نام الگوی پیکره دادگان را به‌طور شفاف و دقیق تشریح کند.

نرمال‌سازی متن

در حوزه پردازش متن، قبل از انجام هرگونه پردازش هوشمندی، ابتدا باید پیش‌پردازش و یکسان‌سازی حروف بر روی آن‌ها انجام گیرد تا صورت‌های غیراستاندارد به شکل استاندارد تبدیل گردند. اگر حروف، نشانه‌های نگارشی و کلمات فارسی به شکل یکسانی نوشته نشوند، متون مورداستفاده، توسط سامانه‌های رایانه‌ای قابل‌تحلیل نخواهند بود. طی فرایند نرمال‌سازی، علائم نگارشی، حروف، فاصله بین کلمات، اختصارات و غیره بدون ایجاد تغییرات معنایی در متن، به شکل استاندارد تبدیل می‌گردند. بنابراین، بایستی از یک استاندارد مشترک برای پیش‌پردازش و پردازش متون استفاده کرد.

طراحی و توسعه ساختار بروز رسانی مجموعه داده

در یک موتور جست‌وجوی موضوعی، سرعت پاسخگویی به موارد باید تا حد امکان بلادرنگ باشد. علاوه بر این، با توجه به این مسئله که چنین سیستمی نیازمند به‌روزرسانی‌های مکرر جهت انطباق با داده‌های جدید و ثبت اطلاعات جدید در مجموعه دادگان است، قابلیت سیستم در به‌روزرسانی و بهینه‌سازی در کمترین زمان از اهمیت بالایی برخوردار است. در این مرحله، نوع مدل‌سازی دادگان و همچنین نرم‌افزار مورداستفاده برای مدیریت داده جدید، می‌تواند تأثیرات بسزایی بر عملکرد و سرعت اجرا داشته باشد.

توسعه مدل‌های زبانی

یکی از مهم‌ترین گام‌ها در تولید یک سیستم پردازش هوشمند متن، توسعه یک مدل زبانی است که توانایی ارائه بازنمایی‌های مناسب از کلمات، جملات و متون طولانی را داشته باشد. انتظار می‌رود علاوه بر ارائه مشخصات مدل زبانی، عملکرد مدل زبانی ارائه‌شده و همچنین معیارهای سنجش مدل زبانی نیز تشریح شود.

جستجوی هوشمند مبتنی شباهت‌یابی معنایی متون

هدف از هوشمندی در این سطح، طراحی سرویس جستجو مبتنی بر شباهت‌یابی متن است.

طراحی سرویس پیشرفته جستجوی هوشمند مبتنی بر شباهت‌یابی معنایی متون

در یک سطح هوشمندتر از موتورهای جستجو باید علاوه بر خود واژه‌های مورداستفاده در عبارت جستجو، مترادف کلمات در عبارت و همچنین جستجوی معنا و مفهوم آن‌ها نیز مدنظر قرار گیرد. به‌عنوان مثال، اگر کاربر از عبارت «مبارزه اقتصادی» استفاده نماید، موتور جستجو باید به کاربر، نتایجی که در آن از عبارت «جنگ اقتصادی» استفاده‌شده را نیز نشان دهد. در لایه معنا نیز، اگر کاربر عبارت «جنگ تحمیلی» را مورد جستجو قرار دهد، باید سیستم قادر به بازیابی اسنادی با مفهوم «دفاع مقدس» نیز باشد.

طراحی سرویس طبقه‌بندی خودکار مقالات دانشی

با توجه به اینکه مقالات تولیدشده در یک سازمان، از نظر موضوعی در دسته‌های مختلفی قرار می‌گیرند، ممکن است سرویس طبقه‌بندی موضوعی هوشمند و خودکار نیز در این پروژه موردنیاز واقع گردد.

اعتبار سنجی و تست

در گام آخر، مراحل اعتبارسنجی عملکرد نرم‌افزار و مدل‌های مورداستفاده به‌عنوان یک Total Product به‌طور کامل بیان شوند. در این مرحله نیاز است تا قبل از به‌کارگیری نرم‌افزار در فاز تولید نهایی، روش‌هایی جهت تست به‌صورت سیستماتیک توسعه داده شده و مورداستفاده قرار بگیرند. در اینجا مجری باید مراحل تست و ارزیابی را شفاف نماید و نحوه تعامل با Test Set تهیه شده توسط شرکت متقاضی، ترسیم فرآیند تست و ارزیابی و همچنین تشریح KPI های ارزیابی موتور جستجوی تهیه شده (استفاده از P@Kمثلاً P@5 و دقت 70 درصد یا بیشتر) بسیار حائز اهمیت خواهند بود.

خروجی‌های مورد انتظار تحقیق

دستیابی به مکانیسم جستجوی هوشمند بر روی منابع دانشی به‌صورت کاملاً پیاده‌سازی شده و قابل استفاده در نرم‌افزارهای شرکت متقاضی
دستیابی به سرویس طبقه‌بندی موضوعی خودکار برای اسناد سازمانی در دسته‌های از پیش تعریف‌شده

الزامات تحقیق

در صورت وجود، تمامی سرویس‌های تحت وب داخلی یا خارجی که در نرم‌افزار مورداستفاده قرار گرفته‌اند و همچنین اطلاعاتی که بین این سرویس‌ها رد و بدل می‌شود، باید به‌طور شفاف تشریح شوند. از طرفی، میزان وابستگی نرم‌افزار به این گونه سرویس‌ها نیز باید مورد بررسی قرار بگیرد تا در صورت ایجاد تغییر یا اختلال در این گونه سرویس‌ها، بتوان برآوردی از ریسک اختلال در عملیات سازمان ارائه داد.
حفظ اصل محرمانگی اطلاعات سازمانی و همچنین امنیت نرم‌افزار موتور جستجو در برابر حملات مخرب و نفوذهای امنیتی
پیاده‌سازی موتور جستجو مبتنی بر RESTful API با قابلیت دریافت ورودی اولیه به فرمت JSON یا FORM-DATA و بازگشت لیست نتایج مرتبط‌ترین مقالات پیدا شده بر اساس اولویت بیشترین نزدیکی به خروجی مورد انتظار کاربر
پیاده‌سازی API های مرتبط با موتور جستجو با در نظر گرفتن روش احراز هویت API Key در کنار قابلیت تعریف IP Whitelist برای جلوگیری از دسترسی‌های غیر مجاز
پیاده‌سازی API های مرتبط با موتور جستجو با در نظر گرفتن مکانیسم Burn Limit برای کنترل تعداد درخواست‌های قابل پاسخگویی در هر دقیقه (با قابلیت تنظیم میزان درخواست‌های مجاز)
نوع سرویس دهی نتایج این پروژه باید به‌صورت On-Promise باشد.
اعلام بازار شناسایی شده بالقوه یا مشتریان دارای قرارداد به‌عنوان نمونه مشتری، امتیاز ویژه‌ای دارد.
قابلیت پشتیبانی از منابع دانشی سازمان‌ها و کسب‌وکارها در دسته‌بندی‌های مختلف زیر:
- سازمان‌های دولتی
- سازمان‌های غیر دولتی
- دانشگاه‌ها و مراکز آموزشی
- شرکت‌های خصوصی در حوزه فناوری اطلاعات، نرم‌افزار، شبکه و زیرساخت
- شرکت‌های خصوصی در حوزه سلامت
- شرکت‌های خصوصی در حوزه فینتک
- شرکت‌ها و کارخانجات تولیدی و صنعتی
- فروشگاه‌های اینترنتی
- سازمان‌های صنفی و اتحادیه‌ها
- مراکز مشاوره
- شتابدهنده‌ها، مراکز نوآوری و مراکز رشد
آمادگی جهت پشتیبانی از منابع اطلاعاتی در زبان‌های فارسی و انگلیسی (و در صورت وجود توانایی زبان عربی) با توجه به چند زبانه بودن محصولات شرکت متقاضی و نیز احتمال وجود عبارات ترکیبی از زبان‌های مختلف در یک مقاله
عملکرد مناسب و ارائه بالاترین دقت خروجی ممکن با وجود حداقل داده‌های اطلاعاتی وارد شده توسط مشتریان نهایی در نرم‌افزارهای شرکت متقاضی
اعلام پیش‌نیازهای لازم جهت اعمال در نرم‌افزارهای شرکت متقاضی جهت مطابقت با موتور هوش مصنوعی از سوی مجری طرح
ارائه سورس کامل و باز تمامی بخش‌های پروژه انجام‌شده توسط مجری به شرکت متقاضی
رفع خطا و باگ‌های سیستم در صورت شناسایی بدون دریافت هزینه به مدت یک سال
آمادگی جهت توسعه‌های احتمالی حداقل به مدت یکسال پس از اتمام و تحویل نهایی پروژه موردنظر در این سند با شرایط مقرر شده در زمان عقد قرارداد (در ازای عقد قرارداد جدید)

ارائه کامل مستندات مرتبط با مراحل تحقیقاتی و اجرایی، پیاده‌سازی و استقرار پروژه به شرکت متقاضی

معیارهای ارزیابی و انتخاب مجری

تحصیلات و سوابق تیم تحقیقاتی و اجرایی و تناسب آن با مسئله
رویکرد فنی تیم تحقیقاتی به مسئله
میزان و اهمیت پیشنهادات مکمل در جهت دستیابی به بهترین نتایج
دسترسی به تجهیزات موردنیاز جهت انجام مطالعات، پیاده‌سازی و تست نتایج
میزان دقت و بازدهی قابل پیش بینی و دستیابی از خروجی نهایی موتور جستجو
دسترسی به داده‌های آزمایشی بر اساس حوزه‌های فعالیت مشتریان نهایی شرکت متقاضی

تسهیم مالکیت فکری

مالکیت معنوی: مجری در مالکیت معنوی ناشی از اجرای تحقیق سهیم خواهد بود و انتشار مقاله مشترک توسط مجری و متقاضی در ژورنال‌های داخلی و خارجی و ارائه مقاله در کنفرانس‌ها و سمینارها با موافقت و اشاره به نام همه دست‌اندرکاران مجاز خواهد بود.
مالکیت منافع مادی: با توجه به مدل کسب‌وکار شرکت متقاضی، منافع مالی ناشی از توسعه این فناوری تماماً متعلق به شرکت متقاضی بوده و مجری صرفاً حق‌الزحمه اجرای پروژه را دریافت خواهد کرد. بر این اساس، مجری به هیچ عنوان حق استفاده، ارائه یا فروش دستاوردها، مستندات و خروجی این پروژه به سایر اشخاص حقیقی یا حقوقی دیگر را نخواهد داشت و عدم عمل به این موضوع به‌عنوان تخطی از توافقات و جرم تلقی گردیده و پیگردهای حقوقی و قضایی مقتضی را از سوی شرکت متقاضی به دنبال خواهد داشت.

روش ارسال پیشنهاد

پروپوزال‌ها صرفاً باید در چارچوب موردنظر صندوق نوآوری و شکوفایی، تدوین و حداکثر تا تاریخ 20 آذرماه 1400 در سامانه غزال به آدرس https://ghazal.inif.ir/grant ارسال شوند. پروپوزال‌هایی که در چارچوبی غیرازآن، یا به روش‌های دیگر به دست صندوق برسند، وارد فرایند ارزیابی نخواهند شد.