وضعیت: بسته
شماره سند:
تاریخ انتشار: ۱۴۰۰/۰۹/۰۶
مهلت ارسال پیشنهاد: ۱۴۰۰/۰۹/۲۰
فرصتها: براساس پیشنهادها قابل مذاکره خواهد بود.
تماس : ۰۲۱۸۸۳۹۸۵۶۳ – ۰۲۱۸۸۳۹۸۵۴۳
ارسال پروپوزالها: https://ghazal.inif.ir/grant
با گذر زمان و افزایش سرعت توسعه تکنولوژی، حجم اطلاعات قابل ذخیرهسازی در هر سازمان و کسبوکار افزایش یافته است. موتور جستجو یکی از مهمترین سرویسهایی است که در بازیابی اسناد اطلاعاتی ذخیرهشده در پایگاههای داده سازمان (در مقیاس کلانداده) نقش بسزایی ایفا مینماید.
جستوجوی سنتی که اغلب در نرمافزارها و وبسایتها استفاده میشود، جستوجوی مبتنی بر کلمات کلیدی است. در این روش، نتایجی حاوی آن کلمه کلیدی بدون درک معنای کلمه یا عبارت مورد جستوجو نشان داده میشود؛ بدیهی است این نوع جستوجو، زاویه دید محدودی داشته و ممکن است نتایج جامعی ارائه ندهد و تعدادی از نتایج ارزشمند از بین منابع دانشی را نادیده بگیرد.
این چالش در سالهای اخیر پژوهشگران را به سمت روشهای جستوجوی معنایی سوق داده که با درک معنای عبارت موردنظر، جستوجو را بهصورت هوشمند انجام میدهد. بهطور خلاصه میتوان گفت در جستوجوی مبتنی بر کلمات کلیدی، سیستم آنچه کاربر مینویسد را مییابد ولی موتور جستوجوی معنایی، آنچه کاربر میخواهد را در پاسخهای نهایی به نمایش درمیآورد.
هدف از این پروژه تحقیقاتی، توسعه موتور جستجوی مبتنی بر تحلیل و پردازش متن است که نتایج را بر اساس انتخاب مناسبترین و نزدیکترین منابع دانشی، از بین مقالات تعریفشده به لحاظ مشابهت نوشتاری یا معنایی ارائه دهد.
انتظار میرود این موتور جستجوی معنایی با ایجاد گراف دانش معنایی یا روشهای دیگر، مرتبطترین منابع را با توجه به نیاز کاربر ارائه دهد .
موضوع اصلی این طرح تحقیقاتی، توسعه یک موتور جستجوی مبتنی بر هوش مصنوعی است که در محصولات مختلف شرکت متقاضی کاربرد خواهد داشت. مخاطبین محصولات این شرکت، سازمانها و کسبوکارهای خصوصی هستند که هر یک، بسته به نوع فعالیت خود منابع دانشی متفاوتی دارند. مدیران این مجموعهها، اطلاعات خود را در قالب مقالات دانشی دستهبندیشده در بانکهای اطلاعاتی شرکت متقاضی ثبت مینمایند و از آن پس، کاربران محصولات شرکت متقاضی(کارکنان درون سازمان یا مشتریان بیرون از سازمان) با استفاده از امکانات جستجوی تعبیهشده در سامانه، با واردکردن موضوع بهصورت یک سؤال یا عبارتی حاوی کلمات کلیدی موردنظر، نیازهای خود را جستجو میکنند.
با توجه به اینکه کاربران این نرمافزارها دارای سطح آگاهی، تحصیلات و تخصصهای مختلفی هستند، برای جستجو و یافتن نزدیکترین و مرتبطترین مقالات براساس نیاز کاربر، نمیتوان عملیات جستجو را صرفاً بر اساس روشهای سنتی مبتنی بر زبان SQL انجام داد، زیرا جستجوی انجامشده در این روش، از دقت و کیفیت بالایی برخوردار نیست و اغلب کاربر برای رسیدن به خواسته و مفهوم موردنظر خود باید مدتزمان بیشتری را صرف جستجوهای متعدد نماید.
مهمترین راهکار برای حل این چالش، استفاده از روشهای نوین مبتنی بر هوش مصنوعی مانند گراف دانش معنایی است. بهاینترتیب، انتظار میرود تا در نتایج نهایی، نزدیکترین مقالات به عبارت مورد جستجوی کاربر به لحاظ معنایی حاصل شوند.
شرکت متقاضی، در راستای توسعه و ارتقاء سطح کیفی نرمافزارهای تولیدشده خود علاقمند به چنین موتور جستجویی است تا بازیابی اطلاعات ذخیرهشده در سامانههای خود را نهتنها بر اساس جستجوی عینی عبارت، بلکه بر اساس مشابهت معنایی با عبارات مورد جستجو انجام دهد.
در پیادهسازی موتور جستجوی موردنیاز در این طرح، توجه به این نکته ضروری است که ممکن است محتوای مورد جستجوی کاربر هدف و مفهوم یکسانی داشته باشند اما مانند مثال زیر در ساختارهای زبانی، متفاوت نوشته شده باشند:
1) عبارت جستجو شده : روش اتصال سامانه به سرور ایمیل
2) عبارت جستجو شده: چطور میتوان از SMTP Server سازمان برای استفاده در نرمافزار استفاده نمود؟
با توجه به مثال فوق، واضح است که کاربران میتوانند یک مفهوم و نیاز مشخص را به اشکال مختلف و با ساختارهای زبانی متفاوت مورد جستجو قرار دهند؛ با استفاده از موتور جستجوی هوشمند مبتنی بر هوش مصنوعی، انتظار میرود تا مقالات انتخابشده مرتبط با انواع مختلف سؤالات یکسان باشند.
علاوه بر مورد فوق، این احتمال وجود دارد که محتوای متنی ذخیرهشده در بانکهای اطلاعاتی حاوی اطلاعات چندین زبان مختلف باشند، بنابراین در فاز اولیه پیادهسازی این موتور جستجو، وجود دادههای زبان انگلیسی در کنار زبان فارسی مورد نیاز خواهد بود و انتظار میرود که نرمافزار موردنظر، قابلیت درک متون حاوی نوشتههای چندزبانه (عربی و انگلیسی) را داشته باشد. به عنوان مثال عبارت زیر را درنظر بگیرید:
عبارت جستجو شده: فاکتورهای ISO 10002
مقالات احتمالی پیدا شده در نتیجه استفاده از موتور جستجو:
شایان ذکر است، با توجه به اینکه نرمافزار استفادهکننده از این سرویس، در گذر زمان نیازمند بهروزرسانی مدل و دادههای خود میباشد، تشریح نحوه مدیریت این تغییرات در طرح پیشنهادی بسیار حائز اهمیت است و مکانیزم بروزرسانی باید بهصورت شفاف تشریح و شرایط اجرای آن فراهم شود.
همچنین هدف سیستم موردنظر در این طرح تحقیقاتی، ایجاد سیستم پرسش و پاسخ (Question Answering) همانند سایت Stackoverflow نیست بلکه توسعه موتور جستجوی معنایی با هدف یافتن نزدیکترین مقالات دانشی به نیاز و جستجوی کاربر در خروجی نهایی پروژه موردنظر خواهد بود.
پیش بینی میشود اجرای این پروژه مستلزم اجرای گامهای احتمالی زیر باشد: (شایسته است که مجری تحقیق، بهصورت شفاف گامهای طراحی شده توسط خود را برای اجرای پروژه، اعلام نماید و صرفاً اعلام این گامها، بهصورت پیشنهادی است.)
مهمترین گام در طراحی سیستمهای هوشمند مبتنی بر هوش مصنوعی، مرحله جمعآوری و اعتبارسنجی دادهها است. در این مرحله مجری تحقیق، باید ابتدا نیازهای دادهای خود از قبیل حجم، نوع، ساختار و حوزه تخصصی دادههای موردنیاز برای حل مسائل را شناسایی کند. در ادامه، نحوه نظارت بر جمعآوری دادههای موردنیاز و سپس صحتسنجی مجموعه دادگان جمعآوری شده، اهمیت بسیار زیادی خواهد داشت. انتظار میرود در این مرحله مجری طرح، نحوه اکتساب مجموعه دادگان موردنیاز خود و همچنین روشهای اعتبارسنجی آن به همراه نام الگوی پیکره دادگان را بهطور شفاف و دقیق تشریح کند.
در حوزه پردازش متن، قبل از انجام هرگونه پردازش هوشمندی، ابتدا باید پیشپردازش و یکسانسازی حروف بر روی آنها انجام گیرد تا صورتهای غیراستاندارد به شکل استاندارد تبدیل گردند. اگر حروف، نشانههای نگارشی و کلمات فارسی به شکل یکسانی نوشته نشوند، متون مورداستفاده، توسط سامانههای رایانهای قابلتحلیل نخواهند بود. طی فرایند نرمالسازی، علائم نگارشی، حروف، فاصله بین کلمات، اختصارات و غیره بدون ایجاد تغییرات معنایی در متن، به شکل استاندارد تبدیل میگردند. بنابراین، بایستی از یک استاندارد مشترک برای پیشپردازش و پردازش متون استفاده کرد.
در یک موتور جستوجوی موضوعی، سرعت پاسخگویی به موارد باید تا حد امکان بلادرنگ باشد. علاوه بر این، با توجه به این مسئله که چنین سیستمی نیازمند بهروزرسانیهای مکرر جهت انطباق با دادههای جدید و ثبت اطلاعات جدید در مجموعه دادگان است، قابلیت سیستم در بهروزرسانی و بهینهسازی در کمترین زمان از اهمیت بالایی برخوردار است. در این مرحله، نوع مدلسازی دادگان و همچنین نرمافزار مورداستفاده برای مدیریت داده جدید، میتواند تأثیرات بسزایی بر عملکرد و سرعت اجرا داشته باشد.
یکی از مهمترین گامها در تولید یک سیستم پردازش هوشمند متن، توسعه یک مدل زبانی است که توانایی ارائه بازنماییهای مناسب از کلمات، جملات و متون طولانی را داشته باشد. انتظار میرود علاوه بر ارائه مشخصات مدل زبانی، عملکرد مدل زبانی ارائهشده و همچنین معیارهای سنجش مدل زبانی نیز تشریح شود.
هدف از هوشمندی در این سطح، طراحی سرویس جستجو مبتنی بر شباهتیابی متن است.
در یک سطح هوشمندتر از موتورهای جستجو باید علاوه بر خود واژههای مورداستفاده در عبارت جستجو، مترادف کلمات در عبارت و همچنین جستجوی معنا و مفهوم آنها نیز مدنظر قرار گیرد. بهعنوان مثال، اگر کاربر از عبارت «مبارزه اقتصادی» استفاده نماید، موتور جستجو باید به کاربر، نتایجی که در آن از عبارت «جنگ اقتصادی» استفادهشده را نیز نشان دهد. در لایه معنا نیز، اگر کاربر عبارت «جنگ تحمیلی» را مورد جستجو قرار دهد، باید سیستم قادر به بازیابی اسنادی با مفهوم «دفاع مقدس» نیز باشد.
با توجه به اینکه مقالات تولیدشده در یک سازمان، از نظر موضوعی در دستههای مختلفی قرار میگیرند، ممکن است سرویس طبقهبندی موضوعی هوشمند و خودکار نیز در این پروژه موردنیاز واقع گردد.
در گام آخر، مراحل اعتبارسنجی عملکرد نرمافزار و مدلهای مورداستفاده بهعنوان یک Total Product بهطور کامل بیان شوند. در این مرحله نیاز است تا قبل از بهکارگیری نرمافزار در فاز تولید نهایی، روشهایی جهت تست بهصورت سیستماتیک توسعه داده شده و مورداستفاده قرار بگیرند. در اینجا مجری باید مراحل تست و ارزیابی را شفاف نماید و نحوه تعامل با Test Set تهیه شده توسط شرکت متقاضی، ترسیم فرآیند تست و ارزیابی و همچنین تشریح KPI های ارزیابی موتور جستجوی تهیه شده (استفاده از P@Kمثلاً P@5 و دقت 70 درصد یا بیشتر) بسیار حائز اهمیت خواهند بود.
ارائه کامل مستندات مرتبط با مراحل تحقیقاتی و اجرایی، پیادهسازی و استقرار پروژه به شرکت متقاضی
پروپوزالها صرفاً باید در چارچوب موردنظر صندوق نوآوری و شکوفایی، تدوین و حداکثر تا تاریخ 20 آذرماه 1400 در سامانه غزال به آدرس https://ghazal.inif.ir/grant ارسال شوند. پروپوزالهایی که در چارچوبی غیرازآن، یا به روشهای دیگر به دست صندوق برسند، وارد فرایند ارزیابی نخواهند شد.