اشتراک گذاری با دوستان
اشتراک گذاری در linkedin
اشتراک گذاری در twitter
اشتراک گذاری در facebook
اشتراک گذاری در telegram
اشتراک گذاری در whatsapp

وضعیت: باز

  شماره سند:

  تاریخ انتشار: ۱۴۰۰/۰۶/۲۱

  مهلت ارسال پیشنهاد: ۱۴۰۰/۰۷/۱۶

  فرصت‌ها: براساس پیشنهاد‌ها قابل‌ مذاکره خواهد بود.

 تماس : ۰۲۱۸۸۳۹۸۵۶۳ – ۰۲۱۸۸۳۹۸۵۴۳

  ارسال پروپوزال‌ها: https://ghazal.inif.ir/grant

ضرورت مسئله

ازآنجایی‌که استفاده از یک پلتفرم خانگی به‌تنهایی برای مشتری جذاب نیست، برای جلب نظر مخاطبین باید ارزشی فراتر و کاربردی‌تر به مشتری عرضه کرد. ازاین‌رو سرویس‌های متنوعی چون فیلم، موسیقی، مجله، سوپرمارکت آنلاین و بازی‌های اندرویدی و غیره به‌صورت پیش‌فرض بر روی این دستگاه‌ها نصب گردیده است و به‌مرورزمان این گستره خدمات وسیع‌تر و کامل‌تر می‌گردد. از طرفی برای دسترسی آسان‌تر به محتویات موجود در این پلتفرم‌ها، باید تمهیدات متنوعی اندیشیده گردد.

امروزه به‌منظور تسهیل استفاده از پلتفرم‌های مختلف، دستیارهای صوتی و هوشمند به بخش مهمی از پلتفرم‌های نرم‌افزاری و سخت‌افزاری تبدیل شده‌اند و شرکت‌های مطرح در این حوزه تلاش می‌کنند تا با افزودن ویژگی‌ها و قابلیت‌های مختلف کاربران را تشویق به استفاده از این پلتفرم‌ها کنند و مشتری با استفاده از دستیار صوتی، هم به‌آسانی به محتوای مدنظر خود برسد و هم به استفاده از سایر سرویس‌های پلتفرم علاقه‌مند گردد.

فناوری‌های مرتبط با دستیار صوتی هوشمند چه در سخت‌افزار و چه در نرم‌افزار همگی به بلوغ نسبی رسیده‌اند و توسعه یک دستیار صوتی جدید با استفاده از نتایج تحقیق و توسعه سایر شرکت‌ها امکان‌پذیر است؛ اما باید به این نکته توجه داشت که به دلیل پیچیدگی‌های زبان فارسی و همچنین ایجاد ساختاری مناسب و توسعه‌پذیر، همچنان ضرورت طی نمودن مراحل تحقیق، توسعه و آزمایش‌های گوناگونی به‌منظور توسعه دستیار هوشمند صوتی وجود دارد.

مشروح مسئله تحقیقاتی

دستیار هوشمند به برنامه‌ای گفته می‌شود که پس از دریافت عبارات صوتی، آن‌ها را تبدیل به متن می‌کند، محتوای موجود در آن را استخراج می‌نماید و درخواست کاربر را تشخیص می‌دهد. خواسته کاربر، می‌تواند درخواست او برای دسترسی به امکانات، محتوا، اطلاعات یا هر سرویس‌ دیگری باشد. خروجی دستیارهای صوتی معمولاً عبارتی صوتی یا نمایشی گرافیکی و تصویری است که خواسته کاربر را برآورده می‌کند.

شرکت متقاضی تحقیق پلتفرمی را از زیر دسته TV boxها توسعه داده است که مشابه apple TV یا موارد اندرویدی مانند محصول شیائومی، امکان پخش محتوای صوتی، تصویری و متنی را بر روی تلویزیون فراهم می‌سازد. این محصول یک پکیج یا افزونه اینترنتی تلویزیون می‌باشد که با اتصال به تلویزیون خانگی امکان پخش تمامی فایل‌های صوتی و تصویري اینترنت را در تلویزیون فراهم می‌سازد. این پلتفرم شامل سرویس مجله هوشمند (با پوشش بیش از 50 وب‌سایت خبری داخلی)، فیلم، ویدئو، موسیقی و کتاب (این پلتفرم میزبان سرویس‌های ثالث همکار نظیر نماوا، فیلیمو، آنتن، نواک، بشنو، تیوال و غیره هستند)، App Store و سرویس‌های مشابه دیگر می‌باشد. همچنین این پلتفرم قابلیت اتصال به بلوتوث و Wi-Fi و پروتکل‌های خانه هوشمند را دارا است و می‌تواند به HUB خانه هوشمند تبدیل شود و ابزارهای هوشمند خانه را کنترل نماید.

این شرکت به‌منظور دسترسی آسان‌تر مشتریان به محتوای مدنظر خود، دستیار صوتی را توسعه داده است. دستیار هوشمند صوتی این شرکت، برنامه‌ای است که بر روی سرورهای شرکت نصب شده و از طریق ردوبدل نمودن داده‌ها به اپلیکیشن‌ها و سرویس‌های پلتفرم و همکاران ثالث این شرکت، خدمات ارائه می‌دهد. در دستیار صوتی موجود، مراحل تبدیل گفتار به متن و ایجاد پاسخ صوتی، حذف شده است و برای ساده شدن کار، از روش‌های جایگزین استفاده می‌شود؛ یعنی در حال حاضر برای تبدیل گفتار به متن در قسمت جستجوی پلتفرم از API گوگل برای زبان فارسی استفاده می‌شود.

 اما آنچه در این پروژه به‌عنوان دستیار صوتی هوشمند موردنظر است، یک برنامه با قابلیت دریافت صدا، تبدیل گفتار فارسی به متن (از طریق API گوگل)، تحلیل متن، استخراج محتوا و ایجاد پاسخ تصویری مرتبط با توجه به محتواها، اطلاعات و سرویس‌های موجود در پلتفرم و خدمات قابل‌ارائه توسط همکاران ثالث است (برای ارائه پاسخ درخواست کاربر مدنظر است تا از رابط گرافیکی استفاده شود تا مرحله ایجاد متن و تبدیل متن به صدا حذف گردد).

اولین نسخه این برنامه باید توانایی درک و پاسخ‌گویی در دامنه‌های زیر را داشته باشد:

دامنه‌های اولیه:

  • تشخیص عبارات و فرمان‌های مرتبط با جستجو یا پخش فیلم، سریال، برنامه‌های تلویزیونی و پخش زنده
  • تشخیص عبارات و فرمان‌های محلی مربوط به تنظیمات دستگاه مانند کم‌وزیاد کردن صدا، خاموش شدن دستگاه، تغییر سورس و غیره

دامنه‌های ثانویه:

  • تشخیص عبارات و فرمان‌های مرتبط با اخبار، موضوع‌های خبری، حوادث و اجتماعی
  • تشخیص عبارات و فرمان‌های مرتبط با داستان‌ها، کتاب‌ها، نقد، بررسی و پادکست‌ها

لازم به ذکر است که با توجه به گستردگی و تنوع موجود در موضوعات ذکرشده، انتظار می‌رود تیم توسعه الگوریتم پیشنهادهای مناسب برای نحوه و میزانintent ها و slotهای تحت پوشش برای هر موضوع را ارائه دهد تا در روند تعریف پروژه نهایی در نظر گرفته شود. همچنین روش‌های ارزیابی عملکرد الگوریتم به همراه معیارهای عملکردی ذکر در این درخواست نیز می‌تواند با نظر و پیشنهاد تیم توسعه پیش از نهایی شدن تعریف پروژه تغییر یابد.

همان‌طوری که در شکل زیر مشخص است؛ مرحله تبدیل گفتار به متن با API گوگل با فرض این‌که خطایی در آن وجود ندارد انجام می‌گیرد (این بخش توسط شرکت کارفرما انجام می‌شود و خروجی متن در اختیار الگوریتم قرار می‌گیرد). تمرکز پروژه حاضر بر بخش NLP (Natural Language Processing) است و می‌بایست محتوای عباراتی استخراج گردد که به‌عنوان ورودی توسط کاربرد دریافت می‌شود و نهایتاً خروجی الگوریتم دستیار صوتی باید تشخیص دامنه و داده‌های مربوط به آن دامنه باشد تا نتیجه جستجو یا پیشنهاد سرویس و محتوا به‌صورت گرافیکی به کاربر نمایش داده شود.

شکل شماره 1- توسعه دستیار هوشمند صوتی با تمرکز بر بخش NLP

به‌منظور درک بهتر قسمت NLP در این پروژه، به چند مثال اشاره می‌گردد. در حال حاضر درصورتی‌که فرمان صوتی «اصغر فرهادی» به پلتفرم داده شود، ابتدا به کمک API گوگل فرمان صوتی به متن تبدیل می‌شود و سپس فیلم‌ها، اخبار، نقد و بررسی و سایر اطلاعات موجود در پلتفرم قابل‌نمایش خواهد بود. به شکل مشابه اگر فرمان صوتی «تقویم روز» صادر گردد، تقویم موجود در پلتفرم قابل‌مشاهده خواهد بود، اما مدنظر است درصورتی‌که فرمان صوتی «امروز چندمه؟»، «چند شنبه است؟»، «به میلادی چه روزیه؟» یا هر فرمان مرتبط دیگری که صادر گردید، بتوان خروجی مرتبط را به نمایش درآورد. همچنین مدنظر است به‌منظور نمایش آخرین وضعیت آب‌وهوا، بتوان محتوای فرمان‌های صوتی «هوا چطوره؟»، «اوضاع آب‌وهوای امروز؟» یا هر فرمان مرتبط دیگری را برای نمایش وضعیت آب‌وهوا استخراج کرد. در زیر مثال‌هایی از جملاتی که برای دامنه فیلم و سریال موردنظر است آورده شده است:

  • قسمت جدید سریال زخم کاری
  • بهترین فیلم‌های اکشن ۲۰۲۱ رو نشون بده
  • یک سریال خنده‌دار پیشنهاد کن
  • سریال طنز جدید مهران مدیری رو پخش کن

همان‌طوری که پیش‌تر نیز گفته شد در این پروژه مجری تحقیق باید دستیار هوشمند صوتی را توسعه دهد که عبارات و فرمان‌های مرتبط با جستجو یا پخش فیلم، سریال، برنامه‌های تلویزیونی و پخش زنده، اخبار، موضوع‌های خبری، حوادث، اجتماعی، داستان‌ها، کتاب‌ها، نقد، بررسی و پادکست‌ها و تشخیص عبارات و فرمان‌های محلی مربوط به تنظیمات دستگاه مانند کم‌وزیاد کردن صدا، خاموش شدن دستگاه، تغییر سورس و غیره را تشخیص دهد.

مرحله 1: به‌منظور انجام این پروژه ابتدا لازم است مطالعه کاملی بر روی دستیارهای هوشمند صوتی مطرح و همچنین نسخه‌های متن‌باز انجام شود تا آشنایی کاملی با الگوریتم‌ها، الگوها و روش‌های استفاده‌شده در هریک حاصل شود.

معیارهای عملکردی قابل‌ارائه در این مرحله موارد زیر هستند:

  • بررسی دقیق و جزئی حداقل پنج دستیار صوتی
  • یافتن راه‌کارهای متن‌باز و بررسی میزان توسعه‌یافتگی هریک
  • مستندسازی مراحل فنی بررسی و مقایسه الگوریتم‌های انتخاب‌شده
  • پیشنهاد حداقل سه الگوریتم و روش برای آزمایش در مرحله بعدی
  • مشخص شدن نحوه ارزیابی و صحت‌سنجی خروجی مدل توسعه داده شده
  • مشخص نمودن ویژگی‌های دادگان اولیه موردنیاز برای الگوریتم‌های پیشنهادشده، Intentها، Slotها و سایر ویژگی‌ها

مرحله 2: پس از انجام مطالعه و دستیابی به اطلاعات کافی، باید سه الگوریتم و روشی انتخاب گردد که با کاربرد نهایی، شرایط کاری و منابع موردنظر تطابق بیشتری دارند و پیاده‌سازی اولیه به‌صورت عمومی و برای شبیه‌سازی شرایط واقعی صورت گیرد. در این مرحله به دادگان جمع‌آوری‌شده در مرحله قبل نیاز خواهد بود.

معیارهای عملکردی قابل‌ارائه در این مرحله موارد زیر هستند:

  • انجام این مرحله در سه قسمت پیش‌پردازش، مدل استخراج مفهوم، مدل تولید پاسخ (مطابق جدول زمان‌بندی) – نتایج هر قسمت برای استفاده در قسمت بعد ارزیابی می‌شود.
  • پوشش یکی از دامنه‌های اولیه ذکرشده در قسمت ویژگی‌های فنی نسخه اولیه
  • آموزش الگوریتم‌ها با استفاده از دادگان اولیه برای رسیدن به دقت بیش از ۷۰ درصد
  • جمع‌آوری، مقایسه و بررسی نتایج آزمایش‌های انجام‌شده
  • مستندسازی نحوه پیاده‌سازی، روش آزمایش و الگوگیری‌های (بنچمارک‌) استفاده‌شده در مقایسه
  • افزودن دامنه اولیه دیگر و انجام آزمایش‌ها و الگوگیری‌ها
  • پیاده‌سازی آزمایشگاهی یک یا دو الگوریتم دیگر برای مقایسه نتایج با الگوریتم اول
  • پیشنهاد یک الگوریتم و روش به‌عنوان گزینه موردنظر برای مرحله بعد
  • مشخص نمودن ویژگی‌های دادگان تکمیلی موردنیاز برای الگوریتم پیشنهادشده
  • ارائه پیشنهاد و مشخص نمودن intentها، slotها و سایر ویژگی‌های مناسب برای دامنه‌های ثانویه با همکاری کارفرما
  • تحویل کدها و برنامه‌های این مرحله برای اجرا توسط تیم توسعه‌دهنده هم‌زمان با آزمایش هر قسمت

مرحله 3: پس از مقایسه نتایج به‌دست‌آمده در مرحله قبل، با مقایسه و بررسی دقیق نتایج، شرایط پیاده‌سازی و سایر معیارها یک روش باید برای پیاده‌سازی دقیق‌تر انتخاب شود. این روش باید بتواند تأمین‌کننده ویژگی‌های فنی دستیار صوتی هوشمند این شرکت باشد. علاوه بر این انتظار می‌رود توسعه‌پذیر بودن و بهینه بودن روش انتخاب‌شده برای افزودن ویژگی‌های پیشرفته در آینده نیز در انتخاب روش نهایی در نظر گرفته شود.

معیارهای عملکردی قابل‌ارائه در این مرحله موارد زیر هستند:

  • پیاده‌سازی بهینه روش و الگوریتم نهایی برای رسیدن به دقت و سرعت مناسب در محیط آزمایشگاهی
  • پوشش دامنه‌های ثانویه در قسمت ویژگی‌های فنی نسخه اولیه
  • آموزش و آزمایش الگوریتم با استفاده از دادگان تکمیلی برای رسیدن به دقت بیشتر از ۸۵ درصدی
  • ارائه روش جمع‌آوری و پیش‌پردازش دادگان قابل استفاده برای دامنه‌های دیگر
  • مستندسازی نحوه پیاده‌سازی و آزمایش و الگوگیری‌های (بنچمارک‌) به‌دست‌آمده

مرحله 4: هدف این مرحله، آماده‌سازی امکانات و فراهم نمودن شرایط موردنیاز برای اجرای ادامه پروژه است. پس از توسعه الگوریتم و روش نهایی در محیط آزمایشگاهی و اطمینان از آمادگی آن برای تبدیل‌شدن به محصول، باید پیش‌نیازهای بازنویسی و پیاده‌سازی آن در محیط خارج از آزمایشگاه و قابلیت استفاده در محصولات، بررسی و مستندسازی گردد.

معیارهای عملکردی قابل‌ارائه در این مرحله موارد زیر هستند:

  • ارائه پیشنهاد محیط پیاده‌سازی غیر آزمایشگاهی
  • تخمین ویژگی‌های سخت‌افزاری سرور میزبان برای پاسخ‌گویی به ۱۰۰۰ درخواست در دقیقه
  • ارائه پیشنهاد ویژگی‌های و قابلیت‌های قابل پیاده‌سازی در فاز بعدی پروژه
  • ارائه پیشنهاد دامنه‌های قابل افزودن به دستیار هوشمند
  • مشخص نمودن ویژگی‌های دادگان مورد نیاز برای دو دامنه دیگر منطبق با الگوریتم‌های پیشنهاد شده
  • ارائه پیشنهاد برای بهینه‌سازی و بالا بردن دقت الگوریتم

مرحله 5: درنهایت، روش انتخاب‌شده باید با استفاده از مستندات و نتایج به‌دست‌آمده در مرحله قبل برای پیاده‌سازی نهایی و استفاده در محصول بازنویسی شود. شرایط کاری برنامه و تطبیق آن با ساختار محصول از اهمیتی خاصی برخوردار است.

معیارهای عملکردی قابل‌ارائه در این مرحله موارد زیر هستند:

  • راه‌اندازی محیط پیاده‌سازی غیر آزمایشگاهی
  • آزمایش ویژگی‌های سخت‌افزاری سرور میزبان برای پاسخ‌گویی به ۱۰۰۰ درخواست در دقیقه
  • آزمایش ویژگی‌های و قابلیت‌های قابل پیاده‌سازی در فاز بعدی پروژه

پیاده‌سازی، بهینه‌سازی و بالا بردن دقت الگوریتم

گام‌های تحقیق

  • مطالعه و بررسی شیوه‌های جمع‌آوری و شناسایی الگوریتم‌های تشخیص محتوا
  • جمع‌آوری دادگان
  • دستیابی به الگوریتم مناسب برای دستیار هوشمند صوتی
  • انتخاب و آزمایش سه الگوریتم و روش برای رسیدن به نتایج اولیه
  • مقایسه نتایج و انتخاب یک روش برای پیاده‌سازی نهایی
  • تعیین روش‌های ارزیابی و الگوگیری (بنچمارک) الگوریتم به همراه مستندات فنی
  • مشخص نمودن نیازهای و شرایط توسعه الگوریتم برای محصول
  • آزمایش و بهبود الگوریتم به‌منظور تشخیص عبارات و فرمان‌های مرتبط با دامنه‌های تعریف‌شده
  • پیاده‌سازی الگوریتم در محیط واقعی محصول

خروجی‌های مورد انتظار تحقیق

  • توسعه دستیار هوشمند صوتی به‌منظور تشخیص محتوا در دامنه‌های ذکرشده

الزامات تحقیق

  • توسعه الگوریتم و روش بر پایه روش‌های مرسوم یادگیری ماشین و با استفاده از پلتفرم‌های مرسوم مانند pytorch، Tensor Flow و …
  • رسیدن به دقت ۸۵ درصدی در تشخیص نهایی جملات بر پایه مشخصات بیان‌شده در قسمت قبلی

تجهیزات و زیرساخت‌هایی که متقاضی تحقیق می‌تواند در اختیار مجری قرار دهد

  • همکاری و ایجاد زیرساخت‌های موردنیاز در تهیه دادگان موردنیاز
  • فراهم نمودن امکانات سخت‌افزاری مانند سرور برای آموزش و اجرای الگوریتم
  • همکاری در مرحله تبدیل برنامه آزمایشگاهی به برنامه قابل‌استفاده در محصول

گلوگاه‌های احتمالی

  • ایجاد مجموعه دادگان برچسب‌گذاری شده و تفکیک‌شده بر پایه دامنه (Domain)های موردنظر
  • تحقیق، بررسی، انتخاب و آزمایش الگوریتم‌های یادگیری ماشین مناسب برای Slot Filling و تشخیص Entity
  • تطبیق روش‌های مرسوم در تحلیل زبان طبیعی با ویژگی‌های زبان فارسی
  • آموزش مدل یادگیری ماشین با استفاده از مجموعه دادگان و آزمایش نتیجه تا رسیدن به دقت موردنظر
  • ایجاد و استفاده از دادگان برای آموزش و ارزیابی

معیارهای ارزیابی و انتخاب مجری

  • تحصیلات و سوابق تیم تحقیقاتی و تناسب آن با مسئله
  • رویکرد فنی تیم تحقیقاتی به مسئله
  • دسترسی به تجهیزات آزمایشگاهی و مواد اولیه و سایر الزامات اجرای تحقیق
  • زمان و هزینه اجرای تحقیق

تسهیم مالکیت فکری

  • مالکیت معنوی: مجری در مالکیت معنوی ناشی از اجرای تحقیق سهیم خواهد بود و انتشار مقاله مشترک توسط مجری و متقاضی در ژورنال‌های داخلی و خارجی، ارائه مقاله در کنفرانس‌ها و سمینارها با موافقت و اشاره به نام همه دست‌اندرکاران مجاز خواهد بود.
  • مالکیت منافع مادی: با توجه به مدل کسب‌وکار شرکت متقاضی، منافع مالی ناشی از توسعه این فناوری تماماً متعلق به شرکت متقاضی بوده و مجری صرفاً حق‌الزحمه اجرای پروژه تحقیقاتی را دریافت خواهد کرد.

روش ارسال پیشنهاد

پروپوزال‌ها صرفاً باید در چارچوب موردنظر صندوق نوآوری و شکوفایی، تدوین و حداکثر تا تاریخ 16 مهرماه 1400 در سامانه غزال به آدرس https://ghazal.inif.ir/grant ارسال شوند. پروپوزال‌هایی که در چارچوبی غیرازآن، یا به روش‌های دیگر به دست صندوق برسند، وارد فرایند ارزیابی نخواهند شد.