توسعه دستیار هوشمند صوتی با تمرکز بر NLP

اشتراک گذاری با دوستان

وضعیت: باز

شماره سند:

تاریخ انتشار: ۱۴۰۰/۰۶/۲۱

مهلت ارسال پیشنهاد: ۱۴۰۰/۰۷/۱۶

فرصت‌ها: براساس پیشنهاد‌ها قابل‌ مذاکره خواهد بود.

تماس : ۰۲۱۸۸۳۹۸۵۶۳ – ۰۲۱۸۸۳۹۸۵۴۳

ارسال پروپوزال‌ها: https://ghazal.inif.ir/grant

ضرورت مسئله

ازآنجایی‌که استفاده از یک پلتفرم خانگی به‌تنهایی برای مشتری جذاب نیست، برای جلب نظر مخاطبین باید ارزشی فراتر و کاربردی‌تر به مشتری عرضه کرد. ازاین‌رو سرویس‌های متنوعی چون فیلم، موسیقی، مجله، سوپرمارکت آنلاین و بازی‌های اندرویدی و غیره به‌صورت پیش‌فرض بر روی این دستگاه‌ها نصب گردیده است و به‌مرورزمان این گستره خدمات وسیع‌تر و کامل‌تر می‌گردد. از طرفی برای دسترسی آسان‌تر به محتویات موجود در این پلتفرم‌ها، باید تمهیدات متنوعی اندیشیده گردد.

امروزه به‌منظور تسهیل استفاده از پلتفرم‌های مختلف، دستیارهای صوتی و هوشمند به بخش مهمی از پلتفرم‌های نرم‌افزاری و سخت‌افزاری تبدیل شده‌اند و شرکت‌های مطرح در این حوزه تلاش می‌کنند تا با افزودن ویژگی‌ها و قابلیت‌های مختلف کاربران را تشویق به استفاده از این پلتفرم‌ها کنند و مشتری با استفاده از دستیار صوتی، هم به‌آسانی به محتوای مدنظر خود برسد و هم به استفاده از سایر سرویس‌های پلتفرم علاقه‌مند گردد.

فناوری‌های مرتبط با دستیار صوتی هوشمند چه در سخت‌افزار و چه در نرم‌افزار همگی به بلوغ نسبی رسیده‌اند و توسعه یک دستیار صوتی جدید با استفاده از نتایج تحقیق و توسعه سایر شرکت‌ها امکان‌پذیر است؛ اما باید به این نکته توجه داشت که به دلیل پیچیدگی‌های زبان فارسی و همچنین ایجاد ساختاری مناسب و توسعه‌پذیر، همچنان ضرورت طی نمودن مراحل تحقیق، توسعه و آزمایش‌های گوناگونی به‌منظور توسعه دستیار هوشمند صوتی وجود دارد.

مشروح مسئله تحقیقاتی

دستیار هوشمند به برنامه‌ای گفته می‌شود که پس از دریافت عبارات صوتی، آن‌ها را تبدیل به متن می‌کند، محتوای موجود در آن را استخراج می‌نماید و درخواست کاربر را تشخیص می‌دهد. خواسته کاربر، می‌تواند درخواست او برای دسترسی به امکانات، محتوا، اطلاعات یا هر سرویس‌ دیگری باشد. خروجی دستیارهای صوتی معمولاً عبارتی صوتی یا نمایشی گرافیکی و تصویری است که خواسته کاربر را برآورده می‌کند.

شرکت متقاضی تحقیق پلتفرمی را از زیر دسته TV boxها توسعه داده است که مشابه apple TV یا موارد اندرویدی مانند محصول شیائومی، امکان پخش محتوای صوتی، تصویری و متنی را بر روی تلویزیون فراهم می‌سازد. این محصول یک پکیج یا افزونه اینترنتی تلویزیون می‌باشد که با اتصال به تلویزیون خانگی امکان پخش تمامی فایل‌های صوتی و تصویري اینترنت را در تلویزیون فراهم می‌سازد. این پلتفرم شامل سرویس مجله هوشمند (با پوشش بیش از 50 وب‌سایت خبری داخلی)، فیلم، ویدئو، موسیقی و کتاب (این پلتفرم میزبان سرویس‌های ثالث همکار نظیر نماوا، فیلیمو، آنتن، نواک، بشنو، تیوال و غیره هستند)، App Store و سرویس‌های مشابه دیگر می‌باشد. همچنین این پلتفرم قابلیت اتصال به بلوتوث و Wi-Fi و پروتکل‌های خانه هوشمند را دارا است و می‌تواند به HUB خانه هوشمند تبدیل شود و ابزارهای هوشمند خانه را کنترل نماید.

این شرکت به‌منظور دسترسی آسان‌تر مشتریان به محتوای مدنظر خود، دستیار صوتی را توسعه داده است. دستیار هوشمند صوتی این شرکت، برنامه‌ای است که بر روی سرورهای شرکت نصب شده و از طریق ردوبدل نمودن داده‌ها به اپلیکیشن‌ها و سرویس‌های پلتفرم و همکاران ثالث این شرکت، خدمات ارائه می‌دهد. در دستیار صوتی موجود، مراحل تبدیل گفتار به متن و ایجاد پاسخ صوتی، حذف شده است و برای ساده شدن کار، از روش‌های جایگزین استفاده می‌شود؛ یعنی در حال حاضر برای تبدیل گفتار به متن در قسمت جستجوی پلتفرم از API گوگل برای زبان فارسی استفاده می‌شود.

اما آنچه در این پروژه به‌عنوان دستیار صوتی هوشمند موردنظر است، یک برنامه با قابلیت دریافت صدا، تبدیل گفتار فارسی به متن (از طریق API گوگل)، تحلیل متن، استخراج محتوا و ایجاد پاسخ تصویری مرتبط با توجه به محتواها، اطلاعات و سرویس‌های موجود در پلتفرم و خدمات قابل‌ارائه توسط همکاران ثالث است (برای ارائه پاسخ درخواست کاربر مدنظر است تا از رابط گرافیکی استفاده شود تا مرحله ایجاد متن و تبدیل متن به صدا حذف گردد).

اولین نسخه این برنامه باید توانایی درک و پاسخ‌گویی در دامنه‌های زیر را داشته باشد:

دامنه‌های اولیه:

تشخیص عبارات و فرمان‌های مرتبط با جستجو یا پخش فیلم، سریال، برنامه‌های تلویزیونی و پخش زنده
تشخیص عبارات و فرمان‌های محلی مربوط به تنظیمات دستگاه مانند کم‌وزیاد کردن صدا، خاموش شدن دستگاه، تغییر سورس و غیره

دامنه‌های ثانویه:

تشخیص عبارات و فرمان‌های مرتبط با اخبار، موضوع‌های خبری، حوادث و اجتماعی
تشخیص عبارات و فرمان‌های مرتبط با داستان‌ها، کتاب‌ها، نقد، بررسی و پادکست‌ها

لازم به ذکر است که با توجه به گستردگی و تنوع موجود در موضوعات ذکرشده، انتظار می‌رود تیم توسعه الگوریتم پیشنهادهای مناسب برای نحوه و میزانintent ها و slotهای تحت پوشش برای هر موضوع را ارائه دهد تا در روند تعریف پروژه نهایی در نظر گرفته شود. همچنین روش‌های ارزیابی عملکرد الگوریتم به همراه معیارهای عملکردی ذکر در این درخواست نیز می‌تواند با نظر و پیشنهاد تیم توسعه پیش از نهایی شدن تعریف پروژه تغییر یابد.

همان‌طوری که در شکل زیر مشخص است؛ مرحله تبدیل گفتار به متن با API گوگل با فرض این‌که خطایی در آن وجود ندارد انجام می‌گیرد (این بخش توسط شرکت کارفرما انجام می‌شود و خروجی متن در اختیار الگوریتم قرار می‌گیرد). تمرکز پروژه حاضر بر بخش NLP (Natural Language Processing) است و می‌بایست محتوای عباراتی استخراج گردد که به‌عنوان ورودی توسط کاربرد دریافت می‌شود و نهایتاً خروجی الگوریتم دستیار صوتی باید تشخیص دامنه و داده‌های مربوط به آن دامنه باشد تا نتیجه جستجو یا پیشنهاد سرویس و محتوا به‌صورت گرافیکی به کاربر نمایش داده شود.

به‌منظور درک بهتر قسمت NLP در این پروژه، به چند مثال اشاره می‌گردد. در حال حاضر درصورتی‌که فرمان صوتی «اصغر فرهادی» به پلتفرم داده شود، ابتدا به کمک API گوگل فرمان صوتی به متن تبدیل می‌شود و سپس فیلم‌ها، اخبار، نقد و بررسی و سایر اطلاعات موجود در پلتفرم قابل‌نمایش خواهد بود. به شکل مشابه اگر فرمان صوتی «تقویم روز» صادر گردد، تقویم موجود در پلتفرم قابل‌مشاهده خواهد بود، اما مدنظر است درصورتی‌که فرمان صوتی «امروز چندمه؟»، «چند شنبه است؟»، «به میلادی چه روزیه؟» یا هر فرمان مرتبط دیگری که صادر گردید، بتوان خروجی مرتبط را به نمایش درآورد. همچنین مدنظر است به‌منظور نمایش آخرین وضعیت آب‌وهوا، بتوان محتوای فرمان‌های صوتی «هوا چطوره؟»، «اوضاع آب‌وهوای امروز؟» یا هر فرمان مرتبط دیگری را برای نمایش وضعیت آب‌وهوا استخراج کرد. در زیر مثال‌هایی از جملاتی که برای دامنه فیلم و سریال موردنظر است آورده شده است:

قسمت جدید سریال زخم کاری
بهترین فیلم‌های اکشن ۲۰۲۱ رو نشون بده
یک سریال خنده‌دار پیشنهاد کن
سریال طنز جدید مهران مدیری رو پخش کن

همان‌طوری که پیش‌تر نیز گفته شد در این پروژه مجری تحقیق باید دستیار هوشمند صوتی را توسعه دهد که عبارات و فرمان‌های مرتبط با جستجو یا پخش فیلم، سریال، برنامه‌های تلویزیونی و پخش زنده، اخبار، موضوع‌های خبری، حوادث، اجتماعی، داستان‌ها، کتاب‌ها، نقد، بررسی و پادکست‌ها و تشخیص عبارات و فرمان‌های محلی مربوط به تنظیمات دستگاه مانند کم‌وزیاد کردن صدا، خاموش شدن دستگاه، تغییر سورس و غیره را تشخیص دهد.

مرحله 1: به‌منظور انجام این پروژه ابتدا لازم است مطالعه کاملی بر روی دستیارهای هوشمند صوتی مطرح و همچنین نسخه‌های متن‌باز انجام شود تا آشنایی کاملی با الگوریتم‌ها، الگوها و روش‌های استفاده‌شده در هریک حاصل شود.