سامانه تشخیص خودکار متون توهین‌آمیز در زبان فارسی

اشتراک گذاری با دوستان

وضعیت: بسته

شماره سند:

تاریخ انتشار: 1401/02/25

مهلت ارسال پیشنهاد: 1401/03/22

فرصت‌ها: براساس پیشنهاد‌ها قابل‌ مذاکره خواهد بود.

تماس : 02166539734 – 02166533864

ارسال پروپوزال‌ها: https://ghazal.inif.ir/grant

خلاصه فناوری

ارزیابی صحیح پیام‌های توهین‌آمیز یا تنفرآمیز و تمایز آن از سایز پیام‌ها، تبدیل به یک نیاز مبرم برای تضمین آزادی بیان شده است. در حال حاضر بسیاری از شبکه‌های اجتماعی مجهز به موتور تشخیص خودکار متون تنفرآمیز هستند که هر یک با ترکیب ارزیابی انسانی سعی در کاهش میزان انتشار این‌گونه مطالب می‌شوند.

اهدافی که تیم پژوهشی در این تحقیق آن را دنبال می‌نماید؛ اول جمع‌آوری مجموعه دادگان توهین‌آمیز و تنفرآمیز در زبان فارسی است. جمع‌آوری دادگان توهین‌آمیز با استفاده از یک هسته اولیه از کلمات (عبارات) توهین‌آمیز شروع می‌شود. توئیت‌ها (یا دادگان) بر اساس این هسته فیلتر می‌شوند، سپس توئیت‌ها توسط داور انسانی برچسب دهی می‌شود. جهت بهبود وضعیت استخراج توئیت‌ها، از روش bootstrap استفاده می‌شود. بدین‌صورت که کلمات (عبارات) پرکاربرد توئیت‌های برچسب‌دهی‌شده، دوباره جمع‌آوری می‌شود و به‌عنوان فیلترهای جدید جهت فیلتر توئیت‌ها استفاده می‌شود.

برای دادگان توهین‌آمیز / تنفرآمیز ابتدا با استفاده از خزشگرهای شبکه‌های اجتماعی و روش جمع سپاری، داده‌های موردنظر جمع‌آوری می‌شود. سپس یک آیین‌نامه برچسب‌زنی برای متون تنفرآمیز تهیه می‌گردد که مورد استفاده داوران انسانی است.

سعی می‌شود که بخش‌هایی از دادگان (برای مثال 1000 رکورد) توسط بیش از یک داور انسانی هم‌زمان برچسب دهی شود تا بتوان میزان توافق بین داوران انسانی را محاسبه کرد.

پس از تکمیل دادگان آموزشی و انتخاب دادگان ارزیابی، مدل تشخیص توهین‌آمیز بودن متون، با استفاده از طبقه‌بندی مبتنی بر شبکه عصبی عمیق صورت می‌گیرد.

اینکه شبکه عصبی عمیق چه ساختاری دارد و اینکه آیا طبقه‌بندی سلسله مراتبی باشد یا یک سطحی، از نکات مهم این طرح است. همچنین یکی از مشکلات جدی این سامانه بایاس بودن آن نسبت به یک سری از واژگان و عبارات هست که بایستی اصلاح شود. حذف بایاس نیز از نکات این طرح به شمار می‌آید.

درباره تیم پژوهشی

سوابق عرضه‌کننده فناوری و مسئول اصلی تیم پژوهشی

این تیم از اعضای تیم پردازش زبان طبیعی دانشگاه تهران هستند که یکی از قوی‌ترین و بزرگ‌ترین تیم‌های مرتبط با این حوزه در کشور هستند و فعالیت‌های متعددی در حیطه خط و زبان فارسی در فضای رایانه‌ای انجام شده است. جهت آشنایی با فعالیت‌های اصلی تیم می‌توان به صفحه رسمی اعضا و همکاران تیم در رخ نمای دانشگاه تهران profile.ut.ac.ir مراجعه کرد.

در زمینه موضوع خاص تشخیص متون توهین‌آمیز / تنفرآمیز، از حدود 9 ماه پیش با حمایت جزئی که ستاد علوم شناختی از این تیم به عمل آمده است، یک سامانه اولیه توسعه داده شده است و در حال حاضر تقریباً بیش از 80% دادگان موردنیاز یک سامانه قوی و همچنین مدل هوش مصنوعی آن آماده شده است. در حال حاضر بالاترین کیفیت تشخیص متون توهین‌آمیز توسط این تیم وجود دارد. ولیکن در زمینه متون تنفرآمیز (و نه توهین‌آمیز) کماکان بایستی توسعه دادگان و مدل‌ها صورت گیرد.

ضرورت مسئله

تمامی پلتفرم‌هایی که اجازه می‌دهند که کاربران پیام‌ها و عقاید خود را اعلام کنند، مانند ثبت نظرات ذیل سایت‌های خبری، پیام‌رسان‌های متنی و صوتی، انجمن‌ها، فروم‌ها و غیره، با این مسئله مواجه هستند که هر متن یا اطلاعاتی بدون بازبینی نیروی انسانی اجازه بازنشر داده نمی‌شود. این موضوع سبب می‌شود که هم سرعت انتقال اطلاعات کم شود و هم هزینه نیروی انسانی بالا رود. مدل پیشنهادی فعلی این امر را عملی می‌کند که بخش زیادی از اطلاعات بدون بازبینی نیروی انسانی روی پلتفرم‌ها قرار گیرد.

شبکه‌های اجتماعی نظیر فیس‌بوک و توییتر برای مقابله با این موضوع مکانیزم گزارش‌دهی را ارائه نموده‌اند که این روش چندان مؤثر نیست، به‌دلیل اینکه اول حجم مطالب بیان‌شده بسیار زیاد است، دوم فرآیند گزارش‌دهی توسط کاربران و بعد بازبینی این گزارش‌ها فرآیند زمان‌بری است، سوم این فرآیند می‌تواند باعث ایجاد اختلالات روحی و روانی برای افراد، به‌خصوص کسانی شود که این گزارش‌ها را بازبینی می‌کنند. همچنین هزینه نیروی انسانی زیادی جهت بازبینی و گزارش دهی نیاز دارد. این موارد سبب شده است که ارائه یک روش خودکار برای تشخیص محتوای توهین‌آمیز ضروری به نظر آید.

مسئله اصلی تحقیق

به‌طورکلی گفتار توهین‌آمیز را می‌توان بیان جملات و عباراتی تعریف کرد که باعث ایجاد حس ناراحتی، رنجش، عصبانیت یا انزجار در مخاطب یا خواننده شود. گفتار خشونت‌آمیز عموماً تند، بی‌ادبانه، حاوی کلمات رکیک و ویژگی‌هایی از این قبیل می‌باشد. دلایل کلی گفتار توهین‌آمیز می‌تواند شامل دلایل شخصی جهت حمله، توهین و کوچک شمردن مخاطب یا حمله به گروه یا اجتماعی از افراد با ویژگی‌های مشترک باشد.

ولیکن هرگونه گفتار توهین‌آمیز که عامل ترویج و القاء خشم و نفرت در اشخاص و گروه‌هایی با یکی از مشترکات زیر باشند را گفتار تنفرآمیز گویند:

سن
جامعه صنفی
ناتوانی جسمی یا ذهنی
نژاد، قومیت و جنسیت
مذهب
ملیت و وابستگی جغرافیایی
مهاجرت
قربانیان خشونت‌ها و خانواده آن‌ها

هدف از این سامانه تشخیص متون توهین‌آمیز در مرحله اول و سپس تشخیص متون تنفرآمیز در مرحله دوم است. تشخیص توهین‌آمیز بودن متون کاربرد بسیار بیشتری نسبت به تنفرآمیز دارد و بنابراین دقت و اهمیت این بخش به‌مراتب از بخش تنفرآمیز بیشتر است.

مزایا

افزایش سرعت بازنشر اطلاعات
کاهش هزینه نیروی انسانی
جلوگیری از خطاهای نیروی انسانی
امکان ایجاد سامانه خودآموزشی (می‌توان به‌مرور نیز مدل را در یک پلتفرم توسعه داد)

کاربردها

بخش ثبت نظرات کاربران
پیام‌رسان‌ها
انجمن‌ها
پلتفرم‌های اشتراک نظرات

خروجی‌های مورد انتظار تحقیق

سامانه / سرویس تشخیص متن توهین‌آمیز (با ارائه معیار اطمینان از تشخیص)
سامانه / سرویس تشخیص متن تنفرآمیز (با ارائه معیار اطمینان از تشخیص)
دادگان آموزشی و ارزیابی
گزارش دقت و فراخوانی – حداقل دقت برای ماژول تشخیص توهین‌آمیز بودن 90% است. برای تنفرآمیز بسته به طبقه‌بندی موردنیاز کارفرما ممکن است که متفاوت باشد.

هزینه و زمان اجرای طرح

هزينه اجراي طرح در بازه 450 تا 650 ميليون تومان برآورد می‌شود.
مدت‌زمان اجراي طرح 6 الی 8 ماه برآورد می‌شود.

تسهیم مالیک فکری

مالکیت معنوی: مشارکت‌کننده در مالکیت معنوی ناشی از اجرای تحقیق سـهیم خواهـد بـود و انتشـار مقالـه مشـترک توسـط مجری و مشارکت‌کننده در ژورنال‌های داخلـی و خارجـی، ارائه مقالـه در کنفرانس‌هـا و سـمینارها بـا موافقـت و اشـاره بـه نـام همـه دست‌اندرکاران مجـاز خواهـد بود.
مالکیـت منافـع مـادی: سهم مشارکت شرکت/شتاب‌دهنده متقاضی حداقل 10 و حداکثر 35 درصد خواهد بود (منافع مالی ناشی از توسعه این فناوری بر اساس توافق طرفین و مشترک خواهد بود و با توجه به سهم آورده نقدی و غیر نقدی توسعه‌دهنده، سهم مالکیت قابل‌مذاکره و توافق است).

ارسال درخواست

درخواست‌های مشـارکت صرفاً بایـد در چارچوب موردنظر صنـدوق نوآوری و شـکوفایی، تدویـن و حداکثـر تـا تاریـخ 1401/03/22 در سـامانه غـزال صنـدوق نوآوری و شـکوفایی به نشـانی www.ghazal.inif.ir/grant ثبت شوند. درخواست‌هایی کـه در چارچوبـی غیرازآن، یـا بـه روش‌های دیگـر بـه دسـت صنـدوق نـوآوری و شـکوفایی برسـند، وارد فراینـد ارزیابـی نخواهنـد شـد.