وضعیت: بسته
شماره سند:
تاریخ انتشار: 1401/02/25
مهلت ارسال پیشنهاد: 1401/03/22
فرصتها: براساس پیشنهادها قابل مذاکره خواهد بود.
تماس : 02166539734 – 02166533864
ارسال پروپوزالها: https://ghazal.inif.ir/grant
ارزیابی صحیح پیامهای توهینآمیز یا تنفرآمیز و تمایز آن از سایز پیامها، تبدیل به یک نیاز مبرم برای تضمین آزادی بیان شده است. در حال حاضر بسیاری از شبکههای اجتماعی مجهز به موتور تشخیص خودکار متون تنفرآمیز هستند که هر یک با ترکیب ارزیابی انسانی سعی در کاهش میزان انتشار اینگونه مطالب میشوند.
اهدافی که تیم پژوهشی در این تحقیق آن را دنبال مینماید؛ اول جمعآوری مجموعه دادگان توهینآمیز و تنفرآمیز در زبان فارسی است. جمعآوری دادگان توهینآمیز با استفاده از یک هسته اولیه از کلمات (عبارات) توهینآمیز شروع میشود. توئیتها (یا دادگان) بر اساس این هسته فیلتر میشوند، سپس توئیتها توسط داور انسانی برچسب دهی میشود. جهت بهبود وضعیت استخراج توئیتها، از روش bootstrap استفاده میشود. بدینصورت که کلمات (عبارات) پرکاربرد توئیتهای برچسبدهیشده، دوباره جمعآوری میشود و بهعنوان فیلترهای جدید جهت فیلتر توئیتها استفاده میشود.
برای دادگان توهینآمیز / تنفرآمیز ابتدا با استفاده از خزشگرهای شبکههای اجتماعی و روش جمع سپاری، دادههای موردنظر جمعآوری میشود. سپس یک آییننامه برچسبزنی برای متون تنفرآمیز تهیه میگردد که مورد استفاده داوران انسانی است.
سعی میشود که بخشهایی از دادگان (برای مثال 1000 رکورد) توسط بیش از یک داور انسانی همزمان برچسب دهی شود تا بتوان میزان توافق بین داوران انسانی را محاسبه کرد.
پس از تکمیل دادگان آموزشی و انتخاب دادگان ارزیابی، مدل تشخیص توهینآمیز بودن متون، با استفاده از طبقهبندی مبتنی بر شبکه عصبی عمیق صورت میگیرد.
اینکه شبکه عصبی عمیق چه ساختاری دارد و اینکه آیا طبقهبندی سلسله مراتبی باشد یا یک سطحی، از نکات مهم این طرح است. همچنین یکی از مشکلات جدی این سامانه بایاس بودن آن نسبت به یک سری از واژگان و عبارات هست که بایستی اصلاح شود. حذف بایاس نیز از نکات این طرح به شمار میآید.
این تیم از اعضای تیم پردازش زبان طبیعی دانشگاه تهران هستند که یکی از قویترین و بزرگترین تیمهای مرتبط با این حوزه در کشور هستند و فعالیتهای متعددی در حیطه خط و زبان فارسی در فضای رایانهای انجام شده است. جهت آشنایی با فعالیتهای اصلی تیم میتوان به صفحه رسمی اعضا و همکاران تیم در رخ نمای دانشگاه تهران profile.ut.ac.ir مراجعه کرد.
در زمینه موضوع خاص تشخیص متون توهینآمیز / تنفرآمیز، از حدود 9 ماه پیش با حمایت جزئی که ستاد علوم شناختی از این تیم به عمل آمده است، یک سامانه اولیه توسعه داده شده است و در حال حاضر تقریباً بیش از 80% دادگان موردنیاز یک سامانه قوی و همچنین مدل هوش مصنوعی آن آماده شده است. در حال حاضر بالاترین کیفیت تشخیص متون توهینآمیز توسط این تیم وجود دارد. ولیکن در زمینه متون تنفرآمیز (و نه توهینآمیز) کماکان بایستی توسعه دادگان و مدلها صورت گیرد.
تمامی پلتفرمهایی که اجازه میدهند که کاربران پیامها و عقاید خود را اعلام کنند، مانند ثبت نظرات ذیل سایتهای خبری، پیامرسانهای متنی و صوتی، انجمنها، فرومها و غیره، با این مسئله مواجه هستند که هر متن یا اطلاعاتی بدون بازبینی نیروی انسانی اجازه بازنشر داده نمیشود. این موضوع سبب میشود که هم سرعت انتقال اطلاعات کم شود و هم هزینه نیروی انسانی بالا رود. مدل پیشنهادی فعلی این امر را عملی میکند که بخش زیادی از اطلاعات بدون بازبینی نیروی انسانی روی پلتفرمها قرار گیرد.
شبکههای اجتماعی نظیر فیسبوک و توییتر برای مقابله با این موضوع مکانیزم گزارشدهی را ارائه نمودهاند که این روش چندان مؤثر نیست، بهدلیل اینکه اول حجم مطالب بیانشده بسیار زیاد است، دوم فرآیند گزارشدهی توسط کاربران و بعد بازبینی این گزارشها فرآیند زمانبری است، سوم این فرآیند میتواند باعث ایجاد اختلالات روحی و روانی برای افراد، بهخصوص کسانی شود که این گزارشها را بازبینی میکنند. همچنین هزینه نیروی انسانی زیادی جهت بازبینی و گزارش دهی نیاز دارد. این موارد سبب شده است که ارائه یک روش خودکار برای تشخیص محتوای توهینآمیز ضروری به نظر آید.
بهطورکلی گفتار توهینآمیز را میتوان بیان جملات و عباراتی تعریف کرد که باعث ایجاد حس ناراحتی، رنجش، عصبانیت یا انزجار در مخاطب یا خواننده شود. گفتار خشونتآمیز عموماً تند، بیادبانه، حاوی کلمات رکیک و ویژگیهایی از این قبیل میباشد. دلایل کلی گفتار توهینآمیز میتواند شامل دلایل شخصی جهت حمله، توهین و کوچک شمردن مخاطب یا حمله به گروه یا اجتماعی از افراد با ویژگیهای مشترک باشد.
ولیکن هرگونه گفتار توهینآمیز که عامل ترویج و القاء خشم و نفرت در اشخاص و گروههایی با یکی از مشترکات زیر باشند را گفتار تنفرآمیز گویند:
هدف از این سامانه تشخیص متون توهینآمیز در مرحله اول و سپس تشخیص متون تنفرآمیز در مرحله دوم است. تشخیص توهینآمیز بودن متون کاربرد بسیار بیشتری نسبت به تنفرآمیز دارد و بنابراین دقت و اهمیت این بخش بهمراتب از بخش تنفرآمیز بیشتر است.
درخواستهای مشـارکت صرفاً بایـد در چارچوب موردنظر صنـدوق نوآوری و شـکوفایی، تدویـن و حداکثـر تـا تاریـخ 1401/03/22 در سـامانه غـزال صنـدوق نوآوری و شـکوفایی به نشـانی www.ghazal.inif.ir/grant ثبت شوند. درخواستهایی کـه در چارچوبـی غیرازآن، یـا بـه روشهای دیگـر بـه دسـت صنـدوق نـوآوری و شـکوفایی برسـند، وارد فراینـد ارزیابـی نخواهنـد شـد.