توسعه مدل تحلیل ریسک تقلب در بیمه شخص ثالث جرحی مبتنی بر هوش مصنوعی

اشتراک گذاری با دوستان

وضعیت: باز

شماره سند:

تاریخ انتشار: ۱۴۰۰/۰۷/۰۳

مهلت ارسال پیشنهاد: ۱۴۰۰/۰۸/۲۸

فرصت‌ها: براساس پیشنهاد‌ها قابل‌ مذاکره خواهد بود.

تماس : ۰۲۱۸۸۳۹۸۵۶۳ – ۰۲۱۸۸۳۹۸۵۴۳

ارسال پروپوزال‌ها: https://ghazal.inif.ir/grant

ضرورت مسئله

طبق آمارهای جهانی، هر شرکت سالانه 5 درصد سرمایه خود را به علت تقلب از دست می‌‎‌‌دهد که این آمار در شرکت‌های بیمه (در رشته‌ ‎های غیر از درمان) به 10 درصد هم می‌رسد. در ایران نیز این میزان در رشته بیمه شخص ثالث و بدنه در حدود 20 درصد اعلام شده است. افزایش سالانه نرخ دیه و انباشت سرمایه، شرکت‌های بیمه را به طعمه مناسبی برای فرصت‌طلبان و متخلفان تبدیل کرده است.

از گذشته رویه‌های بازرسی، هنگام ادعای خسارت از سوی بیمه‌گذاران وجود داشته است و کارشناسان با بررسی اسناد و مدارک، صحت‌وسقم ادعا را مشخص می‌کردند. امروزه با افزایش تعداد بیمه‌گذاران و به سبب آن، افزایش پرونده‌های خسارت و شرکت‌های بیمه‌گر، فرایند بازرسی پیچیده‌تر شده و نیازمند بررسی و تحلیل گسترده‌تر در زمان کم است. همچنین انتقال تجربه از خبرگان صنعت به کارشناسان جدید و توزیع دانش این افراد در شعب شرکت‎ بیمه در سراسر کشور با روش‌های سنتی و پیشین دشوار شده است. علاوه بر این متقلبان شیوه‎‌های خود را مدام به‌روز می‌کنند و نیاز است دانش متخصصان هم‌پای آن‌ها به‌روز شود.

روش‌های سنتی هزینه زیادی را به شرکت‌های بیمه تحمیل می‌نماید و وابسته به تخصص بازرس است که در برخی اوقات می‌تواند تحت تأثیر خطای انسانی قرار گیرد. به همین دلیل شرکت متقاضی بر آن شده است که در محصول دستیار بیمه خود، ماژولی با عنوان پایش ریسک تقلب ارائه کند که بدون نیاز به نیروی انسانی و با روشی هوشمند نظیر الگوریتم‌های یادگیری ماشین و هوش مصنوعی، ریسک تقلب پرونده‌های خسارت را با دقت قابل قبولی مشخص و در اختیار کارشناسان قرار دهد.

مشروح مسئله تحقیقاتی

هدف ماژول تحلیل ریسک تقلب بیمه شخص ثالث، محاسبه امتیاز ریسک تقلب پرونده‌ها، ارائه هشدار و اعلام موارد مشکوک بر اساس داده‌های ثبت‌شده در سامانه‌های عملیاتی شرکت‌های بیمه ازجمله اطلاعات حادثه، زیان‌دیده‌ها و غیره است. ازجمله موارد مشکوک به تقلب در پرونده‌ها می‌توان به بروز حادثه در جاده‌های برون‌شهری و خلوت، تصادف در ساعات پایانی شب و رده سنی یکسان افراد زیان‌دیده (35 الی 40 سال) اشاره کرد.

ازجمله فعالیت‌های انجام‌شده برای انجام تحلیل ریسک تقلب توسط شرکت متقاضی، می‌توان به موارد زیر اشاره کرد:

تهیه دیتاست دارای برچسب از داده‌های واقعی شامل 70 پرونده خسارت متقلبانه و 969 پرونده خسارت سالم
استفاده از روش‌های مبتنی بر قاعده و روش‌های تشخیص ناهنجاری آماری نظیر z-score
استفاده از الگوریتم‌های نظارت‌شده نظیر Random Forest، Decision Tree، SVM و غیره
استفاده از روش‌های تحلیل شبکه اجتماعی با هدف شناسایی باندهای تقلب

روش‌های مورد استفاده فعلی قادر به تشخیص موارد متقلبانه هستند، اما نیاز به افزایش نرخ تشخیص صحیح موارد متقلبانه و کاهش مثبت‌های کاذب وجود دارد. دقت روش‌های استفاده‌شده بر دیتاست نمونه حدود 80 درصد است اما با توجه به تغییر سناریوهای تقلب، اتکا به روش‌های موجود و انتظار برای باقی ماندن در این دقت درست نیست. از طرفی جمع‌آوری برچسب داده بسیار گران و زمان‌بر است، بنابراین استفاده از رویکردها و روش‌های یادگیری بدون نظارت موردتوجه قرار گرفته است.

در حال حاضر علاوه بر دیتاست برچسب‌دار اشاره‌شده در بالا، یک دیتاست شامل 10،000 پرونده خسارت بدون برچسب برای تحلیل بدون نظارت در دسترس است. این دیتاست شامل کلیه اطلاعات مربوط به پرونده خسارت است که توسط کارشناسان در سامانه عملیاتی ثبت می‌شود (مانند مشخصات حادثه، مشخصات زیان‌دیدگان، مشخصات و تعهدات بیمه‌نامه و …). تعداد کل ویژگی‌ها اعم از خام و محاسبه‌شده، 144 ویژگی شامل 29 ویژگی باینری (مانند آیا راننده‌ی مقصر، گواهی معتبر داشته است؟)، 55 ویژگی دست‌ه‎ای (مانند گروه خودرو شامل سواری، موتورسیکلت، بارکش، کشاورزی و راه‌سازی)، 29 ویژگی عددی (مانند تعداد سال‌های عدم خسارت خودرو) و 31 ویژگی ترتیبی (روز حادثه در ماه یا هفته) است. لازم به توضیح است اسناد و مدارک مرتبط به‌صورت تصویر و متن موجود نیست. همچنین مقادیر مرتبط با ویژگی‌های دسته‌‎ای

گاه تا بیش از 100 مقدار، منحصربه‌فرد خواهد بود (به‌طور مثال رنگ خودرو). با توجه به گمنام‌سازی داده‌ها، امکان دسترسی به کد ملی و نام افراد وجود ندارد، اما اطلاعات دموگرافیک افراد شامل جنسیت، سن، ملیت (ایرانی و غیر ایرانی) و وضعیت تاهل موجود می‌باشد و سابقه خسارت‌ها به صورت تعداد در مجموعه ویژگی‌ها قابل دسترسی است.

در این پروژه انتظار می‌رود مجری تحقیق، مدل تحلیل ریسک تقلب مبتنی بر هوش مصنوعی با استفاده از روش‌های یادگیری ماشین بدون نظارت ارائه نماید. به این صورت که مدل، امتیاز ریسک برای پرونده‌های ورودی را مشخص کند. به‌طور مثال عددی بین 1 تا 5 که 5 بیشترین میزان ریسک است. همچنین هشدارهایی در مورد موارد مشکوک ارائه کند (به‌طور مثال، پرونده به علت ناهنجار بودن تعداد خسارات زیان‌دیده‌ها مشکوک است)، منظور از هشدار، علائمی است که کاربر انسانی با دیدن آن متوجه شود که چرا این پرونده مشکوک تلقی شده است. ارائه هشدارها به این جهت حائز اهمیت است که کارشناس بیمه با کمک آن‌ها سرنخی برای پیگیری مسئله خواهد داشت. همچنین نیاز است دقت سامانه ارائه‌شده برای پرونده‌های ورودی جدید حداقل 70 درصد و تعداد مثبت‌های کاذب حداکثر 30 درصد باشد. لازم به توضیح است رویکرد مدل، تنها ارائه هشدار و غربالگری پرونده‌های مشکوک است و ارائه ادله و اثبات حقوقی تقلب، خارج از حوزه طرح محسوب می‌شود.

گام‌های تحقیق

پیش‌پردازش‎ و آماده‌سازی داده‌ها (مدیریت ویژگی‌ها) و ارائه گزارش کیفیت داده و استخراج ویژگی‌ها
انتخاب مدل تحلیل ریسک تقلب، در این مرحله پایگاه دادگان برچسب‎دار شامل 70 پرونده خسارت متقلبانه و 969 پرونده خسارت سالم در اختیار تیم قرار می‌گیرد که برای توسعه و ارزیابی‌های اولیه می‌تواند مورد استفاده قرار گیرد.
بررسی و اندازه‌گیری دقت مدل برای یک مجموعه بدون برچسب از داده‌ها (انتخاب این مجموعه با کمک تیم مجری، شرکت متقاضی و کارشناسان صنعت بیمه)، در این مرحله تنها موارد مشکوکی که توسط تیم ارائه می‌شوند مورد ارزیابی قرار می‌گیرند.
انجام مراحل 2 و 3، حداکثر برای 300 پرونده بدون برچسب طی حداکثر 5 دوره
ارزیابی خروجی مدل ارائه‌شده با خروجی سه مدل فعلی کارفرما (مبتنی‌برقاعده، روش آماری، Random Forest)
پیاده‌سازی مدل در قالب نرم‌افزار پایتون و ارائه مستند تفصیلی تحلیل و پیاده‌سازی مدل ارائه‌شده
ارائه مستندات مربوط به طراحی و ساخت مدل مانند نحوه پیش‌پردازش، الگوریتم و پارامترهای مرتبط و غیره

خروجی‌های مورد انتظار تحقیق

ارائه مدل تحلیل ریسک تقلب پرونده‌های شخص ثالث با رویکرد بدون نظارت و روش‌های تشخیص ناهنجاری که امتیاز ریسک تقلب و هشدارهای مرتبط با موارد مشکوک به ازای هر پرونده را مشخص کند.

الزامات تحقیق

حداقل دقت مدل ارائه‌شده 70 درصد برای برچسب تقلب به ازای پرونده‌های ورودی جدید
کاهش تعداد مثبت‌های کاذب برای برچسب تقلب تا حداکثر 30 درصد
پیاده‌سازی مدل در قالب نرم‌افزار پایتون و ارائه برچسب و هشدارهای خروجی با دریافت ورودی (یک پرونده)

تجهیزات و زیرساخت‌هایی که متقاضی تحقیق می‌تواند در اختیار مجری قرار دهد

پایگاه دادگان شامل 10،000 پرونده خسارت جانی شخص ثالث بدون برچسب برای تحلیل بدون نظارت

راهکارهای غیر جذاب

روش‌‌های مبتنی بر قاعده و فاقد هوشمندی مدنظر نیست. هدف، بهره‌گیری از روش‌های یادگیری ماشین بدون نظارت است.

گلوگاه‌های احتمالی

ارزیابی خروجی مدل‌ها بر ورودی‌های جدید، به دلیل نیاز به تعامل با شرکت‌های بیمه و شعب، فرایندی زمان‌بر است. همچنین به دلیل مشغله زیاد کارکنان شعب و متخصصان حوزه، دسترسی مداوم و درخواست برچسب‌گذاری میسر نیست؛ بنابراین تعداد دفعات ارجاع جهت ارزیابی مدل محدود و زمان‌بر است.

معیارهای ارزیابی و انتخاب مجری

تحصیلات و سوابق تیم تحقیقاتی و تناسب آن با مسئله
رویکرد فنی تیم تحقیقاتی به مسئله
دسترسی به تجهیزات آزمایشگاهی و مواد اولیه و سایر الزامات اجرای تحقیق
زمان و هزینه اجرای تحقیق

تسهیم مالکیت فکری

مالکیت معنوی: مجری در مالکیت معنوی ناشی از اجرای تحقیق سهیم خواهد بود و انتشار مقاله مشترک توسط مجری و متقاضی در ژورنال‌های داخلی و خارجی، ارائه مقاله در کنفرانس‌ها و سمینارها با موافقت و اشاره به نام همه دست‌اندرکاران مجاز خواهد بود.
مالکیت منافع مادی: با توجه به مدل کسب‌وکار شرکت متقاضی، منافع مالی ناشی از توسعه این فناوری تماماً متعلق به شرکت متقاضی بوده و مجری صرفاً حق‌الزحمه اجرای پروژه تحقیقاتی را دریافت خواهد کرد.

روش ارسال پیشنهاد

پروپوزال‌ها صرفاً باید در چارچوب موردنظر صندوق نوآوری و شکوفایی، تدوین و حداکثر تا تاریخ 1400/08/08 در سامانه غزال به آدرس https://ghazal.inif.ir/grant ارسال شوند. پروپوزال‌هایی که در چارچوبی غیرازآن، یا به روش‌های دیگر به دست صندوق برسند، وارد فرایند ارزیابی نخواهند شد.