Ghafouri T, Manavizadeh N. Modeling and design of a diagnostic and screening algorithm based on hybrid feature selection-enabled linear support vector machine classification. Tehran Univ Med J 2022; 80 (7) :546-562
URL:
http://tumj.tums.ac.ir/article-1-11963-fa.html
غفوری تارا، معنویزاده نگین. مدلسازی و طراحی الگوریتم تشخیص و غربالگری بیماری مبتنی بر دستهبندی
ماشین بردار پشتیبان خطی با قابلیت انتخاب ویژگی ترکیبی. مجله دانشکده پزشکی، دانشگاه علوم پزشکی تهران. 1401; 80 (7) :546-562
URL: http://tumj.tums.ac.ir/article-1-11963-fa.html
1- گروه مهندسی برق و الکترونیک، آزمایشگاه ادوات نانوساختار الکترونیکی، دانشکده مهندسی برق، دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران، ایران.
2- گروه مهندسی برق و الکترونیک، آزمایشگاه ادوات نانوساختار الکترونیکی، دانشکده مهندسی برق، دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران، ایران. ، manavizadeh@kntu.ac.ir
چکیده: (1055 مشاهده)
زمینه و هدف: در مطالعه حاضر، یک رویکرد انتخاب ویژگی ترکیبی از روشهای فیلتر و بستهبندی، با هدف تشخیص وضعیت بیماری و بقای بیمار، برای تعدادی از مجموعه دادگان علوم زیستی با تعداد متفاوت نمونه، ویژگی و کلاس پیادهسازی میشود؛ بنابراین، این راهبرد از مزایای هر دو روش، شامل سرعت عملکرد، تعمیمپذیری و دقت بالا بهره میبرد.
روش بررسی: الگوریتمهای انتخاب ویژگی در چارچوب بازشناسی آماری الگو در نرمافزار Matlab R2021a طی فروردین و اردیبهشت 1401 مدلسازی شدهاند. ابتدا ویژگیها بر پایه اطلاعات متقابل بهنجار شده رتبهبندی میشوند و یک زیرمجموعه ویژگی بهینه با بالاترین دقت دستهبند انتخاب میشود. پس از خوشهبندی مجموعه داده بهروش Mini Batch K-means و استخراج ویژگیهای رتبهبندیشده، الگوریتمهای شمول و خروج ویژگی به مجموعه دادگان اعمال میشوند.
یافتهها: رویکردهای انتخاب ویژگی پیشنهادی برای مجموعه دادگان زیستشناسی مولکولی، ویروس هپاتیت C و باکتری E.coli، امتیاز صحت و فراخوانی بالای 98% را نتیجه میدهند، که به معنای حضور تعداد بسیار کم موارد مثبت کاذب و منفی کاذب در دستهبندی با ماشین بردار پشتیبان خطی است. برای مجموعه داده ویروس هپاتیت C، با انتخاب 9 ویژگی مرتبط از 13 ویژگی موجود با روش خروج ویژگی، دقت دستهبندی 92/98% و امتیاز F1 02/%99 بهدست میآید. رویکرد شمول ویژگی نیز با یک اختلاف جزیی، دقت 78/98% را نتیجه میدهد.
نتیجهگیری: نتایج حاصل نشاندهنده توانمندی رویکردهای انتخاب ویژگی بهکار رفته برای مجموعه دادگان علوم زیستی با ابعاد بالای ویژگی همچون مجموعه داده بیان پروتیین میباشد. قابلیت تعمیمپذیری به سایر دستهبندها و تعیین خودکار تعداد ویژگیهای بهینه در طول فرآیند انتخاب ویژگی، این رویکردها را در بسیاری از کاربردهای دادهکاوی برای علوم زیستی انعطافپذیر میسازد.