دوره 80، شماره 7 - ( مهر 1401 )                   جلد 80 شماره 7 صفحات 562-546 | برگشت به فهرست نسخه ها

XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Ghafouri T, Manavizadeh N. Modeling and design of a diagnostic and screening algorithm based on hybrid feature selection-enabled linear support vector machine classification. Tehran Univ Med J 2022; 80 (7) :546-562
URL: http://tumj.tums.ac.ir/article-1-11963-fa.html
غفوری تارا، معنوی‌زاده نگین. مدل‌سازی و طراحی الگوریتم تشخیص و غربالگری بیماری مبتنی بر دسته‌بندی ماشین بردار پشتیبان خطی با قابلیت انتخاب ویژگی ترکیبی. مجله دانشکده پزشکی، دانشگاه علوم پزشکی تهران 1401; 80 (7) :562-546

URL: http://tumj.tums.ac.ir/article-1-11963-fa.html


1- گروه مهندسی برق و الکترونیک، آزمایشگاه ادوات نانوساختار الکترونیکی، دانشکده مهندسی برق، دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران، ایران.
2- گروه مهندسی برق و الکترونیک، آزمایشگاه ادوات نانوساختار الکترونیکی، دانشکده مهندسی برق، دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران، ایران. ، manavizadeh@kntu.ac.ir
چکیده:   (85 مشاهده)
زمینه و هدف: در مطالعه حاضر، یک رویکرد انتخاب ویژگی ترکیبی از روشهای فیلتر و بسته‌بندی، با هدف تشخیص وضعیت بیماری و بقای بیمار، برای تعدادی از مجموعه دادگان علوم زیستی با تعداد متفاوت نمونه، ویژگی و کلاس پیاده‌سازی می‌شود؛ بنابراین، این راهبرد از مزایای هر دو روش، شامل سرعت عملکرد، تعمیم‌پذیری و دقت بالا بهره می‌برد.
روش بررسی: الگوریتم‌های انتخاب ویژگی در چارچوب بازشناسی آماری الگو در نرم‌افزار Matlab R2021a طی فروردین و اردیبهشت 1401 مدل‌سازی شده‌اند. ابتدا ویژگی‌ها بر پایه اطلاعات متقابل بهنجار شده رتبه‌بندی می‌شوند و یک زیرمجموعه ویژگی بهینه با بالاترین دقت دسته‌بند انتخاب می‌شود. پس از خوشه‌بندی مجموعه داده به‌روش Mini Batch K-means و استخراج ویژگی‌های رتبه‌بندی‌شده، الگوریتمهای شمول و خروج ویژگی به مجموعه دادگان اعمال می‌شوند.
یافته‌ها: رویکردهای انتخاب ویژگی پیشنهادی برای مجموعه دادگان زیست‌شناسی مولکولی، ویروس هپاتیت C و باکتری E.coli، امتیاز صحت و فراخوانی بالای 98% را نتیجه می‌دهند، که به‌ معنای حضور تعداد بسیار کم موارد مثبت کاذب و منفی کاذب در دسته‌بندی با ماشین بردار پشتیبان خطی است. برای مجموعه داده ویروس هپاتیت C، با انتخاب 9 ویژگی مرتبط از 13 ویژگی موجود با روش خروج ویژگی، دقت دستهبندی 92/98% و امتیاز F1 02/%99 به‌دست میآید. رویکرد شمول ویژگی نیز با یک اختلاف جزیی، دقت 78/98% را نتیجه میدهد.
نتیجه‌گیری: نتایج حاصل نشان‌دهنده توانمندی رویکردهای انتخاب ویژگی به‌کار رفته برای مجموعه دادگان علوم زیستی با ابعاد بالای ویژگی همچون مجموعه داده بیان پروتیین می‌باشد. قابلیت تعمیم‌پذیری به سایر دسته‌بندها و تعیین خودکار تعداد ویژگی‌های بهینه در طول فرآیند انتخاب ویژگی، این رویکردها را در بسیاری از کاربردهای داده‌کاوی برای علوم زیستی انعطاف‌پذیر می‌سازد.

 
متن کامل [PDF 1685 kb]   (52 دریافت)    
نوع مطالعه: مقاله اصیل | موضوع مقاله: غدد درون ریز و متابولیسم

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این وب سایت متعلق به مجله دانشکده پزشکی دانشگاه علوم پزشکی تهران می باشد.

طراحی و برنامه نویسی : یکتاوب افزار شرق

© 2022 , Tehran University of Medical Sciences, CC BY-NC 4.0

Designed & Developed by : Yektaweb