<?xml version="1.0" encoding="utf-8"?>
<journal>
<title>Tehran University Medical Journal</title>
<title_fa>مجله دانشکده پزشکی، دانشگاه علوم پزشکی تهران</title_fa>
<short_title>Tehran Univ Med J</short_title>
<subject>Medical Sciences</subject>
<web_url>http://tumj.tums.ac.ir</web_url>
<journal_hbi_system_id>1</journal_hbi_system_id>
<journal_hbi_system_user>admin</journal_hbi_system_user>
<journal_id_issn>1683-1764</journal_id_issn>
<journal_id_issn_online>1735-7322</journal_id_issn_online>
<journal_id_pii></journal_id_pii>
<journal_id_doi>10.18869/acadpub.tumj</journal_id_doi>
<journal_id_iranmedex></journal_id_iranmedex>
<journal_id_magiran></journal_id_magiran>
<journal_id_sid>000</journal_id_sid>
<journal_id_nlai>000</journal_id_nlai>
<journal_id_science>000</journal_id_science>
<language>fa</language>
<pubdate>
	<type>jalali</type>
	<year>1401</year>
	<month>7</month>
	<day>1</day>
</pubdate>
<pubdate>
	<type>gregorian</type>
	<year>2022</year>
	<month>10</month>
	<day>1</day>
</pubdate>
<volume>80</volume>
<number>7</number>
<publish_type>online</publish_type>
<publish_edition>1</publish_edition>
<article_type>fulltext</article_type>
<articleset>
	<article>


	<language>other</language>
	<article_id_doi></article_id_doi>
	<title_fa>مدل‌سازی و طراحی الگوریتم تشخیص و غربالگری بیماری مبتنی بر دسته‌بندی
ماشین بردار پشتیبان خطی با قابلیت انتخاب ویژگی ترکیبی</title_fa>
	<title>Modeling and design of a diagnostic and screening algorithm based on hybrid feature selection-enabled linear support vector machine classification</title>
	<subject_fa>غدد درون ریز و متابولیسم</subject_fa>
	<subject>Endocrinology</subject>
	<content_type_fa>مقاله اصیل</content_type_fa>
	<content_type>Original Article</content_type>
	<abstract_fa>&lt;span style=&quot;font-family:yekanYW;&quot;&gt;&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;direction:rtl&quot;&gt;&lt;span style=&quot;unicode-bidi:embed&quot;&gt;&lt;b&gt;&lt;i&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;زمینه و هدف: &lt;/span&gt;&lt;/i&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;letter-spacing:-.2pt&quot;&gt;در مطالعه حاضر، یک رویکرد انتخاب ویژگی ترکیبی از روش&lt;/span&gt;&lt;/span&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;letter-spacing:-.2pt&quot;&gt;&#8204;&lt;/span&gt;&lt;/span&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;letter-spacing:-.2pt&quot;&gt;های فیلتر و بسته&#8204;بندی، با هدف تشخیص وضعیت بیماری و بقای بیمار، برای تعدادی از مجموعه دادگان علوم زیستی با تعداد متفاوت نمونه، ویژگی و کلاس پیاده&#8204;سازی می&#8204;شود؛ بنابراین، این راهبرد از مزایای هر دو روش، شامل سرعت عملکرد، تعمیم&#8204;پذیری و دقت بالا بهره می&#8204;برد.&lt;/span&gt;&lt;span style=&quot;font-family:&quot;B Lotus&quot;&quot;&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;direction:rtl&quot;&gt;&lt;span style=&quot;unicode-bidi:embed&quot;&gt;&lt;b&gt;&lt;i&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;روش بررسی: &lt;/span&gt;&lt;/i&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;letter-spacing:-.2pt&quot;&gt;الگوریتم&#8204;های انتخاب ویژگی در چارچوب بازشناسی آماری الگو در نرم&#8204;افزار &lt;/span&gt;&lt;/span&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;Matlab R2021a&lt;/span&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;letter-spacing:-.2pt&quot;&gt; طی فروردین و اردیبهشت 1401 مدل&#8204;سازی شده&#8204;اند. ابتدا ویژگی&#8204;ها بر پایه اطلاعات متقابل بهنجار شده رتبه&#8204;بندی می&#8204;شوند و یک زیرمجموعه ویژگی بهینه با بالاترین دقت دسته&#8204;بند انتخاب می&#8204;شود. پس از خوشه&#8204;بندی مجموعه داده به&#8204;روش &lt;/span&gt;&lt;/span&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;Mini Batch K-means&lt;/span&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;letter-spacing:-.2pt&quot;&gt; و استخراج ویژگی&#8204;های رتبه&#8204;بندی&#8204;شده، الگوریتم&lt;/span&gt;&lt;/span&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;letter-spacing:-.2pt&quot;&gt;&#8204;&lt;/span&gt;&lt;/span&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;letter-spacing:-.2pt&quot;&gt;های شمول و خروج ویژگی به مجموعه دادگان اعمال می&#8204;شوند.&lt;/span&gt;&lt;/span&gt;&lt;span lang=&quot;AR-SA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&quot;B Lotus&quot;&quot;&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;direction:rtl&quot;&gt;&lt;span style=&quot;unicode-bidi:embed&quot;&gt;&lt;b&gt;&lt;i&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;یافته&#8204;ها:&lt;/span&gt;&lt;/i&gt;&lt;/b&gt; &lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;رویکردهای انتخاب ویژگی پیشنهادی برای مجموعه دادگان زیست&#8204;شناسی مولکولی، ویروس هپاتیت &lt;/span&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;C&lt;/span&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt; و باکتری &lt;/span&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;E.coli&lt;/span&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;، امتیاز صحت و فراخوانی بالای 98% را نتیجه می&#8204;دهند، که به&#8204; معنای حضور تعداد بسیار کم موارد مثبت کاذب و منفی کاذب در دسته&#8204;بندی با ماشین بردار پشتیبان خطی است. برای مجموعه داده ویروس هپاتیت &lt;/span&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;C&lt;/span&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;، با انتخاب 9 ویژگی مرتبط از 13 ویژگی موجود با روش خروج ویژگی، دقت دسته&lt;/span&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;بندی 92/98% و امتیاز &lt;/span&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;F1&lt;/span&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt; 02/%99 به&#8204;دست می&lt;/span&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;آید. رویکرد شمول ویژگی نیز با یک اختلاف جزیی، دقت 78/98% را نتیجه می&lt;/span&gt;&lt;span dir=&quot;LTR&quot; lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&amp;lrm;&lt;/span&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;دهد.&lt;/span&gt;&lt;span lang=&quot;AR-SA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&quot;B Lotus&quot;&quot;&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;direction:rtl&quot;&gt;&lt;span style=&quot;unicode-bidi:embed&quot;&gt;&lt;b&gt;&lt;i&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;نتیجه&#8204;گیری: &lt;/span&gt;&lt;/i&gt;&lt;/b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;نتایج حاصل نشان&#8204;دهنده توانمندی رویکردهای انتخاب ویژگی به&#8204;کار رفته برای مجموعه دادگان علوم زیستی با ابعاد بالای ویژگی همچون مجموعه داده بیان پروتیین می&#8204;باشد. قابلیت تعمیم&#8204;پذیری به سایر دسته&#8204;بندها و تعیین خودکار تعداد ویژگی&#8204;های بهینه در طول فرآیند انتخاب ویژگی، این رویکردها را در بسیاری از کاربردهای داده&#8204;کاوی برای علوم زیستی انعطاف&#8204;پذیر می&#8204;سازد.&lt;/span&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&amp;nbsp;</abstract_fa>
	<abstract>&lt;div&gt;&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt;&lt;span new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt;&lt;b&gt;&lt;i&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt;Background:&lt;/span&gt;&lt;/span&gt;&lt;/i&gt;&lt;/b&gt; &lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt;In the current study, a hybrid feature selection approach involving filter and wrapper methods is applied to some bioscience databases with various records, attributes and classes; hence, this strategy enjoys the advantages of both methods such as fast execution, generality, and accuracy. The purpose is diagnosing of the disease status and estimating of the patient survival&lt;span style=&quot;letter-spacing:-.5pt&quot;&gt;.&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt;&lt;span new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt;&lt;b&gt;&lt;i&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt;Methods: &lt;/span&gt;&lt;/span&gt;&lt;/i&gt;&lt;/b&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt;&lt;span style=&quot;letter-spacing:-.3pt&quot;&gt;Feature selection algorithms have been modeled in Matlab R2021a during April and May 2022 in the framework of statistical pattern recognition. First, the features are ranked based on normalized mutual information, as a metric of relevance and redundancy of features, and accordingly, an optimum feature subset with the highest accuracy of classification is selected. Two feature selection algorithms, &lt;i&gt;i.e.&lt;/i&gt;, inclusion of features enhancing the classification accuracy and exclusion of irrelevant features are applied to the interest datasets, subsequent to the mini-batch &lt;i&gt;k&lt;/i&gt;-means clustering of records.&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/div&gt;

&lt;div&gt;
&lt;table align=&quot;center&quot; hspace=&quot;0&quot; vspace=&quot;0&quot;&gt;
	&lt;tbody&gt;
		&lt;tr&gt;
			&lt;td align=&quot;left&quot; style=&quot;padding-top:0in; padding-right:12px; padding-bottom:0in; padding-left:12px&quot; valign=&quot;top&quot;&gt;
			&lt;div&gt;&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt;&lt;span new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt;&lt;b&gt;&lt;i&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt;Results:&lt;/span&gt;&lt;/span&gt;&lt;/i&gt;&lt;/b&gt;&lt;b&gt; &lt;/b&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt;At the end of the execution of both feature selection methods, evaluation metrics including accuracy, precision, recall, and F1 score are measured and compared. Both proposed feature selection approaches f&lt;/span&gt;&lt;/span&gt;&lt;span lang=&quot;EN&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt;or the molecular biology, hepatitis C virus (HCV), and &lt;i&gt;E. coli&lt;/i&gt; bacteria datasets result in the precision and recall scores more than 98 percent, meaning that there are few false positives and false negatives in the &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt;linear support vector machine&lt;/span&gt;&lt;/span&gt;&lt;span lang=&quot;EN&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt; (LSVM) classification.&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt; Regarding the HCV dataset, &lt;/span&gt;&lt;/span&gt;&lt;span lang=&quot;EN&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt;selection of nine relevant features among the thirteen &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt;present&lt;/span&gt;&lt;/span&gt;&lt;span lang=&quot;EN&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt; ones using the feature &lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt;exclusion method yields the classification accuracy and F1 score of 98.92 percent and 99.02 percent, respectively.&lt;/span&gt;&lt;/span&gt; &lt;span lang=&quot;EN&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt;The feature inclusion approach also results in an accuracy of 98.78 percent with a slight discrepancy.&lt;/span&gt;&lt;/span&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
			&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt;&lt;span new=&quot;&quot; roman=&quot;&quot; style=&quot;font-family:&quot; times=&quot;&quot;&gt;&lt;b&gt;&lt;i&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt;Conclusion:&lt;/span&gt;&lt;/span&gt;&lt;/i&gt;&lt;/b&gt; &lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt;The results reveal superior strength of the feature selection methods used here for life science datasets with higher-order features such as protein/gene expression database. The potentials to generalize to other classifiers and automatically specify the optimal number of features during the feature selection procedure&lt;/span&gt;&lt;/span&gt; &lt;span lang=&quot;EN&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;line-height:130%&quot;&gt;make these approaches flexible in many data mining applications for the life sciences.&lt;/span&gt;&lt;/span&gt;&lt;span dir=&quot;RTL&quot; lang=&quot;AR-SA&quot; style=&quot;line-height:130%&quot;&gt;&lt;span style=&quot;font-family:&quot;B Lotus&quot;&quot;&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/div&gt;
			&lt;/td&gt;
		&lt;/tr&gt;
	&lt;/tbody&gt;
&lt;/table&gt;
&lt;/div&gt;
&lt;div&gt;&lt;/div&gt;</abstract>
	<keyword_fa>انتخاب ویژگی ترکیبی, پایگاه داده زیستی, دسته‌بند ماشین بردار پشتیبان خطی, خوشه‌بندی k- میانگین مینی‌بَچ, اطلاعات متقابل بهنجارشده.</keyword_fa>
	<keyword>hybrid feature selection, life science datasets, linear support vector machine (LSVM), mini-batch k-means clustering, normalized mutual information.</keyword>
	<start_page>546</start_page>
	<end_page>562</end_page>
	<web_url>http://tumj.tums.ac.ir/browse.php?a_code=A-10-3666-555&amp;slc_lang=other&amp;sid=1</web_url>


<author_list>
	<author>
	<first_name>Tara</first_name>
	<middle_name></middle_name>
	<last_name>Ghafouri</last_name>
	<suffix></suffix>
	<first_name_fa>تارا</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>غفوری</last_name_fa>
	<suffix_fa></suffix_fa>
	<email></email>
	<code></code>
	<orcid></orcid>
	<coreauthor>No</coreauthor>
	<affiliation>Department of Electrical and Electronic Engineering, Nanostructured-Electronic Devices Laboratory, Faculty of Electrical Engineering, K. N. Toosi University of Technology, Tehran, Iran.</affiliation>
	<affiliation_fa>گروه مهندسی برق و الکترونیک، آزمایشگاه ادوات نانوساختار الکترونیکی، دانشکده مهندسی برق، دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران، ایران.</affiliation_fa>
	 </author>


	<author>
	<first_name>Negin</first_name>
	<middle_name></middle_name>
	<last_name>Manavizadeh</last_name>
	<suffix></suffix>
	<first_name_fa>نگین</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>معنوی‌زاده</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>manavizadeh@kntu.ac.ir</email>
	<code></code>
	<orcid></orcid>
	<coreauthor>Yes
</coreauthor>
	<affiliation>Department of Electrical and Electronic Engineering, Nanostructured-Electronic Devices Laboratory, Faculty of Electrical Engineering, K. N. Toosi University of Technology, Tehran, Iran.</affiliation>
	<affiliation_fa>گروه مهندسی برق و الکترونیک، آزمایشگاه ادوات نانوساختار الکترونیکی، دانشکده مهندسی برق، دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران، ایران.</affiliation_fa>
	 </author>


</author_list>


	</article>
</articleset>
</journal>
