مقدمه
سرطان سینه نوعی سرطان است که به دلیل رشد غیرقابل کنترل سلولهای غیرطبیعی سبب ایجاد توده در بافت پستان میشود. طبق گزارش سازمان بهداشت جهانی (WHO) هر ساله این سرطان 2.1 میلیون زن را تحت تأثیر قرار میدهد، همچنین بیشترین مرگومیر ناشی از سرطان را در میان زنان ایجاد میکند [1]. بر اساس تحقیقات انجام شده در سال 2018 تعداد 627000 زن به علت سرطان سینه جان خود را از دست دادهاند [1]. درواقع، این سرطان تقریباً %15 از کل مرگومیرهای ناشی از انواع سرطان را در میان زنان تشکیل میدهد. این بیماری در ایران نیز شایعترین سرطان و سومین علل مرگومیر در میان زنان است [2]. لذا درصورتی که بتوان توسط روشی، این بیماری را تشخیص داد میتوان شاهد کاهش مرگومیر انسانها بود. روش تصویربرداری ماموگرافی توسط اشعه x یکی از رایجترین روشهای مورد استفاده رادیولوژیستها برای تشخیص و غربالگری سرطان سینه و تعیین وجود تودههای سرطانی و کیستها است. با این حال تفسیر تصاویر ماموگرافی دشوار است و طبق آمار مرکز ملی سرطان در آمریکا، 10 تا 30 درصد توده های موجود در سینه توسط رادیولوژیست قابل مشاهده نیستند [3-4]. تودهها و ذرات ریز آهکی که ذرات بسیار کوچک کلسیم هستند، از نشانهها و علائم سرطان در تصاویر ماموگرافی هستند و تشخیص درست این علائم بسیار سخت و دشوار است. بطور کلی تودهها به دو دستهی خوشخیم و بدخیم طبقهبندی میشوند، که هر کدام از لحاظ شکل ظاهری در تصویر دارای ویژگیهای خاصی هستند. تودههای خوشخیم بیضوی شکل، دارای لبههای مشخص و بدون زاویه هستند؛ در حالی که تودههای بدخیم دارای شکل غیریکنواخت و غیرمنظم، لبه های نامشخص، زاویهدار و غالباً شبیه چکمه یا لوبورال هستند [5].
در تصاویر ماموگرافی، ذرات بسیار ریز آهکی معمولاً بصورت ذرات نویزی مشاهده شده و تودهها دارای شدت روشنایی بسیار کمی هستند، که تشخیص آنها را توسط رادیولوژیستها و پزشکان دشوار میکند. با توجه به اینکه تشخیص دقیق و بهموقع توده سرطانی و انواع مختلف آن از اهمیت ویژهای در سلامتی افراد جامعه برخوردار است، لذا باید بهنحوی دشواری تشخیص تودههای سرطان سینه که بهطور عمده با خطاهای انسانی در دقت تشخیص نیز همراه است توسط محققین مورد توجه قرار گیرد. به همین دلیل ارائه و گسترش یک روش خودکار به کمک روشهای پردازش تصویر و الگوریتمهای تشخیص و همچنین بهینهسازی و ارتقای سیستمهای تشخیصی موجود برای کاهش خطای انسانی و کمک به تشخیص زود هنگام و بهبود روند درمان این بیماری حائز اهمیت است. در این مقاله کوشیده ایم با معرفی روشی خودکار و جدید، در تشخیص و استخراج تودههای سرطان سینه با دقت بالا دست پیدا کنیم. برای این منظور، پس از پیشپردازش و تشخیص مرزهای تودههای سرطانی از تصاویر ماموگرافی، تعدادی ویژگی از تودههای تشخیص داده شده استخراج شده و در نهایت ماتریس ویژگیها به ورودی طبقهبندیکنندهی SVM اعمال شده است. در این مقاله با بهکارگیری این روش، تشخیص و طبقهبندی تودههای سرطان سینه با سرعت و دقت بالا انجام شده است.
مروری بر پژوهشهای پیشین
در سالهای گذشته تحقیقات گستردهای برای کاهش خطا در شناسایی و تشخیص تودههای سرطان پستان و افزایش سرعت و دقت برای کمک به رادیولوژیستها انجام گرفته است. بطور کلی، تحقیقات انجام شده در این حوزه؛ شامل بخشهای انتخاب پایگاه دادهی مناسب که شامل تصاویر دیجیتال ماموگرافی (تصاویر بافت سالم، و بافت دارای تودههای خوشخیم و بدخیم)، پیشپردازش تصویر، شناسایی و استخراج بخشهایی از بافت پستان که دارای تودههای سرطانی است، گسترش ناحیهی مشکوک به توده تا مرزهای تودهی آشکارسازی شده (و یا بالعکس؛ یعنی ابتدا آشکارسازی مرزهای توده و سپس تشخیص نهایی پیکسلهای تصویر که حاوی توده سرطانی در بافت مورد نظر هستند)، استخراج ویژگیهای مختلف (مانند ویژگیهای مورفولوژیکی، هندسی، مبتنی بر بافت، ویولت و ...) از توده، و در نهایت انجام طبقهبندی نهایی ویژگیهای استخراج شده برای تعیین نوع تودههای سرطانی (خوشخیم یا بدخیم) توسط الگوریتمهای هوشمند میباشند. در ادامهی این بخش به معرفی برخی از مهمترین تحقیقات انجام شده در این حوزه اشاره شده است.
نیک روان و همکاران در سال 1395 روشی نوین جهت تشخیص تودههای سرطان سینه ارائه کرذند [6]. این پژوهش شامل سه مرحلهی پیشپردازش، استخراج ویژگی و طبقهبندی بود. مرحلهی پیش پردازش شامل حذف نویز و پسزمینه از تصویر است. ویژگیهای استخراج شده شامل ویژگیهای بافتی بدست آمده از ماتریس همرخداد و هیستوگرام توده و ویژگیهای هندسی است. تعداد 24 ویژگی استخراج شده از هر توده با استفاده از شبکه عصبی پرسپترون به دو دسته خوشخیم و بدخیم طبقهبندی شد. صحت بدست آمده از سیستم طراحی شده % 93/3 گزارش شده است [6].
ایمان عباس پور کازرونی و همکاران در سال 1392روشی هوشمند برای جداسازی تصاویر ماموگرافی بر اساس میزان چگالی بافت و تودهها پیشنهاد دادند [7]. مدلی برای کاهش اطلاعات موجود در تصاویر براساس اجزا اولیه بهصورت دو بعدی ارائه شده است که با کاهش دادههای اضافی موجود در تصاویر ماموگرافی به دقت و سرعت دستهبندی تصاویر کمک میکند. این مدل بر روی پایگاه داده جامعه تحصیل ماموگرافی MIAS اعمال شده و دقت نهایی بدست آمده در حدود %90 گزارش شده است [7].
سعیده ناصری نوروزانی و همکاران در سال 1397روشی برای تعیین مرحله بالینی بیماران مبتلا به سرطان پستان را ارائه کردند [8]. در این پژوهش از دو پایگاه دادهی SEER و پایگاه دادهی محلی استفاده شده است. روش اصلی این پژوهش از دو بخش عمده تشکیل شده است. ابتدا مدلی مکانیزه با استفاده از سیستم TNM و الگوریتم کلونی مورچگان جهت تشخیص مرحله سرطان پستان بر اساس پایگاه دادهی SEER ایجاد شده است، و سپس هدف بومیسازی و ایجاد مدل تشخیص سرطان پستان بر اساس یک دیتاست محلی انجام گردیده است. دقت بدست آمده برای پایگاه دادهی SEER و برای پایگاه دادهی محلی بعد از اعمال الگوریتم کلونی مورچگان به ترتیب % 99/43 و % 98/95 بدست آمده و گزارش شده است [8].
حامد جباری و همکاران در سال 1395 روشی ترکیبی جهت قطعهبندی و تشخیص تومورهای تصاویر ماموگرافی بافت پستان ارائه کردند [9]. در این مطالعه از دادههای پایگاه داده DDSM شامل ۱۵۰ تصویر تومور خوشخیم و 150 تصویر تومور بدخیم استفاده شده است. پس از پیشپردازش و حذف نواحی اضافی، قطعهبندی بر مبنای هیستوگرام تصویر و ترکیب تبدیل موجک و الگوریتم ژنتیک و مورفولوژی انجام شده است. به علاوه الگوریتمهای بهینهسازی کلونی مورچگان و ازدحام ذرات نیز در آن مطالعه مورد استفاده و مقایسه قرار گرفتهاند. نتایج نشان میدهند که قطعهبندی با استفاده از الگوریتم ژنتیک نسبت به الگوریتم کلونی مورچگان و ازدحام ذرات دارای صحت بالاتری است. درنهایت مدل پیشنهادی به طبقهبندی دادهها به دو دستهی خوشخیم و بدخیم پرداخته است و صحت نهایی بدست آمده % 91/4 گزارش شده است [9].
پگاه توکل خواه و همکاران در سال 1386 روشی برای دستهبندی و تقطیع تصاویر سرطان سینه ارائه کردند [10]. در این پژوهش قطعهبندی تصویر با استفاده از الگوریتم رشد ناحیه انجام شده است. در آن مطالعه، ویژگیهای آماری و وابستگی مکانی از تصاویر استخراج شده است، و در ادامه از روش آستانهسازی فازی تطبیقی مبتنی بر انتروپی به منظور استخراج دقیقتر تودههای سرطانی استفاده شده است. دقت نهایی بدست آورده در این پژوهش با استفاده از 38 ویژگی، جهت طبقهبندی دادهها به دو گروه سالم و بیمار به ترتیب برابر %86/66 و %83/5 است [10].
رباب شیخپور و همکاران در سال 1395 روشی برای تشخیص سرطان پستان با استفاده از برآورد ناپارامتری چگالی احتمال ارائه کردند [11]. در این پژوهش از پایگاه داده WBCD شامل 699 نمونهی خوشخیم و بدخیم با 9 ویژگی و WDCB شامل 569 نمونهی خوشخیم و بدخیم با 30 ویژگی استفاده شده است و سپس با استفاده از روشهای تخمین چگالی مبتنی بر هسته، مدلی برای طبقهبندی مجموعه دادهها ارائه شده است. نتایج پژوهش نشان میدهند که روش برآورد چگالی هستهای گوسین مبتنی بر فاصله اقلیدس با دقت % 97/93 بالاترین دقت را در میان سایر روشها داشته است [11]. پزشکی و همکاران در سال 2019 روشی نوین برای طبقهبندی سرطان سینه ارائه کردند [12]. در این پژوهش در ابتدا، مجموع تفاوتهای بین پیکسل مرکزی و پیکسلهای همسایه در جهتهای مختلف محاسبه شده است. کمترین تفاوت بین دو جهت عمود متعامد شباهت پیکسلها در یک جهت را به عنوان قسمت سوزنی شکل توده مشخص میکند. این بخشها به تصویر قطعهبندی شده اضافه شده است تا شکل تومور را بزرگتر کنند. در نهایت ویژگیهای تومور از تصویر قطعهبندی شدهی نهایی استخراج شده و تومورها به دو دستهی خوشخیم و بدخیم طبقهبندی شده است. دقت نهایی بدست آمده حاصل از این پژوهش ۹۱.۳۷% گزارش شده است [12].
بوشرا موگال و همکاران در سال 2017 یک سیستم تشخیص تومور را برای طبقهبندی صحیح تودههای سینه به دستههای طبیعی، غیرطبیعی، خوشخیم و یا بدخیم ارائه کردند [13]. روش پیشنهادی دو مجموعه داده MIAS و DDSM را مورد بررسی قرار داده است. یک الگوریتم جدید برای طبقهبندی براساس ترکیب تبدیل top-hat و ماتریس همرخداد سطح خاکستری با شبکه عصبی انتشار برگشتی مورد استفاده قرار گرفته است. دقت نهایی بهدست آمده به طور متوسط 97/62% گزارش شده است [13].
ویلیام تورس و همکاران در سال 2018 روشی برای کاهش تشخیص مثبت کاذب در طبقهبندی تصاویر ماموگرافی ارائه کردند [14]. در این پژوهش برای ارزیابی و تایید اعتبار، پایگاه دادهی DDSM با استفاده از سیستم CAD مورد بررسی قرار گرفت. از توصیفگرهای بافتی مبتنی بر شاخصهای تفاوت کارکردی برای استخراج ویژگیها و پس از آن طبقهبندی مناطق مورد نظر بر اساس وجود یا عدم وجود توده استفاده شده است. صحت نهایی بدست آمده در این کار 92/29% گزارش شده است [14].
باسما موهام و همکاران در سال 2018 روشی خودکار جهت طبقهبندی تصاویر ماموگرام ارائه کردند [15]. این مطالعه پایگاه اطلاعاتی دیجیتال غربالگری ماموگرافی (DDSM) را مورد بررسی قرار داده است. الگوریتم پیشنهادی شامل سه مرحله اصلی است. اول، سه نوع مختلف از ویژگیها از توده جدا شده است. سپس مرتبطترین ویژگیها با استفاده از الگوریتم آزمایش t انتخاب شده و در نهایت، طبقهبندی برای تمایز میان تودههای خوشخیم و بدخیم با استفاده از سه طبقهبندی کننده، شبکه عصبی مصنوعی، ماشینهای بردار پشتیبان، k-نزدیکترین همسایه انجام شده است. شبکه عصبی مصنوعی بهترین نتایج را با دقت %98.9 بدست آورده است [15].
ماریا پرز و همکاران در سال 2017 روشی برای طبقهبندی تصاویر ماموگرام ارائه کردند [16]. در این پژوهش از پایگاه داده دیجیتال غربالگری ماموگرافی (DDSM) استفاده شده است. از شبکه عصبی مصنوعی (ANN) با استفاده از یک روش برون سپاری (Back-Propagation) و همچنین ویژگیهای بافتی برای طبقهبندی تصاویر به سه دسته نرمال، خوشخیم و سرطان استفاده شده است. صحت بدست آمده حاصل از این روش به طور متوسط ۸۴.۷۲% گزراش شده است [16].
با توجه به روشهای گزارش شده در پژوهشهای پیشین در خصوص انجام عملیات شناسایی، تشخیص و طبقهبندی تودههای سرطان سینه، لزوم انجام یک پژوهش که بتواند روشی خودکار با دقت و سرعت بالا جهت انجام عملیات ذکر شده را ارائه دهد وجود دارد. لذا در این مقاله، روشی ارائه شده است که در آن پس از تشخیص و آشکارسازی تودههای سرطان سینه از تصاویر ماموگرافی و جداسازی آنها از بافت سالم پستان با بکارگیری روشهای پردازش تصاویر دیجیتال، و استخراج ویژگیهای ساختاری مختلف از تودهها، به بهینهسازی پارامترهای طبقهبندی کنندهی ماشین بردار پشتیبان (SVM) جهت تشخیص تودههای سرطان سینه به دو کلاس خوشخیم و بدخیم پرداخته شده است. در ادامه پس از معرفی پایگاه داده و پیشپردازش تصاویر، به بررسی الگوریتم قطعهبندی تصویر پرداخته شده است. در مرحلهی بعد ویژگیهای هندسی و ساختاری مورد استفاده در این پژوهش و طبقهبندی دادهها با استفاده از ماشین بردار پشتیبان و بهینهسازی آن شرح داده شده است. در نهایت، نتایج بهدست آمده مورد تجزیه و تحلیل قرار گرفته است.
مواد و روشها
پژوهش حاضر به ارائهی روشی کاربردی و جدید جهت آشکارسازی و تشخیص تودههای سرطانی تصاویر ماموگرافی با استفاده از استخراج ویژگیهای ساختاری از تودههای سرطانی تشخیص داده شده، به منظور طبقهبندی خودکار تودههای سرطان سینه ارائه شده است. این پژوهش بر اساس بررسی اطلاعات پایگاه دادهی تصاویر ماموگرافی دیجیتال DDSM انجام شده است. در این بخش ابتدا به معرفی پایگاه دادهی بهکار گرفته شده در این مقاله پرداخته شده است. سپس به معرفی انواع روشهای پیشپردازش تصاویر ماموگرافی بافت سینه، استخراج تودهها و جداسازی آنها از بافت سالم سینه، حذف نواحی اضافه تشخیص داده شده و همچنین بهبود مرزهای تودههای آشکارسازی شده پرداخته شده است. در نهایت روشهای استخراج ویژگی از توده استخراج شده است و طبقهبندی دادهها به دو دسته خوشخیم و بدخیم با استفاده از شبکه عصبی ماشین بردار پشتیبان (Support Vector Machine) و بهینهسازی صورت گرفته بر روی آن انجام شده است. تصویر شماره 1 دیاگرام بلوکی روش پیشنهاد شده در این مقاله را نشان میدهد.
پایگاه داده
تصاویر مورد استفاده در این پژوهش از پایگاه داده (DDSM) Digital Database for Screening Mammography جمعآوری شده است [17]. این پایگاه داده شامل 327 تصویر سرطان خوشخیم و بدخیم بافت سینه است. اندازه اصلی تصاویر 1024×1024 پیکسل و به فرمت DICOM هستند. لازم به ذکر است که مرزبندی اولیهی تودههای سرطانی در تصاویر این پایگاه داده در ابتدا توسط رادیولوژیستها انجام شده است و گزارشی در مورد خوشخیم یا بدخیم بودن تودهها نیز در این پایگاه داده برای هر تصویر در دسترس میباشد. تصویر شماره 2 نمونهای از تصاویر پایگاه داده DDSM را نشان میدهد [17].
لازم به ذکر است دادههای موجود در این پایگاه داده دارای برچسبهای از پیش تعیین شدهای هستند. این برچسبها شامل Lobulated Margins، Oval، Amorphous distribution، Irregular Architectural، Irregular Margins، Pleomorphic distribution و Round margins هستند. در میان این تصاویر تودههای خوش خیم شکلی شبیه به دایره و یا بیضی داشته در حالی که تودههای بدخیم شکل بینظم و حاوی زائدههای کوچک و سوزنی دارند. تصویر شماره 3 انواع تودههای سرطانی سینه را نشان میدهد [18].
پیش پردازش
به علت نوع تصویربرداری ماموگرافی، این تصاویر در دستهی تصاویر نویزدار قرار میگیرند. بنابراین قبل از انجام عملیات پردازش تصویر بر روی این تصاویر باید نویزهای موجود در تصویر از بین بروند. فیلتر میانه بهطور گستردهای در پردازش تصویر کاربرد دارد. این فیلتر یکی از فیلترهای غیرخطی است که برای حذف نویز ضربهای در تصاویر استفاده میشود [19]. این فیلتر با استفاده از یک پنجره ۳×۳ یا ۵×۵، روشنایی پیکسل وسط یا هدف را بر اساس میانه روشنائی پیکسلهای همسایه تغییر میدهد. در نتیجه یک ترکیب از روشنایی در یک محدوده بوجود میآید. این فیلتر پیکسلهایی که شدت روشنایی بسیار متفاوتی با همسایهها داشته باشند را در نظر نمیگیرد. در این پژوهش فیلتر میانه با پنجرهای با ابعاد ۳×۳ روی تصاویر ماموگرافی دیجیتال برای حذف نویز با استفاده از نرمافزار MATLAB اعمال شده است.
استخراج تودههای سرطانی
پس از اعمال حذف نویز و هموارسازی تصاویر، افزایش کیفیت و تعیین ساختار نهایی تودهی سرطانی نیاز است. این مرحله در تحلیل تصاویر پزشکی و بهخصوص تصاویر ماموگرافی، بسیار مهم و ضروری است، زیرا تصاویر پزشکی کیفیت پایینی دارند و تفکیک اجزای مختلف تصویر بسیار دشوار است و خطا در تشخیص بسیار زیاد است. بنابراین در این مرحله تودهها و لبههای تصویر بهطور کامل مجزا شده و به صورت یک تصویر تفکیک شده نمایش داده میشوند.
روش قطعه بندی آستانهگذاری یکی از سادهترین و مؤثرترین روشهای قطعهبندی تصویر است که با استفاده از یک مقدار آستانه، تصویر را به دو بخش قطعه بندی میکند. در این روش ابتدا نقطهی میانی هیستوگرام تصویر به عنوان مقدار آستانه T0 در نظر گرفته شده، سپس تبدیل شدت روشناییهای تصویر بر اساس این مقدار قطعهبندی تصویر مطابق فرمول 1 انجام میشود.
که در این رابطه نشاندهنده شدت روشنایی در سطر ام و ستون ام است. این الگوریتم برای شدت روشناییهای و میانگینگیری انجام داده و بعد از آن میانگینی که از دیگری بیشتر است را یافته و در نهایت مقادیر شدت روشنایی به دو دسته A و B تقسیم میشوند، که در آن A دارای حداقل مقادیر شدت روشنایی و B دارای حداکثر مقادیر شدت روشنایی در تصویر است [20].
بهبود مرز توده های سرطانی
الگوریتم ریختشناسی ریاضی (Mathematical Morphology) یا مورفولوژی روشی جدید بهمنظور پردازش تصویر است. ایده اصلی این روش بر مبنای آنالیز اطلاعات هندسی توسط کاوش یک تصویر با یک الگوی هندسی کوچک میباشد. از جمله مهمترین الگوریتمهای مورفولوژی ساییدگی (Erosion) و انبساط (Dilation) میباشند. با استفاده از عملگر انبساط اجزا در تصویر شروع به رشد و گسترش میکنند، در مقابل با اعمال عملگر سایش در تصویر، اجزا در تصویر کوتاه و نازک میشوند. در این پژوهش به علت اینکه تودهی استخراج شده توسط الگوریتم آستانهگذاری به سمت داخل تمرکز یافته است لذا با بهکارگیری عملگر انبساط شدت روشنایی پیکسلهای پیرامون لبه به سمت مرکز گسترش یافتهاند. برای انجام این عملیات، دایرهای به شعاع صعودی ساخته شده که با پیمایش تصویر مقادیر شدت روشنایی برابر خود را یافته به حالتی که در هر تکرار شعاع نیز افزایش مییابد و بهمحض یافتن پیکسل هدف، تمامی پیکسلهای مابین دارای شدت روشنایی جدیدی برابر با شدت روشنایی پیکسلهای لبه خواهند داشت.
استخراج ویژگی
استخراج ویژگی یکی از مهمترین قسمتهای سیستمهای پردازش و تشخیص است. پس از استخراج ناحیهی تودههای سرطانی سینه که در بخش قبل توضیح داده شد، در این مرحله اقدام به ارائه ویژگیهای ساختاری از ناحیهی تودهی استخراج شده توسط نرمافزار MATLAB میپردازیم. به منظور طبقهبندی دادهها به دو دسته خوشخیم و بدخیم، ابتدا باید ویژگیهای مناسب از ناحیه استخراج شده توسط روش قطعهبندی استخراج گردد در این پژوهش 19 ویژگی ساختاری مورد استفاده قرار گرفته است. در جدول 1 ویژگیهای ساختاری بهکار گرفته شده در این پژوهش بیان شده است.
طبقه بندی
پس از استخراج ویژگی از تصاویر و آمادهسازی بردار ویژگی با استفاده از الگوریتمهای طبقهبندی معرفی شده در این مقاله، به تفکیک دادهها به دو دستهی خوشخیم و بدخیم پرداخته شده است. بدین منظور از الگوریتم ماشین بردار پشتیبان (SVM) استفاده شده است. الگوریتم ماشین بردار پشتیبانی یکی از روشهای یادگیری با نظارت است که از آن برای طبقهبندی و تخمین رگرسیون استفاده میشود. این روش از جمله روشهای نسبتاً جدیدی است که در سالهای اخیر کارایی مناسبی نسبت به روشهای قدیمیتر برای طبقهبندی نشان داده است [21]. این الگوریتم جهت جداسازی دادهها از یک ابرصفحه استفاده میکند و این ابرصفحه به گونهای انتخاب میشود که دادههای هر دسته بیشترین فاصله را با ابرصفحه داشته باشند. در این روش آموزش نسبتاً ساده است و برخلاف شبکههای عصبی در ماکزیممهای محلی گیر نمیافتد. همچنین این روش برای دادههای با ابعاد بالا تقریباً جواب مناسبی میدهد، اما برای اینکه بهینهترین جواب از این شبکه دریافت شود به یک تابع کرنل مطلوب و انتخاب پارامتر مناسب وابسته است. بنابراین در این مقاله از الگوریتم بهینهسازی ملخ Grasshopper Optimization Algorithm (که در ادامه شرح داده میشود) برای انتخاب بهینهترین پارامترها در الگوریتم SVM، جهت اخذ بهترین نتایج طبقهبندی استفاده شده است.
برای ارزیابی اعتباربخشی الگوریتم پیشنهادی از روش اعتبارسنجی 4 تایی (Cross Validation 4-Fold) استفاده شده است. به اینصورت که کل دادههای موجود را به چهار بخش تقسیم نموده و در هر مرتبه اجرای برنامه، سه بخش از دادهها را بهعنوان دادههای آموزشی و یک بخش را بهعنوان دادههای اعتبارسنجی به طبقهبندی کنندههای معرفی شده اعمال کردیم. علاوه براین، در این مقاله تعداد %85 دادهها را بهعنوان دادههای آموزشی و %15 دادهها را بهعنوان دادههای تست در نظر گرفته شدند. لازم به ذکر است که مجموعاً 100 مرتبه اجرای برنامه انجام شد و در نهایت میانگین و انحراف معیار نتایج بدست آمده گزارش شدند. در جدول 2 و روابط پس از آن نحوه تعریف معیارهای حساسیت (Sensitivity)، اختصاصی بودن (Specificity) و صحت (Accuracy) در طبقهبندی تصاویر ماموگرافی سینه جهت تشخیص نوع تودهی سرطانی بیان شده است.
فرمولهای 2، 3 و 4 بیانگر روابط ریاضی برای محاسبه صحت، حساسیت و اختصاصی بودن میباشند که به ترتیب در زیر بیان شدهاند:
الگوریتم بهینهسازی ملخ (GOA)
فرآیند یافتن بهترین مقادیر برای متغیرهای یک مسئله خاص برای به حداقل رساندن یا به حداکثر رساندن یک تابع هدف، بهینهسازی نامیده میشود. مسائل بهینهسازی در زمینههای مختلف مطالعات وجود دارد و تاکنون الگوریتمهای بهینهسازی بسیاری نظیر climbing، simulated annealing، Tabu Search (TS) ، Iterated Local Search (ILS) ، Genetic Algorithms (GA، Particle Swarm Optimisation (PSO) ، Ant Colony Optimisation (ACO) ، Differential Evolution (DE) Dolphin Echolocation (DEL) ، Firefly Algorithm (FA) ، Bat Algorithm (BA) ، Grey Wolf Optimizer (GWO)، جستجو فاخته (CS) ، شکار گرگ خاکستری (GWO)، State of Matter Search (SMS) و گرد افشانی گل (FPA) معرفی شدهاند، اما تاکنون تحقیقات اندکی ازدحام ملخها را شبیهسازی کردهاند. ملخها حشراتی هستند که به علت آسیبزدن به محصولات تولیدی و کشاورزی به عنوان آفت در نظر گرفته میشوند. اگر چه ملخها معمولاً بهطور جداگانه در طبیعت دیده میشوند، اما آنها در یکی از بزرگترین ازدحامات نسبت به تمام موجودات قرار دارند [22].
بهطور کلی، الگوریتمهای الهام گرفته از طبیعت به گونهای منطقی فرایند جستجو را به دو گرایش تقسیم میکنند: اکتشاف و بهرهبرداری؛ در اکتشاف، عاملان جستجو تشویق میشوند که بهطور ناگهانی حرکت کنند، در حالیکه آنها در طول بهرهبرداری تمایل به حرکت محلی دارند. این دو عملکرد، و نیز جستجوی هدف، بهطور طبیعی توسط ملخها در طبیعت انجام میشود.
مدل ریاضی بهکار گرفته شده برای شبیهسازی رفتار ازدحام ملخها در فرمول 5 بیان شده است [22].
در این رابطه، Xi معرف موقعیت ملخ i ام را تعریف میکند، Si فاکتور تعامل اجتماعی است، Gi نیروی جاذبه در ملخ i ام بوده و Ai معرف پیشگویی باد میباشد. توجه داشته باشید که برای ارائه ی رفتار تصادفی، معادله میتواند بصورت Xi=r1 Si+r2 Gi+r3 Ai بازنویسی شود، که در آن r1 ، r2 و r3 اعداد تصادفی در بازه [0.1] هستند. همچنین مطابق فرمول 6 خواهیم داشت [22]:
در این رابطه، dij فاصله بین ملخ i ام و j ام است و به صورت dij=|xj-xi |محاسبه میشود، s یک تابع برای تعریف قدرت نیروی اجتماعی است که در فرمول 7 نشان داده شده است [22] و dij=xj-xi/dij معرف یک بردار واحد از ملخ i ام به ملخ j ام است. تابع s که نیروهای اجتماعی را تعریف میکند نیز بهصورت زیر محاسبه می شود:
در این رابطهf نشاندهندهی شدت جذب وl مقیاس طولی جذاب است. در این پژوهش بهینهسازی پارامترهای توابع کرنل SVM با بهکارگیری الگوریتم بهینهسازی ملخ انجام شده است. تعداد ملخ های استفاده شده در این مقاله 3 عدد میباشد. همچنین عملیات بهینه سازی بر روی سه تابع کرنل linear و RBF و polynomial از طبقه بندی کننده ی SVM انجام شده است.
نتایج
در این مطالعه تصاویر پایگاه داده DDSM برای طبقهبندی به دو دسته خوشخیم و بدخیم مورد استفاده قرار گرفته است. در این بخش نتایج حاصل از الگوریتم پیشنهاد شده گزارش شده است. تصویر 4 نتایج حاصل از اعمال فیلتر میانه و تصویر 5 و 6 نتایج اعمال قطعهبندی توسط روش آستانهگذاری و بهبود آن توسط عملگرهای مورفولوژی را نشان میدهند.
جدول 3 درصد مقادیر صحت، حساسیت و اختصاصی بودن (به همراه واریانس آنها) حاصل از بهکارگیری طبقهبندی دادهها (به دو دستهی خوشخیم و بدخیم) با استفاده از روش طبقهبندی SVM را با استفاده از سه تابع کرنلLinear و RBF و Polynomial نشان میدهد.
همچنین جدول 4 این نتایج را بعد از اعمال الگوریتم بهینهسازی ملخ نشان میدهد.
در نتایج بیان شده در جدول 3، دیتای آموزشی بکار گرفته شده %85 بوده و %15 دادهها بهعنوان دادههای تست در نظر گرفته شدهاند، همچنین اعتبارسنجی طبقهبندی انجام شده بهصورت 4-fold صورت گرفته و تعداد اجرای برنامه به ازای هر تابع کرنل، 100 مرتبه بوده است. همچنین در نتایج بیان شده در جدول 4 نیز دیتای آموزشی %85، طبقهبندی بصورت 4-fold انجام شده، تعداد جمعیت ملخها در الگوریتم بهینهسازی برابر 3 عدد بوده، تعداد اجرای تکرارهای الگوریتم ملخ برای بهینهسازی برای هر تابع کرنل 100 تکرار بوده و تعداد اجرای برنامه به ازای هر اجرای هر تابع کرنل طبقهبندی کننده 100 مرتبه بوده است.
بحث و نتیجه گیری
در این مقاله از ویژگیهای ساختاری بر پایه شکل هندسی تودههای سرطانی استخراج شده از تصاویر ماموگرافی دیجیتال توسط روشهای پردازش تصاویر جهت طبقهبندی دادهها به دو دسته خوشخیم و بدخیم استفاده شده است. در این پژوهش پس از پیشپردازش تصاویر و حذف نویز آنها توسط فیلتر میانه، مناطق مشکوک به تودههای سرطانی در بافت سینه با بهکارگیری روش قطعهبندی آستانهگذاری استخراج شدند. در ادامه، توسط الگوریتم آستانهگذاری به سمت داخل توده، و با استفاده از عملگر انبساط، شدت روشنایی پیکسلهای پیرامون لبه به سمت مرکز توده گسترش یافتند. سپس تعدادی ویژگی هندسی و ساختاری از تودهی آشکارسازی شده استخراج گردید. توسط این ویژگیها، و با بهکارگیری طبقهبندیکنندهی SVM، دادهها به دو دسته طبقهبندی شدند. تعداد 19 ویژگی مساحت ناحیه، محیط، Convex Area، Eccentricity، Equiv Diameter، Euler Number، Extent، Filled Area، Major Axis Length، Minor Axis Length، جهت orientation ،Solidity، نسبت نازکی توده، کشیدگی، Circularity1، Circularity2، فشردگی، شاخص شکل، و پراکندگی و بینظمی که از هر تصویر استخراج شدهاند را جهت تولید بردار ویژگی استفاده شده است. لازم به ذکر است که دلیل استفاده از این 19 ویژگی این است که بهترین ویژگیها از کل ویژگیهای قابل استخراج از تصاویر تودههای سرطانی بوده که با استخراج این ویژگیها، نتایج طبقهبندی مناسبتری حاصل شده است. در مرحله بعد جهت بهینهسازی پارامترهای SVM از روش نوین بهینهسازی ملخ استفاده شده است. ننایج بهترین صحت حاصل از الگوریتم SVM (در حالت پایه و بدون استفاده از روش بهینهسازی و با کرنل خطی) برابر با 91/67% و صحت حاصل با بهکارگیری روش بهینهسازی توسط الگوریتم ملخ برابر100 درصد بهدست آمده است. نتایج نشان میدهند که اعمال و استفاده از روش بهینهسازی باعث افزایش دقت الگوریتم SVM در فرایند طبقهبندی دادهها میشود. جدول 5 نتایج مقایسه الگوریتم پیشنهادی با مطالعات گذشته را نشان میدهد.
با توجه به جدول قابل مشاهده است که صحت روش پیشنهادی با استفاده از ویژگیهای ساختاری مختلف و همچنین بهبود پارامترهای شبکه SVM با سه شاخص صحت، حساسیت و ویژگی (اختصاصیت) 100% داراری کارایی بالاتری نسبت به سایر پژوهشها است.
با توجه به اینکه روشهای متعددی برای پیشپردازش و بخشبندی تصاویر وجود دارد، لذا با مرور برخی الگوریتمهای مشابه در خصوص آشکارسازی سایر تودهها و تومورهای دیگر نقاط بدن، میتوان به اهمیت بهکارگیری این روش در مقالهی حاضر پی برد. بهعنوان نمونه، در سال 1395، حمیدرضا غفاری و همکاران روشی برای تشخیص ندولهای ریوی از روی تصاویر سیتیاسکن ریه با استفاده از طبقهبندی کنندهی SVM ارائه کردند [24]. محققان در آن پژوهش از گامهای تبدیل تصویر به مقیاس خاکستری، تبدیل تصویر خاکستری به باینری توسط یک حد آستانه، حذف نواحی نامرتبط برای دستیابی به دیوارهی ریه، پر کردن حفرههای تصویر برای دستیابی به پسزمینهی تصویر، ارائهی نهایی لبههای ریهی استخراج شده، افزودن ماسک به تصویر اصلی و بخشبندی ریه و انتخاب نواحی مشکوک توسط بهکارگیری الگوریتم رشد ناحیهی آشکارسازی شده صورت پذیرفت [24]. همچنین، در سال 1391، عباس بینیاز و همکاران در مطالعهای به مرور کامل روشهای اتوماتیک و نیمهاتوماتیک بخشبندی تصویر، و بهطور خاص برای بررسی روشهای بخشبندی تصاویر پزشکی تشدید مغناطیسی مغز انسان پرداختند [25]. محققان در آن مطالعه، انواع روشهای ناحیهبندی تصاویر را به روش دستی، روش بدون سرپرست یا اتوماتیک و روش با سرپرست یا نیمهاتوماتیک تقسیمبندی نمودند. علاوه براین، آنها روشهای ناحیهبندی ساختاری را که بصورت استفاده از ویژگیهای مکانی تصویر یا محاسبهی پارامترهای آماری برای ناحیهبندی تصاویر است را در دو دستهی کلی بخشبندی به کمک ویژگیهای ساختاری (که دارای زیربخشهای روشهای وابسته به لبه، روشهای وابسته به ناحیه و روشهای وابسته به پیکسل) و روشهای بخشبندی آماری معرفی کردند [25]. لذا با توجه به بررسی این منابع درخصوص بخشبندی تصاویر جهت تشخیص تومورها و ضایعات موجود در تصاویر پزشکی، نتیجه گرفته میشود که روش بهکار گرفته شده در این مقاله برای آشکارسازی تودههای سرطانی موجود در بافت سینه نیز از روشهای کلی پردازش تصاویر پزشکی تبعیت میکند.
علاوه بر موارد فوق، با توجه به جدول 5، میتوان نتایج روش مطرح شده در این مقاله را با نتایج روشهایی مقایسه کرد که در آنها نیز از پایگاه دادهی DDSM استفاده شده است. با توجه به این مورد، پژوهش حامد جباری و همکاران [9] دارای صحت 91/04 درصد بوده است (شاخصهای حساسیت و اختصاصیت گزارش نشدهاند)، که نشان میدهد نتایج صحت نهایی الگوریتم ارائه شده در مقالهی حاضر از پژوهش بالاتر بوده است [9]. علاوه بر این، در پژوهش H. Pezeshki و همکاران [12]، که از دو پایگاه دادهی تصاویر ماموگرافی MIAS و DDSM استفاده شده است، بهترین نتایج پارامترهای صحت، حساسیت و اختصاصیت نیز پائینتر از نتایج گزارش شده در مقالهی حاضر (حتی بدون اعمال الگوریتم بهینهسازی ارائه شده) بوده است که این موضوع نیز نشاندهندهی دقت بالای روش ارائه شده در این مقاله است. تحلیل مشابهی در مطالعهی Bushra Mughal و همکاران [13] را نیز میتوان مطرح کرد. در میان تمامی پژوهشهای پیشین ارائه شده در این حوزه، روش ارائهشده توسط Basma A. Mohamed و همکاران [15] دارای عملکرد بسیار بهتری در مقایسه با پژوهشهای پیشین بوده است. با این حال، روش ارائه شده در مقالهی حاضر با دقت مناسبتری به تشخیص و طبقهبندی تودههای سرطانی سینه پرداخته است.
از نوآوریهای موجود در این تحقیق میتوان به تعداد بالای ویژگیهای استخراج شده از تودههای مستخرج از تصاویر ماموگرافی و همچنین استفاده از الگوریتم بهینهسازی ملخ جهت تعیین دقیقتر نوع تودههای سرطانی بافت سینه که سعی شده است با دقت بالا صورت گیرد اشاره نمود. علاوه بر این، از نقاط قوت روش ارائه شده در این مقاله میتوان به سرعت و دقت بسیار بالای الگوریتم ارائه شده اشاره نمود. به اینصورت که مرزهای تومورهای سرطانی با دقت بالا استخراج شده، و در نهایت عملیات طبقهبندی با بکارگیری ویژگیهای مورفولوژیکی ساده صورت پذیرفته است. همچنین، با بررسی مطالعات پیشین که خلاصهی آنها در جدول 5 ارائه شده است، مشخص است که تاکنون در پژوهشهای پیشین اقدام به استفاده از روشهای بهینهسازی در مرحلهی طبقهبندی نهایی (یا بهینهسازی طبقهبند بکار گرفته شده) نشده است. لذا بکارگیری روش بهینهسازی ملخ در بهینه کردن پارامترهای کرنلهای مختلف طبقهبندی کنندهی SVM برای اولین بار در این مقاله ارائه شده است که میتوان آغاز کنندهی روندهای جدید جهت بهبود فرایندهای مختلف طبقهبندی در انواع تشخیصهای پزشکی باشد.
به عنوان ارائهی نتیجهگیری کلی از این مقاله، میتوان به این نکته اشاره نمود که پس از آشکارسازی و تشخیص تودههای سرطانی سینه که با دقت بالا در این مطالعه انجام شده است، با توجه به ویژگیهای مورفولوژیکی و سادهی استخراج شده از تودههای سرطانی، عملیات طبقهبندی بخوبی و با دقت بالا انجام پذیرفته است. در نتایج اولیهی طبقهبندی کنندهی SVM، شاخصهای صحت، حساسیت و اختصاصی بودن (یا شاخص ویژگی) مقادیر نسبتاً مناسبی را بهدست آوردند. اما پس از بهینهسازی پارامترهای طبقهبندی کننده، مقادیر شاخصهای ذکر شده افزایش قابل توجهی از خود نشان دادند. بر اساس مدل پیشنهاد شده در این مقاله، ویژگیهای مبتنی بر شکل هندسی و ساختار تودههای استخراج شده از تصویر ماموگرافی دیجیتال بافت پستان، جهت آموزش مدل و تشخیص نوع توده در سرطان پستان دارای کارایی بالایی هستند، و همچنین روش بهینهسازی ملخ با استفاده از بهینهسازی پارامترها، دقت کلی تشخیص سیستم ارائه شده را بهبود بخشیده است. در نهایت نتایج حاصل از این پژوهش نشاندهندهی عملکرد بالای روش پیشنهاد شده نسبت به سایر پژوهشهای پیشین انجام شده در این زمینه است.
ملاحظات اخلاقی
پیروی از اصول اخلاق پژوهش
در این پژوهش از تصاویر پایگاه دادهی DDSM استفاده شده است. لازم به ذکر است که تصاویر موجود در این پایگاه داده بصورت رایگان جهت دسترسی وجود دارند.
حامی مالی
این مقاله حامی مالی ندارد.
مشارکت نویسندگان
مفهومشناسی، تحقیق و روششناسی: ناصر صفدریان؛ جمعآوری اطلاعات، منابع و نگارش مقاله: شادی یوسفیان دزفولینژاد؛ ویراستاری، اصلاح نگارشی و نهایی سازی مقاله: ناصر صفدریان؛
تعارض منافع
طبق نظر نویسندگان هیچگونه تضاد منافعی در پژوهش حاضر وجود ندارد.
تشکر و قدردانی
نویسندگان مقاله از باشگاه پژوهشگران جوان دانشگاه آزاد اسلامی واحد تبریز کمال تشکر و قدردانی را دارند.
References
1.World Health Organization. Cancer: Early diagnosis and screening [Internet]. 2020 [Retrived 6 Aug 2020]. Available at: https://www.who.int/cancer/prevention/diagnosis-screening/en
2.Center of Disease Control. [Report of registered cancer cases (Persian)]. Tehran: Center of Disease Control; 2004.
3.Baines CJ, McFarlane DV, Miller AB. The role of the reference radiologist. Estimates of inter-observer agreement and potential delay in cancer detection in the national breast screening study. Investigative radiology. 1990; 25(9):971-6. [DOI:10.1097/00004424-199009000-00002] [PMID]
4.Wallis MG, Walsh MT, Lee JR. A review of false negative mammography in a symptomatic population. Clin Radiol. 1991; 44(1):13-5. [DOI:10.1016/S0009-9260(05)80218-1]
5.Behnam H, Zakeri F, Gifani P, Torkashvand P, Shalbaf A, [Ultrasound Imaging Processing (Persian)]. Tehran: Ishraqiya Publishing; 2011.
6.Nick Ravan Shalmani A, Karami Mohammadi M. [Diagnosis of breast cancer masses in computer aided mammography images (Persian)]. The 3rd International Conference on Recent Innovations in Electrical and Computer Engineering, 9 September 2016; Tehran, Iran.
7.Abbaspour Kazerouni I, Haddad Nia J. [Introducing a precise intelligent system for mammographic image separation based on density of tissues and masses (Persian)]. Iran J Breast Dis. 2013; 6(1).
8.Naseri Noroozani S, Shayegan MA. [Clinical stage detection of breast cancer patients using tnm system and ant colony algorithm (Persian)]. Iran J Breast Dis. 2018; 11(3):56-70.
9.Jabbari H, Bigdeli N, Khadem A. [A new hybrid approach to segmentation and diagnosis of tumors in breast mammography images (Persian)]. Iran J Breast Dis. 2016; 9(3):14-24.
10.Tavakkolah P, Safabakhsh R., [A new approach to classifying and classifying breast cancer masses (Persian)] Third Information and Knowledge Technology Conference. 6-8 December 2007: Tehran; Iran.
11.Sheikhpour Ro, Sheikhpour Ra. [Diagnosis of breast cancer using nonparametric estimation of nuclear methods-based probability density (Persian)]. Razi J Med Sci. 2016; 23(144):30-40.
12.Pezeshki H, Rastgarpour M, Sharifi A, Yazdani S. Extraction of spiculated parts of mammogram tumors to improve accuracy of classification. Multimed Tools Appl. 2019; 78:1-25. [DOI:10.1007/s11042-019-7185-4]
13.Mughal B, Sharif M, Muhammad N, Saba T. A novel classification scheme to decline the mortality rate among women due to breast tumor. Microsc Res Tech. 2018; 81(2):171-80. [DOI:10.1002/jemt.22961] [PMID]
14.Torres W, Oseas A, Sousa A, Silva FA. Functional Diversity applied to the false positive reduction in breast tissues based on digital mammography. 2018 IEEE Symposium on Computers and Communications (ISCC), Natal. 2018; 25:1120-25. [DOI:10.1109/ISCC.2018.8538658]
15.Mohamed BA, Salem NM. Automatic classification of masses from digital mammograms. 2018, 35th National Radio Science Conference (NRSC). 2018 Mar 20; 495-502. IEEE. [DOI:10.1109/NRSC.2018.8354408]
16.Pérez M, Benalcázar ME, Tusa E, Rivas W, Conci A. Mammogram classification using back-propagation neural networks and texture feature descriptors. 2017 IEEE Second Ecuador Technical Chapters Meeting (ETCM). 2017 Oct 16; 1-6. [DOI:10.1109/ETCM.2017.8247515]
17.Digital Database for Screening Mammography. Available at: http://marathon.csee.usf.edu/Mammography/Database.html
18.Vadivel A, Surendiran B. A fuzzy rule-based approach for characterization of mammogram masses into BI-RADS shape categories. Comput Biol Med. 2013; 43(4):259-67. [DOI:10.1016/j.compbiomed.2013.01.004] [PMID]
19.Huang T, Yang GJ, Tang G. A fast two-dimensional median filtering algorithm. IEEE Trans Acoust Speech Signal Process. 1979; 27(1):13-8. [DOI:10.1109/TASSP.1979.1163188]
20.Massodi P, Safdarian N, Kalantar B. [Detection and classification of breast cancer using feature extraction from mammography images by image processing technique and neural network (Persian)]. International Conference on Non-Linear System & Optimization in Computer & Electrical Engineering. May 2015: Dubai; United States of Emirates.
21.Fradkin D, Muchnik I. Support vector machines for classification. DIMACS series in discrete mathematics and theoretical computer science. 2006; 70:13-20.
22.Saremi S, Mirjalili S, Lewis A. Grasshopper optimisation algorithm: Theory and application. Adv Eng Softw. 2017;105:30-47. [DOI:10.1016/j.advengsoft.2017.01.004]
23.Safdarian N, Hedyezadeh M. Detection and classification of breast cancer in mammography images using pattern recognition methods. Multidiscip Cancer Investig. 2019; 3(4):13-24 URL: http://mcijournal.com/article-1-229-en.html [DOI:10.30699/acadpub.mci.3.4.13]
24.Ghaffari H, Mostashari M, Mahmoodi M. [Designing a system for detection of pulmonary nodules in lung ct images using support vector machine classifier (Persian)]. J Health Biomed Informatics, Med Informatics Res Center. 2017; 3(4):300-9.
25.Biniaz A, Abbasi A, Shamsi M. [A comprehensive overview of segmentation of medical images of magnetic resonance in the human brain: methods, clinical applications, advantages and disadvantages (Persian)]. Majlis Electrical Engineering Conference. 2012: New Majlis City: Iran.
بازنشر اطلاعات | |
![]() |
این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است. |