Нова модель машинного навчання прогнозує хвороби серця з точністю понад 95%

Вчені пропонують нові підходи до діагностики та прогнозування захворювань серця, які використовують сучасні технології та процедури відбору ознак. Науковці розробили модель машинного навчання ML-HDPM для точної оцінки ризику серцевих захворювань.

Для отримання даних про серцево-судинну систему дослідники використовували бази даних Клівленда, Швейцарії, Лонг-Біч та Угорщини. Вони провели попередню обробку клінічних даних, відбір ознак, вилучення ознак, кластеризацію з переважанням, та класифікацію.

Для навчання моделі використовувались тренувальні дані з набором ознак. Обчислювалися вагові коефіцієнти ознак, а ознаки з найнижчими значеннями видалялись для досягнення необхідного набору.

Генетичний алгоритм (GA) включав ініціалізацію популяції, відбір, кросинговер та мутацію, щоб визначити, чи виконано критерій зупинки.

Дослідники застосували пониження вибірки для зразків сирої інформації з більшістю міток та кластеризували зразки з меншістю міток для об’єднання навчального набору та виконання синтетичного переваження меншості (SMOTE) для отримання вихідних даних моделі.

Модель обирає релевантні ознаки за допомогою методу рекурсивного виключення ознак (RFEM) та генетичного алгоритму (GA), що підвищує стійкість моделі. Для корекції дисбалансу даних застосовуються такі методи, як техніка переважування кластерної вибірки з пониженням вибірки (USCOM).

Класифікація здійснюється за допомогою багатошарових глибоких згорткових нейронних мереж (MLDCNN) та адаптивного методу оптимізації (AEHOM).

В якості класифікаторів моделі використовувались головний компонентний аналіз (PCA), машина опорних векторів (SVM), лінійний дискримінантний аналіз (LDA), дерево рішень (DT), випадковий ліс (RF) та наївний Байєс (NB).

Модель поєднує керований відбір нескінченної кількості ознак з удосконаленим алгоритмом випадкового пулу зважених ознак. Попередня обробка даних ML-HDPM забезпечує цілісність даних та ефективність моделі. Ґрунтовний відбір ознак дозволяє виявити важливі властивості для прогнозного моделювання.

Скалярна методика забезпечує послідовний вплив ознак, тоді як SMOTE коригує дисбаланс класів. Генетичний алгоритм використовує принципи природного відбору для генерації декількох рішень в одному поколінні.

Ефективність стратегії оцінюється за допомогою моделювання тестування та порівнюється з існуючими моделями. Набори даних для тестування, навчання та валідації становили 80%, 10% та 10% даних відповідно.

Результати

За результатами комплексної оцінки, ML-HDPM показала відмінні результати за широким спектром критичних критеріїв. Використовуючи навчальні дані, модель ML-HDPM прогнозувала серцево-судинні захворювання з точністю 95% та вище.

Чутливість системи (відкликання) становила 96% точності, тоді як F-показники 92% відображали її збалансовану роботу. Варто відзначити специфічність ML-HDPM на рівні 90%.

ML-HDPM забезпечує точні та надійні результати. Він поєднує складні технології, такі як відбір ознак, балансування даних, глибоке навчання та адаптивний метод оптимізації стада слонів (AEHOM). Ці стратегії дозволяють моделі надійно прогнозувати захворювання серця, що покращує клінічні рішення та результати лікування пацієнтів.

ML-HDPM перевершує інші алгоритми під час навчання (95%) та тестування (88%). Цей успіх пояснюється поєднанням складного вилучення ознак, корекції дисбалансу даних та машинним навчанням.

Алгоритми відбору ознак дозволяють виявляти важливі характеристики, пов’язані зі здоров’ям серцево-судинної системи, що дає змогу виявляти тонкі шаблони, що свідчать про захворювання серця.

Коригування даних за допомогою ефективних методів балансування даних гарантує навчання моделі на репрезентативних наборах даних, включаючи глибоке навчання з використанням підходу MLDCNN та оптимізацію AEHOM для підвищення точності моделі.

ML-HDPM, як модель глибокого навчання, має нижчі показники помилково-позитивних результатів (FPR) під час навчання (8,20%) та тестування (15%), ніж інші підходи, завдяки відбору ознак, балансуванню даних та покращеним компонентам машинного навчання в ML-HDPM.

Модель має високі показники істинно-позитивних результатів (TPR) в навчальних (96%) та тестових (91%) наборах даних завдяки ідентифікації ознак, балансуванню даних та покращенням глибокого навчання. Цей підхід підвищує здатність моделі виявляти істинно позитивні випадки.

За матеріалами.