Провідні країни розпочали щеплення своїх громадян від COVID-19. Українцям доведеться почекати, позаяк вакцина стане доступною не так швидко, як хотілося б, і далеко не всім. Про найближчі перспективи пандемії та про те, чи виправдане рішення влади знову посадити країну під замок, кореспондентові Укрінформу розповів завідувач кафедри системного аналізу та інформаційних технологій доктор технічних наук, професор, науковий керівник науково-дослідної лабораторії екологічних досліджень та екологічного моніторингу Вінницького національного технічного університету Віталій МОКІН.
— Віталію Борисовичу, як ви приєдналися до групи науковців, що роблять прогнози поширення коронавірусу для РНБО та Кабінету Міністрів?
— Тривалий час займаюся так званим напрямом Data Science. Це те, що називають штучним інтелектом, хоч це різні поняття. Я зосередився на збільшенні рейтингу в опануванні штучного інтелекту на Python (мова програмування. — Ред.) у системі Kaggle — це платформа Google для оброблення даних у різних сферах. У цій платформі першим з українців отримав статус гросмейстера і входжу в першу п’ятнадцятку з понад 175 тисяч учасників з усього світу — фахівців зі штучного інтелекту. Там усі перебувають у пошуку, до чого застосовувати свої знання.
У квітні розпочато систему конкурсів з моделювання поширення коронавірусу. Я також долучився, але на той час обсяг даних про COVID-19 був іще замалий, аби щось усерйоз прогнозувати. Та я зацікавився тоді цією проблемою, бо вже працював над моделюванням часових рядів з використанням штучного інтелекту.
Улітку серйозно зайнявся цим питанням і побудував власну модель на основі технології фейсбуку для моделювання часових рядів — так звана модель Prophet (з англійської пророк). Щось там удосконалив, і моя модель, мій датасет, моя технологія аналогів не мали. Вона опрацьовує дані із 70 країн, а їхня модель працювала тільки з 62.
Потім деякий час іще її вдосконалював, і моя робота потрапила на очі міжвідомчій робочій групі при Національній академії наук України з прогнозування поширення коронавірусу, створеній для потреб РНБО і Кабміну. Вони щотижня готують різну аналітичну інформацію, прогнози і супроводжують систему моніторингу поширення коронавірусу РНБО.
Колеги одразу сказали, що у них є власна модель прогнозування поширення пандемії, але їм цікаво залучити й інших фахівців, адже аналітичної інформації забагато не буває. Бо погляд на одні й ті самі речі з різних точок зору може дати позитивний ефект. Спитали, чи згоден попрацювати. Я погодився, адже це цікаво, це виклик моїм знанням і навичкам. А ще це робота для справді суспільно корисних потреб. Адже коли бачиш усі проблеми, знаєш, що хоч би щось робиш для їх розв’язання. А твої результати потраплять до людей, які ухвалюють рішення. Можливо, саме якийсь із моїх графіків надихне їх на розуміння аспектів проблеми, а прийняті рішення сприятимуть поліпшенню ситуації.
Я кілька років був радником міністра екології, понад десять — радником голови Держводагентства і маю приклади, коли твоя порада, вкладена в потрібні вуха в потрібний момент, дає корисний загальнодержавний результат. Це багато роботи зі звітністю на вихідних. Звичайно, я все це роблю на волонтерських засадах.
— Що на виході даєте у розпорядження Кабміну та РНБО?
— На початку мені прислали величезний масив інформації, зокрема про всі зроблені в Україні ПЛР-тести на коронавірус, звісно, без персональних даних. І я все це опрацьовував із місяць-два, пробував різні моделі. Поступово знайшов свою нішу в роботі групи. Узяв відкриті дані, тому що в Kaggle можна використовувати тільки їх. Зробив нові моделі. Потім написав докладний звіт, як усе працює. Мене перевірили, сказали, що потрібно поправити, щоб підвищити точність моделі. Урешті ми (я залучив свого аспіранта) отримали графік-прогноз у такому вигляді, як вони хотіли, і взяли мене у звіт.
Як бачите, це не була миттєва робота — там усе верифікується, всіх підряд туди не беруть. Тепер я щотижня надаю свою інформацію, і порівнюють прогнози НАНУ і Мокіна.
Отож на основі даних про захворювання на коронавірусну недугу, підтверджені ПЛР-тестуванням, роблять прогноз кількості нових хворих. Саме за ними надходить офіційна статистика в Україні.
Ще роблять ІФА-тести, тести на антиген, але вони не надходять в офіційну статистику захворюваності. Усі стандартні аналітичні панелі містять тільки тести на ПЛР, позаяк саме їх вважають точним підтвердженням.
Академія наук використовує так звану компартментну модель. За суттю це балансова динамічна модель, яка бере за основу різні складові, що характеризують природу явища, і описує, як вони взаємодіють. Я ж використовую статистичну модель — модель часового ряду. Працюю зі своїм аспірантом Арсеном Лосенком. Ми даємо загальний графік тільки у країні, оскільки нам треба більше даних. Беремо один показник, ряд його чисел за рік і прогнозуємо наступні значення.
Моя модель працює з показниками з часу різкого збільшення захворюваності — 6 липня. Тоді збільшилися обсяги тестування, саме тому цей відрізок передусім є сенс аналізувати для прогнозування.
У чому специфіка статистичних моделей? Вони чекають на однорідну вибірку даних, коли умови проведення обстежень більш-менш порівнянні. Я вже розробив нову модель, яка моделює увесь ряд даних, зокрема і в основних 70 країнах. Вона дає непогані результати прогнозування. Вона складніша, я її вдосконалюю і готую оновлення. Аспірант мені допомагає. За нею ми вже програватимемо сценарії між оптимістичним і песимістичним, щоб прогнозування можна було зробити більш довгостроковим.
— Якої точності прогнозування вам вдалося домогтися за пів року роботи?
— Наскільки пам’ятаю, найкращий результат двотижневого прогнозу сумарно за всі дні у мене був із похибкою 2—3%. Зазвичай добре, коли вона менша ніж 10%. У двох останніх прогнозах у мене були показники 7,48% і 5%.
Наша робоча група вирішила на два тижні призупинити прогнозування. З одного боку, тривають новорічні свята. З другого — суто українська проблема: у свята й вихідні лабораторії значно менше працюють. Наприклад, коли був День захисника України, зробили істотно менше аналізів. Як на мене, це не дуже зрозуміло: чому не можна людям доплатити за роботу, найняти ще персонал? Чому не можна налагодити стабільну роботу? Чому я, працюючи безплатно, у вихідні виконую свою роботу, а вони за гроші — ні? Ми зав’язані на якість даних: якщо вони приходять зі спадом, погіршується якість прогнозу.
— Чимало політиків та експертів кажуть, що кількість тестів на COVID-19 в Україні замала, тому реальної картини захворюваності це не відображає. Наскільки довіряєте статистиці, з якою доводиться працювати?
— Скажу більше: абсолютно точно відомо, що дані про кількість нових хворих не характеризують реального стану речей, який є останнім часом. Одна експертка, яка працює з даними з тестування, порівняла дати реєстрації ПЛР-тестів і дату оприлюднення. Дата реєстрації — це коли людина прийшла і зробила тест, дата оприлюднення — коли МОЗ опублікував про це відомості про кількість нових хворих.
Знаємо, що ПЛР-тест роблять максимум добу. Логічно припустити: що те, що вони написали, — це дані за вчора. Нічого подібного! Із графіка в нашому звіті видно, що в оприлюднених даних відсотків із 30 результату — це вчорашні аналізи, ще 30—40% — вимірювання за останні 2—3 дні, частина даних — за тиждень тому, ще частина — за два тижні до того й навіть за місяць! У деякі дати оприлюднені дані містили відомості про тести, зроблені влітку або навіть навесні! Це, звичайно, лише кілька відсотків, але коли отакий салат, така суміш, то це не зовсім достовірно характеризує реальну ситуацію.
Ми це враховуємо. Стараюся моделювати зараження коронавірусом, намагаючись відстежувати його через кількість нових хворих. Враховую державні свята із запізненням на сім днів. Тобто припускаю, що люди ці свята відзначали, контактували, і за сім днів можна чекати, що тести підтвердять у них коронавірусну хворобу.
Крім того, все літо я моделював процес, враховуючи теплі дні без опадів. Дані показують, що в погожі дні люди одразу заполоняють парки, спілкуються. Почалися контакти — стала збільшуватися кількість хворих. Моя програма відстежує й такі, як я їх називаю, метеопатерни: температуру повітря, опади за місяцями, державні свята. А ще те, що у святкові дні проводять менше тестів. Це теж аномалія. І модель усі ці аномалії прибирає.
Є ще поняття послаблення карантину. Наприклад, Оксфордська лабораторія відстежує у понад 50 країнах за 17 критеріями послаблення і посилення карантину. Там ідеться про школи, садочки, аеропорти, внутрішні перевезення тощо. Щодо України теж є ряди.
— Тобто йдеться про суто математичний прогноз, який ґрунтується на наявних даних?
— Так. Але тут є один важливий момент: не можна казати, що статистика — це повне сміття, а ми на її основі щось моделюємо. Насправді моя модель ґрунтується на припущенні, що ця кількість нових хворих — підсумок впливу багатьох чинників. Але головне, щоб вони однаково впливали щодня. Тобто вона не характеризує точно того, що зараз є, а прогнозує загальний агрегований показник кількості нових хворих. Наскільки це насправді аналізує зараження, сказати важче.
— Ви сказали, що зробили паузу в роботі на свята. Але ж прогнози на цей період у вас є?
— Так, по 11 січня. Бачимо, що вже кілька тижнів триває зниження кількості виявлення нових хворих на коронавірусну недугу. На цей період ми теж прогнозуємо таку тенденцію. За найоптимістичнішим сценарієм, може бути 2,5 тисячі нових хворих на добу, але в це важко повірити. Одначе спад буде.
— Але якщо ми виходимо на такі показники і крива захворюваності чітко йде донизу, навіщо нам локдаун?
— Хороше питання. Потрібен, бо у хвороби є приховані резерви. На жаль, у нас оприлюднюють багато інформації, але безсистемно. Викидають кілька чисел, і розбирайтеся в них самі. Але допитливі люди познаходили багато цікавих фактів в інтернеті. Наприклад, коли зменшується кількість ПЛР-тестів, перше, на що треба дивитися, — кількість позитивних у відсотках. Наприклад, якщо робили 50 тисяч тестів і з них було 10 тисяч позитивних, маємо 20%, а коли зроблено 20 тисяч тестів і 10 тисяч позитивних — то це ж половина!
Зрозуміло, що тестів роблять недостатньо. У Німеччині, одній з ключових країн, позитивні 5—7% ПЛР-тестів, загалом до 10%. Тобто якщо в них позитивність більша за 10%, вони істотно нарощують обсяги тестувань, щоб знову знизити показник до 10%. А в нас вимахало до 35%, і кажуть, що все гаразд. Нині цей показник упав до 28%, але це все одно втричі перевищує середній показник у Європі.
Тобто порівняно із середніми показниками в ЄС наші міряють усе-таки малувато. Тому цілком можливо, що в нас, попри оприлюднені показники, насправді з кількістю хворих усе складніше. Експерти познаходили ще два цікаві показники. Зокрема щодо летальних випадків і кількості хворих. Різні джерела називають цифри летальності від 1—2% до 8%, тобто думки і з цього приводу розходяться.
Людина, яка захворіла на COVID-19 і дуже погано почувається, в лікарню зазвичай все-таки добіжить. І якщо вона там померла, факт зафіксують. Тож показник летальності більш достовірний, ніж інфікованість. Ми ж розуміємо: якщо в сім’ї у когось підтвердили хворобу, то решта за наявності симптомів здавати тести вже не піде з огляду на всі незручності, з цим пов’язані. Сидітимуть удома і лікуватимуться так, як призначили їхньому родичеві.
І третій факт: статистика летальних випадків теж не завжди правильна. Повторюється ситуація, як із ПЛР-тестами: серед оприлюднених за вчора даних про смерті є зареєстровані місяць тому. Як таке може бути? Інформація від лікарні до оприлюднення надходить часом один-два місяці. Медики кажуть, що вони просто завалені паперовою роботою, попри те, що намагаються лікувати людей. Одні й ті самі дані вони змушені подавати в паперовому вигляді, в електронному та ще й телефоном! Якщо людина хвора на COVID-19, треба ще одну форму заповнювати.
Тому як один із чинників виявлення реальної картини захворюваності ще аналізують надлишкову смертність. У всьому світі застосовують таку технологію. Беруть статистику летальних випадків за п’ять років у країні й окремо в регіонах і порівнюють. Є і в нас у звіті такий графік. Це роблять помісячно. Єдине, що у нас офіційна статистика надходить із запізненням на два-три місяці. Один з аналітиків порахував, що в нас очікується надлишкова смертність на рівні близько 250 тисяч за рік. Це як Івано-Франківськ. Автори дослідження не стверджують, що всі ці смерті — наслідок COVID-19. Але факт є, і він наштовхує на роздуми. Достеменно підтверджено, що найбільше зростання надлишкової смертності в тих регіонах, де було найпомітніше зростання поширення коронавірусної інфекції, наприклад, у Чернівецькій, Тернопільській областях.
Є ще один момент — гугл-тренди. Навесні і влітку була така закономірність: у тих регіонах, де поширення хвороби було найбільше, люди вводили у пошуковик різними мовами «нюх», «смак», «сатурація», «пульсоксиметр» тощо, загалом до 200 типових ковідних слів. Ці пошуки чітко корелюються з кількістю хворих, до того ж із випередженням. Тепер люди уже нагуглилися, начиталися, вже все знають. Тому ця тенденція трошки розмилася, просіла.
Але треба розуміти ситуацію. Ось у нас нині 6—8 тисяч нових хворих на COVID-19 на день фіксують і кажуть: «О, це ж спад!» Хоч улітку, коли йшлося про 1000 недужих на день, була паніка. Але і 6—8 тисяч — це багато, і казати, що ми побороли хворобу, передчасно.
Антоніна МНІХ,
Укрінформ,
Вінниця