Doktorskému studiu se věnujete na dvou fakultách MU, filozofické a lékařské. Jak se vám daří propojovat hudbu a medicínu? Je průsečíkem právě umělá inteligence?
Umělá inteligence mě fascinovala už od dětství. Nejdříve to samozřejmě byly sci-fi komiksy a seriály, ale vize technologického pomocníka, který nám bude asistovat při každodenních úlohách, mě naprosto pohltila. Své studium na filozofické fakultě jsem od počátku směřoval k tomu, co mě živilo: k produkční hudbě. Teprve v období pandemie Covid-19 jsme s manželkou přemýšleli nad tím, že bychom AI využili i medicínským směrem. Je pravda, že technologicky není mezi rozeznáváním uměleckých směrů obrazů a rozpoznáváním patologií na rentgenových snímcích přílišný rozdíl. Velké rozdíly ale nejsou ani v celé doméně, například ve zodpovědnosti nebo dopadu technologie na jednotlivce i společnost. Když se podíváme na deepfake nahrávky, dopad na veřejné blaho není nijak odlišný od situace ve zdravotnictví.
Ve své magisterské práci jste se věnoval modelování hudební transkripce pomocí hlubokého učení. Co vás přivedlo k využívání umělé inteligence právě v hudbě?
Dlouhé roky svého života jsem zasvětil tvorbě podkresových skladeb pro reklamy, filmy nebo tzv. zvukové banky. Vždy jsem věděl, že to není žádné velké umění, a právě proto mě zaujala možnost využití umělé inteligence pro generování hudební kompozice. Patnáctisekundových úryvků těchto podkresových skladeb si posluchač často ani nevšimne – jejich přítomnost ale vnímá podprahově, a pokud by chyběly, poznal by to hned. Moje bakalářská práce se věnovala platformě Spotify, která již před deseti lety využívala generativní AI pro vytváření jednoduchých „výtahových“ skladeb. V oboru ale bylo jasné, že jde o naprostý začátek.
Jak jste při tvorbě autonomního generativního modelu postupoval? Na jaké výzvy jste během tvorby narazil?
Když jsem se začal v segmentu generativní AI pohybovat, nejpopulárnější aplikace sloužila ke generování shakespearovských textů pomocí rekurentních neuronových sítí (RNN). Bavíme se přitom o naprosto stejném přístupu, který nám dnes v podobě ChatGPT pomáhá každý den snad s každým myslitelným úkolem. Kdy přišla ta rychlá změna, která nám dovolila vytvořit z amatérských projektů na generování hudební kompozice nebo poezie něco, co naprosto změnilo svět? Zatímco RNN jsou tady s námi v aktuální podobě někdy od roku 2007, největší problém generativní AI byl vždy v tzv. long-term dependencies, tedy jednoduše řečeno v tom, aby neuronové sítě udržely pozornost v delších časových úsecích. S podobnými obtížemi se tehdy potýkal každý, kdo se zajímal o zpracování přirozeného jazyka nebo obecně o modelování časových řad. Výrazný posun přišel v roce 2017, kdy byl představen návrh mechanismu pozornosti (technika „attention“), který problém z velké části vyřešil.
Jaké možnosti v dnešní době nabízí hluboké neuronové sítě v oblasti hudební vědy?
MIR (music information retrieval) je široký obor zahrnující mimo jiné doporučovací systémy, které nám v případě Spotify nabízejí podobné skladby, systémy pro automatizaci kompozičního a mixovacího procesu, ale i například sledovací systémy pro distribuční společnosti nebo ochranné autorské svazy. Možnosti využití AI jsou dnes opravdu rozsáhlé. Stejně jako v případě relativně nedávného úspěchu obrazových generátorů (Dall-E, Midjourney) i v hudební kompozici se nyní objevují generátory, které na základě textového vstupu dokáží vytvářet celkem kvalitní skladby.
Jsou rekurentní neuronové sítě vhodným nástrojem pro generování hudby, nebo je v současnosti nahrazují i jiné modely – a proč?
Dnešní neuronové sítě využívající mechanismus pozornosti se ve své logice příliš neliší od původních, řekněme jednoduchých rekurentních neuronových sítí. Predikce modelů musí být primárně kontextová, a právě tomu se v posledních letech věnovalo nejvíce pozornosti. V případě hudební kompozice do toho ovšem vstupují i určitá daná pravidla: některá jsou žánrově specifická, porušením jiných vzniká kakofonie, další se naopak v rámci improvizace a kreativity aktivně porušují. Právě v hudební kompozici dle mého názoru není konsenzus v tom, jaké přístupy by se měly univerzálně používat. Z celkem nedávné historie známe příklady buněčných automatů, které generují skladby kombinováním jednoduchých vzorů do abstraktně komplexních pravděpodobností, i využití generativních adverzních sítí, které měly obrovský dopad na generování obrázků. Mnohem přínosnější otázkou je ale výzkum toho, jak bychom měli výstupy podobných modelů evaluovat. Téma automatického generování hudby (musical metacreation), které v roce 2017 definoval Philippe Pasquier a kol., je poměrně okrajové, a je převáženo pozorností, jež se dostává textovým a obrazovým generátorům.
Jakou roli hraje lidská interakce a zpětná vazba při vývoji a ladění rekurentních neuronových sítí zaměřených na tvorbu hudby?
Velkou. Většina projektů, které se v posledních letech chlubily přesvědčivou uměle generovanou hudbou, pracovala s jednoduchou symbolickou transkripcí skladeb, tj. generovaná byla opravdu jen základní „kostra“, zatímco o zbytek se již postaral zkušený tým hudebníků. Otázkou je, zdali je to špatně, nebo máme jen nevhodně nastavená očekávání. Zde nám k lepšímu pochopení pomáhá zpracování přirozeného jazyka (NLP), kde zkušenosti se strojovým překladem a nyní i generativními modely jsou mnohem širší. Když si přeložím text pomocí DeepL, jak často jej upravuji? Co když se jedná o odborný text? Pokud generuji text skrze ChatGPT, jak moc je doménově specifický? Chci jej v generované podobě beze změn vložit do diplomové práce? Pokud do textu zasahuji, znamená to, že použitý model „nefunguje“, nebo se tak děje protože je moje preference nastavena odlišně? Toto jsou otázky, které si musíme klást.
Firmu Carebot jste založil coby student filozofické fakulty se zájmem o modelování hudební transkripce pomocí hlubokého učení. Jak jste se dostal z oblasti hudby do oblasti zdravotnictví?
V průběhu pandemie Covid-19 jsme s mou manželkou Karolínou měli vizi pomoci zdravotníkům v té záplavě vyšetření, se kterými se museli potýkat. Naše původní myšlenka směřovala k hodnocení různých obrazových dat, nicméně tehdejší situace docela jasně naznačila, kde může být potenciál AI největší. Pandemie sice postupně upadla do zapomnění, ale ukázalo se, že problém, který chceme řešit, je systémové povahy. Jelikož jsem se dříve věnoval spíše zpracování hudby a textu, byl pro mě přechod k počítačovému vidění náročný. Čas ukázal, že problematika umělé inteligence v medicíně je velmi komplexní, trochu se zde nabízí rčení „děláme tyto věci ne proto, že by byly snadné, ale protože jsme si mysleli, že snadné budou.“ Po tříleté zkušenosti se nám podařilo získat schválení evropského regulátora a dnes jsme hrdí na to, že se tímto souhlasem jako jedni z mála v Evropě můžeme pochlubit.
Jak využívá umělou inteligenci aplikace Carebot?
Pracujeme primárně s rozpoznáváním vzorů v obrazových datech. Máme k dispozici tým více než 80 radiologů z celé Evropy, kteří s námi spolupracují a pomáhají nám anotovat trénovací data nebo se podílejí na validaci. Klíčová je pro nás transparentnost, která spočívá v tom, že nejde jen o to, jaké modely využíváme nebo kolik trénovacích snímků máme k dispozici, ale především o to, jak jasně a ověřitelně můžeme prokázat skutečný klinický přínos těchto modelů v nezávislých testech.
Jaké jsou vaše plány s aplikací (a firmou) do budoucna?
Nyní rozšiřujeme naše zaměření dále na mamografický screening a rentgenové snímky kostí, kde detekujeme zlomeniny a kostní léze. S naším systémem pro detekci abnormalit na rentgenových snímcích hrudníku se také vydáváme na mezinárodní trhy, a to díky schválení regulátorem. Naší vizí je především zajištění rovnoměrné kvality péče napříč regiony, ať už se jedná o velkou fakultní nemocnici nebo malou nemocnici na venkově.