Neuronové sítě a jejich použití v hudbě

Umělé neuronové sítě se v dnešní době rozšířily téměř do každého odvětví, které pracuje s nějakým druhem dat. Jak už jsme psali v minulých článcích, ani oblast hudební vědy není v tomto případě výjimkou. Stejně jako nám umělá inteligence dokáže vygenerovat text či grafiku, může nám podle zadaných parametrů vytvořit hudební skladbu. Pojďme se tedy na umělé neurnové sítě podívat trochu víc zblízka.

27. 3. 2024 Kateřina Hendrychová

Termín "Artificial Intelligence" poprvé použil americký informatik a kognitivní vědec John McCarthy na konferenci v Dartmouthu už v roce 1956. Účastníci konference tehdy předpovídali například to, že do roku 1970 se počítač stane velmistrem v šachu (to se mu povedlo v roce 1997, kdy program Deep Blue porazil Garryho Kasparova), bude rozumět přirozenému jazyku a sloužit jako překladač, a bude schopen komponovat hudbu na úrovni klasiků. Ačkoliv byly některé tyto předpovědi příliš odvážné, podnítily další výzkum a vývoj nových technologií, včetně hlubokých neuronových sítí. V období konce 50. a 60. let vznikají různé návrhy a prototypy jazyků pro umělou inteligenci. Posun je patrný později, v 70. a 80. letech, kdy výzkum směruje k tvorbě opakovaně použitelných a samonosných (stand-alone) systémů.

Umělá inteligence jako vědní obor využívá základů z mnoha dalších oborů, především počítačové vědy, matematiky, statistiky či lingvistiky. Její hranice stále nejsou přesně definovány. Je pro ni charakteristické, že – zatím – nejde o disciplínu s pevně vymezeným předmět a jednotícím teoretickým základem. Jedná se spíše o jakýsi soubor metod, algoritmů a teoretických přístupů, které spojuje úsilí o počítačové řešení velmi složitých úloh.

Umělé neuronové sítě

Umělá neuronová síť je výpočetní systém založený na souboru propojených jednotek, které mezi sebou komunikují a zpracovávají signály. Je to navzájem bohatě propojená síť mnoha procesorů, které jsou inspirovány biologickými vlastnostmi mozku a periferního nervstva. Lidský mozek i jeho struktury a vlastnosti jsou však natolik složité, že zatím není možné je přesně popsat a napodobit. Nejjednodušší model složený z jediného neuronu se nazývá perceptron. „Výrobci“ prvního umělého neuronu byli neurofyziolog Warren McCulloch a jeho student Walter Pitts. Ti v roce 1943 vypracovali model formálního neuronu a publikovali první práce o neuronech a jejich modelech. Nejvýraznějším rysem umělých neuronových sítí (stejně jako těch přirozených) je schopnost učit se a generalizovat získané poznatky. Pro úspěšnou činnost neuronové sítě je důležitý právě způsob učení. Existuje několik typů neuronových sítí, ne všechny se však hodí pro generování hudby.

Rekurentní neuronové sítě

Jako nejvhodnější pro generování hudby se jeví tzv. rekurentní neuronové sítě (Recurrent Neural Network, RNN), protože nejvíce odpovídají kognitivním funkcím lidského mozku. Rekurentní neuronové sítě mají schopnost uchovávat informace o předchozím stavu a následně si zapamatované výstupy vybavovat, byť se jedná o velmi krátkodobou paměť. Nejefektivnějším typem rekurentní neuronové sítě je proto Long Short-Term Memory, která byla navržena s cílem učit se a uchovávat informace na delší dobu.

Pravděpodobně nikoho nepřekvapí, že automatizovaná kompozice podle předem definovaných pravidel není novinkou. Už v roce 1787 totiž Wolfgang Amadeus Mozart vytvořil skladbu Musikalisches Würfelspiel, která byla založena na posloupnosti předem připravených taktů a uspořádána do osmitaktových frází podle výsledků hodů dvěma kostkami. Nezapomeňme zmínit první autonomně vygenerovanou skladbu llliac Suite, o které jsme psali v minulém článku, nebo počin Newmana Guttmana, který ve spolupráci s Maxem Vernonem vytvořil pomocí prvního softwaru pro syntézu zvuku krátkou melodii In the Silver Scale.

Generování hudby pomocí neuronových sítích

Generování hudby pomocí neuronových sítích je poměrně složitý proces, který vyžaduje rozsáhlé znalosti v oblasti počítačové vědy, matematiky a dalších oborů. Podrobně popsat tuto obsáhlou problematiku v blogovém článku není úplné možné, podívejme se tedy spíše na základní kroky a možnosti neuronových sítí.

Proces generování hudby pomocí RNN začíná tréninkem modelu na velkém množství hudebních dat. Data se ještě před trénováním sítě musí upravit do formátu, který dokáže zpracovat (zpravidla je to formát MIDI nebo formát WAV, který reprezentuje skutečný nekomprimovaný zvuk). Tyto data mohou obsahovat melodické linky a další hudební informace. Během trénování se síť učí v datech rozpoznávat vzorce, aby následně mohla požadovaný hudební styl napodobit. Po natrénování můžeme síť použít ke generování nové skladby. Tvorba začíná počátečními tóny, které slouží jako základ nové skladby. Neuronová síť dále předpovídá, jaký další tón bude následovat, takto pokračuje, dokud není skladba dokončena.

Příkladem rekurentní neuronové sítě založené na hlubokém učení je platforma MuseNet vyvinutá společností OpenAI, o které jsme psali v minulém článku. Síť je natrénovaná na skladbách Johanna Sebastiana Bacha a dokáže tak generovat nová hudební čísla ve stylu tohoto slavného hudebního génia. To ale není všechno. Protože je platforma postavená na opravdu rozsáhlém tréninkovém datasetu obsahujícím rozmanité hudební kompozice, dokáže vygenerovat hudební sklady nejen v Bachově stylu, ale také v moderních hudebních stylech, jako je jazz nebo pop, či ve stylu známé britské kapely Beatles.

Literatura a zdroje

MAŘÍK, Vladimír, ŠTĚPÁNKOVÁ, Olga, LAŽANSKÝ, Jiří. Umělá inteligence. 1. díl. Praha: Academia, 1993
MAŘÍK, Vladimír, ŠTĚPÁNKOVÁ, Olga, LAŽANSKÝ, Jiří. Umělá inteligence. 4. díl. Praha: Academia, 2003
MAŘÍK, Vladimír, ŠTĚPÁNKOVÁ, Olga, LAŽANSKÝ, Jiří. Umělá inteligence. 6. díl. Praha: Academia, 2003
NOVÁK, Mirko. Neuronové sítě a neuropočítače. Praha: Výběr, 1992. Výběr
ŠÍMA, Jiří, NERUDA, Roman. Teoretické otázky neuronových sítí. Vyd. 1. Praha: Matfyzpress, 1996.
ANDERSON, Mark Robert. Twenty years on from Deep Blue vs Kasparov. 2017. In Theconversation.com. Dostupné z: https://theconversation.com/twenty-years-on-from-deep-blue-vs-kasparov-how-a-chessmatch-started-the-big-data-revolution-76882
GUŠTAR, Milan. Algoritmická kompozice. 2003. In Uvnitr.cz. Dostupné z: http://www.uvnitr.cz/music_theory/algokomp.html
SHARHORODSKA, Mariia. Aplikace umělých neuronových sítí v hudbě. Brno, 2020. Dostupné z: https://is.muni.cz/th/ve91x/. Bakalářská práce. Masarykova univerzita, Filozofická fakulta. Vedoucí práce Martin FLAŠAR.
KVAK, Daniel. Modelování hudební transkripce pomocí hlubokého učení: návrh, konstrukce a validace modelu na principu rekurentní neuronové sítě. Brno, 2021. Dostupné z: https://is.muni.cz/th/wll0u/. Diplomová práce. Masarykova univerzita, Filozofická fakulta. Vedoucí práce Martin FLAŠAR.
JEBAVÝ, Filip. Hudba a umělá inteligence: analytické schopnosti neuronových sítí. Brno, 2022. Dostupné z: https://is.muni.cz/th/zntgr/. Diplomová práce. Masarykova univerzita, Filozofická fakulta. Vedoucí práce Martin FLAŠAR.