AI, kinesisk folkmusik och mänskliga optima

I den här vetenskapliga artikeln lägger författarna fram en modell för hur de kan generera kinesisk folkmusik med hjälp av “deep learning”. Det är värt att citera deras sammanfattning:

Regional style in Chinese folk songs is a rich treasure that can be used for ethnic music creation and folk culture research. In this paper, we propose MG-VAE, a music generative model based on VAE (Variational Auto-Encoder) that is capable of capturing specific music style and generating novel tunes for Chinese folk songs (Min Ge) in a manipulatable way. Specifically, we disentangle the latent space of VAE into four parts in an adversarial training way to control the information of pitch and rhythm sequence, as well as of music style and content. In detail, two classifiers are used to separate style and content latent space, and temporal supervision is utilized to disentangle the pitch and rhythm sequence. The experimental results show that the disentanglement is successful and our model is able to create novel folk songs with controllable regional styles. To our best knowledge, this is the first study on applying deep generative model and adversarial training for Chinese music generation.

Att använda maskiner för att skapa musik är inte ett nytt fenomen. Den kände kompositören / datavetaren David Cope använde – i och för sig helt annorlunda – teknik för att göra just detta för flera decennier sedan. Han är bland annat berömd för det underbara och halvknasiga faktum att man på hans webb kan ladda ned 5000 olika Bachkoraler skapade av algoritmer. Jag har själv ofta i föreläsningar använt några av hans automatiskt genererade stycken för att visa att även kreativitet – som ofta framhälls som en unikt mänsklig förmåga – utan bara kan, utan nödvändigtvis måste kunna algoritmiseras i den grova meningen att den kan beskrivas som steg i en process som sedan kan utföras av en maskin. (Fotnot: Copes sajt håller på att vittra bort och det påminner mig om något som Vint Cerf ofta inskärper i oss: vi har ingen bra plan för hur vi skall minnas digitalt).

Den mest triviala modellen av kreativitet är ju enkel: generera massor av möjliga musikstycken och välj sedan ut de som verkar mest intressanta. Det är också möjligt att tänka sig detta som en process: välj ut möjliga “nästa steg” i ett musikstycke eller en dikt och välj, igen, de mest intressanta. Häri skiljer sig uppgiften väsentligt från att lära en dator att spela, säg, go eller schack. Där handlar det om att välja den optimala vägen framåt givet ett strikt, konkret kriterium: att vinna spelet. I kreativiteten finns det inte samma tydliga optimeringsvillkor. Vad optimerar vi för när vi skapar musik eller litteratur?

Att svara “inget alls” vore inte bara fel, utan djupt oärligt. Kreativitet optimerar för mindre välartikulerade kriterier, och komplexiteten i denna uppsättning kriterier är enormt fascinerande. Det vi upplever som god konst gör det väl, det som vi upplever som spekulativt är egentligen ett misslyckande att optimera rätt. Här finns en paradox: att vi inte klart kan uttrycka vad det är vi optimerar för betyder inte att vi inte optimerar. Inte heller handlar det om individuella kriterier. Jag har alltmer kommit att tro att det inte finns någon privat konstsyn, lika litet som det finns privata språk. Jag har också börjat tro att det finns rent biologiska lokala optima som vi orienterar oss mot i konsten — tydligt modererade av kulturella särdrag som över tiden kommit att utvecklas till helt egna selektionstryck.

Det är värt att dröja vid. I spel har vi märkt att de lokala optima som vi upptäckt i spel som schack och go inte är globala optima alls. När en dator kan genomsöka spelrummet mer effektivt hittar den andra lokala – eller globala – optima som slår oss. Den känsla som inträder då inträder är känslan av att vi spelar mot något främmande, nästan utomjordiskt. Mjukvaran sätter drottningen i ena hörnet av schackbrädet, datorn spelar ett drag som drag 37 i Sedolmatchen, och plötsligt spelar vi inte i en mänsklig del av spelrummet längre – och datorn vinner. Men för konst är det annorlunda.

För konst handlar det om att kunna utforska det lokala optima som vi redan börjat kartlägga, eller hitta ett nytt sådant mänskligt optima och skapa inom detta. Konst vinner inte om den blir främmande, omänsklig, utomjordisk — utan blir istället helt ointressant. Det i sin tur innebär att konsten utgör en helt annan sorts praktik än spelet, ur ett rent strukturellt perspektiv. När datorn övergav de mänskliga spelen som använts som träningsdata blev den genast bättre – eftersom det lossade förtöjningarna från den mänskliga optima som vi ankrat upp vid. Men ett neuralt nätverk som skapar konst helt utan mänskliga indata blir förmodligen bara irrelevant.

Om detta stämmer innebär det att vi har en intressant fråga att ställa oss om värdet av mänskliga optima i olika sorters problemdomäner. Värdet av mänskliga frön i djuplärandets processer. Hur är det med etik, med konst, med musik, med litteratur, med filosofi? Vilka andra områden finns där vår mänskliga position i lösningsrymden har ett värde i kraft endast av att det är vi som har konstruerat den?

Det är intressant att fundera kring en närmast nihilistisk position här. Antag att någon hävdade att mänskliga optima aldrig har något egenvärde alls – vad skulle det betyda? Jo, det borde kunna betyda – givet att möjlighetsrymderna för konst, etik och musik är flera storleksordningar större än spelrummet för exempelvis go – att en dator skulle kunna upptäcka en bättre musik, en bättre etik och vackrare konst än något som vi tidigare sett, och att vi, när vi såg eller hörde denna konst, omedelbart skulle se att detta var bättre – på samma sätt som gospelaren ser att ett drag faktiskt är bättre än det drag som den mänskliga erfarenhetens ortodoxi skulle föredra.

Här finns ett sorts möjligt demarkationskriterium för olika typer av mänskliga kunskapsdomäner: en där vi kan upptäcka en överlägsen praktik och en där den mänskliga praktiken har ett egenvärde. Det betyder inte att det finns saker som datorer inte kan göra – vilket alltför länge varit en sorts besatthet i diskussionen om AI – utan att det finns saker som utvärderas enligt kriterier som gör det omöjligt för en dator att tävla med en människa på egen hand. 

Till sist, då, just detta: vad säger vi om möjligheten att vi skulle kunna använda AI för att utforska “the human adjacent possible” i konst, musik eller litteratur? Skulle inte en AI kunna hjälpa oss att utforska det mänskliga optima som vi rör oss i när det gäller dessa domäner? Jo, det tror jag – och det är delvis svindlande.

Låt oss bli medvetet spekulativa för att försöka förstå vad detta betyder, och fråga en till synes enkel, men ändå provokativ fråga:

(i) Skrev Bach sin allra vackraste, mest fulländade musik?

Tänk dig nu hela Bachs kompositionsrymd som ett landskap som vi kan utforska med hjälp av olika sorters AI, och där vi kan hitta tomrum eller utelämnade verk, och kanske hitta en fuga i a-moll som inte skrevs, men som med alla tillgängliga kriterier borde vara den absolut vackraste, mest tekniskt fulländade fuga som Bach hade kunnat skriva. Vi skulle kanske kunna hitta ett requiem av Bach, eller ett koralstycke som han kunde ha fulländat.

Och låt oss bli ännu mer spekulativa: tänk dig att hela den mänskliga samlade konstnärliga produktionen kunde analyseras på samma sätt, och att vi kunde ställa frågor till den för att rekonstruera verk som aldrig skapades, men som i sig hade, om de skapats, varit överlägsna allt annat som skapats. Inte bara blir det då möjligt att fundera kring om det vore möjligt att rent logiskt rekonstruera en version av Aristoteles dialoger – för alltid förlorade för eftervärlden – utan det blir också möjligt att ställa frågor som vilket det vackraste musikstycke Friedrich Nietzsche hade kunnat skriva var. Vi har musik från Nietzsche, vi har teckningar, vi har texter – vore det inte möjligt att med dessa och övriga lokala optima från den mänskliga kulturen leta i rymden av möjliga verk och se vad vi kan hitta?

Vad dessa tankeexperiment fordrar, är att vi funderar kring hur vi tänker kring konst och dess värde. Kontext, receptionshistoria, återkommande användning av konst och musik — alla spelar roll och omöjliggör kanske dessa experiment. Men om de inte gör det skulle vi kunna tänka oss en framtid i vilken vi engagerar oss i en sorts det möjligas kreativa arkeologi och skapar verk som flödar ur en djupare och mer fullständig förståelse av det samlade kulturella arvet.

Det, förstås, är vad många konstnärer redan skulle hävda att de gör – utan ny teknik.

 

Leave a Reply