Wordt een boek een best- of een worstseller? In de toekomst kan dat met big data voorspeld worden

De toekomst van 'business intelligence'

Uitgevers zoeken naar manieren om hun voordeel te doen met big data, de zee aan gegevens over ons gedrag. Kunnen ze daarmee straks bestsellers voorspellen? En kunnen algoritmen die dan helpen schrijven?

Foto thinkstock

Op pagina 76 van Maxim Februari's nieuwe roman Klont citeert de hoofdpersoon uit een essay van de Duitse filosoof Walter Benjamin uit 1930: 'Die Geburtskammer des Romans ist das Individuum in seiner Einsamkeit.' Vertrekpunt voor het schrijven van een roman is de eenling die zich niet langer exemplarisch kan uitdrukken over zijn diepste wensen: 'Een roman schrijven', zegt Benjamin, 'houdt in dat je in je schets van het menselijk bestaan het unieke op de spits drijft.'

Worstsellers voorkomen

Klont gaat onder meer over dataficering, de vertaling van de werkelijkheid in data. Over leven in een wereld die wordt bestuurd op basis van gegevens, verzameld met behulp van zoekmachines en handige appjes op de telefoon die jou - en alle bedrijven en overheden die belangstellend meekijken - vertellen hoeveel je hebt bewogen, waar je bent geweest, welke bedragen je deze week hebt overgemaakt en aan wie, wat voor medicijnen je slikt, naar welke leuke kerstcadeautjes je gisteren hebt gezocht.

En in welke boeken je geïnteresseerd bent.

Want romans mogen dan unieke en vanuit de eenzaamheid van het individu geboren vruchten zijn, ze zijn ook handel. In Nederland werden in 2016 ruim 40 miljoen boeken verkocht (fictie en non-fictie), met een opbrengst van 521 miljoen euro. Dus zijn uitgevers net zo driftig als ondernemers in andere branches op zoek naar de mogelijkheden die deze geheimzinnige data te bieden hebben.

Patrick Swart, hoogste baas van uitgeefconcern WPG, sprak afgelopen voorjaar hoopvol over het inzetten van algoritmen om worstsellers te voorkomen. Wiet de Bruijn van het andere grote Nederlandse uitgeefconcern Shared Stories Group, eigenaar van VBK, wil de data die hij verzamelt via zijn onlineboekenclub Bookchoice gebruiken om de voorkeuren van de lezer te leren kennen - en hem vervolgens meer boeken te kunnen verkopen.

Foto Hollandse Hoogte/Klaas Fopma

Winkeldochters

In de eerste week van 2018 wijdt het Werkcongres van de Vlaamse Auteursvereniging een sessie aan algoritmen en big data in de literatuur. 'Het is een onderwerp dat sterk de gemoederen beroert, maar waar erg weinig over geweten is', aldus de uitnodigingsmail die uitgever Joost Nijsen van Podium ontving. 'We vinden het een erg belangrijk gegeven, omdat het onvermijdelijk is dat deze technologie ook de literatuur binnenkomt.'

Nijsen mailde terug dat hij er niet bij zal zijn. 'Ik ben erg sceptisch over het belang van algoritmen en data voor literair ondernemerschap', zegt hij. 'Kijk naar de bestsellers van 2017, zoals Judas van Astrid Holleeder, en onderzoek wat de ingrediënten zijn; je zult meestal vaststellen dat het succes onverwacht kwam. Herhaling van die ingrediënten leidt alleen maar tot winkeldochters.'

Onvoorspelbaarheid

Uitgever Mark Pieters van Van Oorschot is evenmin geïnteresseerd in algoritmen. 'Hooguit ga ik in de toekomst stickers op onze boeken plakken met 'gegarandeerd algoritmevrij' erop. Ik denk dat de belangstelling voor nieuwe technieken vooral leeft bij uitgevers die niet uit het boekenvak komen. Die kunnen het niet uitstaan dat ze geen greep hebben op het succes van hun boeken en vluchten in formaliteiten en procedures. Maar onvoorspelbaarheid hoort bij dit vak. Een boek kan heel goed zijn en niks doen, of andersom.'

Hoe gaat het met die big data en algoritmen in de literatuur? Wat kunnen ze al, wat nog niet, op welke schaal worden ze gebruikt? En, o ja: wat ís een algoritme ook alweer?

Bij CB (voorheen Centraal Boekhuis) in Culemborg legt Susan Breeuwsma het nog een keer geduldig uit: 'Een algoritme is niet meer dan een formule, eigenlijk een reeks instructies, die naar een doel toeleiden of een probleem oplossen. Die formule kan zelflerend zijn, of deels zelflerend. Door het los te laten op zo veel mogelijk relevante data wordt de uitkomst betrouwbaarder.'

Pionier op het gebied van robotisering

Breeuwsma is manager digitale diensten en stuurt teams aan die aan 'business intelligence', 'datascience' en 'analytics' doen. Weliswaar is CB in 1871 door de boekenbranche opgericht voor de distributie van ouderwets papieren boeken - nog elke dag gaan vanuit Culemborg 130 vrachtwagens de A2 op - maar het bedrijf is ook pionier op het gebied van robotisering. Zo verloopt de verwerking van de miljoenen boeken in het enorme CB-magazijn al een paar decennia volledig geautomatiseerd.

Als scharnierpunt tussen ruim duizend uitgevers en vijftienhonderd boekverkopers beschikt CB over meer boekendata dan enige andere ondernemer in het boekenvak. Ontwikkeling van nieuwe technologieën op basis van die data is tegenwoordig een van de speerpunten van het bedrijf. Met behulp van algoritmen kan Breeuwsma voorspellen hoeveel e-books er de komende jaren gekocht gaan worden, hoeveel e-books er via bibliotheken zullen worden uitgeleend en hoeveel e-books er via abonnementsmodellen naar lezers gaan.

Anders zit het met data over lezersgedrag. Hoelang een lezer boven pagina 93 van Dan Browns Oorsprong zit te suffen omdat daar het verhaal een tikje inkakt, kan via e-readers weliswaar prima worden gemeten - waar haakt de lezer af, waar bladert hij gegrepen verder, hoelang doet hij over een boek - maar die informatie heeft CB helaas niet, zegt Breeuwsma. 'Die zit bij e-bookaanbieders als Kobo en Amazon. En die partijen houden die informatie voor zichzelf. Mijn droom is dat wij op een gegeven moment die informatie bij elkaar mogen brengen en vervolgens in verduidelijkte vorm aan uitgevers kunnen aanbieden.'

En dan is er natuurlijk het boek zelf. De kans dat op termijn met behulp van data voorspeld kan worden of een boek een best- dan wel worstseller wordt, wordt groot geacht. Maar of je data al eerder kunt inzetten, namelijk bij het schrijven, is een ander verhaal. Breeuwsma: 'Iemand als Dan Brown werkt ongetwijfeld volgens een bepaalde formule. Of hij gebruik maakt van data weet ik niet. Maar het is wel de hamvraag voor auteurs: in hoeverre zou je je schrijven willen laten beïnvloeden door data?'

Aan de vraag of je algoritmen boeken wilt laten (mee)schrijven gaat een andere vooraf, namelijk of algoritmen daar überhaupt toe in staat zijn. Afgelopen jaar produceerde schrijver Ronald Giphart samen met de 'literaire robot' Asibot een verhaal; vooralsnog bleek Giphart beter.

Trefwoordengenerator

'Een boek is een vorm van creativiteit', zegt Breeuwsma's collega Emiel van Bockel, informatiemanager bij CB en sinds twintig jaar bezig met business intelligence. 'En daar ontbreekt het de computer aan. Maar hoelang nog? Schilderijen van Rembrandt en composities van Bach worden al nagemaakt door de computer, niemand die het verschil ziet.'

Een jaar geleden zei Van Bockel tegen zijn directeur dat CB dringend 'iets' met datascience moest. Wat precies, dat wist hij niet. 'Geen bedrijf in de wereld weet dat nog, de boekenbranche is echt niet uitzonderlijk. Overal zie je dat mensen geen idee hebben wat ze met data kunnen, maar er wel bang voor zijn - bij uitgeverijen is het niet anders dan bij banken.'

CB haalde drie jonge datascientists binnen en gaf ze de volgende vragen mee: wat is datascience, wat heb je ervoor nodig, wat kun je ermee doen, wat is de waarde ervan voor CB? Uit die opdracht vloeiden zeven casussen voort. Een daarvan is een 'trefwoordengenerator', die nu bij CB wordt gebouwd.

Sentimentanalyses

Datascientist Erik de Vries tovert zomaar een bestseller uit 2013 op zijn scherm - Ventoux van Bert Wagendorp - en laat de lijst met trefwoordensuggesties zien (vriendschap, liefde, gedichten, Mont Ventoux, glazen). 'Dit zijn woorden waarop je zou kunnen zoeken om een boek te vinden, maar die je ook kunt inzetten om boeken aan elkaar te linken.'

De kunst bij het maken van zo'n algoritme zit hem in het definiëren van de juiste trefwoorden. Welke woorden komen relatief het meest voor? Wat zijn het voor woorden, in welke betekenis worden ze gebruikt?

Verder experimenteert CB met 'sentimentanalyses': hoeveel woorden in een boek hebben een emotionele lading, welke zijn positief en welke negatief, op wat voor manier hebben ze met spanning of met emoties als angst of vreugde te maken? De Vries: 'Je moet het algoritme dus ook woordcombinaties leren als 'vreselijk eng' of 'heel erg', waarbij de betekenis anders is dan die van de losse woorden.'

Concretere toepassingen

Zo kun je scores berekenen die laten zien wat voor emoties in een boek voorkomen. Met vergelijkbare woordanalyses werd dit jaar in Italië een link gelegd tussen het pseudoniem Elena Ferrante en auteur Domenico Starnone.

Vooralsnog zit het gebruik van big data en algoritmen in de boekenbranche dus nog in de fase van zoeken en experimenteren. Maar volgens Emiel van Bockel zullen de toepassingen snel concreter worden. 'Tien jaar geleden stond een computer dagen te stampen om een Wordbestand te analyseren. Nu is-ie daar zo klaar mee. De mogelijkheden van de techniek nemen exponentieel toe, alleen weten wij mensen nog niet precies wat we met al die mogelijkheden moeten doen.

'Voor het eerst in de geschiedenis zitten we op een punt dat technologie niet meer beperkend is. De denkkracht van de mens om die technologie toe te passen is de beperkende factor geworden.'

Meer over