Die Bewertungs-Lüge

liar

Nein nein nein, liebe Entwickler bei Splash Damage, die Games-Presse ist mit Ihren oftmals merkwürdigen Bewertungssystemen nicht Schuld daran, dass Ihr Euch zu sehr unter Druck gesetzt fühlt, mit einem Produkt einen möglichst hohen Metacritic-Wertungsschnitt zu erreichen, um nicht beim Publisher in Ungnade zu fallen. Wenn überhaupt jemand daran Schuld trägt, dann ist das der Publisher selbst, der einerseits Euch Druck macht, ein Spiel zu entwickeln, das der Presse mit mindestens einem 80er-Schnitt zu gefallen weiß, der aber andererseits genauso bei der Presse schiebt und drängelt, schmeichelt und vor allem droht, doch gefälligst hohe Wertungen für Produkt XY zu vergeben. Anderenfalls droht eben Liebes-, sprich: Werbungsentzug. Sagt Eurem Studio Director Paul Wedgwood also doch bitte mal, er solle sich gefälligst direkt beim Publisher beschweren, anstatt bei gamesindustry.biz über einen zu hohen Entwicklungsdruck zu heulen, der angeblich durch Bewertungen durch die Spielepresse entsteht. Außerdem solltet Ihr Euch bei dieser Gelegenheit ebenfalls einmal fragen, woher dieser Druck eigentlich kommen müsste. Was? Ihr habt die Frage nicht verstanden? Denkt doch mal drüber nach: Hohe Bewertungen bedeuten im Idealfall doch, dass man ein gutes Spiel abgeliefert hat. Entsprechend ist einem Publisher natürlich daran gelegen, für ein von ihm finanziertes Produkt auch eine hohe Bewertung zu kassieren. Mal davon abgesehen, dass dies einen gewissen Grad an zusätzlicher, kostenloser Werbung bedeutet, steht eine hohe Wertung am Ende des Tages doch ebenso für ein gutes Spiel. Und an dieser Stelle müsst Ihr bei Splash Damage Euch nun eben leider die Frage gefallen lassen, ob Ihr gar nicht an der Herstellung guter Spieler interessiert seid, sondern nur am Kohlescheffeln?

Denn Aussagen wie folgende stimmen schon ein wenig nachdenklich: “I think it’s a really good idea for a developer to go to a publisher and demand that they get an additional bonus for achieving a certain review score, but it shouldn’t affect their royalties or anything else. If you have a high-selling game, you have a high-selling game“. Klar, leuchtet ein: wenn sich ein Spiel gut verkauft, dann kann man auch getrost auf die Qualität scheißen. In einigen Fällen stimmt das sogar, wie etwa Joowood mit Gothic 3 samt Addon wirklich beeindruckend bewiesen hat. Aber das darf doch bitteschön nicht das Maß aller Dinge sein! Von einem Entwickler, der guten Gewissens hinter seinen Produkten stehen können will und sich das Recht herausnimmt, solch eine Diskussion anzustoßen, erwarte ich, dass er innerhalb dieser gesamten Herstellung-Vermarktungs-Bewertungs-Maschinerie derjenige ist, der sich selbst durch seine Qualitätsansprüche den höchsten Druck auferlegt. Dann stimmt am Ende auch die Bewertung.

Trotzdem halte ich die angestoßene Diskussion für äußerst wichtig und würde mir wünschen, dass endlich einmal mehr namhafte Entwicklerstudios den Mund aufmachen und sich geschlossen gegen diesen Bewertungs-Wahnsinn stellen. Denn trotz allem hat auch Wedgwood Recht, wenn er sagt, dass die übliche Bewertung in Form von Prozentpunkten ein völlig an den Haaren herbeigezogenener Blödsinn ist:

“We know that some websites score quite high and some quite low, but in general, all websites tend to score between 60 and 100. There’s never a 37. It’s as if that whole section doesn’t exist, so zero starts at 60, so three stars, and goes up to five. It’s just not really an accurate enough measure. I think that if anything, the games press should take the pressure off themselves, and just go across to star ratings, which for films is nothing more than a recommendation that you buy it, watch it when you get the chance, or rush out and see it straight away, and it’s your personal recommendation. It’s not a ‘score’. If that was all you did, nobody would hate you guys for it. Out of ten is a good start. Percentiles put too much pressure on a journalist to justify an exact score. It puts too much pressure on the developer to try and identify these criteria that lead to very specific point increases or decreases, which is not at all what the developer should be focusing on.”

Ja, Prozentratings sind totaler Mumpitz, den keine Sau braucht und der oftmals maßlos an den Haaren herbeikonstruiert wird. Nehmen wir mal als Beispiel die GameStar (oder jedes xbeliebige Heft bzw. Magazin mit Prozentskala): Hier soll die abschließende Prozentwertung für den Spielspaß stehen, den man durch einen Titel erfährt. Dieser wird jedoch abgeleitet aus 10 gleichberechtigten Kategorien, die dann auch solchen Irrsinn wie die Größe des Waffenarsenals, die Texturenschärfe oder den Bombast, mit dem Sound möglichst aus 7.1-Systemen zu tropfen hat. Schön und gut. Aber Spielspaß misst man damit leider nicht. Natürlich tragen ein bombastischer Sound und High-End-Grafik zu einem runden Spiel bei, aber entscheidend sind sie nicht. Entscheidend ist, was unter der Haube steckt. Psychonauts (ja ich weiß, dass es als Beispiel mittlerweile überstrapaziert wurde) etwa ist ein Meisterwerk, obwohl es im Grunde genommen technisch vieles falsch macht.

World of Goo entwickelte sich unter den GameStar-Redakteuren zum Spiel des Jahres, schaut man sich mal die persönlichen Redakteurs-Lieblinge des letzten Jahres an, würde aber niemals offiziell den Titel einheimsen können – allein schon, weil die Wertung von “nur” 84% dafür zu niedrig liegt.

Wenn anhand der obskuren Wertungssysteme aber generell sowieso ein Titel erst gut ist, wenn er die 80er-Wertungsmarke überspringt, ein guter, im Mittelfeld liegender Wert aber eigentlich irgendwas um die 50% bedeuten müsste, zeigt doch auf Anhieb, wie verzerrt Wertungsspiegel heutzutage doch eigentlich sind. Insofern sind die von Paul Wedgwood herbeigesehnten Änderungen in der Wertungsskala ohne weiteres nachzuvollziehen.

Bloß :wohin soll es gehen? Zum von ihm angesprochenen 10er-System? Macht das Sinn? Könnte es, wenn auch diese Skala nicht schon längst von Redaktionen auf der ganzen Welt insofern ad absurdum geführt worden wäre, als dass man auch hier längst Nachkommastellen eingefügt hat. Was dem einen seine 86%-Wertung ist dem anderen nun eben seine 8,6. Bis auf das verrutschte Komma tut sich hier also nicht viel. Entsprechend müssten völlig neue Bewertungssysteme her. Oder man orientiert sich eben künftig an der Musik- und Filmindustrie, wie es Wedgwood am Liebsten wäre.

Fünf Sterne als Maximum, Wertungen werden maximal noch durch Halbschritte abgestuft und gut ist. Denn das fällt doch ebenfalls sehr stark auf: die Diskussion um Wertungsskalen, die seit Jahren immer und immer wieder im Spielesegment durchgekaut wird, führt beispielsweise in der Musikindustrie niemand (mehr). Wenn das Rolling Stone Magazine, bekannt für seinen knallharten Wertungsstil, 2,5 von 5 möglichen Sternen vergibt, weiß jeder Leser: aha, das ist kein wirklich schlechtes Album, da lohnt es sich durchaus mal hereinzuhören. Drei Sterne im Stone sind schon ziemlich gut und wer mehr will, muss schon einiges auf dem Kasten haben, um sich in die vorderen Postitionen vorzuarbeiten…. oder Bob Dylan heißen. Aber das steht auf einem anderen Blatt.

Beim Stone ist allerdings oftmals eh nicht entscheidend, wie viele Sterne funkeln, sondern was in der Rezension zu lesen steht. Dafür gibt es Magazine ja schließlich: dass man sie liest. Die GameStar könnte soviel Geld einsparen, wenn sie nur noch ein dünnes Faltblatt mit Wertungskästen herausbrächte. Das will natürlich der Leser nicht. Er will sich aber auch nicht die Mühe machen, ein Artikel erst lesen zu müssen, um zu wissen, ob ein Spiel etwas taugt oder nicht. Klar, warum auch mit Lesen die Zeit verplempern, muss man ja in der Schule schon genug. Ein Glück, dass die Bildzeitung so viele Bilder hat, hmm?

Fest steht, dass ein Wertungskasten niemals die Meinung eines Redakteurs so wiedergeben kann, wie der Text, den er dazu verfasst. Nackte Zahlen sind eine schöne Sache. Wenn sie allerdings nicht in der Lage sind, die Emotionen, den Spielspaß, den abstrusen Humor etwa eines Psychonauts wiederzugeben, dann taugen sie zu nichts. Dann ist ein guter Redakteur gefragt, einen guten Artikel zu verfassen. Aber vermutlich ist das der Hauptgrund, weshalb die meisten Magazine nach wie vor an ihrem Wertungskasten festhalten: gute Redakteure sind einfach viel zu schwer zu finden.

Picture: “Liar Liar” by Fire Monkey Fish, published under Creative Commons License (by-nc-sa)

14 Comment

  1. Gibt es überhaupt noch Spiele unter 80%? Als wir noch Spielezeitschriften gelesen haben betraf das eigentlich nur solche Spiele wie Biene Maja und Barbie… Was aber auch ein anderes Problem zeigt: Diese Bewertungsdinger sind alle darauf angelegt alles mit allem zu vergleichen, was meiner Meinung nach einfach nicht funktioniert. Spiele sind zu vielfältig – das wäre ungefähr so als wenn ich sämtliche Obstsorten mit Noten bewerten wollte, es kommt eben auf Vorlieben und individuellen Geschmack an. View all comments by Liliana

  2. Hatte ja mal hier ausführlich beschrieben, wieso 10er-Skalen, und zwar ganz egal ob 1 bis 10 oder 1 bis 100, keinen Sinn machen. 🙂

    Bin für Schulnoten, weil es das einzige System ist, das eine sinnlose Vergleichbarkeit ausschließen kann. Also die Frage, ob Street Fighter IV besser oder schlechter ist als Fallout 3 — bei 10er-Skalen guckt man auf den Wert und vergleicht. Bei Schulnoten guckt man auf die Bewertung und vergleicht maximal Vertreter eines Genres.

    Es würde z.B. niemand “die 10 besten Games auf Konsole X” auf Basis der Schulnote ordnen; ein Riesenproblem bei 10er-Skalen. Es würde auch niemand auf die Idee kommen, einen Top-Prügler geringer zu benoten als einen zweitklassigen Shooter, nur weil letzterer angeblich die aktuelle “Grafik-Referenz” darstellt. View all comments by m.fehn

  3. “Fest steht, dass ein Wertungskasten niemals die Meinung eines Redakteurs so wiedergeben kann, wie der Text, den er dazu verfasst.”

    – genau dieser Meinung sind allerdings auch die GameStar-Redakteure. Jedesmal, wenn die Diskussion entflammt.

    Sicher, ich stimme zu, je feiner die Wertung granuliert ist, desto mehr muss sich der Redakteur rechtfertigen. Die These, dass eine 5- oder 10-Sterne-Wertung hier Besserung verspricht – da bin ich mir unsicher. Es wird eventuell weniger um Rechtfertigung geschrien, aber hilft es denn als Orientierung mehr? Wenn Sterne bedeuten, dass man eher den Artikel lesen muss, um einen guten Eindruck zu kriegen – wo ist dann der Unterschied zur GameStar-Herangehensweise, wenn sie selbst genau das bestätigen: Der Artikel gehört dazu.

    M.E. würde man sich dann eben nicht um 13% sondern um nen halben Stern streiten.

    btw: GameStar vergibt die 37%-Wertungen wenn es sein muss. hab da von 6% – 93% schon alles gesehen. View all comments by laZee

  4. Ein großer Teil der Menschheit will diese Zahlen. Und nicht nur bei Spielen.
    Es ist genau wie bei Schulnoten: Konstruktivistisch albern, nachgewiesen schädlich… dennoch scheint es ein starkes Bedürfnis zu geben komplexe Sachverhalte auf das vermeintlich objektive Gebiet der Mathematik und Statistik herunterzubiegen. In unserer ausdifferenzierten Gesellschaft ergibt das sogar einen Sinn, ich kann mich nicht mit jedem Themengebiet gleich gut vertraut machen und so auf den ersten Blick einen Eindruck gewinnen. 5-Sterne = Toll, 95% = Toll, A = Toll… wenn ich einen Kühlschrank kaufen will finde ich das extrem hilfreich, habe ich doch keinerlei Ahnung von Energieeffizienz ähnlichem Gedöns.
    Und ganz ehrlich, ob ich die Skala in 100er, 20er, 20er oder 5er Schritte einteile macht letzten Endes keinen Unterschied und ich finde diesen Teil der Diskussion immer ein wenig überflüssig. Sternchen statt Prozent entmystifizieren das pseudowissenschaftliche Gehabe etwas besser, mehr aber auch nicht – es bleibt dabei dass eine natürliche Zahl einen komplexen Gegenstand abbilden soll, was zwangsweise schief geht.

    Anstatt die Zahlen zu verdammen könnte man auch mal versuchen zwei Ebenen tiefer anzusetzen und zu vermitteln wie solche Zahlen und Statistiken funktionieren, was sie abbilden können/was nicht und in wiefern es sinnvoll ist sie als Entscheidungsgrundlage zu verwenden. Am besten in der Grundschule. View all comments by Ben

  5. Schließe mich meinem Vorredner an. Ob 100%, 10 Punkte oder 5 Sterne, wo ist der Unterschied? Letztendlich gibt doch auch der komplette Artikel nur die Meinung einer einzelnen Person wieder.
    Ich reite jetzt mal auf dem Gaul Psychonauts weiter. Ich habe schon Leute getroffen, die das Spiel einfach nur schlecht fanden. Was sagt mir das? Jeder erlebt ein Spiel anders. Ob man das am Ende des Tages in Punkten oder in worten ausdrückt, macht da keinen Unterschied.

    Fazit: Weg mit den Spieletests, her mit Spielerlebnisberichten. View all comments by Kazoom

  6. Ach, das Thema mal wieder. 1000-fach diskutiert. Ich bräuchte die Wertungen auch nicht, aber viele wollen sie haben. Was solls…

    Ach ja, ich würde mich freuen, wenn ich nicht ständig in irgendwelchen Blogs Sachen wie “Ein Glück, dass die Bildzeitung so viele Bilder hat, hmm?” lesen müsste. Das ist soooo billig… View all comments by Ranor

  7. “Wenn ich einen Kühlschrank kaufen will finde ich das extrem hilfreich, habe ich doch keinerlei Ahnung von Energieeffizienz ähnlichem Gedöns.”

    Ein Kuehlschrank ist auch technisches Geraet, auf das gewisse Anforderungen zutreffen [Haltbarkeit, Stromverbrauch etc.] – also Dinge, die man mehr oder weniger objektiv ueberpruefen kann. Die haben aber nichts mit Spass, also etwas subjektivem, zu tun. Daher kann man hier imho nicht vergleichen. View all comments by Yuri

  8. Ivor Bigbotty says:

    Irgendwie hab ich das Gefühl das Thema ist doch in seiner Grundproblematik schon gefühlte 13,7 Milliarden Jahre alt. Persönlicher Geschmack kann man eben nicht von anderen erfolgreich bewerten lassen. Ich käme eigentlich auch nie auf die Idee mir Musik aufgrund eines textuellen Reviews zu kaufen; da kann ich auch meine Küche mit ner Farbe streichen die laut Restaurantführer vorzüglich schmeckt.
    Filme und Musik kaufe ich mir inziwschen oft blind nach Bauchgefühl, wenn’s Mist ist, habe ich Pech gehabt, aber das kann ich in der Preisklasse oftmals verschmerzen.
    Bei Spielen muss ich auch gestehen, dass ich zuerstmal quer durchs Netz die Prozentzahlen suche; nicht nur von “Profi”-Redakteuren, sondern auch von User-Reviews. Dann noch mehrere Reviews lesen und vielleicht ne Demo spielen und meine Entscheidung ist gefallen.
    Sind Spiele aber erstmal im 10€-Budget Bereich, dann fange ich auch da an wieder blind zu kaufen, wenn ich Lust verspüre, denn manchmal findet man den Spaß “against all odds” (egal was andere sagen). View all comments by Ivor Bigbotty

  9. Das Thema an sich IST gefühlte 13,7 Mio. Mal durchgekaut worden und für mich persönlich mittlerweile auch insofern uninteressant bzw. gegessen, als dass ich der Meinung bin, dass keine Wertung immer noch die beste Wertung ist.

    Ich finde nur sehr interessant, dass jetzt endlich mal ein Entwickler den Mund aufmacht und sich dagegen stellt und Alternativen in den Raum wirft. In diesem Zusammenhang ist es dann schon legitim, die möglichen Alternativen einfach nochmal aufzulisten und gegeneinander abzuwägen.

    Der eigentliche Punkt ist aber doch, dass der Entwickler den Magazinen die Schuld für einen viel zu hohen Druck während der Entwicklungsphase gibt. Dass dieser Druck in gewissem Maße hausgemacht ist bzw. eigentlich von Publisher-Seite verschuldet wird, wird dabei völlig unter den Teppich gekehrt.
    DAS wäre doch eigentlich mal der interessante Ansatzpunkt für eine Diskussion.
    Deswegen verstehe ich grad auch nicht, warum wieder alle Welt auf den Diskussionszug über den generellen Sinn und Unsinn von Wertungen aufspringt. Dass das Thema lange gegessen ist, darüber sind wir uns vermutlich alle einig. Als Meinung interessant wären mal Möglichkeiten, wie Entwickler damit umgehen könnten, wo die Schuldfrage des hohen Drucks wirklich zu suchen ist und ob es Entwickler nicht zu einfach machen, die Schuld einfach abzuwälzen.
    Zu meckern, dass Außenstehende (die Presse und damit irgendwann auch der Konsument) hohe Qualitäts-Erwartungen an ein Spiel stellen, lässt doch sehr tief blicken. Das zeugt von einer “Scheißegal, solange der Rubel rollt können wir doch einfach irgendeinen Scheiß programmieren”-Mentalität, die man vielleicht von einem Publisher erwarten würde.
    Wenn allerdings ein Entwicklungsstudio mit so einer Haltung um die Ecke kommt, dann will ich von diesem Studio nichts mehr spielen. Weil ich von vornherein weiß, dass hier nicht aus Liebe zum Spiel, sondern ausschließlich des Geldes wegen programmiert wurde. Nein danke. View all comments by Christian

  10. In Wirklichkeit sind ja alle Notensysteme im Spielebereich sinnlos, halt eben weil sie, wie du sagtest, ad absurdum geführt wurden. Es hat sich eben so ergeben und wird sich wohl auch nicht mehr ändern, dass, gerade bei 10er Systemen eigentlich nur (maximal) die obere Hälfte der Skala ausgenutzt wird.
    Auch ein 5er-System macht nur halbwegs Sinn.

    Am besten wäre es denke ich, für die Leser, die wirklich zu faul sind um ein Review zu lesen, das eben mehr sagt als Buchstaben, Sterne oder Zahlen, Empfehlungen zu verwenden.
    In ein paar simplen Kategorien könnte das Spiel somit zB. mit “Must Have” “Empfehlung” und “Empfehlung Für Genre/Franchise-Fans” oder Ähnlichem beurteilt werden. Daneben gäb’s halt Spiele die gar keine Bewertung bekommen, also etwa Spiele, die eigentlich nicht so schlecht sind, aber die andererseits auch niemand braucht (Spore z.B. ^^) und dann noch z.B. “Gurke/Total-Versager/…” .
    Aber schauts, jetzt sind wir ja eigentlich schon wieder bei einer 5er-Wertung 😉 – es ist ein Teufelskreis. View all comments by fossey

  11. “Der eigentliche Punkt ist aber doch, dass der Entwickler den Magazinen die Schuld für einen viel zu hohen Druck während der Entwicklungsphase gibt. Dass dieser Druck in gewissem Maße hausgemacht ist bzw. eigentlich von Publisher-Seite verschuldet wird, wird dabei völlig unter den Teppich gekehrt.”

    Naja, das Magazin vergibt ja die Wertung. Und da die Verkaeufe oft anhand der Wertung gehen [so glauben zumindest die Publisher] – nun ja… woher weisst du eigentlich, dass die Publisher so einen Druck machen wegen der Ergebnisse?

    Kann zwar sein und will ich nicht ausschliessen, aber wenn auf mich X Druck macht wegen Y, dann wuerde ich die Schuld letztendlich vielleicht [unter anderem] auch bei Y suchen. Insbesondere, wenn X meine Broetchen bezahlt *g*

    Wobei es meines Erachtens selbstverstaendlich das Ziel sein sollte, ein gutes Spiel abzuliefern. Allein, gute Wertung != gutes Spiel. Zumindest nicht zwangslaeufig. View all comments by Yuri

  12. Jup, sehe es genauso, egal ob GTA4 93% erreicht oder nicht, das Spiel mag ich immernoch nicht, selbst wenn es 100% hätte und ziehe immernoch dem ganzen Psychonauts vor.
    Aber soweit unrecht hat Paul Wedgwood garnicht das der Druck von den Magazinen her kommt. Er selber führt ja an das selbst größter Schrott sich immernoch blendend verkauft (Filmlizensierungen), Publisher aber ständig die Bewertungssysteme der Zeitschriften übernehmen. Das da zuersteinmal die Publisher Druck ausüben stimmt, allerdings sind es die Magazine in seinen Augen die diese Bewertungsschablone erschaffen haben. Eidos war beispielsweise ziemlich unzufrieden mit Tomb Raider Underworld weil es “nur” 1,5 Millionen Exemplare verkauft hat. Wenn man sich soetwas vor Augen führt, wie teuer ein Spiel mittlerweile in der Herstellung ist, das 1.5 Millionen Exemplare als Flop dargestellt werden, kann man doch sehen welchem Druck ein Entwicklungsteam heute ausgesetzt ist. Da verwundert es nicht das der PC aus falschen Gründen links liegen gelassen wird, Thema Raubkopie (Neuste Zahlen sprechen übrigends von 54% Raubkopieanteil letztes Jahr war auf den Konsolen, dagegen “nur” 46% auf dem PC)
    Dann sind die Studios natürlich auch nicht bereit geringere Budgetspiele zu generieren. Sieht man an der eklatanten Unterversorgung der Wii mit großen Spielen und statt ein Wii-Spiel zu entwickeln für 2 Millionen entwicklelt man lieber ein Xbox360 Spiel für 20 Millionen. Dann muss man aber auch statt 150.000 Spiele eben 1,5 Millionen Spiele verkaufen und dann verweist man doch zu gern das auf der Wii die Verkaufszahlen niedriger ausfallen für Hardcorespiele wie Resident Evil 4 und dass das sowieso nur funktioniert hat weil die Marke schon etabliert war. View all comments by Haimon

  13. […] Die Bewertungs-Lüge games von Superbot in Super.licio.us « King’s Quest 1 […] View all comments by Super.licio.us | Superlevel

  14. Mmmh, ich brauch ein Fazit und ein +/- Kasten, um zu entscheiden ob ich mir die Zeit nehme den Artikel zu lesen. Im +/- Kasten muss aufgezählt werden was besonders im positiven wie auch negativen heraus sticht. Das Fazit sollte die Emotion des spielenden Redakteur wiederspiegeln. Prozent, Punkte whatever sind mir insofern egal, wenn mich ein Genre interessiert. Bis auf Far Cry 2, das war von vorn bis hinten langweilig und ich ärgere mich immernoch.

    Mir ist durchaus bewusst, dass ich nichts neues in diese Diskussion einbringe. Mir war nur gerade furchtbar langweilig. 😉 View all comments by Patrick

Comments are closed.