Keine Verbindung zum Spiel – woran liegts?
Wie ein Server funktioniert haben wir euch bereits in unserem letzten Blog erklärt. Was passiert, wenn er einmal nicht funktioniert, möchten wir euch natürlich auch nicht vorenthalten. Denn solltet ihr zum Beispiel Goodgame Empire spielen, so würdet ihr es ziemlich schnell mitbekommen, falls der Server nicht verfügbar ist, da ihr euch in einem solchen Fall für einen gewissen Zeitraum nicht mehr mit dem Spiel verbinden könntet. Gameserver sind also insbesondere bei Online-MMOs wie wir sie betreiben essenziell, um den Spielspaß für die große internationale Spielerschaft zu garantieren.
Wir haben uns mit zwei Goodgame-Experten dazu ausgetauscht, wie es dazu kommen kann, dass ein Server nicht verfügbar ist, und wie wir solche Ausfälle bei uns minimieren. Robert (links) leitet unsere IT-Abteilung, die sich um die Server-Infrastruktur kümmert, und Jens (rechts) die Game-Technology-Abteilung, die neben unseren Spieleentwicklern für die Server-Software zuständig ist.
„Damit es zu so wenigen Serverausfällen wie möglich kommt, arbeiten wir mit einem Monitoring-System, das mithilfe eines Ampel-Prinzips anzeigt, wenn Probleme auftreten“, erklärt Robert. „Grün bedeutet, dass es dem Server gut geht und alles in Ordnung ist; Gelb ist eine Warnung, die auf zukünftige Probleme hinweist; und Rot ist das Signal dafür, dass ein ernstzunehmendes Problem besteht, das schnellstmöglich behoben werden muss.“
Außerdem führen die Teams im Falle eines Serverausfalls eine ausführliche Root-Cause-Analyse durch, in der sowohl ITler als auch Entwickler dem konkreten Fehler nachgehen, um herauszufinden, was der Auslöser war. Es könnte zum Beispiel vorkommen, dass ein Hardware-Teil eingebaut wurde, das zu Abstürzen führen kann. Oder dass eine Konfiguration auf dem Server eingestellt wurde, durch die er unter Last instabil wird. „Steht die Ursache fest, behebt das Team das Problem und sorgt dafür, dass ein solcher Auslöser nicht mehr entstehen kann“, so Jens.
Natürlich gibt es auch geplante Umzüge und Wartungsarbeiten, für die die Server heruntergefahren werden. Die Systeme sind dann für wenige Minuten nicht verfügbar und die Spieler bekommen einen Wartungs-Screen angezeigt. Allerdings kommt es auch vor, dass ein Server aufgrund eines Netzwerk-, Hardware- oder Software-Problems nicht erreichbar ist.
Das Netzwerk macht Probleme
Ist ein Server nicht erreichbar, so liegt das nicht unbedingt an der Hard- oder Software, denn das Problem kann seinen Ursprung ebenfalls in der Verbindung zum Server haben. Wenn zum Beispiel die Internetverbindung des Spielers fehlerhaft ist, so ist der Server für ihn nicht zu erreichen. Öffnet er in diesem Fall den Browser und das Spiel, so wird dieses nicht geladen. Unser Netzwerk-Team hilft dann bei der Behebung des Problems und nimmt Kontakt mit dem jeweiligen Anbieter wie zum Beispiel O2 oder Telekom auf, sodass diese die nötigen Informationen erhalten, um eine schnelle Lösung zu finden.
Im Netzwerk-Bereich gibt es ebenfalls das branchenweite Phänomen von externen Angriffen auf das Netzwerk, das jedoch kein großes Problem bei unseren Spielen darstellt, da wir solche Attacken sehr schnell herausfiltern und wirkungslos machen. Bei einem Netzwerk-Angriff versucht jemand, der sehr viele PCs unter seiner Kontrolle hat, eine große Anzahl an Anfragen aus verschiedenen Richtungen auf einen Server zu lenken, um sie langsam zu machen oder zum Absturz zu bringen. Unser Netzwerk-Team filtert eine solche Attacke jedoch üblicherweise innerhalb von spätestens 10–15 Minuten aus dem System heraus, sodass sie keinen Schaden anrichten kann.
Die Hardware ist kaputt
Wie bei normalen Computern kann es auch bei unseren gemieteten Servern vorkommen, dass es Hardware-Probleme gibt und deshalb ein Server ausfällt, zum Beispiel wenn ein zentrales Bauteil wie das Mainboard betroffen ist. Geht aber zum Beispiel nur eine Festplatte kaputt, so kommt es nicht zum Absturz. „Unsere Server sind so gebaut, dass wir wo immer möglich doppelt abgesichert sind“, erklärt Robert. „Das heißt, es gibt meistens von jedem Bauteil zwei Exemplare, also zwei Netzwerkverbindungen, zwei Festplatten, und so weiter. Wenn etwas ausfällt, arbeiten wir außerdem mit Technikern in den Rechenzentren zusammen, sodass wir uns schnell um den Austausch kümmern können.“
Die Software hat einen Bug
Auch ein Bug in der Software kann dazu führen, dass ein Server nicht erreichbar ist. Natürlich haben wir eine interne Qualitätssicherung, die dafür sorgt, dass dies so selten wie möglich vorkommt. Sollte ein Bug auftreten, so erhalten die Entwickler einen „Bug Report“ mit Informationen über das spezielle Problem und versuchen dann schnellstmöglich, dieses zu beheben. „Kein Computerprogramm ist fehlerfrei. Das gilt natürlich auch für unsere Spiele. Wichtig ist für uns, dass wir Probleme schnell erkennen, möglichst bevor die Spieler davon etwas mitbekommen. Die Entwickler erarbeiten dann eine Lösung. Und je nachdem, wie kritisch das Problem ist, wird entweder sofort ein Hotfix durchgeführt oder die Lösung wird Teil des nächsten geplanten Updates. Damit kein Fehler zweimal gemacht wird, tauschen sich die Entwickler regelmäßig über Probleme und Lösungen aus“, erklärt Jens.
Unsere Gameserver müssen aufgrund unserer großen Spielerschaft in allen Bereichen besonders stabil sein und werden von unseren Experten in IT und Development deshalb sehr leistungsstark aufgebaut sowie ständig optimiert. Da das Thema sehr komplex und technisch ist, haben wir in diesem Blog natürlich nur an der Oberfläche gekratzt. Wir hoffen, dass wir trotzdem etwas Licht ins Dunkel bringen konnten und es nun etwas verständlicher ist, warum Server manchmal ausfallen.