Die Grafikkarte ist für PC-Spieler eine der wichtigsten Komponenten. Sie bestimmt, in welcher Auflösung und mit welcher Grafikqualität Spiele gespielt werden können und wie flüssig das Spielerlebnis ist. Dieser Artikel beleuchtet die Leistung neuronaler Netze in Bezug auf die GTX 970 und gibt einen umfassenden Überblick über aktuelle Entwicklungen und Trends im Bereich der Grafikkarten.
Aktuelle Grafikkarten im Überblick
Um die Kaufentscheidung zu erleichtern, werden aktuelle Grafikprozessoren von AMD und Nvidia im Test betrachtet. Dabei werden anhand von Messwerten Kaufempfehlungen von der Einsteiger-Grafikkarte bis zum High-End-Modell gegeben.
- Nvidia GeForce RTX 4090: Diese Karte lässt hinsichtlich ihrer Performance keine Wünsche offen und ist ideal für Enthusiasten, Content Creator und Gamer.
- AMD Radeon RX 6650 XT: Mit dieser Karte können die meisten aktuellen Spiele mit hohen bis ultra Grafikeinstellungen in Full-HD-Auflösung flüssig gespielt werden. Der Videospeicher kann jedoch selbst in 1080p je nach Spiel schon eng werden. Die GPU arbeitet sehr effizient, aber bei aktiviertem Raytracing müssen Abstriche in Kauf genommen werden.
- AMD Radeon RX 7800 XT: Diese Karte stellt mehr eine Evolution als eine Revolution gegenüber der RX 6800 XT dar. Die UVP ist in der Mittelklasse attraktiv. Die RDNA-3-GPU ist günstiger als die RTX 4070, bietet mehr Videospeicher und ist etwas schneller - zumindest bei der Bilddarstellung per Rasterisierung. Bei aktiviertem Raytracing hat Nvidia die Nase vorn. Die Leistung der RX 7800 XT reicht aus fürs Gaming in QHD-Auflösung mit höchsten Grafikeinstellungen.
- Nvidia GeForce RTX 4080: Diese Karte bietet genug Rechenleistung fürs Gaming in UHD-Auflösung mit höchsten Grafikeinstellungen. Erst bei aktiviertem Raytracing ist die Verwendung von DLSS notwendig. Dank der Unterstützung von DLSS 3 mit Frame Generation wird ein zusätzlicher FPS-Boost erreicht.
- Intel Arc A750: Nach anfänglichen Treiberproblemen hat Intel viele Updates nachgeliefert und die meisten Probleme beheben können. Die Arc A750 ist ähnlich schnell wie die RTX 3060 12 GB, sowohl bei der Bilddarstellung per Rasterisierung als auch bei aktiviertem Raytracing. Der Preis ist jedoch niedriger.
Entwicklungstrends bei Grafikkarten
Nach einer Winterpause haben sich Nvidia und AMD mit neuen Modellen auf Basis von Ada Lovelace und RDNA 3 zurückgemeldet. Nvidia machte den Anfang mit der RTX 4070, welche im Test technisch überzeugt, aber beim Preis deutlich über dem Vorgänger liegt. Deutlich mehr Kritik mussten sich die RTX 4060 Ti und die RX 7600 gefallen lassen. Die Nvidia Karte kann zwar mit ihrem Feature-Set und der guten Effizienz punkten, liefert jedoch nur einen geringen Performance-Zuwachs gegenüber dem Vorgänger und ist für eine Full-HD-Grafikkarte zu teuer. Der Stand der RX 7600 hat sich mit dem Release der RTX 4060 noch einmal verschlechtert, da die Nvidia GPU der AMD Grafikkarte in nahezu jeder Hinsicht überlegen ist. Ein Kritikpunkt, den sich alle drei Karten gefallen lassen müssen, ist der nur 8 GB große Videospeicher. In immer mehr modernen Spielen kann der VRAM bereits in Full-HD bei höchsten Grafikdetails limitieren.
Mit der RX 7800 XT und der RX 7700 XT hat AMD zwei neue Mittelklasse-GPUs auf den Markt gebracht, um sein RDNA-3-Portfolio abzurunden. Beide Karten liefern fürs Gaming in QHD ausreichend Leistung und sind mit 12 GB respektive 16 GB auch beim Thema Videospeicher gut aufgestellt. Zudem sind beide Modelle günstiger als ihre direkten Konkurrenten von Nvidia, beim Raytracing und der Effizienz haben die Navi-32-GPUs jedoch das Nachsehen.
Leistung pro Euro
Welche Grafikkarte bietet am meisten Leistung fürs Geld? In den folgenden Diagrammen werden die aktuellen Marktpreise mit den aus 20 Spielen ermittelten FPS-Werten verrechnet. Es wird ein Performance-Ranking aller Gaming-Grafikkarten von AMD und Nvidia anhand unserer Messwerte erstellt. Dieses soll bei der Wahl der idealen Grafikkarte für die eigenen Ansprüche helfen und dient auch der Einordnung von älteren GPUs gegenüber den aktuellen Modellen. So lässt sich zum Beispiel sagen, dass eine GTX 1080 Ti auf Basis von Pascal in QHD in etwa die gleiche Performance liefert wie eine RTX 2070 mit Turing-GPU als auch die Ampere-Grafikkarte RTX 3060. Dabei handelt es sich natürlich nur um einen groben Richtwert, da die Performance je nach Spiel abweichen kann und zusätzliche Funktionen wie Raytracing und DLSS nicht berücksichtigt werden.
Lesen Sie auch: Das Nervensystem verstehen
Anforderungen an den Videospeicher
Die Anforderungen für moderne Spiele sind im vergangenen Jahr stark angestiegen, gerade auch in Bezug auf die Größe des Videospeichers. Pauschal heruntergebrochen lässt sich sagen, dass 8 GB VRAM bei Nvidia 9 GB Videospeicher bei AMD und 10 GB bei Intel entsprechen. Hinzu kommt, dass die Aktivierung von Raytracing den benötigten Videospeicher erhöht, ebenso wie die Verwendung von DLSS 3 mit Frame Generation. Die Empfehlungen gelten für die aktuell fordernsten Spiele wie A Plague Tale Requiem, Dead Space Remake, Hogwarts Legacy, The Last Of Us oder Forspoken. Wenn Sie nicht so anspruchsvolle Titel zocken wollen oder auf einen Upscaler wie DLSS, FSR oder XeSS setzen, dann kann auch eine Grafikkarte mit weniger Videospeicher ausreichen. Das Gleiche gilt für die Grafikkartenempfehlungen für Full-HD, QHD und UHD bei den angegebenen Grafikdetails.
Testmethoden
Alle Grafikkarten werden zunächst in 13 Spielen ohne Raytracing/DLSS getestet und daraus der Mittelwert der durchschnittlichen Bilder/s, sowie des P1-Werts gebildet. In den folgenden Diagrammen werden die Spielleistungen aller Grafikkarten im Test in 1080p, 1440p und 2160p aufgelistet. In den Auflösungen Full-HD und QHD müssen sich alle GPUs beweisen. High-End-Grafikkarten werden zudem in der UHD-Auflösung getestet.
Leistung im Vergleich
Die RTX 4090 dominiert das Testfeld klar und liegt je nach Auflösung um 25 bis 67 Prozent vor der RTX 3090 Ti und bis zu 32 Prozent vor der RTX 4080. Diese großen Unterschiede je nach Auflösung sind dadurch zu begründen, dass die AD102-GPU in 1080p und 1440p zum Teil von der CPU ausgebremst wird und erst in 2160p ihr volles Potenzial entfalten kann. Die beiden AMD RX 7900 GPUs nehmen die RTX 4080 in die Zange und die RTX 4070 Ti liegt auf einem Niveau mit der RTX 3090 Ti. Die erst kürzlich veröffentliche RTX 4070 erreicht in etwa das Level einer RTX 3080 respektive RX 6800 XT, knapp davor liegt die neue RX 7800 XT. Einen recht überschaubaren Generationssprung liefert die RTX 4060 Ti und ordnet sich damit auf dem Niveau der RTX 3070 ein, der Performance-Sieg geht hier klar an die RX 7700 XT. Die RX 7600 von AMD wiederum konkurriert mit der RTX 2080 Super sowie der RX 6700 aus dem eigenen Haus.
Raytracing und DLSS
Raytracing respektive Pathtracing sind aufwendige Licht- und Schattenberechnungen, die für ein immersives Spielerlebnis sorgen sollen. Gab es zur Veröffentlichung der RTX-2000-GPUs im September 2018 nur sehr wenige Spiele mit Raytracing-Support, so sind mittlerweile etliche weitere Titel hinzugekommen, da nicht länger nur Nvidia, sondern auch AMD sowie die aktuellen Spielkonsolen PS5 und Xbox Series X Raytracing unterstützen.
Da die Berechnung von Raytracing unglaublich aufwendig ist, kommt in vielen Spielen eine Hybrid-Lösung aus Raytracing und Rasterisierung zum Einsatz. Um die Grafikkarte bei der Berechnung zu entlasten, kann auf den Nvidia RTX GPUs das Feature DLSS (Deep Learning Super Sampling) eingesetzt werden. Einfach gesagt rendert die Grafikkarte dabei das Bild in einer niedrigeren Auflösung und skaliert das Bild anschließend mittels Bewegungsvektoren und Deep Learning hoch. Tatsächlich berücksichtigt das neuronale Netzwerk dabei nicht nur den aktuellen Frame, sondern setzt die Bildinformationen aus Bewegungsvektoren zusammen. Dadurch lässt sich theoretisch eine bessere Bildqualität erreichen als bei nativer Bildauflösung, da mehr Bildinformationen zur Verfügung stehen.
Lesen Sie auch: Funktionsweise Neuronaler Netze
DLSS 3 geht noch einen Schritt weiter und analysiert das aktuelle sowie das vorangegangene Bild, um festzustellen, wie sich die Szene verändert hat. Der Optical Flow Accelerator liefert dem neuronalen Netz alle Informationen über die Änderung der Richtung und Geschwindigkeit der Pixel im Bildvergleich. Dieses neuronale Netz erzeugt dann künstliche Zwischenbilder. DLSS Frame Generation kann also völlig neue Bilder generieren, ohne die Grafikpipeline zu beanspruchen. Das bedeutet, dass sowohl GPU- als auch CPU-limitierte Spiele von DLSS 3 profitieren, jedoch auf Kosten der Systemlatenz.
FSR 2.0 vs. AMD
AMD hat mit FidelityFX Super Resolution eine ähnliche Funktion veröffentlicht. AMD setzt nicht auf eine künstliche Intelligenz und Bewegungsvektoren, sondern nur auf ein räumliches Upscaling. Bildqualitätsmäßig kommt das nicht an DLSS heran, lässt sich dafür aber auf jeder Hardware nutzen und ist für die Spielentwickler viel einfacher zu implementieren. Am 16. März 2022 gab es ein Update auf FSR in der Version 2.0, welches wie DLSS auf ein temporales Upscaling setzt, dafür jedoch keine künstliche Intelligenz benötigt und damit mit jeder Hardware kompatibel ist. Ende des Jahres soll FSR 3 mit der AMD Fluid Motion Frames-Technologie nachfolgen, um mit DLSS 3 gleichzuziehen.
Professionelle Anwendungen
Wenn mit dem PC professionell gearbeitet werden soll, ist nicht zwingend eine Nvidia Quadro oder AMD Radeon Pro Grafikkarte nötig. Auch die deutlich günstigeren GeForce und Radeon RX Ableger haben einiges auf dem Kasten. Es wird getestet, wie die Grafikkarten für die einzelnen Programmierschnittstellen wie OpenCL, Cuda und Optix bei der Bild- und Videobearbeitung sowie beim 3D-Rendering abschneiden. Auch Raytracing und künstliche Intelligenz spielt für Kreative eine immer größere Rolle und wird ebenfalls getestet.
Energieeffizienz
Wenn eine neue Generation an Grafikkarten auf den Markt kommt, stellt sich immer die Frage, ob der Leistungszuwachs auf eine neue Architektur, einen verbesserten Fertigungsprozess oder aber eine höhere Leistungsaufnahme zurückzuführen ist. Konnte AMD sowohl aus Performance-Sicht als auch bei der Energieeffizienz lange Zeit nicht wirklich mit Nvidia mithalten, hat sich das mit der Einführung der RDNA-GPUs und spätestens mit der Veröffentlichung von RX 6000 auf Basis von RDNA 2 geändert. So arbeiten die Grafikkarten von AMD in so gut wie jedem Leistungsbereich etwas effizienter als die direkte Konkurrenz von Nvidia. Niedrig fällt die Leistungsaufnahme bei den Topmodellen von AMD aber definitiv auch nicht aus, ein potentes Netzteil ist Grundvoraussetzung. Mit der Veröffentlichung von Ada Lovelace hat Nvidia einen großen Schritt vollzogen, wobei die Leistungsaufnahme nach wie vor recht hoch bleibt. AMD kann bei der Effizienz mit RDNA 3 nicht ganz mithalten, auch wenn es eine Verbesserung im Vergleich zum Vorgänger gibt.
Die GTX 970 im Kontext neuronaler Netze
Die Nvidia GeForce GTX 970 ist eine Grafikkarte, die auf der Maxwell-Architektur basiert. Sie wurde erstmals im September 2014 veröffentlicht und war zu dieser Zeit eine beliebte Wahl für Gamer und Enthusiasten. Obwohl sie nicht speziell für neuronale Netze entwickelt wurde, kann sie dennoch für bestimmte Aufgaben in diesem Bereich eingesetzt werden.
Lesen Sie auch: Alles über neuronale Geschwindigkeitstests
Leistung der GTX 970 für neuronale Netze
Die Leistung der GTX 970 für neuronale Netze hängt stark von der Art der Aufgabe und der verwendeten Software ab. Für einfache Aufgaben wie das Trainieren kleinerer neuronaler Netze oder das Ausführen von Inferenzaufgaben kann die GTX 970 ausreichend sein. Für komplexere Aufgaben wie das Trainieren großer neuronaler Netze oder das Arbeiten mit großen Datensätzen kann sie jedoch an ihre Grenzen stoßen.
Alternativen zur GTX 970 für neuronale Netze
Wenn die GTX 970 für die gewünschten Aufgaben im Bereich neuronaler Netze nicht ausreicht, gibt es eine Reihe von Alternativen. Dazu gehören:
- Neuere Grafikkarten: Neuere Grafikkarten wie die Nvidia GeForce RTX 3000er oder 4000er Serie bieten eine deutlich höhere Leistung als die GTX 970 und sind daher besser für anspruchsvolle Aufgaben im Bereich neuronaler Netze geeignet.
- Spezielle KI-Grafikkarten: Nvidia bietet spezielle KI-Grafikkarten wie die Tesla- oder A-Serie an, die für das Trainieren und Ausführen von neuronalen Netzen optimiert sind. Diese Karten sind in der Regel teurer als herkömmliche Grafikkarten, bieten aber auch eine deutlich höhere Leistung.
- Cloud-basierte Lösungen: Es gibt auch Cloud-basierte Lösungen wie Amazon Web Services (AWS), Google Cloud Platform (GCP) oder Microsoft Azure, die es ermöglichen, neuronale Netze auf leistungsstarken Servern in der Cloud zu trainieren und auszuführen.
ASICs als Alternative zu GPUs für KI
Wird über große Sprachmodelle und ihre Trainings-Cluster oder über künstliche Intelligenz im Allgemeinen gesprochen, dann wird weniger oft hinterfragt, ob GPUs die richtige Wahl für die Technik hinter der KI darstellen - oder ob ASICs sie nicht langfristig übertrumpfen. Etched will das mit einem Transformer-ASIC ändern.
Ein Transformer-ASIC ist ein spezialisierter Chip, der die Transformer-Architektur direkt in die Hardware integriert. Ein Transformer ist ein spezieller Architekturstil für neuronale Netze, der insbesondere in der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) verwendet wird. Im Vergleich zu allgemeinen Prozessoren wie GPUs ermöglicht ein Transformer-ASIC eine effizientere und schnellere Ausführung von Modellen, da er speziell für die Anforderungen und Berechnungen optimiert ist. Diese Chips können somit große Modelle mit Milliarden von Parametern effizient unterstützen.
Die Technologie von Etched integriert die Transformer-Architektur direkt in den Chip, wodurch KI-Modelle erheblich schneller und kostengünstiger als mit GPUs betrieben werden können. Da Sohu nur einen Algorithmus ausführen kann, kann der größte Teil der Kontrollflusslogik entfernt werden, sodass viel mehr Rechenblöcke zur Verfügung stehen. Infolgedessen erreicht Sohu eine FLOPS-Auslastung von über 90 % (im Vergleich zu ~30 % bei einer GPU mit TRT-LLM).
GPUs sind mit dem Gedanken an Flexibilität entworfen worden. GPUs sind programmierbar und können deswegen für eine Vielzahl von Aufgaben verwendet werden, während ASICs speziell für eine bestimmte Anwendung entwickelt sind und weniger flexibel sind - im Fall vom Sohu-ASIC also rein für Transformer-KI-Modelle.
Hardware für Deep Learning Workstations
In der Praxis ist es dennoch nützlich oder sogar unerlässlich, Hardware vor Ort zu haben. Den Vorteil der Skalierungsflexibilität der Cloud-Infrastruktur außer Acht gelassen, kann die Durchführung von ernstzunehmenden Deep-Learning-Projekten schnell in den vierstelligen Kostenbereich gehen. In der Praxis limitiert der so erzeugte Kostendruck die Kreativität, denn Experimente sind teuer. Die Verbindung mit einer Cloud-Instanz über SSH oder ein Webportal ist für den täglichen Arbeitsablauf immer noch deutlich unkomfortabler, als wenn Sie direkt mit der lokalen Workstation verbunden sind. Computing auf Cloud-Servern bedeutet automatisch, dass Ihre Daten auf den Servern des Cloud-Anbieters gespeichert werden. Je nach Sensitivität der zu analysierenden Daten ist dies möglicherweise keine wünschenswerte Situation oder sogar illegal. Die daraus resultierende Nichtverfügbarkeit von Daten wirkt sich als limitierender Faktor für Kreativität und schnelles Prototyping aus.
Hardwarekomponenten
Aus der folgenden Liste von Komponenten können Sie eine Workstation State-of-the-Art-Projekte zu einem akzeptablenen Preis zusammenstellen.
- Workstation-Gehäuse: Corsair Carbide Air 540.
- Netzteil: Super Flower Leadex 80 PLUS Platinum 1600W.
- Hauptplatine: Asus WS X299 SAGE.
- Hauptprozessor: Intel Core i9-10920X.
- Prozessorkühler: Corsair Cooling Hydro Series H100i Platinum.
- Arbeitsspeicher: 8x G.SKILL RipJaws V 16GB DDR4-3200 CL16 DIMM.
- Festplatte(n): 1x SSD 1TB Samsung M.2 PCI-E NVMe 970 EVO Plus, 2x Seagate BarraCuda SATA 6G, 7200 U/min, 2 TB.
- Grafikkarte(n): 1-4x ASUS GeForce RTX 2080 Ti Turbo 11G.