Alpha Zero schlägt Stockfish - Seite 3

Timm · #21 03.01.18, 17:03

Zitat:

Zitat von TomS

Hier eine recht gute Zusammenfassung:

https://de.chessbase.com/post/alpha-...ns-mit-aepfeln

Ja und auch durchaus kritisch, danke.

TomS · #22 04.01.18, 07:08

Man sollte das Duell evtl. mal aus der Google- statt aus der Stockfish-Perspektive analysieren: Google konnte zeigen, dass eine (ansatzweise) general-purpose KI gegen eine Nischenintelligenz gewinnen kann. Google ist investiert in die TPU, Rechenpower usw., Stockfish in spezialisierte Eröffnungsbibliotheken und Zeitmanagement.

Es werden also immer Äpfel mit Birnen (oder eher Tankstellen) verglichen, egal welche Bedingungen man schafft.

Ich halte die Geschwindigkeit des Trainings für den entscheidenden Faktor. Man könnte nun diese AlphaZero-Instanz zusätzlich in Richtung Eröffnungen trainieren. Stockfish greift dabei jedoch wiederum auf jahrzehntelang gesammeltes menschliches Wissen zurück, während AlphaZero dies selbst erlernen muss. Gleiches gilt für einige Endspielvarianten.

Wäre spannend zu wissen, ob Google überhaupt noch Interesse an diesen Gegnern hat; diese werden rar.

TomS · #23 04.01.18, 07:11

Auch interessant:

Zitat:

Comparing Monte Carlo tree search searches, AlphaZero searches just 80,000 positions per second in chess and 40,000 in shogi, compared to 70 million for Stockfish and 35 million for elmo. AlphaZero compensates for the lower number of evaluations by using its deep neural network to focus much more selectively on the most promising variation.

Zitat:

Monte-Carlo-Programme benutzen statistische Methoden, um Zugkandidaten zu finden. Der Zug wird bewertet, indem von der Spielbrettposition ausgehend mit Zufallszügen bis zum Ende gespielt wird.

Zitat:

AlphaGo verwendet zusätzlich zu Monte-Carlo-Methoden Lernmethoden für tiefe neuronale Netzwerke. Dabei werden zwei Kategorien von neuronalen Netzen und eine Baumsuche eingesetzt:

Das policy network („Regelnetzwerk“) wird zur Bestimmung von Zugkandidaten mit großen Mengen von Partien sowohl durch überwachtes Lernen (engl. supervised learning) konditioniert als auch durch bestärkendes Lernen (engl. reinforcement learning) trainiert
Das value network („Bewertungsnetzwerk“) dient der Bewertung von Positionen und wird durch bestärkendes Lernen eingestellt.
Die Monte-Carlo-Baumsuche rechnet die Varianten durch. Alle drei Komponenten werden in dieser Baumsuche kombiniert.

Zitat:

Zunächst lernt das Programm durch Analyse einer Datenbank von 30 Millionen Zügen, den Zug eines Menschen „vorherzusagen“. Das gelingt zu 56 %. Bei der Bewertung des Zuges ist es im Gegensatz zu Monte-Carlo-Programmen nicht notwendig, die Partie bis zum Ende durchzuspielen. Mit diesem Ansatz allein gelingt es AlphaGo schon, traditionelle Programme zu besiegen. In der Praxis werden allerdings für die stärkste Version von AlphaGo zusätzlich auch noch Bewertungen nach dem Monte-Carlo-Verfahren vorgenommen.

TomS · #24 04.01.18, 08:59

Außerdem ist wichtig, dass gerade die auswendig gelernten Eröffnungen ja nichts über die eigtl. „Intelligenz“ aussagen. Man könnte die Partie zweier Großmeister nicht von der Partie zweier „dressierter Affen“ unterscheiden, solange sie nicht von den Standarderöffnungen abweichen; sobald sie jedoch abweichen, wird der Unterschied nach wenigen Halbzügen sichtbar.

Hawkwind · #25 04.01.18, 16:21

Zitat:

Zitat von TomS

Stockfish greift dabei jedoch wiederum auf jahrzehntelang gesammeltes menschliches Wissen zurück, ... .

Was aber durchaus nicht ohne Risiko ist und auch von Nachteil sein kann. Die Eröffnungstheorie im Schach ist ja alles andere als sicher; jemand findet eine Neuerung in einer Variante und die Bewertung ganzer Variantenkomplexe ändert sich schlagartig.

Timm · #26 04.01.18, 18:09

Zitat:

Zitat von TomS

Außerdem ist wichtig, dass gerade die auswendig gelernten Eröffnungen ja nichts über die eigtl. „Intelligenz“ aussagen.

Vielleicht könnte man das Spiel von Stockfish ab Beendigung der Eröffnungsbibliothek als "scheinbar intelligent" bezeichnen. Aber nicht wirklich, das Programm rechnet, so komplex es auch sein mag, im Prinzip wie ein Taschenrechner. Die implementierte "Intelligenz" ist die des Programmierers, der im Prinzip nachvollziehen kann, was sein Programm macht.

Interessant ist dieser mit dem "selbst lernen" verbundene Paradigmenwechsel. Da lernt AlphaZero 4 Stunden und findet Schwachstellen bei einigen seit vielen Jahrzehnten gespielten Eröffnungen! Da würde ich schon eher von einer gewissen Intelligenz sprechen und es ist wohl kaum mehr nachvollziebar, was hier im Detail geschieht.

TomS · #27 04.01.18, 23:40

Zitat:

Zitat von Timm

.Interessant ist dieser mit dem "selbst lernen" verbundene Paradigmenwechsel. Da lernt AlphaZero 4 Stunden und findet Schwachstellen bei einigen seit vielen Jahrzehnten gespielten Eröffnungen! Da würde ich schon eher von einer gewissen Intelligenz sprechen und es ist wohl kaum mehr nachvollziebar, was hier im Detail geschieht.

Genau!

Und daher laufen viele Argumente der Kritiker ins Leere. Google hatte nicht die Absicht, ein Schachprogramm bei einem Turnier an den Start zu bringen, sondern zu zeigen, wozu selbstlernende KIs fähig sind.

Ein guter Auszubildender wird in der Prüfung ohne Zuhilfenahme von Fachbüchern eine gute Note erhalten. Im späteren Beruf wird er dann natürlich auch auf Bücher zurückgreifen. Google hat zwei Auszubildende ohne Berufspraxis verglichen ...

Den Einwand bzgl. des ungeeignet gewählten Zeitmanagementsystems halte ich für schwieriger.

Hawkwind · #28 05.01.18, 18:26

Zitat:

Zitat von TomS

Den Einwand bzgl. des ungeeignet gewählten Zeitmanagementsystems halte ich für schwieriger.

Ach ja. Wenn man interessiert ist, den genauen Spielstärkeunterschied der beiden Gegner mittels ELO-Bewertungsskala zu quantifizieren (jetzt hätte ich fast "quantisieren" geschrieben

), dann mag das ein Einwand sein.
Ein angepasstes Zeitmanagement wird die Spielstärke von Stockfish aber eher um einige wenige ELO-Punkte als um eine Größenordnung beeinflussen.

Dann müsste man aber eh eine Menge Partien mehr spielen lassen, damit die Statistik überhaupt aussagekräftig wird.

TomS · #29 05.01.18, 23:11

Zitat:

Zitat von Hawkwind

Ein angepasstes Zeitmanagement wird die Spielstärke von Stockfish aber eher um einige wenige ELO-Punkte als um eine Größenordnung beeinflussen.

Einen der o.g. Artikel habe ich da anders verstanden, dass dies nämlich einen maßgeblichen Einfluss hat.

Egal, es ging Google nie um eine exakte ELO-Bewertung oder um ein Turnier unter fairen Bedingungen (was im Computerschach sowieso nur möglich war, weil sich da eine Art Monokultur entwickelt hat). Es ging darum, dass eine ziemlich generische KI Schach "from scratch" lernen kann. Stockfisch u.a. Programme haben nie irgendetwas etwas gelernt; es gab lediglich unglaublich viele fleißige Programmierer und Datentypisten, die seit Jahrzehnten Programme optimiert und Eröffnungsdatenbanken eingetippt haben.

Jetzt an diesen Kleinigkeiten rumzumäkeln ist ungefähr so blöd wie Goethe für Rechtschreibfehler im Manuskript von Faust zu kritisieren.

Hawkwind · #30 06.01.18, 15:28

Zitat:

Zitat von TomS

Einen der o.g. Artikel habe ich da anders verstanden, dass dies nämlich einen maßgeblichen Einfluss hat.

Egal, es ging Google nie um eine exakte ELO-Bewertung oder um ein Turnier unter fairen Bedingungen (was im Computerschach sowieso nur möglich war, weil sich da eine Art Monokultur entwickelt hat). Es ging darum, dass eine ziemlich generische KI Schach "from scratch" lernen kann. Stockfisch u.a. Programme haben nie irgendetwas etwas gelernt; es gab lediglich unglaublich viele fleißige Programmierer und Datentypisten, die seit Jahrzehnten Programme optimiert und Eröffnungsdatenbanken eingetippt haben.

Jetzt an diesen Kleinigkeiten rumzumäkeln ist ungefähr so blöd wie Goethe für Rechtschreibfehler im Manuskript von Faust zu kritisieren.

100% d'accor, aber eine kleine Reandbemerkung zu

Zitat:

Zitat von TomS

Stockfisch u.a. Programme haben nie irgendetwas etwas gelernt; es gab lediglich ...

Die meisten neueren Programme - ich schätze Stockfish sicher eingeschlossen - haben ein recht simples Book-Learning implementiert: Varianten, die sich nicht bewähren, werden im Eröffnungsbuch weniger stark gewichtet bzw komplett gestrichen, und umgekehrt.
Zudem legen manche Programme die Suchergebnisse der Wurzelknoten (erreichte Suchtiefe, zugehörige Bewertung) in einer persistenten Hash-Tabelle auf der Festplatte ab (eventuell nur dann, wenn sich die Bewertung von einer Iteration zur nächsten drastisch verändert hatte (z.B. Falle festgestellt, "vergifteter Bauer" ...). Diese Ergebnisse können in nachfolgenden Spielen die Suche etwas beschleunigen, wenn denn genau diese Positionen im Suchbaum auftreten bzw es wird sogar gelernt, einmal gemachte Fehler zu vermeiden. Diese 2 Features sind nicht ganz unnütz und machen die Programme auch etwas unberechenbarer; so hat mein Programm in ein-und derselben Stellung bei derselben Suchtiefe nicht immer zwangsläufig denselben Zug gewählt.
Aber das sind sehr simple Implementation einer Lernfunktion im Vergleich zu AlphaZero.