Quanten.de Diskussionsforum

Quanten.de Diskussionsforum (http://www.quanten.de/forum/index.php5)
-   Plauderecke (http://www.quanten.de/forum/forumdisplay.php5?f=5)
-   -   Alpha Zero schlägt Stockfish (http://www.quanten.de/forum/showthread.php5?t=3281)

Timm 03.01.18 18:03

AW: Alpha Zero schlägt Stockfish
 
Zitat:

Zitat von TomS (Beitrag 86398)
Hier eine recht gute Zusammenfassung:

https://de.chessbase.com/post/alpha-...ns-mit-aepfeln

Ja und auch durchaus kritisch, danke.

TomS 04.01.18 08:08

AW: Alpha Zero schlägt Stockfish
 
Man sollte das Duell evtl. mal aus der Google- statt aus der Stockfish-Perspektive analysieren: Google konnte zeigen, dass eine (ansatzweise) general-purpose KI gegen eine Nischenintelligenz gewinnen kann. Google ist investiert in die TPU, Rechenpower usw., Stockfish in spezialisierte Eröffnungsbibliotheken und Zeitmanagement.

Es werden also immer Äpfel mit Birnen (oder eher Tankstellen) verglichen, egal welche Bedingungen man schafft.

Ich halte die Geschwindigkeit des Trainings für den entscheidenden Faktor. Man könnte nun diese AlphaZero-Instanz zusätzlich in Richtung Eröffnungen trainieren. Stockfish greift dabei jedoch wiederum auf jahrzehntelang gesammeltes menschliches Wissen zurück, während AlphaZero dies selbst erlernen muss. Gleiches gilt für einige Endspielvarianten.

Wäre spannend zu wissen, ob Google überhaupt noch Interesse an diesen Gegnern hat; diese werden rar.

TomS 04.01.18 08:11

AW: Alpha Zero schlägt Stockfish
 
Auch interessant:

Zitat:

Comparing Monte Carlo tree search searches, AlphaZero searches just 80,000 positions per second in chess and 40,000 in shogi, compared to 70 million for Stockfish and 35 million for elmo. AlphaZero compensates for the lower number of evaluations by using its deep neural network to focus much more selectively on the most promising variation.
Zitat:

Monte-Carlo-Programme benutzen statistische Methoden, um Zugkandidaten zu finden. Der Zug wird bewertet, indem von der Spielbrettposition ausgehend mit Zufallszügen bis zum Ende gespielt wird.
Zitat:

AlphaGo verwendet zusätzlich zu Monte-Carlo-Methoden Lernmethoden für tiefe neuronale Netzwerke. Dabei werden zwei Kategorien von neuronalen Netzen und eine Baumsuche eingesetzt:

Das policy network („Regelnetzwerk“) wird zur Bestimmung von Zugkandidaten mit großen Mengen von Partien sowohl durch überwachtes Lernen (engl. supervised learning) konditioniert als auch durch bestärkendes Lernen (engl. reinforcement learning) trainiert
Das value network („Bewertungsnetzwerk“) dient der Bewertung von Positionen und wird durch bestärkendes Lernen eingestellt.
Die Monte-Carlo-Baumsuche rechnet die Varianten durch. Alle drei Komponenten werden in dieser Baumsuche kombiniert.
Zitat:

Zunächst lernt das Programm durch Analyse einer Datenbank von 30 Millionen Zügen, den Zug eines Menschen „vorherzusagen“. Das gelingt zu 56 %. Bei der Bewertung des Zuges ist es im Gegensatz zu Monte-Carlo-Programmen nicht notwendig, die Partie bis zum Ende durchzuspielen. Mit diesem Ansatz allein gelingt es AlphaGo schon, traditionelle Programme zu besiegen. In der Praxis werden allerdings für die stärkste Version von AlphaGo zusätzlich auch noch Bewertungen nach dem Monte-Carlo-Verfahren vorgenommen.

TomS 04.01.18 09:59

AW: Alpha Zero schlägt Stockfish
 
Außerdem ist wichtig, dass gerade die auswendig gelernten Eröffnungen ja nichts über die eigtl. „Intelligenz“ aussagen. Man könnte die Partie zweier Großmeister nicht von der Partie zweier „dressierter Affen“ unterscheiden, solange sie nicht von den Standarderöffnungen abweichen; sobald sie jedoch abweichen, wird der Unterschied nach wenigen Halbzügen sichtbar.

Hawkwind 04.01.18 17:21

AW: Alpha Zero schlägt Stockfish
 
Zitat:

Zitat von TomS (Beitrag 86404)
Stockfish greift dabei jedoch wiederum auf jahrzehntelang gesammeltes menschliches Wissen zurück, ... .

Was aber durchaus nicht ohne Risiko ist und auch von Nachteil sein kann. Die Eröffnungstheorie im Schach ist ja alles andere als sicher; jemand findet eine Neuerung in einer Variante und die Bewertung ganzer Variantenkomplexe ändert sich schlagartig.

Timm 04.01.18 19:09

AW: Alpha Zero schlägt Stockfish
 
Zitat:

Zitat von TomS (Beitrag 86406)
Außerdem ist wichtig, dass gerade die auswendig gelernten Eröffnungen ja nichts über die eigtl. „Intelligenz“ aussagen.

Vielleicht könnte man das Spiel von Stockfish ab Beendigung der Eröffnungsbibliothek als "scheinbar intelligent" bezeichnen. Aber nicht wirklich, das Programm rechnet, so komplex es auch sein mag, im Prinzip wie ein Taschenrechner. Die implementierte "Intelligenz" ist die des Programmierers, der im Prinzip nachvollziehen kann, was sein Programm macht.

Interessant ist dieser mit dem "selbst lernen" verbundene Paradigmenwechsel. Da lernt AlphaZero 4 Stunden und findet Schwachstellen bei einigen seit vielen Jahrzehnten gespielten Eröffnungen! Da würde ich schon eher von einer gewissen Intelligenz sprechen und es ist wohl kaum mehr nachvollziebar, was hier im Detail geschieht.

TomS 05.01.18 00:40

AW: Alpha Zero schlägt Stockfish
 
Zitat:

Zitat von Timm (Beitrag 86411)
.Interessant ist dieser mit dem "selbst lernen" verbundene Paradigmenwechsel. Da lernt AlphaZero 4 Stunden und findet Schwachstellen bei einigen seit vielen Jahrzehnten gespielten Eröffnungen! Da würde ich schon eher von einer gewissen Intelligenz sprechen und es ist wohl kaum mehr nachvollziebar, was hier im Detail geschieht.

Genau!

Und daher laufen viele Argumente der Kritiker ins Leere. Google hatte nicht die Absicht, ein Schachprogramm bei einem Turnier an den Start zu bringen, sondern zu zeigen, wozu selbstlernende KIs fähig sind.

Ein guter Auszubildender wird in der Prüfung ohne Zuhilfenahme von Fachbüchern eine gute Note erhalten. Im späteren Beruf wird er dann natürlich auch auf Bücher zurückgreifen. Google hat zwei Auszubildende ohne Berufspraxis verglichen ...

Den Einwand bzgl. des ungeeignet gewählten Zeitmanagementsystems halte ich für schwieriger.

Hawkwind 05.01.18 19:26

AW: Alpha Zero schlägt Stockfish
 
Zitat:

Zitat von TomS (Beitrag 86415)
Den Einwand bzgl. des ungeeignet gewählten Zeitmanagementsystems halte ich für schwieriger.

Ach ja. Wenn man interessiert ist, den genauen Spielstärkeunterschied der beiden Gegner mittels ELO-Bewertungsskala zu quantifizieren (jetzt hätte ich fast "quantisieren" geschrieben :) ), dann mag das ein Einwand sein.
Ein angepasstes Zeitmanagement wird die Spielstärke von Stockfish aber eher um einige wenige ELO-Punkte als um eine Größenordnung beeinflussen.

Dann müsste man aber eh eine Menge Partien mehr spielen lassen, damit die Statistik überhaupt aussagekräftig wird.

TomS 06.01.18 00:11

AW: Alpha Zero schlägt Stockfish
 
Zitat:

Zitat von Hawkwind (Beitrag 86417)
Ein angepasstes Zeitmanagement wird die Spielstärke von Stockfish aber eher um einige wenige ELO-Punkte als um eine Größenordnung beeinflussen.

Einen der o.g. Artikel habe ich da anders verstanden, dass dies nämlich einen maßgeblichen Einfluss hat.

Egal, es ging Google nie um eine exakte ELO-Bewertung oder um ein Turnier unter fairen Bedingungen (was im Computerschach sowieso nur möglich war, weil sich da eine Art Monokultur entwickelt hat). Es ging darum, dass eine ziemlich generische KI Schach "from scratch" lernen kann. Stockfisch u.a. Programme haben nie irgendetwas etwas gelernt; es gab lediglich unglaublich viele fleißige Programmierer und Datentypisten, die seit Jahrzehnten Programme optimiert und Eröffnungsdatenbanken eingetippt haben.

Jetzt an diesen Kleinigkeiten rumzumäkeln ist ungefähr so blöd wie Goethe für Rechtschreibfehler im Manuskript von Faust zu kritisieren.

Hawkwind 06.01.18 16:28

AW: Alpha Zero schlägt Stockfish
 
Zitat:

Zitat von TomS (Beitrag 86426)
Einen der o.g. Artikel habe ich da anders verstanden, dass dies nämlich einen maßgeblichen Einfluss hat.

Egal, es ging Google nie um eine exakte ELO-Bewertung oder um ein Turnier unter fairen Bedingungen (was im Computerschach sowieso nur möglich war, weil sich da eine Art Monokultur entwickelt hat). Es ging darum, dass eine ziemlich generische KI Schach "from scratch" lernen kann. Stockfisch u.a. Programme haben nie irgendetwas etwas gelernt; es gab lediglich unglaublich viele fleißige Programmierer und Datentypisten, die seit Jahrzehnten Programme optimiert und Eröffnungsdatenbanken eingetippt haben.

Jetzt an diesen Kleinigkeiten rumzumäkeln ist ungefähr so blöd wie Goethe für Rechtschreibfehler im Manuskript von Faust zu kritisieren.

100% d'accor, aber eine kleine Reandbemerkung zu
Zitat:

Zitat von TomS (Beitrag 86426)
Stockfisch u.a. Programme haben nie irgendetwas etwas gelernt; es gab lediglich ...

Die meisten neueren Programme - ich schätze Stockfish sicher eingeschlossen - haben ein recht simples Book-Learning implementiert: Varianten, die sich nicht bewähren, werden im Eröffnungsbuch weniger stark gewichtet bzw komplett gestrichen, und umgekehrt.
Zudem legen manche Programme die Suchergebnisse der Wurzelknoten (erreichte Suchtiefe, zugehörige Bewertung) in einer persistenten Hash-Tabelle auf der Festplatte ab (eventuell nur dann, wenn sich die Bewertung von einer Iteration zur nächsten drastisch verändert hatte (z.B. Falle festgestellt, "vergifteter Bauer" ...). Diese Ergebnisse können in nachfolgenden Spielen die Suche etwas beschleunigen, wenn denn genau diese Positionen im Suchbaum auftreten bzw es wird sogar gelernt, einmal gemachte Fehler zu vermeiden. Diese 2 Features sind nicht ganz unnütz und machen die Programme auch etwas unberechenbarer; so hat mein Programm in ein-und derselben Stellung bei derselben Suchtiefe nicht immer zwangsläufig denselben Zug gewählt.
Aber das sind sehr simple Implementation einer Lernfunktion im Vergleich zu AlphaZero.


Alle Zeitangaben in WEZ +1. Es ist jetzt 10:10 Uhr.

Powered by vBulletin® Version 3.8.8 (Deutsch)
Copyright ©2000 - 2024, vBulletin Solutions, Inc.
ScienceUp - Dr. Günter Sturm