Rezero(リゼロ)評価関数は何がすごいのか
今更にはなりますが、このすごさってやつを認識できてない人が多いようで悲しいのですよ。特に、振り飛車党のフレンズ(将棋指し)にはよい話なのです。
振り飛車は、不利飛車と言われておりますけれども、全くもって完全に、敗北を喫したというわけではないのです。
そう。例えば、HoneyWaffleとか。居飛車が群雄割拠するコンピュータ将棋界。この中で生き抜く振り飛車の星なのです。
HoneyWaffle?開発者も、居飛車にペナルティを科すことで強引に振り飛車にしたとかって言ってたじゃないか?
去年はやねうらをそのまま使ってたんだった。確か
やねうら王は評価関数がミラー(左右対称)になるようにしているらしいので、それが生きたんでしょうね。
結果
直近の電王トナメでも決勝リーグ出てるんですよ。shotgunにも勝ってるし、実力派振り飛車党だといっていい。
結果としては十分出ているソフト。勿論、人間と比べたら十分強いソフト。
さてこの辺りで本題へと入りましょう。
リゼロ評価関数のどこがすごいのかという話でした。
それは、、、
完全に人間の棋譜から独立しているところです!その上、人間のトップくらいなら軽々打ち負かせるくらいの力があります。
人間の棋譜から今まで独立してなかったんですか?
そうです。
人間より強かったのに?
人間の棋譜から学習させたものを元に、それを強くしてコンピュータ将棋の棋譜ができました。そして、そのコンピュータ将棋の棋譜(人間の要素がどこかに入ってる)を元に、コンピュータを強くしてきました。
今までできてなかったの?
今までも無かったわけではないものの、弱かったのです。
さて、細かい内容はやねうら王の作者のやねうらおさんが書いておられます。
elmoがもたらしたオーパーツについて | やねうら王 公式サイト
そう。元のアイデアはelmoです。
余談
こういうわけで昨年は、elmoの導入記事を頑張って公開当日に書き上げた訳なんですね。(確かそうだったような、そうでなかったような…)
人間の棋譜を用いずに評価関数の学習に成功 | やねうら王 公式サイト
細かい経緯はこちらの記事とセットで読んでいただければ通じることと思います。
何度も言いますが、人間の棋譜なしで人間より強くなれたというところがポイントです。自己対戦を繰り返して、自分で将棋の勝ち方を身に着けたということです。