囲碁ウォーズ公式 (@igowars) | |
AlphaGoの新しい論文だそうです。 |
AlphaGo Zero: Learning from scratch | DeepMind
https://deepmind.com/blog/alphago-zero-learning-scratch/…Nature : Nature Research
人間の棋譜を一切使わず学習しセドル戦のAlphaGoに100-0、Masterに89-11とか |
https://twitter.com/igowars/status/920799457985232896
囲碁AIが「独学」で最強に グーグル、産業応用探る
- 2017/10/19 2:01
最強AI「アルファ碁ゼロ」、人間の棋譜頼らず強くなる
小宮山亮磨
2017年10月19日03時05分
世界最強の人間の棋士より強い囲碁の人工知能(AI)を開発した英ディープマインド社が、さらに腕前を上げたAI「アルファ碁ゼロ」を開発した。人間の棋譜は学ばず、AIどうしが対局を繰り返して上達し、独自の「定石」も見つけたという。18日の英科学誌ネイチャーで発表する。
同社の囲碁AIはこれまで、人間の棋士による過去の膨大な棋譜を学習したうえでAIどうしが繰り返し対局する「強化学習」という手法で腕を磨いてきた。2016年には韓国の李世乭(イセドル)九段を4勝1敗で下し、注目を集めた。
アルファ碁ゼロは、棋譜のデータに頼らず、人間の初心者以下の状態から強化学習だけで上達する。490万回の自己対局の後、李九段に勝ったAIと対局して、100戦全勝。2900万回の自己対局の後では、今年初めまでに日本の井山裕太・現七冠を含むトップ棋士らに60戦全勝したAI「アルファ碁マスター」も圧倒した。
基本的な打ち方のパターンとされる定石の多くに自力で到達しただけでなく、これまで知られていない定石も見つけた。同社のデビッド・シルバー博士は、「(コンピューターに)『まっさら』の状態から学ばせる技術は、囲碁以外のどんな分野にでも応用できる」と話している。
論文はウェブサイト(http://nature.com/articles/doi:10.1038/nature24270)で読める。(小宮山亮磨)
囲碁ウォーズ公式 (@igowars) | |
AlphaGoの新しい論文だそうです。 deepmind.com/blog/ deepmind.com/documents/119/… nature.com/nature/journal… 人間の棋譜を一切使わず学習しセドル戦のAlphaGoに100-0、Masterに89-11とか |
https://twitter.com/igowars/status/920799457985232896
囲碁ウォーズ公式 (@igowars)
2017/10/19 8:51
AlphaGoの新しい論文だそうです。
AlphaGo Zero: Learning from scratch | DeepMind
https://deepmind.com/blog/alphago-zero-learning-scratch/
…Nature : Nature Research
http://www.nature.com/nature/journal/v550/n7676/full/nature24270.html
人間の棋譜を一切使わず学習しセドル戦のAlphaGoに100-0、Masterに89-11とか
https://twitter.com/igowars/status/920799457985232896
【AI】「AIが出した結果」の理由を探る技術、富士通らが開発 [無断転載禁止]©2ch.net
16コメント6KB
1ノチラ ★2017/09/20(水) 20:25:35.56ID:CAP_USER>>11
富士通研究所と富士通は9月20日、人工知能(AI)が導き出す推論結果についてその理由や根拠を提示するという新技術を開発したと発表した。AIによる結果に人間の専門家の知見を組み合わせて活用できるとしている。
ディープラーニングなどを利用して大量データの学習から特徴などの推定結果を導き出すAIでは、そのような結果に至る理由や学術的な根拠を、人間が検証することが難しいという課題を抱える。そのため、AIを使った専門家の判断に説明責任が問われるような医療や金融などのミッションクリティカル領域などに適用することが困難だった。
富士通らが開発した技術は、グラフ構造のデータを学習する富士通研独自のAI技術「Deep Tensor」と、学術文献などの専門的な知識を蓄積したナレッジグラフの知識ベースを関連付けることで、AIの推定結果の理由や根拠を示せるという。
https://japan.zdnet.com/storage/2017/09/20/10907af97435e1a4cc83c61344263378/fujitsu_ai01.jpg
具体的には、ディープラーニングの出力結果から逆に探索して、推定結果に大きく影響した複数の因子を入力データの部分グラフとして特定する。ディープラーニングの入力となるテンソル間の類似性に基づき、個別の推定結果の決め手となる要素を抽出し、さらにテンソルからグラフ構造のデータへの逆変換によって、抽出した要素に対応する入力の部分グラフを特定していく。この技術では、複数の推定因子を手掛かりにグラフ構造を探索することで、特定された推定因子に関連性の高い情報だけを抽出し、根拠として構成する。
両社では、ゲノム医療で専門家の調査作業の効率化を想定した模擬実験を行った。生物情報学分野の公開データベースや医療文献データベースから構築した遺伝子変異と病因性の関係についてまず学習し、推定に影響した因子や根拠について学術論文や関連情報を抽出した結果では、推定対象の遺伝子変異(下図の赤)について、推定結果に大きく影響した複数の因子(同青)と、ナレッジグラフから取り出した学術的な裏付けとなる根拠(同黄)、疾患の候補(同紫)を同時に参照できたという。
今後は、医療関連研究機関の協力を得ながら新技術の有用性について検証を進める。また、金融分野で融資先の自動推定を学習させた場合に、規制や規則の知識を用いて推定の妥当性を確認するといった他分野への応用も計画している。
https://japan.zdnet.com/article/35107528/
衝撃ですね・・・。
内容は囲碁の知識などは一切なしで、ルールのみから作ったものが
セドル版のAlphaGoに100-0で勝つほど強くなったそうです。
1. 人間の知識などはいっさいなく、囲碁のルールのみ、からの自己対戦による強化学習
2. 入力は黒と白の石の配置のみ。ダメの数とかは一切なし。
3. Policy、Value、などと分割せずに、1つのネットワーク。
4. モンテカルロ法(Rollout)は使っていない。
個人的には 4. が衝撃でした。
以下はメモです。
人間がよく打つ隅の定石を見つけた(5つの例)。
33に入る定石は5手目に黒がケイマに飛ぶ形を最終的に好む
学習の初期は石を取ることを好み、次に死活の基礎を学び、最終的にバランスが取れた美しい手を打つ
学習から36時間でセドル戦のバージョンに追いついた。
セドル版には100-0で勝つ。
プロの手の一致率は48%ぐらいと低い。プロの手から学習したものは54%ぐらい。
ResNetが単なるConvolutionより優秀で、PolicyとValueを一つのネットワークで評価するのが優秀。
出力はValueとPolicy。一つのネットワーク。
入力は石の配置と着手履歴(棋譜)。
0から7手前までの黒、白の配置と手番(17面)
ResNetを使ってる。Batch Normalizationあり。
40 Residual Block
1 Block は (3x3 256, BN, ReLU)が2つ。つまり 80層のConvolution
ZeroはMasterに89勝11敗
MasterはZeroと同じ手法で作られているが、人が作ったRolloutは使っていた。
学習段階ではMCTSを使ってる。
学習の中に先読みを取り入れた、新しい強化学習
--------------------------------------------------------
自己対戦の棋譜はこちらにあるようです。
AlphaGo Zeroの自己対戦の棋譜
https://www.nature.com/nature/journal/v550/n7676/extref/nature24270-s2.zip
http://524.teacup.com/yss/bbs/
野狐囲碁 (@webigojp) | |
AlphaGo Zero はゼロから学習し→3時間までは初心者→10時間に基本定石を発見→16時間に小ナダレ定石を学習→19時間で死活、厚みと地の概念を学習→24時間に小目の定石を学習→36時間に星の定石を学習→55時間に人類の理解を超える定石を発見→72時間で恐ろしい強さに… pic.twitter.com/20ztPfFaLQ |
https://twitter.com/webigojp/status/920951827209662469
人間VSコンピュータオセロ 衝撃の6戦全敗から20年、元世界チャンピオン村上健さんに聞いた「負けた後に見えてきたもの」 (3/3) - ねとらぼ
http://nlab.itmedia.co.jp/nl/articles/1710/06/news013_3.html
オセロが完全解析されたら?
――オセロはいま完全解析に近づいています。既に6×6では、完全解析が済んでおり(後手の白が必勝)、8×8も時間の問題といわれます。完全解析されたあとのオセロはどうなると思いますか?
何も変わらないと思います。完全解析の手順は、「一本の筋」にすぎないですから。ちなみに「引き分けになる可能性が高い」といわれています。でも、それは1つの最善手順が発見されるにすぎないので、大会ではどちらかが必ず手を変えるはずです。手を変えてしまえば、その後は両対局者にとって未知の局面になります。
――ただ、囲碁将棋ファンが心配しているのが、完全解析されたとき、新規プレイヤーになりえる潜在的プレイヤーが「もう分かっちゃったからいいや」とゲームの価値自体を下に見てしまうことがないか…………漠然とした不安がある気がします。
オセロを知っていて実際にプレイしている人は「コンピュータで完全解析されるかどうかは、人間同士で楽しむオセロとは何の関係もないもの」と肌で分かっています。新たにオセロを始めるかもしれない人が減る可能性に関しては問題かもしれませんが……私は非常に楽観的に考えています。世界選手権、名人戦、ジュニアグランプリ(小学生の全国大会)等の大会の参加者数もここ数年増加の一途ですよ。
「コンピュータが人間を強くする」はどこまで可能か?
――コンピュータを取り入れたことで、人間の実力は上がってきていますか?
私見ですが、驚くほど上がっていません。本当はもっともっとレベルが上がっていてもおかしくないのですが……意外にもほとんど上がっていません。人間にとっては、上達を阻む大きな壁があるのではないでしょうか。ここ10年ぐらいは……頭打ちですね。
というのも、コンピュータが手を選んだときに、どんな理由で着手したか、人間には理解できないのです。「総合評価でこれが一番と出ました」といわれても。「ここはこういう考え方で、こうなんです」と人間にも分かりやすく教えてくれるソフトができれば良いですが、かなり難しい。
人間の限界があるのかも知れません。例えば、いくら100メートルを5秒で走るロボットがいろいろ教えても、人間は同じようにはできませんから。そこには人間の限界があって、似たようなことが、頭脳ゲームにも表れたのではと思います。
人間の脳が機能的な限界に達していて、その限界で勝ち負けを争っているような状態だとしたら。いま世界最強といわれる高梨悠介九段ですら不敗ではありません。結局はどんぐりの背比べ。人間は広大無限なオセロという、お釈迦様の手のひらで遊ばされている無力な存在かも知れません…………でも、だからこそオセロは楽しいんですけどね。
0 件のコメント:
コメントを投稿