目录
- 1,人类怎么和AI下围棋
- 2,如何在下围棋的时候使用ai
- 3,如果两个人工智能下围棋会怎样?
- 4,人工智能除了下围棋还能干啥
- 5,阿尔法狗团队宣布"阿狗"退役是怎么回事?
- 6,如何打造史上最强AlphaGo
- 7,怎样用ai进行围棋训练
1,人类怎么和AI下围棋
以前的围棋AI是模拟了另一个下棋的高手,这个高手根据前人的经验,选择了最容易赢的招数。
Alpha Go 是模拟了围棋发明到如今的整个历史,从发明围棋的第一次对弈(那次对弈一定是很初级的),逐步对弈提高到今天,现在已经模拟到了职业段位的水平,很快就可以超越今天,相当于用机器模拟了围棋的发展,规划了整盘棋的定式,就像围棋定式,其实就是人类的最佳落子方式,大定式有几十步的,计算机会不会给大家描绘一个250手的定式呢?(一盘完整围棋的定式)大家拭目以待吧,这个250手的定式出来的那一天,恐怕就是围棋这个游戏的全部价值被阐释的那一天了。
2,如何在下围棋的时候使用ai
您好,很高兴为您解答问题,拍照识别棋盘,转成sgf格式的文件,导入到AI分析软件里面,使用AI实时分析,给出建议。找了很多的软件和开源代码,终于发现弈客围棋可以实现,但是过程稍有繁琐。因为弈客围棋的拍照数子功能较弱,容易出错,建议采用下面的方式
使用腾讯围棋拍照数子,成功之后截屏
使用弈客围棋拍照数子功能,载入上一步截屏的图片,成功之后收藏到自己的棋谱
在网页H5端,可以导出sgf文件
把sgf文件导入到AI软件中,进行分析和实时推荐【摘要】
如何在下围棋的时候使用ai【提问】
您好,很高兴为您解答问题,拍照识别棋盘,转成sgf格式的文件,导入到AI分析软件里面,使用AI实时分析,给出建议。找了很多的软件和开源代码,终于发现弈客围棋可以实现,但是过程稍有繁琐。因为弈客围棋的拍照数子功能较弱,容易出错,建议采用下面的方式
使用腾讯围棋拍照数子,成功之后截屏
使用弈客围棋拍照数子功能,载入上一步截屏的图片,成功之后收藏到自己的棋谱
在网页H5端,可以导出sgf文件
把sgf文件导入到AI软件中,进行分析和实时推荐【回答】
您好,如果您觉得我的答案对您解决了问题,麻烦点个赞。(在左下角进行评价哦)您的的举手之劳,对我们很重要,您的认同是我进步的动力,如果觉得我的解答还满意,请下次点我头像一-对一咨询。谢谢,祝您身体健康,心情愉快!【回答】
3,如果两个人工智能下围棋会怎样?
AlphaGo小组 在去年10月至年底左右做出了算法突破。
在此之前,围棋的规则算法很容易就搞定了,剩下的就是如何下出一步好棋,乃至下出一盘好棋。
早期的时候就是算啊,每走一步 就算个几万几十万步,工程师们就优化这个算法。
但是AlphaGo小组做出了突破,某种意义上把这个即时运算缓存了。
具体的说,在AlphaGo比赛前,每天要跑几百万盘(跟自己下),来积累棋谱。
比赛的时候大家就觉得AlphaGo棋路很诡异,但能赢!
------
从这种意义上来说,俩人工智能开战,取决于其运算资源。
个人机上跑的干不过在云上运行的。
如果假定运算资源无限,又假定这俩货不互相干扰,那么胜负大概就是概率学上的五五分了。
4,人工智能除了下围棋还能干啥
智能识别应用广泛
2012年谷歌的科学家们用1.6万块电脑处理器构建了一个世界上最大的“模拟神经网络”,这和Al-phaGo的“大脑”类似。科学家们向“谷歌”大脑展示了随机选取的1000万段视频,想看看它能“学”到什么,结果“谷歌大脑”在没有任何人工指令的情况下认出了猫的脸。“谷歌大脑”识别猫的学习方法与AlphaGo是一样的,它们都使用了“深度学习”的方法。过去几年间,大数据利用成为可能,电脑运算能力呈量级增长,得益于这二者,建立类似于人脑的“神经网络”,发展电脑的深度学习能力成为可能。目前人工智能的识别能力已经在某种程度上超过了人类。智能识别技术的应用正在迎来一个全新的时代。
最为典型的应用就是人脸识别,近年来海关、交通运输等重要安防监控场所已经有比较成熟的产品投入使用,实现了时时的智能人脸抓拍与识别及报警。
在深度学习被提出后,语音识别的技术同样得到了飞跃性的发展。有人预测,在不久的将来,电脑将能够像人一样用语言同人类交流,它能听懂你的话,也能表达自己的意思,而你很可能分辨不出与自己对话的究竟是人还是电脑。
智能医疗可望可即
深度学习的出现,使得智能医疗成为可能,过往的医疗数据为人工智能提供了丰富的学习资料。有人预测,将来深度学习如果能够深入应用于医疗领域,人工智能将对人类医生形成挑战。
2015年加拿大一家叫做Deep Genomics的科技公司成立,这家公司让人工智能通过深度学习解开基因组的秘密。人类很难“读懂”基因组中的信息,但是人工智能通过深度学习却可以做到,它能够比人类更好的理解基因。Deep Genomics 公司目前正在做的就是基因组检测,这家公司的创始人将深度学习基因组技术比喻为基因突变领域的谷歌搜索:研究人员可对DNA序列进行查询,系统将鉴别出突变,并告知这些突变会导致什么疾病和致病原因,这对于未来医疗无疑是颠覆性的。
同样研发了AlphaGo的“深度思维”公司也将研发范围扩展到了医学领域。不久之前,“深度思维”推出了自己的医疗项目“深度思维健康”。目前他们正在开发一款安装在苹果手机上的医疗应用“Streams”,这个应用能够迅速向医疗人员发出有关病人面临的风险的警告,告知医生病人可能存在的并发症等。
无人驾驶面临突破
这两年,“无人驾驶”的概念突然火热起来,但是无人驾驶,电脑必须能够识别道路,以及道路上的所有标志,包括车道线、交通标志、信号灯等,还必须识别道路上的行人和其他车辆,最重要的还需实时做出判断和决策,也就是得“随机应变”。这些技术都需要人工智能来实现,说的更准确一点,都需要“深度学习”来帮助实现。目前谷歌无人驾驶汽车已经在美国加利福尼亚州的公路上测试超过170万英里(约274万公里),而测试6年以来,总共发生了11次小规模的事故。
根据美国高速公路安全管理局的规定,美国针对“仅造成财产伤害的碰撞事故”制定的全国标准约为每驾驶10万英里0.3次。谷歌无人驾驶汽车行驶170万英里发生11桩事故的比例为每驾驶10万英里0.6次。从这个数据看来,无人驾驶汽车想要最终投入市场,可能还要走很长一段路。不过可以想象,也许用不了太多时间,无人驾驶汽车将开始逐渐出现在世界各地的公路上
5,阿尔法狗团队宣布"阿狗"退役是怎么回事?
5月27日,升级后的AlphaGo所向披靡,最终以3:0赢下了这次乌镇人机大战。这也将是人机大战的最后3局比赛了。 创始人说了什么? 在最后一局比赛结束后的发布会上,AlphaGo之父、DeepMind创始人戴密斯·哈萨比斯说:“本周的比赛聚集了围棋起源地最优秀的棋手参与,是AlphaGo作为一个竞赛系统能够对弈的最高级别对手。因此,本次中国乌镇围棋峰会是AlphaGo参加的最后对弈比赛。” 不过,哈萨比斯宣布,人类棋手与AlphaGo的故事并不会就此结束。AlphaGo的启蒙老师、欧洲围棋冠军樊麾随后表示:“我们将与柯洁共同研究这三局比赛,做成视频,与全世界围棋爱好者共同分享。我们还给全世界围棋爱好者准备了一份礼物,这些自我对战是阿尔法狗最宝贵的财富,我们近期会公布50副阿尔法狗自我对战的棋谱,以慢棋的形式进行。” 程序员讲解新版AlaphaGo柯洁感慨:真太可怕了 5月24日消息,在昨日AlphaGo战胜柯洁后,Deepmind首席程序员席尔瓦表示,战胜柯洁的AlphaGo Master比一年前战胜李世石的AlphaGo Lee强三个子。 对此,柯洁再次在微博上感慨对手的强大,“我到底是在和一个怎样可怕的对手下棋”。
6,如何打造史上最强AlphaGo
最强AlphaGo Zero怎样炼成
刚刚,Deepmind在Reddit的Machine Learning板块举办了在线答疑活动AMA,Deepmind强化学习组负责人David Silver和其同事热情地回答了网友们提出的各种问题。由于在AMA前一天Deepmind刚刚发表了《Mastering the game of Go without human knowledge》(不使用人类知识掌握围棋)的论文,相关的提问和讨论也异常热烈。
什么是AMA?
AMA(Ask Me Anything)是由Reddit的特色栏目,你也可以将其理解为在线的“真心话大冒险”。AMA一般会约定一个时间,并提前若干天在Reddit上收集问题,回答者统一解答。
本次Deepmind AMA的回答人是:
David Silver:Deepmind强化学习组负责人,AlphaGo首席研究员。David Silver1997年毕业于剑桥大学,获得艾迪生威斯利奖。David于2004年在阿尔伯塔大学获得计算机博士学位,2013年加盟DeepMind,是AlphaGo项目的主要技术负责人。
Julian Schrittwieser:Deepmind高级软件工程师。
此前有多位机器学习界的大牛/公司在Reddit Machine Learning版块开设AMA,包括:Google Brain Team、OpenAI Research Team 、Andrew Ng and Adam Coates、Jürgen Schmidhuber、Geoffrey Hinton、Michael Jordan 、Yann LeCun、Yoshua Bengio等。
我们从今天Deepmind的AMA中选取了一些代表性的问题,整理如下:
关于论文与技术细节
Q: Deepmind Zero的训练为什么如此稳定?深层次的增强学习是不稳定和容易遗忘的,自我对局也是不稳定和容易遗忘的,如果没有一个好的基于模仿的初始化状态和历史检查点,二者结合在一起应该是一个灾难...但Zero从零开始,我没有看到论文中有这部分的内容,你们是怎么做到的呢?
David Silver:在深层增强学习上,AlphaGo Zero与典型的无模式算法(如策略梯度或者Q学习)采用的是完全不同的算法。通过使用AlphaGo搜索,我们可以极大改进策略和自我对局的结果,然后我们会用简单的、基于梯度的更新来训练下一个策略及价值网络。比起基于简便的基于梯度的策略改进,这样的做法会更加稳定。
Q:我注意到ELO等级分增长的数据只与到第40天,是否是因为论文截稿的原因?或者说之后AlphaGo的数据不再显著改善?
David Silver:AlphaGo已经退役了!这意味着我们将人员和硬件资源转移到其他AI问题中,我们还有很长的路要走呐。
Q:关于论文的两个问题:
Q1:您能解释为什么AlphaGo的残差块输入尺寸为19x19x17吗?我不知道为什么每个对局者需要用8个堆叠的二进制特征层来描述?我觉得1、2个层就够了啊。虽然我不是100%理解围棋的规则,但8个层看起来也多了点吧?
Q2:由于整个通道使用自我对局与最近的/最好的模型进行比较,你们觉得这对于采用参数空间的特定SGD驱动轨迹对否会有过拟合的风险?
David Silver:说起来使用表征可能比现在用的8层堆叠的做法更好!但我们使用堆叠的方式观察历史数据有三个原因:1)它与其他领域的常见输入一致;2)我们需要一些历史状态来表示被KO;3)如果有一些历史数据,我们可以更好地猜测对手最近下的位置,这可以作为一种关注机制(注:在围棋中,这叫“敌之要点即我之要点”),而第17层用于标注我们现在究竟是执黑子还是白子,因为要考虑贴目的关系。
Q:有了强大的棋类引擎,我们可以给玩家一个评级——例如Elo围棋等级分就是通过棋手对局的分析逐步得出的,那么AlphaGo是否可以对过去有等级分前的棋手的实力进行分析?这可能为研究人类的认知提供一个平台。
Julian Schrittwieser:感谢分享,这个主意很棒!
我认为在围棋中这完全可以做到,或许可以用最佳应对和实际应对的价值差异或者政策网络给每一手位置评估得到的概率来进行?我有空的时候试一下。
Q: 既然AlphaGo已经退役了,是否有将其开源的计划?这将对围棋社区和机器学习研究产生巨大的影响。还有,Hassabis在乌镇宣称的围棋工具将会什么时候发布?
David Silver:现在这个工具正在准备中。不久后你就能看到新的消息。
Q:AlphaGo开发过程中,在系统架构上遇到的最大障碍是什么?
David Silver:我们遇到的一个重大挑战是在和李世石比赛的时候,当时我们意识到AlphaGo偶尔会受到我们所谓的“妄想”的影响,也就是说,程序可能会错误理解当前盘面局势,并在错误的方向上持续许多步。我们尝试了许多方案,包括引入更多的围棋知识或人类元知识来解决这个问题。但最终我们取得了成功,从AlphaGo本身解决了这个问题,更多地依靠强化学习的力量来获得更高质量的解决方案。
围棋爱好者的问题
Q:1846年,在十四世本因坊迹目秀策与十一世井上幻庵因硕的一盘对局中,秀策下的第127手让幻庵因硕一时惊急两耳发赤,该手成为扭转败局的“耳赤一手”。如果是AlphaGo,是否也会下出相同的一首棋?
Julian Schrittwieser:我问了樊麾,他的回答是这样的:
当时的围棋不贴目,而AlphaGo的对局中,黑棋需贴7.5目。贴目情况不同造成了古今棋局的差异,如果让AlphaGo穿越到当年下那一手,很有可能下的是不同的另一个地方。
Q:从已发布的AlphaGo相互对局看,执白子的时间更为充裕,因而不少人猜测,7.5目的贴目太高了(注:现代围棋的贴目数也在不断变化,如在30年前,当时通行的是黑子贴白子5.5目)。
如果分析更大的数据集,是否可以对围棋的规则得出一些有趣的结论?(例如,执黑或者执白谁更有优势,贴目应该更高还是更低)
Julian Schrittwieser:从我的经验和运行的结果看,7.5目的贴目对双方来说是均势的,黑子的胜率略高一些(55%左右)。
Q:你能给我们讲一下第一手的选择吗?ALphaGo是否会下出我们前所未见的开局方式?比如说,第一手下在天元或者目外,甚至更奇怪的地方?如果不是,这是否是一种“习惯”,或者说AlphaGo有强烈的“信念”认为星位、小目、三三是更好的选择?
David Silver:在训练中我们看到ALphaGo尝试过不同方式的开局——甚至刚开始训练的时候有过第一手下在一一!
即便在训练后期,我们仍然能看到四、六位超高目的开局,但很快就恢复到小目等正常的开局了。
Q:作为AlphaGo的超级粉丝,有一个问题一直在我心中:AlphaGo可以让职业棋手多少子?从论文中我们知道AlphaGo可以下让子棋,我也知道AlphaGo恐怕让不了柯洁两子,但我想你们一定很好奇,你们是否有做内部测试?
David Silver:我们没有和人类棋手下让子棋。当然,我们在测试不同版本的时候下过让子棋,在AlphaGo Master>AlphaGo Lee>ALphaGo Fan这三个版本中,后一个版本均可让三子击败前一个版本。但是,因为AlphaGo是自我训练的,所以尤其擅长打败自己的较弱的前一版本,因此我们不认为这些训练方式可以推广到和人类选手的让子棋中。
Q:你们有没有想过使用生成对抗网络(GAN)?
David Sliver:从某种意义来讲,自我对弈就是对抗的过程。每一次结果的迭代都是在试图找到之前版本的“反向策略”。
传言终结者
Q:我听说AlphaGo在开发初期被引导在某一个具体的方向训练以解决对弈中展现出的弱点。现在它的能力已经超过了人类,是否需要另外的机制来进一步突破?你们有做了什么样的工作?
David Silver:实际上,我们从未引导过AlphaGo来解决具体的弱点。我们始终专注于基础的机器学习算法,让AlphaGo可以学习修复自己的弱点。
当然你不可能达到100%的完美,所以缺点总会存在。 在实践中,我们需要通过正确的方法来确保训练不会落入局部最优的陷阱,但是我们从未使用过人为的推动。
关于DeepMind公司
Q:我这里有几个问题:在DeepMind工作是什么感受?AlphaGo团队成员都有谁?你能介绍一下AlphaGo团队工作分配的情况吗?下一个重大挑战是什么?
David Silver:在DeepMind工作感觉好极了:)——这不是一个招聘广告,但我感觉每天可以在这里做我喜欢的事实在是太幸运了。有很多(多到忙不过来!:))很酷的项目去参与。
我们很幸运有许多大牛在AlphaGo工作。您可以通过查看相应的作者列表来获取更详细的信息。
Q: 你觉得本科生是否可以在人工智能领域取得成功?
Julian Schrittwiese:当然。我本人就只有计算机科学学士学位,这一领域变化迅速,我认为您可以从阅读最新的论文和试验中来进行自学。另外,去那些做过机器学习项目的公司实习也是很有帮助的。
关于算法的扩展和其他项目
Q:Hassabis今年三月份在剑桥的一个演讲中表示,AlphaGo项目未来目标之一是对神经网络进行解释。我的问题是:ALphaGo在神经网络结构上取得了什么样的进展,或者说,对AlphaGo,神经网络仍然是神秘的黑盒子?
David Silver:不仅仅是ALphaGo,可解释性是我们所有项目的一个非常有意思的课题。Deepmind内部有多个团队从不同方式来探索我们的系统,最近有团队发表了基于认知心理学技术去尝试破译匹配网络内部发生了什么,效果非常不错!
Q: 很高兴看到AlphaGo Zero的好成绩。我们的一篇NIPS论文中也提到了对于深度学习和搜索树之间效率的相似问题,因此我对于在更长的训练过程中的行为尤其感兴趣。
AlphaGo的训练过程中,创建学习目标的蒙特卡洛树搜索的贪心算法、策略网络的贪心算法、以及在训练过程中价值功能变化的贪心算法之间的相对表现如何?这种自我对局学习的方法是否可以应用在最近的星际争霸 II API中?
David Silver:感谢介绍您的论文!真不敢相信这篇论文在我们4月7日投稿的时候已经发布了。事实上,它与我们的学习算法的策略组件非常相似(尽管我们也有一个值组件),您可以参考我们的方法和强化学习中的讨论,也很高兴看到在其他游戏中使用类似方法。
Q:为什么早期版本的AlphaGo没有尝试自我对弈?或者说,AlphaGo之前也尝试过自我对弈但效果不好?
我对这个领域的发展和进步程度感到好奇。相比起今天,在两年前在设计一个自主训练的AlphaGo的瓶颈在哪里?今天我们见到的“机器学习直觉”又是经历了什么样的系统迭代过程?
David Silver:创建一个可以完全从自我学习的系统一直是加强学习的一个开放性问题。 我们最初的尝试包括你能查到的许多类似的算法,是相当不稳定的。 我们做了很多尝试,最终AlphaGo Zero算法是最有效的,而且似乎已经破解了这个特定的问题。
Q:你认为机器人什么时候能够有效解决现实世界关于高度、尺寸方面的问题(例如,自己学习如何抓取任何形状、尺寸、位置垃圾的设备)?策略梯度方法是否是实现这一目标的关键点?
Julian Schrittwieser:这主要是由于价值/政策网络上的双重改进,包括更好的训练和更好的架构。具体参见论文图4对不同网络架构的比较。
Q:据说击败柯洁的ALphaGo Master的功耗只是击败李世石的AlphaGo Lee的1/10。你们做了什么样的优化呢?
Julian Schrittwieser:这主要是由于价值/政策网络上的双重改进,包括更好的训练和更好的架构。具体参见论文图4对不同网络架构的比较。(你确认不是copy上一个问题的答案吗)
Q:看起来在增强学习中使用或模拟Agent的长期记忆是一个很大的障碍。 展望未来,您觉得我们是否能以一种新的思维方式解决这一点? 还是说需要等待我们技术可以实现一个超级网络?
Julian Schrittwieser:是的,长期记忆可能是一个重要的因子,例如在“星际争霸”游戏中,你可能已经做出了上千个动作,但你还要记住你派出的侦察兵。
我认为现在已经有了令人振奋的组件(神经图灵机!),但是我认为我们在这方面仍有很大的改进空间。
Q:David,我看过你的演讲视频,你提到增强学习可以用于金融交易, 你有没有真实世界的例子? 你会如何处理黑天鹅事件(过去没有遇到过的情况)?
David Silver:已经发表增强学习用于现实世界的财务算法的论文非常少见,但有一些经典论文值得一看,例如Nevmyvaka、Kearns在2006写的那篇和Moody、Safell在2001年写的那篇。
Q:你们和Facebook几乎同时研究围棋问题,你们能更快获得大师级表现的优势是什么?
对于那些无法获得像AlphaGo如此多的训练数据的领域如何开展机器学习或者增强学习?
David_Silver:Facebook更侧重于监督学习,我们选择更多地关注强化学习,因为我们认为AlphaGo最终将超越人类的知识。 我们最近的结果实际上表明,监督学习方法可以让人大吃一惊,但强化学习绝对是远远超出人类水平的关键之处。
7,怎样用ai进行围棋训练
“AI如何看待李昌镐白88这步棋?” 这个问题很有意思,正好我一直想跟大家聊聊关于如何看待AI的意见这个话题,所以今天就着大家这个提问,跟大家一起讨论一下。 在讨论之前,我先抛两个问题出来: 1:如果李昌镐白88这步棋不在AI的考虑范围内,那这步棋就一定是问题手吗? 2:如果AI给李昌镐白88这步棋降了胜率,那就代表李昌镐在这盘棋中的胜算变小了吗? 这两个问题其实可以合成一个大问题: AI给出的意见,就一定是好的吗? 下面我们先来看看AI是如何看待李昌镐白88这步棋的: 图1:我们先回顾一下李昌镐白88下在了哪里? 白88下在了上面的一路立,这步棋看着很慢,其实意境深远。 关于这步棋的故事,我之前已经说了,这里就不多讲了。 我在写李昌镐白88这步棋之前,就看过星阵的建议,白88这步棋不在星阵的选择范围内。 而星阵的首选,也就是它推荐的一手棋是: 图2:我估计李昌镐若在当时看到星阵白1这步推荐,应该会吓一大跳。 这是孤身单挑黑三角六子的节奏。 的确,别说是李昌镐这样谨慎的棋风,就是剑法最霸道的申真谞来了,估计也不会去动黑三角六子的脑筋。 当然星阵有它的理由,它显然不认为你黑棋三角六子很强,它要来攻击黑三角六子。 那么星阵推荐的这步棋就一定适合李昌镐来下吗? 下面我就以虚构的形式,来跟大家推演一下,如果李昌镐采取了星阵的推荐,会发生什么情况:(以下内容纯属虚构) 图3:李昌镐正准备下白88(白A),心里想着:“这步棋虽然实地价值小了,但是可使白三角大块彻底净活,而黑三角大块则没有安定。关键这样简化了局势,接下来慢慢小刀割肉。这种局面是我最擅长的。” 正当李昌镐要落下白88时,星阵突然出现,悄悄跟李昌镐说:“我觉得白1这步棋胜率最高,我推荐白1这步棋。” 李昌镐一看白1这步棋,心想:“白1这步棋不像是优势情况下的招,倒像是形势不利下的胜负手,可这时候明明是白棋形势好,这步棋靠谱吗? 但星阵实力那么强,它推荐的招,总不会错吧。” 于是李昌镐就改变原计划,采取了星阵的意见,下出了白1这步棋。 而此时李昌镐的对手,正处于劣势下的马晓春,正愁全盘找不到敌人可以搞乱局面。突然发现李昌镐白1自己找来了,心中大喜:“此时不反击,更待何时!” 于是黑2反包围白1一子是必然的选择。 那么接下来白棋该如何处理呢? 图4:白1靠,利用黑三角孤单一子做文章,是星阵的后续手段。 李昌镐下出此手后,马晓春黑2长也是必然,不然在A的位扳的话,白棋在黑2位一虎,黑棋形有问题。 当黑4压的时候,星阵选择了白5、7顶断后,白9长出。